數據分析的背景及現狀
呈指數增長的數據量推動云服務實現了高增長和多樣性的發展。作為云服務提供商(CSP),會根據客戶對數據的需求來創建業務,例如,提供存儲數據所需的基礎設施(基礎設施即服務,簡稱 IaaS),基于客戶數據的服務或軟件(軟件即服務,簡稱 SaaS),或者為客戶提供新的數據類型和格式,例如高清視頻流媒體。數據量的增長給各種規模的企業帶來挑戰的同時也帶來了新機遇。擁有相應數據分析技術的企業,可以從大數據中獲得更多關于客戶、市場、產品開發、銷售趨勢和其他事件的信息。對于想要在競爭中領跑的企業,大數據分析是一種強大的工具,具有重要的變革意義。據報告稱,到 2017 年底,有 53% 的公司都使用了大數據分析,而在 2年之前,這一數字僅為 15%。對于云服務提供商,大數據分析蘊藏著無限可能。一是可以借此機會洞察使用數據分析來生成關于客戶和企業的能力;二是可以通過數據分析服務為客戶提供差異化的商業洞察,借此建立新的收入渠道。
英特爾數據分析規劃的五大階段
隨著企業利用數據分析解決方案從概念驗證(PoC)階段邁入部署階段,2017 年的全球大數據分析市場相比上一年增長了 24.5%。此外,分析機構 Gartner 在2017 年對 2,500 名 CIO 實施調查后發現,所有類型的企業都把“商業智能和數據分析”的支出列為首要的投資事項。所有這些調查都顯示,對于云服務提供商,現在正是他們利用數據分析向前發展的大好時機:市場正在增長,而客戶和 CIO 們都已經做好了投資準備。英特爾的數據分析規劃指南描繪了從描述性分析到認知性分析的 5 個階段(參見圖 1)。研究顯示,大部分企業都處于前兩個階段之間:描述性分析和診斷性分析。從圖表中可以清晰看出,許多企業距離達到成熟的數據分析還有一段相當長的距離。
圖 1:數據分析成熟度的各個階段實施數據分析不可或缺的因素 許多企業已經具備了實施數據分析所需的數據、技術和流程,為企業利用分析所能提供的優勢打下了良好的基礎。促使企業進一步向高級分析邁進,需要的因素有:1.對所擁有的數據有深入的了解,知道如何利用數據2.了解數據分析能夠帶來的業務價值3.負責開發數據分析項目的內部人才,例如,數據科學家或其他專家4.支持更高級數據分析項目所需的數據中心基礎設施,例如軟件定義基礎設施或足夠的處理能力5.不了解哪些工具能夠為依賴數據的員工提供支持,以便他們根據數據洞察來做出業務決策并履行工作職責
數據分析變革趨勢
據分析師預測,全球分析市場將持續增長,到 2026 年,市場規模將達到 922 億美元。隨著市場發展,云服務提供商將獲得更多機會,通過為客戶提供分析服務來實現收入增長。在這個快速發展的市場中,云服務提供商需要了解的重要趨勢包括:1.Hadoop* 曾為大數據分析的事實標準,現已發展成熟,且仍被廣泛使用。但是,對于希望利用新的分析部署來顛覆市場的創新型企業,Hadoop 開始被視為陳舊技術。2.更快速、更有針對性的數據處理技術正被廣泛采用。例如:適用于一般數據處理的 Apache Spark*、適用于分布式高性能數據流傳輸應用的 Apache Flink*,以及適用于數據批處理和流傳輸數據處理的 Apache Beam*。3.打包式分析應用和解決方案的數量不斷增加,也越來越受到用戶歡迎。企業逐漸趨向于采用開源和非專用分析解決方案,這些解決方案允許企業根據自身的需求,混合采用最匹配的分析工具。4.人工智能(AI)是許多分析提供商想要實現的最終目標,利用先進的自學分析算法來為企業提供完全自動化的洞察。開始著手發展數據分析能力之前,云服務提供商要做的第一步是理解數據分析所具備的變革能力,不只是對于自身企業,還有為客戶企業帶來的影響。
云服務提供商的機遇
云服務提供商是推動數據分析發展的一支重要力量。借助云服務提供商的數據中心,企業通常能夠更好地整理、瀏覽和查詢數據。數據分析能夠給云服務提供商帶來的一些特定機遇,幫助他們實現差異化服務。1. 憑借出色的客戶洞察,實現收入增長對于云服務提供商,最直接的機遇源自為他們自己提供數據分析項目。通過了解數據分析能夠給云服務業務帶來哪些可能性,您就能夠設立與如何使用數據有關的目標,以及未來您可能希望提供哪些基于分析的服務。2. 提供客戶所需的數據分析專業知識對于許多企業而言,最大的挑戰在于不知從何處開始數據分析。無論客戶希望實現什么結果,他們的數據驅動能力很大程度上都依賴于他們當前數據的全面性和可用性。要評估客戶在多大程度上準備好開始采用更高級的分析,您可以詢問諸如以下這些問題:企業是否具備數據清單,或者其他了解已有數據內容和位置的方式?他們是否明確了解數據之間存在的空白,以及可能填補這些空白的方式?員工是否能夠簡便地訪問所需的信息?各業務部門需要等待多久才能獲得所需的數據?他們是否能夠即時獲得報告,還是必須等待幾天或幾周?客戶對于這些問題的回答有助于您引導他們踏上數據分析之旅,并與他們合作,帶領他們向成熟的數據分析邁進(參見圖 1)。3. 幫助客戶整理和分類數據在您的客戶中,有些可能并不完全了解他們擁有的數據,也不知道何處存在空白,以及該如何使用數據。許多公司仍然將數據保存在由應用、業務部門、項目或生成位置所定義的孤島內。可能存在這樣一種基本需求:需要將您的客戶所擁有的不同類型的數據集合到一起,并且按照能夠查詢和從中獲取價值的方式進行整理。4. 支持客戶的數據分析概念驗證對于想要形成自己的分析能力的企業而言,最重要的步驟之一就是創建概念驗證(PoC)。客戶能夠借助這種方法,證明數據分析可以為企業帶來的實際好處。此外,概念驗證還有助他們檢驗對數據的理解程度,了解將來數據分析項目全面鋪開后可能遇到的獨特挑戰。對于身為云服務提供商的您而言,通過客戶的概念驗證,可以證實您的分析服務能夠實現預期的結果,從而有助于您成為客戶信賴的數據處理合作伙伴。5. 提供預打包的數據分析應用根據您的客戶所在的行業領域,可能存在幾種具備廣泛吸引力的常見分析應用案例,例如:銷售與營銷對于銷售團隊,如果能實時訪問與客戶有關的可信洞察,將帶來重大變革。在數據分析服務中采用最常見的數據格式,并將這些數據結合起來得出新的洞察,這可以讓您的客戶與目標受眾進行更加有效的對話,將更多機會轉化成銷售,提升客戶的忠誠度。采用這種方法的一個例子就是 Salesforce 的 Einstein Analytics* 解決方案,它允許Salesforce 的客戶在預先構建的應用和儀表板內探索從任何來源獲得的各種數據。它讓用戶獲得關于目標對象和客戶的新洞察,從而幫助提高營銷、銷售和客戶對話的效率。物聯網(IoT)傳感器如今在各行業中非常常見,從制造到醫療,從運輸到零售,都能見到傳感器的身影。這些傳感器收集的數據如果能夠正確查詢,則可以提供大量潛在信息。專用于從特定類型的傳感器數據獲得洞察的應用,可能比較容易被一些已經開始利用物聯網的客戶所接受。例如,在阿姆斯特丹等智慧城市,經常利用強有力的分析技術,對傳感器數據進行分析,以此緩解交通擁堵及與之相關的污染。這還只是數據分析提升居民生活品質的其中一種方式而已(參見圖 2)。
圖 2. 高級分析中的機遇 – 傳感器和物聯網 特定于行業的應用各個企業或組織都會關注不同的分析應用案例,具體由它們所在的行業領域決定。例如,在零售行業,亞馬遜正通過將多個傳感器和基于機器學習算法的實時分析結合在一起,借此創建無人商店。無論您的客戶是處于醫療、制造、政府,還是完全處于其他領域,您的專業洞察都有助于提供滿足他們需求的分析服務。
基于云的數據分析面臨的挑戰
為客戶設計基于云的分析服務時,需謹記他們目前在采用方面所面臨的障礙,這非常重要。應當思考他們無法進一步向高級分析邁進的原因,這有助于您準確找出適合他們的解決方案和服務。1.時間和成本數據分析項目涉及大量管理和治理工作,因而對小型企業來說是一個嚴峻的挑戰。構建流暢、預打包的工作流程來幫助您的客戶處理好大數據分析的治理與管理,是確保數據分析服務具備吸引力的一個有效策略。2.復雜性對于大多數用戶而言,大數據分析項目的環境和用戶界面仍然太過復雜。公司可能會加大對分析環境的投資,以獲得簡單的工具和功能,讓廣大員工都能夠順暢使用它們。云服務提供商若能關注數據分析環境的可用性,將更有希望提高利潤。3.咨詢鑒于數據分析項目所需的專業知識,很少有企業能夠在不介入外部咨詢的情況下提供數據分析項目。這可能非常令人懊惱,對小型企業來說尤其如此,但云服務提供商可以從兩個方面入手,幫助企業消除這方面的需求。通過結合易于使用的定制分析應用(面向常見的應用案例),提供自己的專業咨詢服務,云服務提供商就可以幫助客戶實現其數據分析目標,讓他們無需購買成本高昂的專業服務。
數據驅動型企業的技術基礎
擁有合適的技術是推動企業向數據驅動型企業轉型的基礎,也是客戶從中獲取數據驅動型服務和解決方案的來源。1. 性能對于大多數云服務提供商而言,主要挑戰不在于獲得數據和基礎設施,而是如何以足夠快的速度從數據中獲取洞察,從而為客戶提供價值,快速獲取投資回報。對于致力于提供分析服務的云服務提供商而言,關鍵詞就是“獲取洞察的時間”。在企業領導者和數據科學家帶領企業在數據分析之旅中向前邁進時,這已成為衡量成敗與否的關鍵指標。1.1 處理器性能為了提供符合客戶期望的數據分析工作負載,您需要確保新服務基于最新的處理器技術。英特爾® 至強® 可擴展處理器基于上一代英特爾® 至強® 處理器出色的性能、效率和價值而構建,能夠提供以下優勢:更高的性能,將 4 年的 TCO 降低高達 65%更多內核、更高內存帶寬和 I/O 性能提升,在 SAP HANA* 上每小時執行的查詢量提高 1.5 倍更快的大數據查詢,例如采用 IBM DB2 時,將批量分析的平均速度加快 1.4 倍每秒運算次數提升高達 4.6 倍,支持多達 5 倍的客戶端數量(采用 Cassandra* NoSQL 數據庫)1.2 存儲和內存性能通過將英特爾® 至強® 可擴展處理器與英特爾® 傲騰™ 技術和英特爾® 固態盤(英特爾® SSD)結合在一起,云服務提供商能夠從數據分析平臺的性能改善中獲益。對于 SAS Business Analytics*,結合使用兩種技術生成的洞察,要比僅僅一年前使用英特爾最出色的平臺快 2 倍(參見圖3)。
圖3. 數據分析平臺的性能 內存和存儲技術的進步對于能否實現更高水平的數據分析性能至關重要,英特爾正利用新一代的持久內存,基于英特爾和 Micron 聯合開發的 3D XPoint ™ 媒體,來助力推動實現這些改進 。借助這一技術,數據中心的操作員可將更多數據放置在更靠近處理器的非易失性媒介上,借此克服一直以來阻礙實現更高應用容量和性能的障礙。這種經濟的持久內存可能會徹底改變 SAP HANA* 和其他內存數據庫等應用案例,使用戶能夠更快速地生成更好的洞察。此外,這些技術支持更快的數據獲取,可以縮短訓練和運行模型所需的時間。1.3 網絡性能出于預測性分析目的,我們會將數據湖或倉庫中的數據移至計算基礎設施,如果此過程出現延遲,則會增加實時操作的成本。為了幫助云服務提供商避免遭遇這類延遲,英特爾提供了市面上速度最快的高帶寬網絡,從而跨不同網絡通道加速預測性分析工作負載。1.4 軟件框架和庫為數據分析應用案例選擇正確的框架和庫,對于數據分析服務能否實現高性價比至關重要。根據應用案例,您的基礎設施需要為分布式處理框架組合提供支持,例如Apache Spark* 軟件、非關系型分析數據庫和分析應用。
對于更高級的分析應用案例,例如指導性分析,深度學習能夠以越來越快的速度自動對大數據重復應用復雜的數學計算,借此生成洞察。但是,許多框架和庫的設計并不支持大數據堆棧,因此往往難以高效地管理大型數據集。為了幫助企業彌補這一空白,英特爾開發出了 BigDL。這是一種基于 Spark* 平臺在本機構建的開源、分布式深度學習庫(參見圖 4)。BigDL 能夠橫向擴展至數千臺服務器,采用英特爾® 數學核心函數庫(英特爾® MKL)和并行計算技術,在基于英特爾® 至強® 處理器的服務器上實現高性能。英特爾® MKL 能夠以最小的工作量,為未來的英特爾® 處理器系列優化代碼。它可以兼容您選擇的編譯器、語言、操作系統、鏈接以及線程模型。
圖 4:BigDL 為 Spark*(使用 CPU)上的深度學習提供原生支持 如果云服務提供商現有的大數據工作負載使用 Spark/Hadoop 集群,則可以輕松集成 BigDL,讓客戶將深度學習集成到現有工作負載中。它支持您使用現有的基礎設施來引入大數據即服務和人工智能即服務功能,從而利用差異化的服務進一步推動業務發展,同時縮短深度學習增強服務和解決方案上市的時間。
比起開箱即用的開放式深度學習框架,BigDL 的實現速度更快,這是因為它可以在存儲數據的同一集群上分析大數據,從而降低系統的復雜程度,縮短端到端學習的延遲。采用 BigDL 之后,您可以將來自其他深度學習框架的預先訓練模型加載到 Spark 中,例如 Tensorflow*、Keras*、Caffe* 和 Torch*。之后,可對它們實施微調、推理,并用于學習。2. 可擴展性數據分析服務所依托的技術需要適應不斷變化的業務需求。例如,如果隨時間過去,數據需要改變,或者需要針對特定項目實施改變,您的基礎設施必須適應這種改變,以讓客戶保持滿意。全新英特爾® 至強® 可擴展處理器旨在加快數據分析工作負載的速度,完善機器學習和人工智能等技術,讓它們成為數據分析服務的理想基礎。3. 兼容性阻礙最終用戶采用數據分析的主要障礙之一是復雜性。造成這種復雜性的部分原因在于數據分析生態系統的廣度。企業可以選擇不同的供應商、技術堆棧和項目,用于部署數據分析——由于這些解決方案之間不具備互操作性,因此會進一步加劇復雜性。隨著數據分析市場的發展,企業各自束縛于特定的供應商解決方案,常常想要采取模塊化方法來組合數據分析系統。為此,云服務提供商需要確保數據分析服務、平臺和應用都能與任何其他項目或客戶可能想要使用的附件兼容,這一點非常重要。
一些相關的技術已經涌現,可幫助云服務提供商及客戶解決兼容性問題。例如,Alluxio 是一種開源解決方案,它允許任何應用與來自任何存儲系統(存儲器速度)的數據交互,將計算和存儲分離開來,且不會導致性能下降。對于提供多種分析功能的云服務提供商而言,這可以統一不同系統的數據訪問,橋接計算框架和底層存儲。
拓展數據分析業務的后續行動
高級分析和公有云彼此相連,難以分割,而云服務提供商在交付變革性洞察方面發揮著基礎性作用。當前存在大量機會,可供云服務提供商構建新的基于分析的差異化服務,但這需要高性能、高效且可擴展的基礎設施作為保障。如果云服務提供商有意通過數據分析拓展業務,可采取以下后續行動:研究了解客戶想要通過數據分析實現哪些結果,并從競爭對手使用數據分析技術的做法中獲得啟發。組建自己的團隊客戶會依賴于您的數據分析專業知識,所以務必確保擁有自己的數據科學家,以及了解數據分析環境的產品開發團隊。評估現有 IT 系統使用上面的“技術考量因素”部分作為確定基礎設施和流程適用性的起點,發現可以升級或改進的環節。
文章摘自英特爾精英匯
想購買及了解更多英特爾產品詳情,歡迎咨詢以下聯系方式!
寶通集團聯系方式
咨詢熱線:0755-88603572
寶通官網:www.btibt.com
客戶垂詢郵箱:cuifang.mo@ex-channel.com
客戶垂詢QQ:1627678462
地址:深圳市福田區深南大道1006號國際創新中心C座11樓
郵編:518026