AI規(guī)模化落地，英特爾至強的七重助力

發(fā)表日期：2019-08-23 文章編輯：閱讀次數(shù)：

當今時代，各行各業(yè)與人工智能（AI）加速融合，通過智能化創(chuàng)新來尋求業(yè)務轉(zhuǎn)型升級。與為數(shù)不多的頂級AI研發(fā)公司相比，大多數(shù)傳統(tǒng)行業(yè)或企業(yè)有著更豐富的 AI 應用場景，推動著規(guī)模化的AI應用落地，其AI應用更具有實踐意義。然而，在智能化技術(shù)架構(gòu)和平臺選擇上，它們又往往面臨著“拿著釘子到處找錘子”的尷尬局面。

盡管有人津津樂道于承載 AI 應用的一些專用架構(gòu)平臺，但實際情況是，僅采用專用加速芯片或優(yōu)化單一框架，已經(jīng)無法滿足運行不同工作負載和適應不同應用場景所需。這是因為，AI的應用需求是多種多樣的，不同的應用也決定了從數(shù)據(jù)中心到邊緣再到設備所需的硬件能力都會有所差別。而且，解決企業(yè) AI 規(guī)模化落地，需要充分利用以數(shù)據(jù)為中心的基礎(chǔ)架構(gòu)，考慮芯片處理器、核心算法和軟件工具等平臺解決方案的選擇。

無論是算法工程師、AI 開發(fā)者還是數(shù)據(jù)科學家，他們在選擇AI技術(shù)架構(gòu)和平臺時會有多方面的考量。一個共識是，基于既有的IT基礎(chǔ)設施，統(tǒng)一大數(shù)據(jù)和人工智能平臺，可以更加高效釋放數(shù)據(jù)價值，實現(xiàn)AI業(yè)務目標。大家越來越發(fā)現(xiàn)，通用的英特爾架構(gòu)有一個非常重要的先發(fā)優(yōu)勢，就是使用者眾、部署廣泛。來自英特爾架構(gòu)和至強平臺的助力，可以幫助企業(yè)從既有的平臺起步，推動AI的發(fā)展，加速“破局”AI產(chǎn)業(yè)實踐。

下面我們從7個方面，展開闡述英特爾如何從性能、數(shù)據(jù)預處理、可擴展性、內(nèi)存、模型部署、大數(shù)據(jù)分析、跨平臺部署應用等多方面實現(xiàn)優(yōu)化和升級，全面支持企業(yè)AI的規(guī)模化應用落地。

第一重助力：性能

“CPU 性能優(yōu)化有數(shù)量級提升，VNNI 和框架優(yōu)化等大幅提升了 CPU 架構(gòu)運行深度學習推理的速度。”

很多人可能都認為AI這種新出現(xiàn)的技術(shù)，或者說應用負載，也應該用新的架構(gòu)來支撐，其實不然。實際上隨著 CPU 性能的數(shù)量級提升，以及在軟硬件層面針對AI應用的不斷優(yōu)化，CPU平臺也能很好地承載 AI 應用。現(xiàn)在CPU 能兼容幾乎所有的 AI 主流技術(shù)，深度學習的應用任務，特別是推理，完全可以用 CPU來搞定。而且CPU還有一個特定的優(yōu)勢，就是當用戶混合使用機器學習和深度學習方法時，CPU更適合承載這樣的任務。

不斷更新?lián)Q代的英特爾CPU平臺，已經(jīng)在AI應用特別是推理上提供了強大的算力。以第二代英特爾®至強®可擴展處理器為例，它集成了加速人工智能深度學習推理的英特爾®深度學習加速（英特爾®DL Boost）技術(shù)，將人工智能性能提升到一個全新的水平，可加速數(shù)據(jù)中心、企業(yè)和智能邊緣計算環(huán)境中的人工智能推理工作負載。以常見的 Caffe Resnet-50 模型為例來看性能變化，第二代英特爾®至強®鉑金8280處理器借助英特爾DL Boost技術(shù)，圖像識別的速度可比上一代英特爾至強可擴展處理器提升14倍。

另外，英特爾CPU平臺還與各類主流深度學習框架（包括 TensorFlow、PyTorch、caffe 、MXNet、PaddlePaddle、BigDL 等）合作，針對CPU的AI訓練和AI推理功能進行全面優(yōu)化，Xeon處理器訓練性能因此得到不斷提升，客戶也可以選擇使用適合自身需求的深度學習框架做模型訓練，而無需購買或者設置不同的硬件基礎(chǔ)設施。

隨著軟件工具的不斷更新及面向主流框架的深度優(yōu)化，CPU 平臺不論是支持基于單一 AI 技術(shù)的應用，還是在運行融合了多種 AI 技術(shù)的應用時，其性能表現(xiàn)都更為突出。對于全新硬件架構(gòu)的每一個數(shù)量級的性能提升潛力，軟件能帶來超過兩個數(shù)量級的性能提升。以第二代英特爾至強可擴展處理器上的VNNI深度學習加速指令為例，過去卷積神經(jīng)需要三條指令，而現(xiàn)在的話一條指令就可以了，通過在底層的軟硬件協(xié)同優(yōu)化，可根據(jù)不同深度學習框架將推理性能加速2-3倍甚至更多。

第二重助力：數(shù)據(jù)預處理

“數(shù)據(jù)的處理分析和之后的AI應用如果在一個平臺上，可以給用戶帶來更大的便利性，也能節(jié)省成本和降低風險。”

盡管當前市場對于AI技術(shù)抱有很大興趣，但實施水平仍然相當?shù)拖隆Ｎ覀冃枰鶕?jù)應用需求構(gòu)建起完整的數(shù)據(jù)分析/AI流水線，從高質(zhì)量數(shù)據(jù)源整理、數(shù)據(jù)預處理與清洗、適當特征數(shù)據(jù)的選擇與構(gòu)建等前期工作開始，這就要求數(shù)據(jù)工程師、算法工程師等協(xié)同工作。

算法工程師往往要花很多時間，來處理用于深度學習模型訓練和測試的龐大數(shù)據(jù)，數(shù)據(jù)預處理會涉及很多很零碎的事情，比如校對數(shù)據(jù)的標注是否符合某種邏輯。在進行數(shù)據(jù)預處理時，所寫的代碼不一定是執(zhí)行起來效率最高的，因為有可能這些零碎的校驗數(shù)據(jù)功能只用一次，而不是反復使用。在這種情況下，可以使用方便快速實現(xiàn)功能的 Python 語言調(diào)用 CPU 來實現(xiàn)，而且基于 CPU 有很多現(xiàn)成的包和工具，具有更快數(shù)據(jù)預處理的優(yōu)勢。CPU還可以通過使用更多內(nèi)存、減少I/O 操作來提升AI運行效率。

如今的深度學習和AI領(lǐng)域，優(yōu)秀的算法和框架數(shù)不勝數(shù)，但英特爾開源的BigDL和采用了這一技術(shù)的Analytics Zoo平臺選擇了一個頗具獨特性的切入點，那就是專為已有大數(shù)據(jù)集群的場景設計。目前，來自零售業(yè)、金融服務行業(yè)、醫(yī)療保健業(yè)、制造業(yè)及電信業(yè)等領(lǐng)域的企業(yè)客戶都已經(jīng)開始在英特爾至強服務器上利用Analytics Zoo、或基于BigDL構(gòu)建更為平滑無縫的數(shù)據(jù)分析-AI應用流水線。

第三重助力：可擴展性

“CPU 平臺現(xiàn)有基礎(chǔ)設施就是為可擴展性而搭建，不僅易于在更多節(jié)點上進行擴展，還能按核實現(xiàn)彈性擴展和調(diào)配。可伸可縮方為真英雄！”

在深度學習和機器學習領(lǐng)域，不管是模型訓練還是推理，為了分配和部署計算能力，常常需要基于現(xiàn)有的 IT 基礎(chǔ)設施或者云平臺進行硬件擴展。目前一些專有的AI架構(gòu)平臺只能以卡或芯片為單位來管理和擴展，而英特爾至強平臺不僅更容易在更多節(jié)點上擴展，還能按核實現(xiàn)彈性的擴展和調(diào)配，能真正做到精細化的資源管理和調(diào)配。這使得AI平臺可以盡可能通過云化來提高靈活性，提升自動化管理水平，并充分利用到每個計算核心的價值等。換句話說，現(xiàn)在的基礎(chǔ)設施就是為可擴展性而搭建。

比如有開發(fā)者指出，在新一代Skylake-SP微構(gòu)架芯片設計上，英特爾首次開始采用了全新網(wǎng)格互連構(gòu)架（Mesh Interconnect Architecture）設計方式，從傳統(tǒng)的利用環(huán)形連接，到了新設計則全面改采用網(wǎng)格互連的方式，來進行資料存取與控制指令的傳送。因為最小單位可以是以每行、每列來連接，所以每顆 Skylake-SP 核心、緩存、內(nèi)存控制器及 I/O 控制器之間的路徑選擇變得更多元，還可以跨不同的節(jié)點互連，以尋找最短的數(shù)據(jù)傳遞捷徑，即使是加大核心數(shù)量，也能夠維持很快存取數(shù)據(jù)，并支持更高內(nèi)存頻寬，以及更高速的 I/O 傳輸。

第四重助力：內(nèi)存

“CPU 易擴展緩存，而英特爾®傲騰™DC持久內(nèi)存 Apache Pass 更是集大容量、經(jīng)濟性和持久性于一身，性能接近 DRAM。”

不論是AI訓練還是推理，靠近計算單元的內(nèi)存或者說較高速的數(shù)據(jù)緩存都非常重要。在 AI 分析中，它們對訓練中的神經(jīng)網(wǎng)絡構(gòu)建，并通過該網(wǎng)絡進行推理比較都有著重要的影響。因此我們希望在靠近計算單元的地方盡可能緩存更多數(shù)據(jù)。其容量的增加，會很大程度上提高 AI 的整體性能、準確性、響應速度。

訓練深度學習模型時，占用CPU 內(nèi)存比較大，一般來說單臺刀片可以輕松做到 256GB 以上的內(nèi)存，做分布式訓練時還可以把數(shù)據(jù)分配到不同機器上進行計算，而且可以盡量把數(shù)據(jù)預存到 CPU。此外，CPU 大內(nèi)存的優(yōu)勢不僅體現(xiàn)在訓練上，更主要的是推理，比如對尺寸很大的醫(yī)療影像模型進行推理處理。

即使沒有英特爾®傲騰™ 數(shù)據(jù)中心級持久內(nèi)存的出現(xiàn)，英特爾至強處理器平臺也很容易擴展內(nèi)存的容量。但有了這種全新類型的產(chǎn)品后，內(nèi)存的存儲密度/價格比可能會更理想，其性能也接近 DRAM，讓更大量的數(shù)據(jù)可以更接近 CPU 進行移動和處理，極大地降低從系統(tǒng)存儲獲取數(shù)據(jù)的延遲。相比之下，專有架構(gòu)平臺要擴展緩存，還是很不方便的。

第五重助力：模型部署

“英特爾技術(shù)產(chǎn)品從端到端是有統(tǒng)一的應用兼容性的，這樣可以保證我們在后端訓練迭代算法，前端部署推理。”

在深度學習實踐中，是否應該去搭建一套新的專用平臺？持否定意見的開發(fā)者認為，目前主要用于 AI 模型推理的平臺都是基于 CPU 架構(gòu)的，應該利用現(xiàn)有的數(shù)據(jù)中心基礎(chǔ)設施，利用現(xiàn)有的、熟悉的處理器平臺，以最低的成本部署人工智能，這相比另起爐灶、尋找其他計算平臺的方法，用時更短、風險更低、性價比更高。

有開發(fā)者據(jù)此總結(jié)了三條理由：首先，現(xiàn)如今標準 CPU 平臺完全能夠勝任 AI 所有應用；其次，現(xiàn)在AI屬于“試錯階段“，同時技術(shù)也在快速演變和迭代，利用現(xiàn)有的 CPU 平臺，可以最小成本做最大的事，無需大量額外投資，但如果另起爐灶可能得不償失；最后，用多年熟悉且信任的 CPU 平臺，構(gòu)建“激進”的 AI 項目，本身就是一個絕好的平衡，讓技術(shù)風險變得可控。

在現(xiàn)有英特爾架構(gòu)支持的數(shù)據(jù)應用基礎(chǔ)上構(gòu)建 AI 應用，生產(chǎn)環(huán)境非常成熟，易于部署，運維人員學習難度低。英特爾從云到端都有硬件平臺就緒，不論是通用計算還是專用芯片（如Movidius），而且還有相關(guān)的軟件支持，如眾多優(yōu)化庫、框架和工具。另外，英特爾為 AI 應用的開發(fā)者們提供了 OpenVINO 等工具包，可以方便實現(xiàn)模型部署，優(yōu)勢顯著。

第六重助力：大數(shù)據(jù)分析

“英特爾至強處理器和 BigDL軟硬搭配，在 Hadoop 和 Spark 等主流大數(shù)據(jù)框架上，可以簡化訓練（數(shù)據(jù)獲取+處理）過程。”

Hadoop 和 Spark 是目前非常流行的大數(shù)據(jù)管理和處理框架，想利用它們承載的數(shù)據(jù)進行深度學習訓練，通常需要把這些數(shù)據(jù)導出，然后進行處理，這個過程不僅耗時而且投資較大，所以在這些大數(shù)據(jù)平臺上進行深度學習訓練顯得尤為重要。

有開發(fā)者認為，可以針對各種不同來源的數(shù)據(jù)，首先根據(jù)目標算法需要的數(shù)據(jù)格式，進行數(shù)據(jù)整合。得到目標數(shù)據(jù)之后，再根據(jù)業(yè)務需要，按照對應的比例，將最原始的數(shù)據(jù)分成訓練數(shù)據(jù)和測試數(shù)據(jù)，通過算法對數(shù)據(jù)不斷進行訓練，后期進行相應的測試。

其實更好的方式是打通數(shù)據(jù)流水線。英特爾的 Analytics Zoo （內(nèi)含BigDL）打通端到端數(shù)據(jù)流水線，在 Hadoop 和 Spark 等主流的大數(shù)據(jù)框架上，把數(shù)據(jù)的收集、存儲、傳輸、預處理、后期處理等環(huán)節(jié)，與 AI 的訓練和預測等部分有機結(jié)合起來，就可以讓企業(yè)的數(shù)據(jù)分析流水線變得高效而統(tǒng)一。例如，英特爾協(xié)助美的公司基于Analytics Zoo構(gòu)建了一套端到端的產(chǎn)品缺陷檢測方案，準確率優(yōu)于人工檢查方法，并避免了檢查工作給生產(chǎn)線帶來侵入性影響。Analytics Zoo將Spark、TensorFlow以及BigDL程序整合至同一流水線當中，整個流水線能夠在Spark集群之上以透明方式實現(xiàn)擴展，從而進行分布式訓練與推理。最終使美的的圖像預處理時長由200毫秒降低至50毫秒，并將延遲影響由2,000毫秒縮短至124毫秒。

第七重助力：跨平臺部署應用

“英特爾至強處理器、Analytics Zoo以及OpenVINO工具包，能夠簡化深度學習流水線，實現(xiàn)一站式端到端的 AI 應用部署。”

深度學習應用的開發(fā)周期很長，而且往往會涉及多個工具和平臺，如何將新技術(shù)、新創(chuàng)新應用到非常大規(guī)模、大數(shù)據(jù)的生產(chǎn)系統(tǒng)中，目前在軟硬件架構(gòu)上有非常大的斷層。這提升了技術(shù)開發(fā)門檻，開發(fā)者十分期待從云端到終端能跨平臺部署深度學習應用。

2018年，英特爾開源了Analytics Zoo，構(gòu)建了端到端的大數(shù)據(jù)分析+AI平臺，無論是用TensorFlow還是Keras，都能將這些不同模塊的程序無縫運行在端到端流水線上，大大提升了開發(fā)效率。

并且，Analytics Zoo 也兼容 OpenVINO™在 AI 應用上的加速特性。基于英特爾硬件平臺、專注于加速深度學習的OpenVINO™工具套件，是一個快速開發(fā)高性能計算機視覺和深度學習視覺應用的工具包。

英特爾®OpenVINO工具套件不僅適用于開發(fā)可模擬人類視覺的應用和解決方案，它還可以通過英特爾®FPGA深度學習加速套件支持FPGA，旨在通過優(yōu)化廣泛使用的Caffe和TensorFlow框架來簡化采用英特爾®FPGA的推理工作負載，并用于包括圖像分類、機器視覺、自動駕駛、軍事以及醫(yī)療診斷等應用。

OpenVINO™工具包基于卷積神經(jīng)網(wǎng)絡（CNN），可擴展英特爾硬件（包括加速器）的工作負載，并最大限度地提高性能。

具體來說，OpenVINO具有面向OpenCV和OpenVx的優(yōu)化計算機視覺庫，并支持跨計算機視覺加速器的異構(gòu)執(zhí)行，可通過基于英特爾架構(gòu)的處理器（CPU）及核顯（Integrated GPU）和深度學習加速器（FPGA、Movidius™ VPU）的深度學習加速芯片，增強視覺系統(tǒng)功能和性能。它支持在邊緣端進行深度學習推理，并加速高性能計算機視覺應用，幫助開發(fā)人員和數(shù)據(jù)科學家提高計算機視覺應用性能，簡化深度學習部署過程。

總結(jié)

英特爾架構(gòu)和平臺，AI應用落地之選

上面分析了AI應用落地時，開發(fā)者需要重點關(guān)注的七大維度——性能、數(shù)據(jù)預處理、可擴展性、內(nèi)存、模型部署、大數(shù)據(jù)分析、跨平臺部署應用，我們會發(fā)現(xiàn)，每一個維度都支持CPU架構(gòu)和平臺的優(yōu)勢。一方面，CPU的計算能力通過軟硬件協(xié)同優(yōu)化不斷提升，可以更好地適應AI場景需求，企業(yè)漸漸意識到用CPU做AI已經(jīng)“足夠好”；另一方面，通過收購和探索不同芯片架構(gòu)，英特爾的AI軟硬件產(chǎn)品組合正在不斷完善，這使得英特爾能夠建立一個完整的AI基礎(chǔ)架構(gòu)，非常豐富的產(chǎn)品組合是英特爾與其他公司實現(xiàn)差異化的最大亮點。

文章摘自英特爾商用頻道

想購買及了解最新英特爾產(chǎn)品，歡迎咨詢以下聯(lián)系方式！

寶通集團聯(lián)系方式

咨詢熱線：0755-82964380

寶通官網(wǎng)：www.btibt.com
客戶垂詢郵箱：xinyuan.guo@ex-channel.com

客戶垂詢QQ：1953700525

地址：深圳市福田區(qū)深南大道1006號國際創(chuàng)新中心C座11樓

郵編：518026

亚洲av伊人久久青青草原-奇米777四色影视在线看-欧美牲交a欧美牲交aⅴ免费下载-国产超碰人人爽人人做-久久精品午夜一区二区福利

AI規(guī)模化落地，英特爾至強的七重助力

咨詢在線客服

寶通技術(shù)1

寶通技術(shù)2

寶通技術(shù)3