Intel XeonPhi（至強(qiáng)融核）處理器如何為機(jī)器學(xué)習(xí)/深度學(xué)習(xí)應(yīng)用和框架提供強(qiáng)大優(yōu)勢

發(fā)表日期：2017-06-07 文章編輯：管理員閱讀次數(shù)：

機(jī)器學(xué)習(xí) (ML) 正在迅速成熟。如今，我們能夠把大量數(shù)據(jù)輸入機(jī)器學(xué)習(xí)應(yīng)用中，后者能學(xué)會(huì)精確預(yù)測可能出現(xiàn)的結(jié)果。隨著訓(xùn)練數(shù)據(jù)集的擴(kuò)大，深度學(xué)習(xí) (DL) 模型的精確性呈指數(shù)級(jí)增長。數(shù)以萬億的互聯(lián)設(shè)備向系統(tǒng)發(fā)送數(shù)據(jù)，數(shù)據(jù)集的規(guī)模可達(dá)數(shù)百 TB。

機(jī)器學(xué)習(xí)革命的成果在無人駕駛汽車、實(shí)時(shí)欺詐檢測、對假期照片中的人臉進(jìn)行識(shí)別的社交網(wǎng)絡(luò)等領(lǐng)域得到了很好的體現(xiàn)。它滲透各行各業(yè)，影響無處不在。

讓我們揭開全新英特爾至強(qiáng)融核產(chǎn)品家族的神秘面紗，了解其在處理 ML 工作負(fù)載方面的非凡優(yōu)勢。我還會(huì)分享兩項(xiàng)早期性能測試結(jié)果，即分別在基于單節(jié)點(diǎn)英特爾至強(qiáng)處理器系統(tǒng)和基于 128 節(jié)點(diǎn)英特爾至強(qiáng)融核處理器的集群上運(yùn)行 ML 工作負(fù)載時(shí)的情況。最后，我會(huì)講述我們?yōu)榱藘?yōu)化軟件庫所付出的努力，展示幾款流行的面向 x86 架構(gòu) 的開源 ML 框架。

“英特爾® 至強(qiáng) 融核™ 處理器特性”

在設(shè)計(jì)第二代英特爾至強(qiáng)融核芯片時(shí)，我們發(fā)明了支持自啟動(dòng)的融核處理器，不需要在購買額外的處理器運(yùn)行操作系統(tǒng)，也不需要通過 PCIe* 插槽傳輸數(shù)據(jù)。（對于更喜歡把最新版英特爾至強(qiáng)融核芯片作為協(xié)處理器的用戶，我們也有PCIe 卡版本。）

英特爾至強(qiáng)融核處理器 x200 包含 72 個(gè)處理器內(nèi)核，每個(gè)內(nèi)核支持 2 個(gè)英特爾® 高級(jí)矢量擴(kuò)展指令集 512（英特爾® AVX-512）SIMD 處理單元，每內(nèi)核浮點(diǎn)性能顯著提升。常用的 ML 算法均可從中受益，如浮點(diǎn)乘法和乘加融合指令 (FMA)。英特爾至強(qiáng)融核處理器 x200 提供高達(dá)每秒 6 萬億次浮點(diǎn)運(yùn)算的計(jì)算能力。多核、多線程的功能和高帶寬封裝內(nèi)存子系統(tǒng)（多通道 DRAM）及英特爾® Omni-Path 架構(gòu)（英特爾® OPA）的集成結(jié)構(gòu)技術(shù)相結(jié)合。

高帶寬集成內(nèi)存（高達(dá) 16 GB MCDRAM）保證數(shù)據(jù)快速傳輸?shù)絻?nèi)核，并為平臺(tái)額外提供高達(dá) 384 GB 商用 DDR4 內(nèi)存。程序員可以通過指定數(shù)據(jù)的大小及時(shí)間來管理內(nèi)存。 MCDRAM 使用戶可以靈活地對數(shù)據(jù)高速緩存，不必?fù)?dān)心內(nèi)存管理。（MCDRAM 可以配置為三級(jí)高速緩存、非一致性內(nèi)存訪問 - 可分配內(nèi)存和高速緩存和內(nèi)存的混合組合。）

當(dāng)處理大型 ML/DL 工作負(fù)載時(shí)，從一個(gè)節(jié)點(diǎn)到千百個(gè)節(jié)點(diǎn)的擴(kuò)展能力是至關(guān)重要的。借助英特爾 OPA 架構(gòu)，英特爾至強(qiáng)融核處理器 x200 能夠以近乎線性的方式擴(kuò)展內(nèi)核和線程。在編碼層面，通過架構(gòu)可以最少的編程快速高效地從遠(yuǎn)程存儲(chǔ)獲取數(shù)據(jù)，并放入本地高速緩存。

這些創(chuàng)新為機(jī)器學(xué)習(xí)和深度學(xué)習(xí)提供了優(yōu)質(zhì)的訓(xùn)練時(shí)間。比如，AlexNet 訓(xùn)練方面，相對于單節(jié)點(diǎn)而言，128 節(jié)點(diǎn)英特爾至強(qiáng)融核處理器 x200 的訓(xùn)練時(shí)間減少了 50 倍。進(jìn)行 GoogLeNet 訓(xùn)練時(shí)，32 節(jié)點(diǎn)英特爾至強(qiáng)融核處理器 x200 的擴(kuò)展效率達(dá)到 87%，比最新公布的最高數(shù)據(jù)超出 38%。

應(yīng)用只有并行化，才能利用大規(guī)模并行多核、多線程架構(gòu)。否則，你只能獲得單核、單線程性能。

英特爾至強(qiáng)融核處理器 x200 的每個(gè)內(nèi)核包含多個(gè)矢量處理單元，所以整體計(jì)算密度更高，成為抵消單核、單線程性能的一個(gè)因素。因此，如果你的工作負(fù)載能受益于高水平的并行性和線程并行性，英特爾至強(qiáng)融核處理器把更多計(jì)算融入更小的區(qū)域，功耗低于其他解決方案。

“二進(jìn)制兼容”

從軟件角度看，第二代英特爾至強(qiáng)融核處理器與包括英特爾至強(qiáng)® E5 家族處理器在內(nèi)的 x86 架構(gòu)處理器之間是二進(jìn)制兼容的。這意味著你只需要實(shí)施一次代碼現(xiàn)代化，第二代英特爾至強(qiáng)融核處理器和現(xiàn)有的基于英特爾至強(qiáng)處理器的服務(wù)器的訓(xùn)練效率會(huì)顯著提高。 “現(xiàn)代化”不是讓用戶自己寫 ninja 并行代碼。我們正在利用通用英特爾® 數(shù)學(xué)核心函數(shù)庫等工具，簡化基于 x86 架構(gòu)的通用 CPU 的 ML/DL 代碼的并行處理，數(shù)學(xué)核心函數(shù)庫包括新的擴(kuò)展指令集，用來優(yōu)化現(xiàn)已推出的英特爾® MKL 2017 Beta 版的深度神經(jīng)網(wǎng)絡(luò)。此外，我們致力于優(yōu)化流行的基于開源 ML 框架的 x86 架構(gòu)，如 Caffe* 和 Theano*。通過我們的不懈努力，在沒有升級(jí)硬件的情況下，深度學(xué)習(xí)應(yīng)用的性能提升了大約 30 倍。

“總結(jié)”

第二代英特爾至強(qiáng)融核產(chǎn)品家族進(jìn)一步實(shí)現(xiàn)了英特爾普及 ML 和多層神經(jīng)網(wǎng)絡(luò)的目標(biāo)，這也是深度學(xué)習(xí)應(yīng)用的計(jì)算密集訓(xùn)練階段所必需的，為了實(shí)現(xiàn)這一目標(biāo)，英特爾不斷的對各類工作負(fù)載負(fù)載進(jìn)行優(yōu)化，以提高機(jī)器的決策能力。

文章摘自英特爾精英匯

歡迎聯(lián)系寶通集團(tuán)咨詢英特爾相關(guān)產(chǎn)品信息

寶通集團(tuán)聯(lián)系方式

咨詢熱線：400-830-0107
寶通官網(wǎng)：www.btibt.com
客戶垂詢郵箱：Customer@ex-channel.com

客戶垂詢QQ：1305742380
地址：深圳市福田區(qū)深南大道1006號(hào)國際創(chuàng)新中心C座11樓
郵編：518026

亚洲av伊人久久青青草原-奇米777四色影视在线看-欧美牲交a欧美牲交aⅴ免费下载-国产超碰人人爽人人做-久久精品午夜一区二区福利

Intel XeonPhi（至強(qiáng)融核）處理器如何為機(jī)器學(xué)習(xí)/深度學(xué)習(xí)應(yīng)用和框架提供強(qiáng)大優(yōu)勢

咨詢在線客服

寶通技術(shù)1

寶通技術(shù)2

寶通技術(shù)3