人工智能下的TPU/NPU/CPU/GPU
人工智能將推動(dòng)新一輪計(jì)算革命,深度學(xué)習(xí)需要海量數(shù)據(jù)并行運(yùn)算,傳統(tǒng)計(jì)算架構(gòu)無法支撐深度學(xué)習(xí)的大規(guī)模并行計(jì)算需求。因此,深度學(xué)習(xí)需要更適應(yīng)此類算法的新的底層硬件來加速計(jì)算過程。
芯片也為響應(yīng)人工智能和深度學(xué)習(xí)的需要,在速度和低能耗方面被提出了更高的要求,目前使用的 GPU、FPGA 均非人工智能定制芯片,天然存在局限性,除具有最明顯的優(yōu)勢(shì)GPU外,也有不少典型人工智能專用芯片出現(xiàn)。
一、谷歌——TPU(Tensor Processing Unit)即谷歌的張量處理器
TPU是一款為機(jī)器學(xué)習(xí)而定制的芯片,經(jīng)過了專門深度機(jī)器學(xué)習(xí)方面的訓(xùn)練,它有更高效能(每瓦計(jì)算能力)。大致上,相對(duì)于現(xiàn)在的處理器有7年的領(lǐng)先優(yōu)勢(shì),寬容度更高,每秒在芯片中可以擠出更多的操作時(shí)間,使用更復(fù)雜和強(qiáng)大的機(jī)器學(xué)習(xí)模型,將之更快的部署,用戶也會(huì)更加迅速地獲得更智能的結(jié)果。
根據(jù)Google一位杰出硬件工程師Norm Jouppi在一篇部落格文章中的說法,該種加速器早在一年多前就運(yùn)用于Google的數(shù)據(jù)中心:“TPU已經(jīng)啟動(dòng)許多Google的應(yīng)用,包括用以改善搜索引擎結(jié)果關(guān)聯(lián)度的RankBrain,以及在街景服務(wù)(Street View)改善地圖與導(dǎo)航的精確度與質(zhì)量。”
谷歌專門為人工智能研發(fā)的TPU被疑將對(duì)GPU構(gòu)成威脅。不過谷歌表示,其研發(fā)的TPU不會(huì)直接與英特爾或NVIDIA進(jìn)行競(jìng)爭(zhēng)。
二、中星微——中國首款嵌入式神經(jīng)網(wǎng)絡(luò)處理器(NPU)芯片
中星微在今年6月 20 日,率先推出中國首款嵌入式神經(jīng)網(wǎng)絡(luò)處理器(NPU)芯片,這是全球首顆具備深度學(xué)習(xí)人工智能的嵌入式視頻采集壓縮編碼系統(tǒng)級(jí)芯片,并取名“星光智能一號(hào)”。這款基于深度學(xué)習(xí)的芯片運(yùn)用在人臉識(shí)別上,最高能達(dá)到98%的準(zhǔn)確率,超過人眼的識(shí)別率。該芯片于今年3月6日實(shí)現(xiàn)量產(chǎn),目前出貨量為十幾萬件。
NPU采用了“數(shù)據(jù)驅(qū)動(dòng)”并行計(jì)算的架構(gòu),單顆NPU(28nm)能耗僅為400mW,極大地提升了計(jì)算能力與功耗的比例,可以廣泛應(yīng)用于高清視頻監(jiān)控、智能駕駛輔助、無人機(jī)、機(jī)器人等嵌入式機(jī)器視覺領(lǐng)域。
三、英特爾——非傳統(tǒng)意義上的英特爾處理器(CPU)
英特爾公司開發(fā)的第二代Xeon Phi處理器完美契合了人工智能的需求。Xeon Phi并非傳統(tǒng)意義上的英特爾處理器(CPU),最新的Xeon Phi協(xié)處理器擁有多達(dá)72個(gè)內(nèi)核,而且每個(gè)內(nèi)核有兩個(gè)用于提供更好的單核浮點(diǎn)運(yùn)算性能的英特爾AVX-512 SIMD處理單元,所以這些處理器非常適合運(yùn)行機(jī)器學(xué)習(xí)/深度學(xué)習(xí)工作任務(wù)。
四、人工智能風(fēng)口下最受關(guān)注的還是要數(shù)GPU
GPU 因其并行計(jì)算優(yōu)勢(shì)最先被引入深度學(xué)習(xí),全球可編程圖形處理技術(shù)的領(lǐng)軍企業(yè)英偉達(dá)借此已開始打造新的計(jì)算平臺(tái)。目前,包括谷歌、Facebook、微軟等科技巨頭公司在內(nèi)的人工智能領(lǐng)域研究的領(lǐng)先者,已經(jīng)在使用英偉達(dá)所提供的專門應(yīng)用于該領(lǐng)域研究的芯片產(chǎn)品。
Facebook的人工智能硬件平臺(tái)Big Sur就是依托Nvidia的GPU而打造的。GPU在人工智能中的應(yīng)用十分廣泛,因?yàn)檫@種芯片上搭載的處理核心數(shù)量多于Intel生產(chǎn)的傳統(tǒng)處理器,使得它們十分適用于AI軟件所需要的海量計(jì)算。“Big Sur”的設(shè)計(jì)特點(diǎn)是易于維修的主板,它裝有8個(gè)NVIDIA的Tesla M40。
(1)GPU對(duì)于人工智能領(lǐng)域的意義又是什么呢?英偉達(dá)(NVIDIA)制造的圖形處理器(GPU)專門用于在個(gè)人電腦、工作站、游戲機(jī)和一些移動(dòng)設(shè)備上進(jìn)行圖像運(yùn)算工作,是顯示卡的“心臟”。該公司正從一家顯卡供應(yīng)商轉(zhuǎn)變?yōu)槿斯ぶ悄芊?wù)器供應(yīng)商。
GPU在“深度學(xué)習(xí)”領(lǐng)域發(fā)揮著巨大的作用,因?yàn)镚PU可以平行處理大量瑣碎信息。深度學(xué)習(xí)所依賴的是神經(jīng)系統(tǒng)網(wǎng)絡(luò)——與人類大腦神經(jīng)高度相似的網(wǎng)絡(luò)——而這種網(wǎng)絡(luò)出現(xiàn)的目的,就是要在高速的狀態(tài)下分析海量的數(shù)據(jù)。例如,如果你想要教會(huì)這種網(wǎng)絡(luò)如何識(shí)別出貓的模樣,你就要給它提供無數(shù)多的貓的圖片。而GPU擅長(zhǎng)的正是海量數(shù)據(jù)的快速處理。
對(duì)于人工智能和深度學(xué)習(xí)來說,目前硬件加速主要靠使用圖形處理單元(GPU)集群作為通用計(jì)算圖形處理單元(GPGPU)。
與傳統(tǒng)的通用處理器(GPP)相比,GPU的核心計(jì)算能力要多出幾個(gè)數(shù)量級(jí),也更容易進(jìn)行并行計(jì)算。尤其是英偉達(dá)的CUDA,作為最主流的GPGPU編寫平臺(tái),各個(gè)主要的深度學(xué)習(xí)工具均用其來進(jìn)行GPU 加速。
(2)GPU有什么優(yōu)勢(shì)呢?GPU最明顯的優(yōu)勢(shì)是更快的處理速度,相比于CPU,GPU的一大優(yōu)勢(shì)是高速度。國內(nèi)最好的人工智能硬件研究項(xiàng)目“寒武紀(jì)”小組的最新研究結(jié)果表明,GPU能夠提供平均 58.82X 倍于CPU的速度。GPU的另一大優(yōu)勢(shì),是它對(duì)能源的需求遠(yuǎn)遠(yuǎn)低于CPU。
最新款的專門用于人工智能研究領(lǐng)域的Tesla P100圖形處理芯片,號(hào)稱公司為這款GPU的研發(fā)投入了20億美元。它可以執(zhí)行深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)任務(wù),速度是英偉達(dá)之前高端系統(tǒng)的12倍,預(yù)計(jì)新產(chǎn)品將會(huì)極大推動(dòng)機(jī)器學(xué)習(xí)的極限。
黃仁勛在4月初的發(fā)布會(huì)上表示,未來10年,人工智能市場(chǎng)總值約為5000億美元。他表示,深度學(xué)習(xí)令我們的業(yè)績(jī)加速增長(zhǎng)。這是一種全新的計(jì)算模式,利用GPU的大規(guī)模處理能力來學(xué)習(xí)人工智能算法。它的普及正在席卷一個(gè)又一個(gè)行業(yè),推動(dòng)我們的圖形處理器市場(chǎng)需求不斷增長(zhǎng)。