人工智能大風(fēng)口下的TPU/NPU/CPU/GPU

時間：2020-08-25 13:51:02

關(guān)鍵字： CPU GPU tpu 人工智能

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 　　人工智能將推動新一輪計算革命，深度學(xué)習(xí)需要海量數(shù)據(jù)并行運算，傳統(tǒng)計算架構(gòu)無法支撐深度學(xué)習(xí)的大規(guī)模并行計算需求。因此，深度學(xué)習(xí)需要更適應(yīng)此類算法的新的底層硬件來加速計算過程。　　芯片

　　人工智能將推動新一輪計算革命，深度學(xué)習(xí)需要海量數(shù)據(jù)并行運算，傳統(tǒng)計算架構(gòu)無法支撐深度學(xué)習(xí)的大規(guī)模并行計算需求。因此，深度學(xué)習(xí)需要更適應(yīng)此類算法的新的底層硬件來加速計算過程。

　　芯片也為響應(yīng)人工智能和深度學(xué)習(xí)的需要，在速度和低能耗方面被提出了更高的要求，目前使用的 GPU、FPGA 均非人工智能定制芯片，天然存在局限性，除具有最明顯的優(yōu)勢GPU外，也有不少典型人工智能專用芯片出現(xiàn)。

　　一、谷歌——TPU(Tensor Processing Unit)即谷歌的張量處理器

　　TPU是一款為機器學(xué)習(xí)而定制的芯片，經(jīng)過了專門深度機器學(xué)習(xí)方面的訓(xùn)練，它有更高效能（每瓦計算能力）。大致上，相對于現(xiàn)在的處理器有7年的領(lǐng)先優(yōu)勢，寬容度更高，每秒在芯片中可以擠出更多的操作時間，使用更復(fù)雜和強大的機器學(xué)習(xí)模型，將之更快的部署，用戶也會更加迅速地獲得更智能的結(jié)果。

　　根據(jù)Google一位杰出硬件工程師Norm Jouppi在一篇部落格文章中的說法，該種加速器早在一年多前就運用于Google的數(shù)據(jù)中心：“TPU已經(jīng)啟動許多Google的應(yīng)用，包括用以改善搜索引擎結(jié)果關(guān)聯(lián)度的RankBrain，以及在街景服務(wù)（Street View）改善地圖與導(dǎo)航的精確度與質(zhì)量。”

　　谷歌專門為人工智能研發(fā)的TPU被疑將對GPU構(gòu)成威脅。不過谷歌表示，其研發(fā)的TPU不會直接與英特爾或NVIDIA進行競爭。

　　二、中星微——中國首款嵌入式神經(jīng)網(wǎng)絡(luò)處理器（NPU）芯片

　　中星微在今年6月 20 日，率先推出中國首款嵌入式神經(jīng)網(wǎng)絡(luò)處理器（NPU）芯片，這是全球首顆具備深度學(xué)習(xí)人工智能的嵌入式視頻采集壓縮編碼系統(tǒng)級芯片，并取名“星光智能一號”。這款基于深度學(xué)習(xí)的芯片運用在人臉識別上，最高能達到98%的準確率，超過人眼的識別率。該芯片于今年3月6日實現(xiàn)量產(chǎn)，目前出貨量為十幾萬件。

　　NPU采用了“數(shù)據(jù)驅(qū)動”并行計算的架構(gòu)，單顆NPU（28nm）能耗僅為400mW，極大地提升了計算能力與功耗的比例，可以廣泛應(yīng)用于高清視頻監(jiān)控、智能駕駛輔助、無人機、機器人等嵌入式機器視覺領(lǐng)域。

　　三、英特爾——非傳統(tǒng)意義上的英特爾處理器（CPU）

　　英特爾公司開發(fā)的第二代Xeon Phi處理器完美契合了人工智能的需求。Xeon Phi并非傳統(tǒng)意義上的英特爾處理器（CPU），最新的Xeon Phi協(xié)處理器擁有多達72個內(nèi)核，而且每個內(nèi)核有兩個用于提供更好的單核浮點運算性能的英特爾AVX-512 SIMD處理單元，所以這些處理器非常適合運行機器學(xué)習(xí)/深度學(xué)習(xí)工作任務(wù)。

　　四、人工智能風(fēng)口下最受關(guān)注的還是要數(shù)GPU

　　GPU 因其并行計算優(yōu)勢最先被引入深度學(xué)習(xí)，全球可編程圖形處理技術(shù)的領(lǐng)軍企業(yè)英偉達借此已開始打造新的計算平臺。目前，包括谷歌、Facebook、微軟等科技巨頭公司在內(nèi)的人工智能領(lǐng)域研究的領(lǐng)先者，已經(jīng)在使用英偉達所提供的專門應(yīng)用于該領(lǐng)域研究的芯片產(chǎn)品。

　　Facebook的人工智能硬件平臺Big Sur就是依托Nvidia的GPU而打造的。GPU在人工智能中的應(yīng)用十分廣泛，因為這種芯片上搭載的處理核心數(shù)量多于Intel生產(chǎn)的傳統(tǒng)處理器，使得它們十分適用于AI軟件所需要的海量計算。“Big Sur”的設(shè)計特點是易于維修的主板，它裝有8個NVIDIA的Tesla M40。

　　(1)GPU對于人工智能領(lǐng)域的意義又是什么呢？英偉達（NVIDIA）制造的圖形處理器（GPU）專門用于在個人電腦、工作站、游戲機和一些移動設(shè)備上進行圖像運算工作，是顯示卡的“心臟”。該公司正從一家顯卡供應(yīng)商轉(zhuǎn)變?yōu)槿斯ぶ悄芊?wù)器供應(yīng)商。

　　GPU在“深度學(xué)習(xí)”領(lǐng)域發(fā)揮著巨大的作用，因為GPU可以平行處理大量瑣碎信息。深度學(xué)習(xí)所依賴的是神經(jīng)系統(tǒng)網(wǎng)絡(luò)——與人類大腦神經(jīng)高度相似的網(wǎng)絡(luò)——而這種網(wǎng)絡(luò)出現(xiàn)的目的，就是要在高速的狀態(tài)下分析海量的數(shù)據(jù)。例如，如果你想要教會這種網(wǎng)絡(luò)如何識別出貓的模樣，你就要給它提供無數(shù)多的貓的圖片。而GPU擅長的正是海量數(shù)據(jù)的快速處理。

　　對于人工智能和深度學(xué)習(xí)來說，目前硬件加速主要靠使用圖形處理單元（GPU）集群作為通用計算圖形處理單元（GPGPU）。

　　與傳統(tǒng)的通用處理器（GPP）相比，GPU的核心計算能力要多出幾個數(shù)量級，也更容易進行并行計算。尤其是英偉達的CUDA，作為最主流的GPGPU編寫平臺，各個主要的深度學(xué)習(xí)工具均用其來進行GPU 加速。

　　(2)GPU有什么優(yōu)勢呢？GPU最明顯的優(yōu)勢是更快的處理速度，相比于CPU，GPU的一大優(yōu)勢是高速度。國內(nèi)最好的人工智能硬件研究項目“寒武紀”小組的最新研究結(jié)果表明，GPU能夠提供平均 58.82X 倍于CPU的速度。GPU的另一大優(yōu)勢，是它對能源的需求遠遠低于CPU。

　　最新款的專門用于人工智能研究領(lǐng)域的Tesla P100圖形處理芯片，號稱公司為這款GPU的研發(fā)投入了20億美元。它可以執(zhí)行深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)任務(wù)，速度是英偉達之前高端系統(tǒng)的12倍，預(yù)計新產(chǎn)品將會極大推動機器學(xué)習(xí)的極限。

　　黃仁勛在4月初的發(fā)布會上表示，未來10年，人工智能市場總值約為5000億美元。他表示，深度學(xué)習(xí)令我們的業(yè)績加速增長。這是一種全新的計算模式，利用GPU的大規(guī)模處理能力來學(xué)習(xí)人工智能算法。它的普及正在席卷一個又一個行業(yè)，推動我們的圖形處理器市場需求不斷增長。