當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀] 前幾天成立僅兩年國內(nèi)專做人工智能FPGA加速算法的初創(chuàng)公司深鑒科技被國際巨頭賽靈思收購了,在業(yè)界引起不小的震動。目前國內(nèi)做AI芯片的公司可謂不少了,AI芯片已然成為了當(dāng)下芯片行業(yè)最熱領(lǐng)域。但是大

前幾天成立僅兩年國內(nèi)專做人工智能FPGA加速算法的初創(chuàng)公司深鑒科技被國際巨頭賽靈思收購了,在業(yè)界引起不小的震動。目前國內(nèi)做AI芯片的公司可謂不少了,AI芯片已然成為了當(dāng)下芯片行業(yè)最熱領(lǐng)域。但是大部分人對AI芯片的架構(gòu)應(yīng)該都不是太了解。

那么AI 芯片和傳統(tǒng)芯片有何區(qū)別?AI芯片的架構(gòu)到底是怎么樣的?帶著這個疑問小編搜集到了來自知乎上的一些業(yè)內(nèi)行家的觀點,現(xiàn)在整理轉(zhuǎn)發(fā)給大家。先回答問題:

性能與傳統(tǒng)芯片,比如CPUGPU有很大的區(qū)別。在執(zhí)行AI算法時,更快、更節(jié)能。

工藝沒有區(qū)別,大家都一樣。至少目前來看,都一樣。

所謂的AI芯片,一般是指針對AI算法的ASIC(專用芯片)。傳統(tǒng)的CPU、GPU都可以拿來執(zhí)行AI算法,但是速度慢,性能低,無法實際商用。

比如,自動駕駛需要識別道路行人紅綠燈等狀況,但是如果是當(dāng)前的CPU去算,那么估計車翻到河里了還沒發(fā)現(xiàn)前方是河,這是速度慢,時間就是生命。如果用GPU,的確速度要快得多,但是,功耗大,汽車的電池估計無法長時間支撐正常使用,而且,老黃家的GPU巨貴,經(jīng)常單塊上萬,普通消費者也用不起,還經(jīng)常缺貨。另外,GPU因為不是專門針對AI算法開發(fā)的ASIC,所以,說到底,速度還沒到極限,還有提升空間。而類似智能駕駛這樣的領(lǐng)域,必須快!在手機終端,可以自行人臉識別、語音識別等AI應(yīng)用,這個必須功耗低,所以GPU OUT!開發(fā)ASIC就成了必然。

說說,為什么需要AI芯片。AI算法,在圖像識別等領(lǐng)域,常用的是CNN卷積網(wǎng)絡(luò),語音識別、自然語言處理等領(lǐng)域,主要是RNN,這是兩類有區(qū)別的算法。但是,他們本質(zhì)上,都是矩陣或vector的乘法、加法,然后配合一些除法、指數(shù)等算法。

一個成熟的AI算法,比如YOLO-V3,就是大量的卷積、殘差網(wǎng)絡(luò)、全連接等類型的計算,本質(zhì)是乘法和加法。對于YOLO-V3來說,如果確定了具體的輸入圖形尺寸,那么總的乘法加法計算次數(shù)是確定的。比如一萬億次。(真實的情況比這個大得多的多)

那么要快速執(zhí)行一次YOLO-V3,就必須執(zhí)行完一萬億次的加法乘法次數(shù)。

這個時候就來看了,比如IBM的POWER8,最先進(jìn)的服務(wù)器用超標(biāo)量CPU之一,4GHz,SIMD,128bit,假設(shè)是處理16bit的數(shù)據(jù),那就是8個數(shù),那么一個周期,最多執(zhí)行8個乘加計算。一次最多執(zhí)行16個操作。這還是理論上,其實是不大可能的。

那么CPU一秒鐘的巔峰計算次數(shù)=16* 4Gops =64Gops。這樣,可以算算CPU計算一次的時間了。同樣的,換成GPU算算,也能知道執(zhí)行時間。因為對GPU內(nèi)部結(jié)構(gòu)不熟,所以不做具體分析。

再來說說AI芯片。比如大名鼎鼎的谷歌的TPU1。TPU1,大約700M Hz,有256X256尺寸的脈動陣列,如下圖所示。一共256X256=64K個乘加單元,每個單元一次可執(zhí)行一個乘法和一個加法。那就是128K個操作。(乘法算一個,加法再算一個)。

另外,除了脈動陣列,還有其他模塊,比如激活等,這些里面也有乘法、加法等。

所以,看看TPU1一秒鐘的巔峰計算次數(shù)至少是=128K X 700MHz=89600Gops=大約90Tops。

對比一下CPU與TPU1,會發(fā)現(xiàn)計算能力有幾個數(shù)量級的差距,這就是為啥說CPU慢。

當(dāng)然,以上的數(shù)據(jù)都是完全最理想的理論值,實際情況,能夠達(dá)到5%吧。因為,芯片上的存儲不夠大,所以數(shù)據(jù)會存儲在DRAM中,從DRAM取數(shù)據(jù)很慢的,所以,乘法邏輯往往要等待。另外,AI算法有許多層網(wǎng)絡(luò)組成,必須一層一層的算,所以,在切換層的時候,乘法邏輯又是休息的,所以,諸多因素造成了實際的芯片并不能達(dá)到利潤的計算峰值,而且差距還極大。

可能有人要說,搞研究慢一點也能將就用。目前來看,神經(jīng)網(wǎng)絡(luò)的尺寸是越來越大,參數(shù)越來越多,遇到大型NN模型,訓(xùn)練需要花幾周甚至一兩個月的時候,你會耐心等待么?突然斷電,一切重來?曾經(jīng)動手訓(xùn)練一個寫小說的AI,然后,一次訓(xùn)練(50輪)需要大約一天一夜還多,記得如果第一天早上開始訓(xùn)練,需要到第二天下午才可能完成,這還是模型比較簡單,數(shù)據(jù)只有幾萬條的小模型呀。

修改了模型,需要幾個星期才能知道對錯,確定等得起?突然有了TPU,然后你發(fā)現(xiàn),吃個午飯回來就好了,參數(shù)優(yōu)化一下,繼續(xù)跑,多么爽!

計算速度快,才能迅速反復(fù)迭代,研發(fā)出更強的AI模型。速度就是金錢。

GPU的內(nèi)核結(jié)構(gòu)不清楚,所以就不比較了??隙ǖ氖?,GPU還是比較快的,至少比CPU快得多,所以目前大多數(shù)都用GPU,這玩意隨便一個都能價格輕松上萬,太貴,而且,功耗高,經(jīng)常缺貨。不適合數(shù)據(jù)中心大量使用。

總的來說,CPU與GPU并不是AI專用芯片,為了實現(xiàn)其他功能,內(nèi)部有大量其他邏輯,而這些邏輯對于目前的AI算法來說是完全用不上的,所以,自然造成CPU與GPU并不能達(dá)到最優(yōu)的性價比。

谷歌花錢研發(fā)TPU,而且目前已經(jīng)出了TPU3,用得還挺歡,都開始支持谷歌云計算服務(wù)了,貌似6點幾美元每小時吧,不記得單位了,懶得查??梢?,谷歌覺得很有必要自己研發(fā)TPU。

目前在圖像識別、語音識別、自然語言處理等領(lǐng)域,精度最高的算法就是基于深度學(xué)習(xí)的,傳統(tǒng)的機器學(xué)習(xí)的計算精度已經(jīng)被超越,目前應(yīng)用最廣的算法,估計非深度學(xué)習(xí)莫屬,而且,傳統(tǒng)機器學(xué)習(xí)的計算量與 深度學(xué)習(xí)比起來少很多,所以,我討論AI芯片時就針對計算量特別大的深度學(xué)習(xí)而言。畢竟,計算量小的算法,說實話,CPU已經(jīng)很快了。而且,CPU適合執(zhí)行調(diào)度復(fù)雜的算法,這一點是GPU與AI芯片都做不到的,所以他們?nèi)咧皇轻槍Σ煌膽?yīng)用場景而已,都有各自的主場。

至于為何用了CPU做對比?

而沒有具體說GPU。是因為,我說了,我目前沒有系統(tǒng)查看過GPU的論文,不了解GPU的情況,故不做分析。因為積累的緣故,比較熟悉超標(biāo)量CPU,所以就用熟悉的CPU做詳細(xì)比較。而且,小型的網(wǎng)絡(luò),完全可以用CPU去訓(xùn)練,沒啥大問題,最多慢一點。只要不是太大的網(wǎng)絡(luò)模型。

那些AI算法公司,比如曠世、商湯等,他們的模型很大,自然也不是一塊GPU就能搞定的。GPU的算力也是很有限的。

至于說CPU是串行,GPU是并行

沒錯,但是不全面。只說說CPU串行。這位網(wǎng)友估計對CPU沒有非常深入的理解。我的回答中舉的CPU是IBM的POWER8,百度一下就知道,這是超標(biāo)量的服務(wù)器用CPU,目前來看,性能已經(jīng)是非常頂級的了,主頻4GHZ。不知是否注意到我說了這是SIMD?

這個SIMD,就代表他可以同時執(zhí)行多條同樣的指令,這就是并行,而不是串行。單個數(shù)據(jù)是128bit的,如果是16bit的精度,那么一周期理論上最多可以計算八組數(shù)據(jù)的乘法或加法,或者乘加。這還不叫并行?只是并行的程度沒有GPU那么厲害而已,但是,這也是并行。

不知道為啥就不能用CPU來比較算力?

有評論很推崇GPU。說用CPU來做比較,不合適。GPU本來是從CPU中分離出來專門處理圖像計算的,也就是說,GPU是專門處理圖像計算的。包括各種特效的顯示。這也是GPU的天生的缺陷,GPU更加針對圖像的渲染等計算算法。但是,這些算法,與深度學(xué)習(xí)的算法還是有比較大的區(qū)別,而我的回答里提到的AI芯片,比如TPU,這個是專門針對CNN等典型深度學(xué)習(xí)算法而開發(fā)的。另外,寒武紀(jì)的NPU,也是專門針對神經(jīng)網(wǎng)絡(luò)的,與TPU類似。

谷歌的TPU,寒武紀(jì)的DianNao,這些AI芯片剛出道的時候,就是用CPU/GPU來對比的。

看看,谷歌TPU論文的摘要直接對比了TPU1與CPU/GPU的性能比較結(jié)果,見紅色框:

這就是摘要中介紹的TPU1與CPU/GPU的性能對比。再來看看寒武紀(jì)DianNao的paper,摘要中直接就是DianNao與CPU的性能的比較,見紅色框:

回顧一下歷史

上個世紀(jì)出現(xiàn)神經(jīng)網(wǎng)絡(luò)的時候,那一定是用CPU計算的。

比特幣剛出來,那也是用CPU在挖。目前已經(jīng)進(jìn)化成ASIC礦機了。比特大陸了解一下。

從2006年開始開啟的深度學(xué)習(xí)熱潮,CPU與GPU都能計算,發(fā)現(xiàn)GPU速度更快,但是貴啊,更多用的是CPU,而且,那時候GPU的CUDA可還不怎么樣,后來,隨著NN模型越來越大,GPU的優(yōu)勢越來越明顯,CUDA也越來越6,目前就成了GPU的專場。

寒武紀(jì)2014年的DianNao(NPU)比CPU快,而且更加節(jié)能。ASIC的優(yōu)勢很明顯啊。這也是為啥要開發(fā)ASIC的理由。

至于說很多公司的方案是可編程的,也就是大多數(shù)與FPGA配合。你說的是商湯、深鑒么?的確,他們發(fā)表的論文,就是基于FPGA的。

這些創(chuàng)業(yè)公司,他們更多研究的是算法,至于芯片,還不是重點,另外,他們暫時還沒有那個精力與實力。FPGA非常靈活,成本不高,可以很快實現(xiàn)架構(gòu)設(shè)計原型,所以他們自然會選擇基于FPGA的方案。不過,最近他們都大力融資,官網(wǎng)也在招聘芯片設(shè)計崗位,所以,應(yīng)該也在涉足ASIC研發(fā)了。

如果以FPGA為代表的可編程方案真的有巨大的商業(yè)價值,那他們何必砸錢去做ASIC?

說了這么多,我也是半路出家的,因為工作需要而學(xué)習(xí)的。按照我目前的理解,看TPU1的專利及論文,一步一步推導(dǎo)出內(nèi)部的設(shè)計方法,理解了TPU1,大概就知道了所謂的AI處理器的大部分。

然后研究研究寒武紀(jì)的一系列論文,有好幾種不同的架構(gòu)用于不同的情況,有興趣可以研究一下。然后就是另外幾個獨角獸,比如商湯、深鑒科技等,他們每年都會有論文發(fā)表,沒事去看看。這些論文,大概就代表了當(dāng)前最先進(jìn)的AI芯片的架構(gòu)設(shè)計了。

當(dāng)然,最先進(jìn),別人肯定不會公開,比如谷歌就不曾公開關(guān)于TPU2和TPU3的相關(guān)專利,反正我沒查到。不過,沒事,目前的文獻(xiàn)已經(jīng)代表了最近幾年最先進(jìn)的進(jìn)展了。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉