當(dāng)前位置:首頁(yè) > 智能硬件 > 人工智能AI
[導(dǎo)讀] 隨著人工智能的落地和大規(guī)模應(yīng)用,AI芯片也成為了常見的芯片品類。AI芯片相比傳統(tǒng)芯片來說,主要的競(jìng)爭(zhēng)優(yōu)勢(shì)就在于高算力和高能效比。高算力是指能夠比傳統(tǒng)芯片更快地完成AI計(jì)算,而高能效比則是指能比傳

隨著人工智能的落地和大規(guī)模應(yīng)用,AI芯片也成為了常見的芯片品類。AI芯片相比傳統(tǒng)芯片來說,主要的競(jìng)爭(zhēng)優(yōu)勢(shì)就在于高算力和高能效比。高算力是指能夠比傳統(tǒng)芯片更快地完成AI計(jì)算,而高能效比則是指能比傳統(tǒng)芯片用更少的能量完成計(jì)算。

在AI芯片誕生的初期,AI芯片架構(gòu)主要是針對(duì)計(jì)算并行性做優(yōu)化,從而加強(qiáng)計(jì)算能力。然而,隨著AI芯片競(jìng)爭(zhēng)日益激烈,從并行性方面的潛力也已經(jīng)被挖掘殆盡,這時(shí)候AI芯片的性能就遇到了“內(nèi)存墻”這一瓶頸。

要理解內(nèi)存墻,還需要從傳統(tǒng)的馮諾伊曼架構(gòu)說起。馮諾伊曼架構(gòu)是計(jì)算機(jī)的經(jīng)典體系結(jié)構(gòu),同時(shí)也是之前處理器芯片的主流架構(gòu)。在馮諾伊曼架構(gòu)中,計(jì)算與內(nèi)存是分離的單元:計(jì)算單元根據(jù)從內(nèi)存中讀取數(shù)據(jù),計(jì)算完成后存回內(nèi)存。

存內(nèi)計(jì)算能否成為下一代AI芯片的關(guān)鍵

馮諾伊曼架構(gòu)在構(gòu)建之初的假設(shè)就是處理器和內(nèi)存的速度很接近。然而,隨著摩爾定律的演進(jìn),這一假設(shè)早已不再成立。計(jì)算單元的性能隨著摩爾定律高速發(fā)展,其性能隨著晶體管特征尺寸的縮小而直接提升;另一方面,內(nèi)存主要使用的是DRAM方案,而DRAM從摩爾定律晶體管尺寸縮小所獲得的益處并不大。這也造成了DRAM的性能提升速度遠(yuǎn)遠(yuǎn)慢于處理器速度,目前DRAM的性能已經(jīng)成為了整體計(jì)算機(jī)性能的一個(gè)重要瓶頸,即所謂阻礙性能提升的“內(nèi)存墻”。

內(nèi)存墻對(duì)于處理器的限制是多方面的,不僅僅是限制了其計(jì)算性能,同時(shí)也是能效比的瓶頸 。在AI芯片追求極致計(jì)算能效比的今天,內(nèi)存墻對(duì)于AI芯片能效比的限制效應(yīng)尤其顯著。眾所周知,人工智能中神經(jīng)網(wǎng)絡(luò)模型的一個(gè)重要特點(diǎn)就是計(jì)算量大,而且計(jì)算過程中涉及到的數(shù)據(jù)量也很大,使用傳統(tǒng)馮諾伊曼架構(gòu)會(huì)需要頻繁讀寫內(nèi)存。目前的DRAM一次讀寫32bit數(shù)據(jù)消耗的能量比起32bit數(shù)據(jù)計(jì)算消耗的能量要大兩到三個(gè)數(shù)量級(jí),因此成為了總體計(jì)算設(shè)備中的能效比瓶頸。如果想讓人工智能應(yīng)用也走入對(duì)于能效比有嚴(yán)格要求的移動(dòng)端和嵌入式設(shè)備以實(shí)現(xiàn)“人工智能無處不在”,那么內(nèi)存訪問瓶頸就是一個(gè)不得不解決的問題。

存內(nèi)計(jì)算:翻越內(nèi)存墻

內(nèi)存墻之所以存在,從另一個(gè)角度看主要還是由于處理器/加速器芯片和主內(nèi)存是兩個(gè)獨(dú)立的模塊,或者換句話說,計(jì)算和內(nèi)存之間距離太遠(yuǎn),因此來回搬運(yùn)數(shù)據(jù)代價(jià)太高,無論是吞吐量還是能效比方面這種數(shù)據(jù)搬運(yùn)都成為了瓶頸。那么,如何讓內(nèi)存和計(jì)算離得更近一些呢?一個(gè)最簡(jiǎn)單有效的方法就是“存內(nèi)計(jì)算”(in-memory computing)。

存內(nèi)計(jì)算,顧名思義就是直接在存儲(chǔ)內(nèi)做計(jì)算。其具體實(shí)現(xiàn)方式有若干條技術(shù)路徑。首先,最直接的就是在現(xiàn)有存儲(chǔ)的基礎(chǔ)上做一些電路上的改動(dòng)。這類實(shí)現(xiàn)方法最簡(jiǎn)單,例如2018年MIT Chandrakasan研究組在ISSCC上發(fā)表的研究就是這類技術(shù)的例子。該研究中,存內(nèi)計(jì)算的主要用途是加速卷積計(jì)算,而卷積計(jì)算從數(shù)學(xué)上可以展開成帶權(quán)重的累加計(jì)算,或者說是多個(gè)數(shù)的加權(quán)平均。因此,存內(nèi)計(jì)算的做法是把權(quán)重(1-bit)儲(chǔ)存在SRAM中,輸入數(shù)據(jù)經(jīng)過DAC成為模擬信號(hào),并根據(jù)SRAM中的對(duì)應(yīng)權(quán)重相乘,然后在模擬域做平均,最后由ADC讀出成為數(shù)字信號(hào)。這類存內(nèi)計(jì)算往往只是修改現(xiàn)有存儲(chǔ)的譯碼器/放大器模塊,并不涉及存儲(chǔ)器件的重新設(shè)計(jì),優(yōu)勢(shì)是比較容易和現(xiàn)有工藝集成,但是缺點(diǎn)是能夠帶來的性能提升較為有限,尤其是基于SRAM的方案,一方面SRAM的集成度是有限的,另一方面單比特精度的權(quán)重也成為了其應(yīng)用的限制。

存內(nèi)計(jì)算能否成為下一代AI芯片的關(guān)鍵

另一種存內(nèi)計(jì)算的技術(shù)路線是通過引入新的存儲(chǔ)器件來完成存內(nèi)計(jì)算。如果說前一種存內(nèi)計(jì)算的概念是“在SoC里引入特殊的SRAM并在SRAM附近高效完成計(jì)算”,那么這一種存內(nèi)計(jì)算就是直接“在存儲(chǔ)陣列內(nèi)完成計(jì)算”了。這種基于新存儲(chǔ)器件的存內(nèi)計(jì)算往往要利用新存儲(chǔ)器件的一些特征,并且在一塊特殊的存儲(chǔ)陣列內(nèi)集成計(jì)算功能,在要做計(jì)算的時(shí)候主處理模塊只需要給存儲(chǔ)陣列發(fā)送輸入數(shù)據(jù),過若干時(shí)鐘周期之后存儲(chǔ)陣列會(huì)把計(jì)算好的結(jié)果返回給主處理模塊。與傳統(tǒng)的馮諾伊曼架構(gòu)相比,傳統(tǒng)馮諾伊曼架構(gòu)中處理器芯片給內(nèi)存發(fā)請(qǐng)求,并讀回?cái)?shù)據(jù);而在這類存內(nèi)計(jì)算芯片的計(jì)算范式中,主處理模塊給存儲(chǔ)陣列發(fā)送請(qǐng)求和輸入數(shù)據(jù),而存儲(chǔ)陣列則直接返回計(jì)算結(jié)果,這樣就省去了計(jì)算過程中主處理器和內(nèi)存之間的大量數(shù)據(jù)搬運(yùn)。通常來說,存內(nèi)計(jì)算在處理人工智能相關(guān)任務(wù)的時(shí)候,會(huì)把神經(jīng)網(wǎng)絡(luò)權(quán)重存儲(chǔ)在陣列中,而主處理模塊直接給存儲(chǔ)陣列發(fā)去神經(jīng)網(wǎng)絡(luò)的輸入即可開始計(jì)算。

近年來,存內(nèi)計(jì)算已經(jīng)逐漸成為業(yè)界和學(xué)界公認(rèn)的趨勢(shì)。拿半導(dǎo)體集成電路領(lǐng)域的“奧林匹克”——ISSCC為例,從2018年開始ISSCC開始設(shè)立與存內(nèi)計(jì)算相關(guān)的專門session并收錄五篇相關(guān)論文,此后存內(nèi)計(jì)算在ISSCC上的相關(guān)論文錄用勢(shì)頭一直不減,到2020年的ISSCC與存內(nèi)計(jì)算相關(guān)的論文數(shù)量上升到了七篇。除此之外,半導(dǎo)體器件領(lǐng)域的頂級(jí)會(huì)議IEDM今年也給了存內(nèi)計(jì)算足夠重視,有三個(gè)專門的session共二十多篇相關(guān)論文。有趣的是,ISSCC和IEDM上相關(guān)存內(nèi)計(jì)算的論文正好對(duì)應(yīng)了前文所說的存內(nèi)計(jì)算的兩種技術(shù)路線——ISSCC對(duì)應(yīng)從電路側(cè)做技術(shù)革新,而IEDM則主要對(duì)應(yīng)器件方向的技術(shù)更新?lián)Q代,通過引入新的存儲(chǔ)器件并基于其新特性來開發(fā)高性能的存內(nèi)計(jì)算。其中,IEDM中顯示的范式轉(zhuǎn)換更引人關(guān)注。今年,IEDM的一大看點(diǎn)就是對(duì)于摩爾定律到頭之后下一步方向的預(yù)測(cè),有一個(gè)專門的panel session更是直接以“摩爾定律已死,但是AI永生”為名字,可見業(yè)界對(duì)于后摩爾定律時(shí)代的發(fā)展,最看好的是基于AI的新器件。而在AI相關(guān)的新器件/新范式中,存內(nèi)計(jì)算可謂是最有希望的一種,由此可見今年IEDM的關(guān)于后摩爾定律的主題和錄用數(shù)十篇存內(nèi)計(jì)算相關(guān)的論文之間存在著緊密的聯(lián)系。

目前,全球存內(nèi)計(jì)算有不少玩家。例如,半導(dǎo)體巨頭TSMC正在推廣其基于ReRAM的存內(nèi)計(jì)算方案,而IBM基于其獨(dú)特的相變存儲(chǔ)的存內(nèi)計(jì)算也已經(jīng)有了數(shù)年的歷史。初創(chuàng)公司中,Mythic基于Flash的方案也獲得了軟銀的首肯并獲取了其資金支持。然而,傳統(tǒng)存內(nèi)計(jì)算有一個(gè)主要問題,就是計(jì)算精度和應(yīng)用場(chǎng)景之間的矛盾。ReRAM通常只能做到2至3-bit,這即使對(duì)于終端用的神經(jīng)網(wǎng)絡(luò)來說也不太夠。Mythic的產(chǎn)品針對(duì)服務(wù)器市場(chǎng),然而服務(wù)器市場(chǎng)對(duì)于計(jì)算精度的要求卻相比終端更高,這也成為了困擾存內(nèi)計(jì)算的一個(gè)問題。

IEDM上的來自中國(guó)的論文可能成為解決存內(nèi)計(jì)算瓶頸的關(guān)鍵

如上文所述,存內(nèi)計(jì)算的一個(gè)關(guān)鍵瓶頸是精度和應(yīng)用之間的矛盾。如果要解決這個(gè)矛盾,我們希望能有一款針對(duì)移動(dòng)端的低功耗存內(nèi)計(jì)算產(chǎn)品,且其計(jì)算精度能達(dá)到移動(dòng)端神經(jīng)網(wǎng)絡(luò)的計(jì)算需求(》4bit)。

在今年的IEDM上,我們就看到了這樣的技術(shù)突破。一家初創(chuàng)公司閃億半導(dǎo)體,與浙江大學(xué)、北京大學(xué)、華虹宏力合作發(fā)表的論文《Programmable Linear RAM: A New Flash Memory-based Memristor for Artificial Synapses and Its ApplicaTIon to Speech RecogniTIon System》恰恰解決了這個(gè)矛盾。該論文巧妙地利用晶體管在線性區(qū)的特性制備了新型存儲(chǔ)器PLRAM,并成功地設(shè)計(jì)出了一款可以用在移動(dòng)終端的超低功耗存內(nèi)計(jì)算芯片,并實(shí)現(xiàn)了8-bit精度操作。

存內(nèi)計(jì)算能否成為下一代AI芯片的關(guān)鍵

當(dāng)計(jì)算精度高于4-bit時(shí),我們認(rèn)為就可以執(zhí)行一些神經(jīng)網(wǎng)絡(luò)計(jì)算,而該論文中的8-bit精度更是可以保證大多數(shù)神經(jīng)網(wǎng)絡(luò)計(jì)算可以高精度完成,而不會(huì)損失性能。該論文把相關(guān)器件應(yīng)用到了語(yǔ)音識(shí)別中并且完成了芯片流片和測(cè)試,測(cè)試結(jié)果顯示該芯片可以以超低功耗(峰值9mW)執(zhí)行語(yǔ)音識(shí)別相關(guān)的操作(MFCC特征提取和深度神經(jīng)網(wǎng)絡(luò)前饋運(yùn)算),峰值算力可達(dá)30GOPS,足夠IoT和可穿戴設(shè)備相關(guān)的應(yīng)用。相比而言,Mythic等國(guó)外初創(chuàng)存內(nèi)計(jì)算公司僅能實(shí)現(xiàn)低精度計(jì)算且難以克服成本的門檻(因此Mythic選擇了對(duì)于成本不敏感的服務(wù)器市場(chǎng)),閃億通過最新的器件技術(shù)突破實(shí)現(xiàn)的8-bit計(jì)算精度和較低的成本則是成功地撬動(dòng)了體量更大的IoT市場(chǎng)。

存內(nèi)計(jì)算能否成為下一代AI芯片的關(guān)鍵

除了器件上的突破之外,閃億在電路以及更高的指令集領(lǐng)域都有深厚的技術(shù)積累。如前所述,存內(nèi)計(jì)算是橫跨器件和電路兩個(gè)領(lǐng)域的技術(shù),通常的存內(nèi)計(jì)算與數(shù)字電路之間的接口需要大量數(shù)字-模擬轉(zhuǎn)換和信號(hào)驅(qū)動(dòng),而這些接口事實(shí)上需要大量的電路優(yōu)化工作,否則容易成為整體性能的瓶頸。為了解決這個(gè)效率瓶頸,閃億開發(fā)了大規(guī)模阻性存儲(chǔ)陣列驅(qū)動(dòng)技術(shù),能實(shí)現(xiàn)高效率的存內(nèi)計(jì)算電路接口;同時(shí),也為存內(nèi)計(jì)算的規(guī)?;伷搅说缆?。在電路之上的架構(gòu)層級(jí),閃億也有自己獨(dú)特的指令集技術(shù)。事實(shí)上,編譯器和指令集一直是困擾所有人工智能芯片設(shè)計(jì)的重要問題,AI芯片無法在實(shí)際應(yīng)用中真正發(fā)揮全部算力的主要問題就在于指令集和編譯器設(shè)計(jì)不過關(guān),導(dǎo)致芯片只能在demo中有高算力,而到了用戶提供的實(shí)際模型運(yùn)行中就效率大幅下降。為此,閃億開發(fā)了一套存內(nèi)計(jì)算的專用指令集,可望解決這個(gè)困擾AI芯片行業(yè)的通病。

該研究讓我們看到了中國(guó)半導(dǎo)體行業(yè)的崛起,因?yàn)樵贗EDM這樣強(qiáng)手如林的頂尖半導(dǎo)體器件會(huì)議上發(fā)表文章本身就是對(duì)相關(guān)技術(shù)的肯定。更可喜的是,該研究已經(jīng)在閃億進(jìn)行商業(yè)化,我們認(rèn)為閃億擁有的技術(shù)首先能克服存內(nèi)計(jì)算的計(jì)算精度和應(yīng)用場(chǎng)景之間的矛盾,可以把存內(nèi)計(jì)算低功耗的優(yōu)勢(shì)發(fā)揮到極致,而同時(shí)其高精度計(jì)算又保證了可以兼容大多數(shù)神經(jīng)網(wǎng)絡(luò)。同時(shí),閃億選擇的IoT和可穿戴式市場(chǎng)也是一個(gè)正在蓬勃發(fā)展的市場(chǎng),這些市場(chǎng)非常適合用全球領(lǐng)先的新技術(shù)去撬動(dòng)新的應(yīng)用,從而讓存內(nèi)計(jì)算真正落地走向千家萬戶。我們希望能看到更多像閃億這樣的高精尖半導(dǎo)體技術(shù)商業(yè)化的案例,而當(dāng)市場(chǎng)上出現(xiàn)眾多這樣的充滿活力的高新技術(shù)半導(dǎo)體公司時(shí),中國(guó)半導(dǎo)體的春天也就到了。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉