隨著對人工智能 (AI) 和內(nèi)存計(jì)算的興趣顯著增加,電阻式隨機(jī)存取存儲器 (ReRAM) 可能成為解鎖其模仿人腦能力的關(guān)鍵——但挑戰(zhàn)依然存在。
去年的 IEDM 匯集了許多關(guān)于推進(jìn)各種內(nèi)存類型的最新研究論文,包括新興的和現(xiàn)有的。毫不奇怪,他們中的很多人都致力于記憶如何改善內(nèi)存計(jì)算、人工智能和機(jī)器學(xué)習(xí) (ML),甚至模仿人腦。
ReRAM 一直是神經(jīng)病計(jì)算的代名詞,Weebit Nano 已經(jīng)表達(dá)了對其技術(shù)追求的興趣;盡管它在公司的其他業(yè)務(wù)重點(diǎn)上處于次要地位。
與此同時,密歇根大學(xué)至少十年前就一直在開發(fā)各種 ReRAM 原型。該大學(xué)電氣工程和計(jì)算機(jī)科學(xué)系教授 Wei D. Lu 解釋說,ReRAM 提供高密度非易失性存儲和高效內(nèi)存計(jì)算的潛力,而支持 ReRAM 的加速器可以解決馮諾依曼瓶頸密歇根州。他的 IEDM 演示概述了一些設(shè)備,以及并行性如何解決越來越大的 AI 模型以及邊緣計(jì)算應(yīng)用程序的功率、延遲和成本要求。
利用并行性的 CPU 仍然會遇到內(nèi)存瓶頸。雖然 GPU 允許更快的內(nèi)存訪問,但 Lu 表示,需要一種從根本上提高吞吐量和計(jì)算效率的新計(jì)算架構(gòu)。內(nèi)存保護(hù)單元 (MPU) 可以顯著提高并行性并將內(nèi)存與邏輯放在一起,從而實(shí)現(xiàn)設(shè)備級計(jì)算并更好地促進(jìn)內(nèi)存計(jì)算。
MPU 可以顯著提高并行性并將內(nèi)存與邏輯放在一起,從而實(shí)現(xiàn)設(shè)備級計(jì)算并更好地促進(jìn)內(nèi)存計(jì)算(圖片由密歇根大學(xué)提供)
Lu 說,ReRAM 在內(nèi)存計(jì)算方面的潛力在于使用 ReRAM 陣列作為計(jì)算結(jié)構(gòu),因?yàn)樗梢员镜貓?zhí)行學(xué)習(xí)和推理功能。ReRAM 還支持雙向數(shù)據(jù)流,而更大的神經(jīng)網(wǎng)絡(luò)可以使用具有平鋪 MPU 架構(gòu)的模塊化系統(tǒng)來實(shí)現(xiàn),以實(shí)現(xiàn)更高的吞吐量。
應(yīng)對 RERAM 挑戰(zhàn)
然而,ReRAM 器件存在幾個關(guān)鍵挑戰(zhàn)。一方面,基于高精度模數(shù)轉(zhuǎn)換器的讀出電路構(gòu)成了重大挑戰(zhàn),而性能可能會受到包括單元間變化在內(nèi)的設(shè)備非理想性的影響。第三個挑戰(zhàn)是在 ReRRAM 設(shè)備中觀察到的非線性和不對稱電導(dǎo)更新會嚴(yán)重降低訓(xùn)練精度,Lu 說。
第一個問題的潛在解決方案包括多范圍量化和二元神經(jīng)網(wǎng)絡(luò)。Lu 說,具有架構(gòu)意識的培訓(xùn)可以解決由設(shè)備非理想性引起的性能問題,以及使用 2T2R 架構(gòu)實(shí)現(xiàn)二進(jìn)制權(quán)重,這也有助于應(yīng)對第三個挑戰(zhàn)。混合精度訓(xùn)練還可以解決第二個和第三個挑戰(zhàn),因?yàn)樗ㄟ^以較低精度格式訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)來提供顯著的性能和計(jì)算提升。
相變存儲器 (PCM)也是改進(jìn)內(nèi)存計(jì)算的候選者。IBM Research Europe 一直在探索使用 PCM 來解決模擬內(nèi)存計(jì)算的溫度敏感性問題。正如 IBM Research 內(nèi)存計(jì)算小組成員 Irem Boybat 所述,隨著人工智能神經(jīng)網(wǎng)絡(luò)的蓬勃發(fā)展,存在計(jì)算效率問題。深度學(xué)習(xí)是計(jì)算密集型的,如果正在進(jìn)行的“人工智能革命”要可持續(xù),就必須采用顛覆性的計(jì)算機(jī)范式。
“語言模型的規(guī)模呈指數(shù)級增長,”Boybat 說。根據(jù) Boybat 的說法,這涉及將大量數(shù)據(jù)從內(nèi)存?zhèn)鬏數(shù)教幚韱卧@很昂貴并且會留下大量的碳足跡。
模擬內(nèi)存計(jì)算通過在內(nèi)存本身內(nèi)執(zhí)行某些計(jì)算任務(wù)來模糊內(nèi)存和處理之間的界限,并通過利用內(nèi)存設(shè)備的物理屬性來實(shí)現(xiàn)。Boybat 說,PCM 是內(nèi)存計(jì)算的有前途的候選者,因?yàn)樗梢砸苑浅C芗姆绞酱鎯π畔⒉⑶蚁牡撵o態(tài)功率可以忽略不計(jì)。IBM Research 最近在過去一年展示了兩款基于 PCM 的內(nèi)存計(jì)算芯片。
溫度敏感性仍然是該團(tuán)隊(duì)的研究領(lǐng)域,蘑菇型 PCM 被用于研究保留。放置在芯片下方的電阻加熱器和溫度表明,在 30 至 80 攝氏度范圍內(nèi)預(yù)計(jì)不會出現(xiàn)滯留問題。IBM Research 的實(shí)驗(yàn)研究了溫度變化和漂移對用于內(nèi)存計(jì)算的多級 PCM 的影響。
在IBM Research AI Hardware Center的支持下,研究團(tuán)隊(duì)發(fā)現(xiàn),盡管 PCM 表現(xiàn)出與電導(dǎo)相關(guān)的溫度敏感性,但電導(dǎo)狀態(tài)的歸一化分布在所應(yīng)用的時間-溫度曲線中保持相對恒定。研究人員開發(fā)了一個可靠的統(tǒng)計(jì)模型來捕捉溫度對漂移和電導(dǎo)的影響,并根據(jù) PCM 電導(dǎo)測量對其進(jìn)行驗(yàn)證。
他們使用超過一百萬個 PCM 設(shè)備證明,使用簡單的補(bǔ)償方案可以在 33 到 80 攝氏度的環(huán)境溫度變化下為各種網(wǎng)絡(luò)實(shí)現(xiàn)并保持高推理精度。
模仿人腦
另一個超越內(nèi)存計(jì)算的熱門研究領(lǐng)域是創(chuàng)建更符合人腦的神經(jīng)網(wǎng)絡(luò)。由劉明代表中科院微電子研究所和復(fù)旦大學(xué)的許多研究人員介紹的基于 ReRAM 的類腦計(jì)算 (BIC) 的工作正在受到前所未有的人工智能計(jì)算使用速度的推動,劉說,每三個月翻一番。
BIC 將在中長期規(guī)避馮諾依曼瓶頸。(圖片由中國科學(xué)院中國微電子研究所提供)
人工智能計(jì)算的使用增加使得受大腦啟發(fā)的硬件對于維持發(fā)展至關(guān)重要。雖然新的內(nèi)存技術(shù)可以在短期內(nèi)增強(qiáng)現(xiàn)有的層次結(jié)構(gòu),但 BIC 將在中長期規(guī)避馮諾依曼瓶頸;BIC 包括內(nèi)存計(jì)算和神經(jīng)形態(tài)計(jì)算。
理解 BIC 需要區(qū)分 AI 的算法:計(jì)算機(jī)科學(xué)的神經(jīng)網(wǎng)絡(luò)與生物學(xué)和神經(jīng)科學(xué)的神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò) (ANN) 處理空間域中的連續(xù)信號,而尖峰神經(jīng)網(wǎng)絡(luò) (SNN) 更具生物可能性,因?yàn)樗7铝舜竽X的工作方式。劉說,ReRAM 為 BIC 提供了一個理想的平臺,因?yàn)樗哂胸S富的開關(guān)動態(tài),可以支持大規(guī)模集成、低功耗外圍設(shè)備和用于構(gòu)建 BIC 芯片和系統(tǒng)的特定應(yīng)用架構(gòu)。
劉說,在許多其他機(jī)構(gòu)從模擬行為開始進(jìn)行了十多年的研究之后,很快,集成的 SNN 多核將成為可能。ReRAM SNN 的計(jì)算密度和能效為高性能提供了巨大潛力,將事件驅(qū)動表示和集成多核相結(jié)合的芯片將成為現(xiàn)實(shí)。然而,要開發(fā)適用于實(shí)際應(yīng)用的 BIC 芯片,在架構(gòu)層面仍有許多探索工作要做。
ReRAM的特性使其成為人工智能和旨在模仿人腦的應(yīng)用程序的熱門候選者。但是 IEDM 在 IEDM 2021 上通過一整天的會議和兩次 IEEE 磁性學(xué)會活動對磁阻隨機(jī)存取存儲器給予了同樣多的關(guān)注,以表彰微電子學(xué)和磁學(xué)界之間的關(guān)系以推動進(jìn)步。
在鐵電隨機(jī)存取存儲器 (FRAM) 方面,CEA-Leti 宣布了它聲稱的世界上第一個 130nm 節(jié)點(diǎn) 16-kbit 陣列的演示,使其更接近商業(yè)化。超低功耗、快速、高耐用性和 CMOS 兼容的 BEOL FRAM 存儲器使用一種新的基于 HfO2 的鐵電材料,該材料也比 PZT 更環(huán)保,因?yàn)樗菬o鉛的。
潛在用例包括嵌入式應(yīng)用程序,例如物聯(lián)網(wǎng) (IoT) 設(shè)備和可穿戴設(shè)備。這項(xiàng)工作得到了歐盟 3eFERRO 聯(lián)盟項(xiàng)目的支持,該項(xiàng)目旨在生產(chǎn)新的鐵電材料,使 FRAM 成為物聯(lián)網(wǎng)應(yīng)用中具有競爭力的非易失性存儲器候選者。
盡管許多 IEDM 研究論文傾向于在人工智能、神經(jīng)形態(tài)計(jì)算和內(nèi)存計(jì)算等前沿應(yīng)用中使用新興存儲器,但推進(jìn)現(xiàn)有存儲器(如動態(tài)隨機(jī)存取存儲器)仍然是許多研究人員的重點(diǎn)。
英特爾通過 IEDM 活動發(fā)表了多篇論文,其中涵蓋了規(guī)模改進(jìn)和為芯片帶來新功能的內(nèi)容。英特爾的組件研究概述了圍繞混合鍵合互連的設(shè)計(jì)、工藝和組裝挑戰(zhàn)所做的努力,提出了將封裝互連密度提高 10 倍以上的愿景。在此之前,英特爾在 7 月宣布推出 Foveros Direct,它支持亞 10 微米的凸塊間距,為 3D 堆疊的互連密度提供了一個數(shù)量級的增加。
其他論文著眼于英特爾如何通過堆疊多個 CMOS 晶體管的方法來應(yīng)對預(yù)期的后 FinFET 時代,該方法旨在通過每平方毫米安裝更多晶體管來實(shí)現(xiàn)最大 30% 到 50% 的邏輯縮放改進(jìn),以繼續(xù)推進(jìn)摩爾定律。推進(jìn)摩爾定律的另一項(xiàng)努力包括即將到來的埃時代,通過研究展示了如何使用只有幾個原子厚的新型材料來制造克服傳統(tǒng)硅通道限制的晶體管——在每個芯片面積上實(shí)現(xiàn)數(shù)百萬個晶體管。
英特爾還概述了通過在 300 毫米晶圓上集成基于 GAN 的電源開關(guān)與基于硅的 CMOS 為硅帶來新功能的研究,這將實(shí)現(xiàn)向 CPU 的低損耗、高速供電,同時減少主板組件和空間。