中國(guó)可能會(huì)在人工智能計(jì)算領(lǐng)域獲勝
未來(lái)十年的技術(shù)驅(qū)動(dòng)力是人工智能。引用應(yīng)用材料公司首席執(zhí)行官 Gary Dickerson 的話:“我們準(zhǔn)備好迎接我們一生中最大的機(jī)會(huì)了嗎?” 迪克森一直在世界各地與芯片制造商和政策制定者討論一個(gè)價(jià)值 10 萬(wàn)億美元的問(wèn)題:我們?nèi)绾巫プ∪斯ぶ悄艿慕?jīng)濟(jì)機(jī)會(huì),這將在未來(lái)幾年改變幾乎所有行業(yè)和機(jī)構(gòu)?Gary 展示了這張圖表,展示了半導(dǎo)體行業(yè)面臨的 1,000 倍挑戰(zhàn)。
事實(shí)上,隨著計(jì)算需求大約每 3.5 個(gè)月增長(zhǎng) 2 倍,人工智能挑戰(zhàn)是一個(gè)不斷變化的目標(biāo)。
近年來(lái),美中關(guān)系日益緊張,導(dǎo)致美國(guó)阻止中國(guó)獲得先進(jìn)的半導(dǎo)體技術(shù)和設(shè)備。這包括使用高級(jí)工具,例如極紫外 (EUV) 光刻。因此,據(jù)報(bào)道,只有臺(tái)積電、三星和英特爾在 10nm 以下的技術(shù)節(jié)點(diǎn)規(guī)模上保持競(jìng)爭(zhēng)。因此,分析師表示,中國(guó)公司將替代資源集中在成熟的芯片技術(shù)上是有道理的。
這可以解釋多家中國(guó)公司采用混合鍵合作為核心技術(shù)的原因?;旌辖壎ㄔ试S他們用系統(tǒng)級(jí) 3D 縮放代替維度節(jié)點(diǎn)縮放。
2018年8月,長(zhǎng)江存儲(chǔ)在閃存峰會(huì)上正式發(fā)布突破性的Xtacking架構(gòu),并獲得Best of Show獎(jiǎng)。對(duì)于其3D NAND產(chǎn)品,它使用兩條半導(dǎo)體生產(chǎn)線,一條用于3D NAND多級(jí)存儲(chǔ)器,一條用于外圍(存儲(chǔ)器控制)電路,如下圖所示。
2020 年 9 月,另一家中國(guó)公司 IC League 在一篇題為“ Breaking the Memory Wall for AI Chip with a New Dimension”的論文中公布了其面向 AI 的 IC 開發(fā)的片上異構(gòu)集成技術(shù) (HITOC) 的成果。
引用論文中的內(nèi)容,“使用 HITOC,我們有兩個(gè)晶圓,邏輯晶圓和內(nèi)存晶圓,鍵合在一起(使用混合鍵合)[見(jiàn)上圖]。在邏輯晶片上,我們有處理單元池。另一個(gè)晶圓上的邏輯池下方是 DRAM 陣列池?!?nbsp;IC League 報(bào)告的結(jié)果優(yōu)于整體改進(jìn)的數(shù)量級(jí),如下表所示。
在 ISSCC 2022 上,阿里巴巴在題為“184QPS/W 64Mb/mm2 3D Logic-to-DRAM Hybrid Bonding with Process-Near-Memory Engine for Recommendation System”的論文中展示了使用混合鍵合的 AI 計(jì)算設(shè)備的 1000 多倍改進(jìn)。
該論文正確地指出,對(duì)于 AI 計(jì)算,數(shù)據(jù)傳輸主導(dǎo)著系統(tǒng)性能和功耗。因此,克服“記憶墻”是人工智能計(jì)算的關(guān)鍵,隨著人工智能模型計(jì)算需求規(guī)模的迅速擴(kuò)大。
該論文詳細(xì)介紹了利用混合綁定從多組 DRAM 直接連接到 AI 處理器邏輯的設(shè)備架構(gòu)。商品市場(chǎng)上 DRAM 的裸片尺寸相當(dāng)小,小于 50 mm 2部分是由于較高的良率和 JEDEC 標(biāo)準(zhǔn)的限制。有意思的是,阿里巴巴的logic-to-DRAM 3D芯片是真正意義上的大芯片;602.22 毫米2. 通過(guò)這樣做,這項(xiàng)工作的一個(gè)重要方面是將邏輯和相應(yīng)的 DRAM 構(gòu)建為一個(gè)完整的系統(tǒng)設(shè)計(jì),其中多個(gè) DRAM 組直接連接到下面的多核邏輯。然后,我們甚至可以將這種 3D Logic-to-DRAM 概念擴(kuò)展到全晶圓級(jí)芯片,如 Cerebra 的 Wafer-Scale-Engine (CS-2)。不幸的是,Cerebra 的晶圓級(jí)引擎目前僅使用 SRAM。想象一下,如果一個(gè)完整的 DRAM 晶圓將直接混合鍵合在 Cerebra 的晶圓級(jí)引擎上。該公司透露,其 CS-2 具有 40 GB 的片上 SRAM。在相同尺寸下,DRAM 可以輕松提供超過(guò) 1 TB 或至少 25 倍以上的容量?,F(xiàn)在,我們離打破記憶墻又近了一步。
阿里巴巴的論文標(biāo)題表明,該工作針對(duì)推薦系統(tǒng)的人工智能部分,阿里巴巴對(duì)此非常感興趣,并一直在開發(fā)包括發(fā)布工作在內(nèi)的系統(tǒng)自 2017 年以來(lái)。本文提出了在性能和功耗降低方面非常重要的突破?!芭c CPU-DRAM 系統(tǒng)相比,我們的芯片實(shí)現(xiàn)了 9.78 倍的加速。請(qǐng)注意,通過(guò)擴(kuò)大混合綁定塊的數(shù)量或使用更先進(jìn)的工藝技術(shù)來(lái)服務(wù)更復(fù)雜的推薦模型,可以進(jìn)一步提高吞吐量和內(nèi)存容量。在能源效率方面,這在內(nèi)存受限的應(yīng)用程序中很重要,我們的工作達(dá)到了 184.11QPS/W(QPS – Queries per Second),比 CPU-DRAM 系統(tǒng)高出 317.43 倍。在面積效率方面,高密度混合鍵合提高了QPS/mm 2660×?!?nbsp;結(jié)果是在使用相對(duì)較舊的 55 nm 工藝節(jié)點(diǎn)進(jìn)行邏輯時(shí)實(shí)現(xiàn)的,并與以 14 nm 處理的頂級(jí) Intel Xeon Gold CPU 進(jìn)行了比較。
這些結(jié)果比 AMD 報(bào)告的V-Cache報(bào)告的結(jié)果要好幾個(gè)數(shù)量級(jí),它使用混合綁定將緩存內(nèi)存添加到其 Ryzen CPU。造成這種差異的原因可能有幾個(gè),包括重新構(gòu)建系統(tǒng)以高度利用混合鍵合技術(shù)的努力。阿里巴巴芯片的架構(gòu)肯定是從頭開始預(yù)期混合鍵合的,而 AMD 的組合可能是事后才想到的。此外,應(yīng)該注意的是,雖然 AMD 報(bào)告使用了 9μm 的垂直連接間距,但中國(guó)供應(yīng)商報(bào)告的垂直間距為 3μ,在某些情況下甚至為 1μ。