中國(guó)可能會(huì)在人工智能計(jì)算領(lǐng)域獲勝

時(shí)間：2022-04-20 12:20:01

關(guān)鍵字：人工智能 AI

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]未來(lái)十年的技術(shù)驅(qū)動(dòng)力是人工智能。引用應(yīng)用材料公司首席執(zhí)行官 Gary Dickerson 的話：“我們準(zhǔn)備好迎接我們一生中最大的機(jī)會(huì)了嗎？” 迪克森一直在世界各地與芯片制造商和政策制定者討論一個(gè)價(jià)值 10 萬(wàn)億美元的問(wèn)題：我們?nèi)绾巫プ∪斯ぶ悄艿慕?jīng)濟(jì)機(jī)會(huì)，這將在未來(lái)幾年改變幾乎所有行業(yè)和機(jī)構(gòu)？Gary 展示了這張圖表，展示了半導(dǎo)體行業(yè)面臨的 1,000 倍挑戰(zhàn)。

未來(lái)十年的技術(shù)驅(qū)動(dòng)力是人工智能。引用應(yīng)用材料公司首席執(zhí)行官 Gary Dickerson 的話：“我們準(zhǔn)備好迎接我們一生中最大的機(jī)會(huì)了嗎？” 迪克森一直在世界各地與芯片制造商和政策制定者討論一個(gè)價(jià)值 10 萬(wàn)億美元的問(wèn)題：我們?nèi)绾巫プ∪斯ぶ悄艿慕?jīng)濟(jì)機(jī)會(huì)，這將在未來(lái)幾年改變幾乎所有行業(yè)和機(jī)構(gòu)？Gary 展示了這張圖表，展示了半導(dǎo)體行業(yè)面臨的 1,000 倍挑戰(zhàn)。

事實(shí)上，隨著計(jì)算需求大約每 3.5 個(gè)月增長(zhǎng) 2 倍，人工智能挑戰(zhàn)是一個(gè)不斷變化的目標(biāo)。

近年來(lái)，美中關(guān)系日益緊張，導(dǎo)致美國(guó)阻止中國(guó)獲得先進(jìn)的半導(dǎo)體技術(shù)和設(shè)備。這包括使用高級(jí)工具，例如極紫外 (EUV) 光刻。因此，據(jù)報(bào)道，只有臺(tái)積電、三星和英特爾在 10nm 以下的技術(shù)節(jié)點(diǎn)規(guī)模上保持競(jìng)爭(zhēng)。因此，分析師表示，中國(guó)公司將替代資源集中在成熟的芯片技術(shù)上是有道理的。

這可以解釋多家中國(guó)公司采用混合鍵合作為核心技術(shù)的原因?；旌辖壎ㄔ试S他們用系統(tǒng)級(jí) 3D 縮放代替維度節(jié)點(diǎn)縮放。

2018年8月，長(zhǎng)江存儲(chǔ)在閃存峰會(huì)上正式發(fā)布突破性的Xtacking架構(gòu)，并獲得Best of Show獎(jiǎng)。對(duì)于其3D NAND產(chǎn)品，它使用兩條半導(dǎo)體生產(chǎn)線，一條用于3D NAND多級(jí)存儲(chǔ)器，一條用于外圍（存儲(chǔ)器控制）電路，如下圖所示。

2020 年 9 月，另一家中國(guó)公司 IC League 在一篇題為“ Breaking the Memory Wall for AI Chip with a New Dimension”的論文中公布了其面向 AI 的 IC 開發(fā)的片上異構(gòu)集成技術(shù) (HITOC) 的成果。

引用論文中的內(nèi)容，“使用 HITOC，我們有兩個(gè)晶圓，邏輯晶圓和內(nèi)存晶圓，鍵合在一起（使用混合鍵合）[見(jiàn)上圖]。在邏輯晶片上，我們有處理單元池。另一個(gè)晶圓上的邏輯池下方是 DRAM 陣列池?！?nbsp;IC League 報(bào)告的結(jié)果優(yōu)于整體改進(jìn)的數(shù)量級(jí)，如下表所示。

在 ISSCC 2022 上，阿里巴巴在題為“184QPS/W 64Mb/mm2 3D Logic-to-DRAM Hybrid Bonding with Process-Near-Memory Engine for Recommendation System”的論文中展示了使用混合鍵合的 AI 計(jì)算設(shè)備的 1000 多倍改進(jìn)。

該論文正確地指出，對(duì)于 AI 計(jì)算，數(shù)據(jù)傳輸主導(dǎo)著系統(tǒng)性能和功耗。因此，克服“記憶墻”是人工智能計(jì)算的關(guān)鍵，隨著人工智能模型計(jì)算需求規(guī)模的迅速擴(kuò)大。

該論文詳細(xì)介紹了利用混合綁定從多組 DRAM 直接連接到 AI 處理器邏輯的設(shè)備架構(gòu)。商品市場(chǎng)上 DRAM 的裸片尺寸相當(dāng)小，小于 50 mm 2部分是由于較高的良率和 JEDEC 標(biāo)準(zhǔn)的限制。有意思的是，阿里巴巴的logic-to-DRAM 3D芯片是真正意義上的大芯片；602.22 毫米2. 通過(guò)這樣做，這項(xiàng)工作的一個(gè)重要方面是將邏輯和相應(yīng)的 DRAM 構(gòu)建為一個(gè)完整的系統(tǒng)設(shè)計(jì)，其中多個(gè) DRAM 組直接連接到下面的多核邏輯。然后，我們甚至可以將這種 3D Logic-to-DRAM 概念擴(kuò)展到全晶圓級(jí)芯片，如 Cerebra 的 Wafer-Scale-Engine (CS-2)。不幸的是，Cerebra 的晶圓級(jí)引擎目前僅使用 SRAM。想象一下，如果一個(gè)完整的 DRAM 晶圓將直接混合鍵合在 Cerebra 的晶圓級(jí)引擎上。該公司透露，其 CS-2 具有 40 GB 的片上 SRAM。在相同尺寸下，DRAM 可以輕松提供超過(guò) 1 TB 或至少 25 倍以上的容量?，F(xiàn)在，我們離打破記憶墻又近了一步。

阿里巴巴的論文標(biāo)題表明，該工作針對(duì)推薦系統(tǒng)的人工智能部分，阿里巴巴對(duì)此非常感興趣，并一直在開發(fā)包括發(fā)布工作在內(nèi)的系統(tǒng)自 2017 年以來(lái)。本文提出了在性能和功耗降低方面非常重要的突破?！芭c CPU-DRAM 系統(tǒng)相比，我們的芯片實(shí)現(xiàn)了 9.78 倍的加速。請(qǐng)注意，通過(guò)擴(kuò)大混合綁定塊的數(shù)量或使用更先進(jìn)的工藝技術(shù)來(lái)服務(wù)更復(fù)雜的推薦模型，可以進(jìn)一步提高吞吐量和內(nèi)存容量。在能源效率方面，這在內(nèi)存受限的應(yīng)用程序中很重要，我們的工作達(dá)到了 184.11QPS/W（QPS – Queries per Second），比 CPU-DRAM 系統(tǒng)高出 317.43 倍。在面積效率方面，高密度混合鍵合提高了QPS/mm 2660×?！?nbsp;結(jié)果是在使用相對(duì)較舊的 55 nm 工藝節(jié)點(diǎn)進(jìn)行邏輯時(shí)實(shí)現(xiàn)的，并與以 14 nm 處理的頂級(jí) Intel Xeon Gold CPU 進(jìn)行了比較。

這些結(jié)果比 AMD 報(bào)告的V-Cache報(bào)告的結(jié)果要好幾個(gè)數(shù)量級(jí)，它使用混合綁定將緩存內(nèi)存添加到其 Ryzen CPU。造成這種差異的原因可能有幾個(gè)，包括重新構(gòu)建系統(tǒng)以高度利用混合鍵合技術(shù)的努力。阿里巴巴芯片的架構(gòu)肯定是從頭開始預(yù)期混合鍵合的，而 AMD 的組合可能是事后才想到的。此外，應(yīng)該注意的是，雖然 AMD 報(bào)告使用了 9μm 的垂直連接間距，但中國(guó)供應(yīng)商報(bào)告的垂直間距為 3μ，在某些情況下甚至為 1μ。