谷歌:AI 超級計算機(jī)比英偉達(dá) A100 快且環(huán)保
據(jù)業(yè)內(nèi)信息,近日谷歌公布了其用于訓(xùn)練其人工智能 (AI) 模型的超級計算機(jī)的一些新細(xì)節(jié),并表示該系統(tǒng)比英偉達(dá)公司的同類系統(tǒng)更快、更節(jié)能。谷歌認(rèn)為對于同等大小的系統(tǒng),其芯片比基于英偉達(dá) A100 芯片的系統(tǒng)快 1.7 倍,能效高 1.9 倍。
谷歌自己的定制芯片稱為張量處理單元,均用于谷歌自己的人工智能訓(xùn)練,谷歌之前發(fā)表的論文詳細(xì)介紹了它如何使用自己的光開關(guān)將 4000 多個芯片串在一起成為一臺超級計算機(jī)的。
“A100 是人類迄今為止制造出的最強(qiáng)大 7nm 制程芯片!”這是老黃的原話,英偉達(dá) A100 采用目前最先進(jìn)的臺積電 7nm 制程工藝,擁有 540 億個晶體管,它是一塊 3D 堆疊芯片,面積高達(dá) 826mm^2,GPU 的最大功率達(dá)到了 400W。
英偉達(dá) A100 上搭載了容量 40G 的三星 HBM2 顯存,比 DDR5 速度更快,第三代 Tensor Core。同時它的并聯(lián)效率也有了巨大提升,其采用帶寬 600GB/s 的新版 NVLink,幾乎達(dá)到了 10 倍 PCIE 互聯(lián)速度。
英偉達(dá) A100 也針對云服務(wù)的虛擬化進(jìn)行了升級,因為全新的 multi-instance GPU 機(jī)制,在模擬實(shí)例時,每塊 GPU 的吞吐量增加了 7 倍。最終在跑 AI 模型時,如果用 PyTorch 框架,相比上一代 V100 芯片,A100 在 BERT 模型的訓(xùn)練上性能提升 6 倍,BERT 推斷時性能提升 7 倍。
谷歌的 AI 超級計算機(jī)是通過模型提供數(shù)據(jù)的過程,使它們在諸如用類人文本響應(yīng)查詢或生成圖像等任務(wù)中發(fā)揮作用。Google TPU 現(xiàn)在已經(jīng)是第四代了。谷歌通過自己定制開發(fā)的光開關(guān)將 4000 多個芯片串在一起成為一臺超級計算機(jī),改善這些連接已成為構(gòu)建 AI 超級計算機(jī)的公司之間競爭的關(guān)鍵點(diǎn)。
因為無論是谷歌的 Bard 還是 OpenAI 的 ChatGPT 等技術(shù)的所謂大型語言模型的規(guī)模已經(jīng)爆炸式增長,這意味著它們太大而無法存儲在單個芯片上,這些模型必須分布在數(shù)千個芯片上,然后這些芯片必須協(xié)同工作數(shù)周或更長時間來訓(xùn)練模型。
谷歌的 PaLM 模型是其迄今為止最大的公開披露的語言模型,是通過在 4000 臺芯片超級計算機(jī)中的兩臺超過 50 天的時間內(nèi)將其拆分來訓(xùn)練的。谷歌表示其超級計算機(jī)可以輕松地動態(tài)重新配置芯片之間的連接,有助于避免出現(xiàn)問題并進(jìn)行調(diào)整以提高性能。
谷歌的研究院士和工程師在關(guān)于該系統(tǒng)的博客文章中表示,電路切換使得繞過故障組件變得容易,這種靈活性甚至允許我們改變超級計算機(jī)互連的拓?fù)浣Y(jié)構(gòu),以加速 ML(機(jī)器學(xué)習(xí))模型的性能。
雖然谷歌現(xiàn)在才公布有關(guān)其超級計算機(jī)的詳細(xì)信息,但是自從 2020 年以來,這個超級計算機(jī)一直在谷歌部位于俄克拉荷馬州梅斯縣的數(shù)據(jù)中心上線,谷歌說初創(chuàng)公司 Midjourney 使用該系統(tǒng)訓(xùn)練其模型,該模型在輸入幾句文字后生成新圖像,對于同等大小的系統(tǒng),其芯片比基于英偉達(dá) A100 芯片的系統(tǒng)快 1.7 倍,能效高 1.9 倍,后者與第四代 TPU 同時上市,對此英偉達(dá)沒有回復(fù)。
谷歌認(rèn)為沒有將其第四代 TPU 與英偉達(dá)目前的旗艦 H100 芯片進(jìn)行比較,因為 H100 在谷歌芯片之后上市,并且采用更新的技術(shù)制造。谷歌暗示它可能正在開發(fā)一種新的 TPU 來與英偉達(dá) H100 競爭,但沒有提供任何細(xì)節(jié)。