2.6萬億晶體管和7nm技術(shù),WSE 2巨無霸芯片來了
全球最大芯片出第二代了!WSE 2 將于今年第三季度上市。WSE 2 采用 7 納米制程工藝,晶體管數(shù)達(dá) 2.6 萬億個(gè)。
近年來大量芯片進(jìn)入市場,旨在加速人工智能和機(jī)器學(xué)習(xí)工作負(fù)載?;诓煌臋C(jī)器學(xué)習(xí)算法,這些芯片通常專注于幾個(gè)關(guān)鍵領(lǐng)域,但它們大多有一個(gè)共同的限制——芯片大小。
兩年前,Cerebras 揭開了芯片設(shè)計(jì)領(lǐng)域的一場革命:他們研發(fā)了一款名為Wafer Scale Engine(WSE)的芯片,擁有 1.2 萬億個(gè)晶體管,是英偉達(dá) GPU Titan V 的 57 倍。WSE 的尺寸比一臺(tái) iPad 還要大。Cerebras 的「暴力美學(xué)」曾引發(fā)人們驚呼:「WSE 的晶體管數(shù)量已經(jīng)超過人類大腦中的神經(jīng)元了!」Cerebras 也因此在業(yè)界聞名。
美國硅谷創(chuàng)企 Cerebras Systems 推出了其新的 Wafer Scale Engine 2(WSE-2)處理器,該處理器為超級(jí)計(jì)算任務(wù)而構(gòu)建,具有破紀(jì)錄的 2.6 萬億個(gè)晶體管(市場上最大的 GPU 只有 540 億個(gè)晶體管)和 85 萬顆 AI 優(yōu)化內(nèi)核,大小類似餐盤,采用臺(tái)積電的 7nm 工藝。這是 Cerebras 第二次使用整個(gè) 300mm 晶圓制造單顆芯片。這么大的晶圓一般會(huì)被切割成數(shù)百個(gè)獨(dú)立芯片,Cerebras 卻將其制成一個(gè)芯片。在龐大的體積之下,這種芯片相比同等算力的 GPU 集群,功耗和所占空間更小。
Tirias Research 首席分析師 Jim McGregor 在一封電子郵件中寫道,雖然對于數(shù)以百萬的 AI 算法來說,Cerebras 不像英偉達(dá)一樣全面,但是 Cerebras 的解決方案顯然已經(jīng)吸引到了許多客戶。從 2019 年交付 WSE 芯片起,在過去的一年里,已經(jīng)有很多重量級(jí)用戶使用了 Cerebras 的產(chǎn)品。比如美國阿貢國家實(shí)驗(yàn)室、勞倫斯利弗莫爾國家實(shí)驗(yàn)室、匹茲堡超級(jí)計(jì)算中心、愛丁堡大學(xué)的超級(jí)計(jì)算中心、葛蘭素史克、東京電子器件等。
在Hot Chips 2020,該公司首席硬件架構(gòu)師Sean Lie表示,Cerebras對客戶的主要好處之一是能夠簡化工作負(fù)載,以前需要使用GPU / TPU機(jī)架,而是可以以計(jì)算相關(guān)的方式在單個(gè)WSE上運(yùn)行。Cerebras在多倫多,圣地亞哥,東京和舊金山擁有約300名員工。該公司首席執(zhí)行官Andrew Feldman表示公司已經(jīng)實(shí)現(xiàn)了盈利,已經(jīng)部署了CS-1的客戶很多,且已有更多的客戶在遠(yuǎn)程試用CS-2。在SC20上,CS-1展示了自己針對火焰模擬的超強(qiáng)計(jì)算能力。在實(shí)際應(yīng)用場景中,快速模擬燃煤電廠的燃燒過程,可以幫助人類預(yù)防大型事故的發(fā)生。
美國能源技術(shù)實(shí)驗(yàn)室的科學(xué)家使用Cerebras CS-1和全球排名第81的超級(jí)計(jì)算機(jī)Joule同時(shí)模擬了發(fā)電廠中的燃燒過程。結(jié)果顯示,CS-1不僅計(jì)算速度比Joule快約200倍以上,能耗和成本也遠(yuǎn)低于傳統(tǒng)CPU超算。具體來說,造價(jià)數(shù)千萬美元、具有84000個(gè)CPU內(nèi)核的Joule能耗為450千瓦,在2.1毫秒內(nèi)完成了計(jì)算;相比之下,研發(fā)成本百萬美元的Cerebras功率約為20千瓦,花費(fèi)時(shí)間約6微秒。
CS-2的部署將于今年第三季度進(jìn)行,價(jià)格已從2-3百萬美元升至“數(shù)百萬”美元。
WSE的出現(xiàn),是因?yàn)橛?xùn)練神經(jīng)網(wǎng)絡(luò)需要花費(fèi)較多的時(shí)間,即便是當(dāng)今最先進(jìn)的模型,也需要幾天或幾周的時(shí)間進(jìn)行訓(xùn)練,大型網(wǎng)絡(luò)則需要數(shù)周。通常做法是在數(shù)十、數(shù)百甚至數(shù)千個(gè)GPU上進(jìn)行分布式訓(xùn)練,以使訓(xùn)練時(shí)間更可控。其中最大的瓶頸,是這些龐大的處理器集群很難編程,而且數(shù)據(jù)必須在處理器和外部 DRAM 存儲(chǔ)器之間進(jìn)行多次傳輸,既浪費(fèi)時(shí)間又消耗能源。所以WSE研發(fā)團(tuán)隊(duì)的初衷是擴(kuò)大芯片,使它與 AI 處理器內(nèi)核一起容納所需的所有數(shù)據(jù)。把功耗降低到千瓦似乎被證明是超級(jí)計(jì)算的一個(gè)關(guān)鍵好處。但不幸的是,Lauterbach對此表示懷疑,他擔(dān)心這項(xiàng)功能是否會(huì)成為數(shù)據(jù)中心的一大賣點(diǎn)。他說道:“雖然很多數(shù)據(jù)中心都在談?wù)摴?jié)約能源,但歸根結(jié)底,他們并不在乎,他們更想要性能。”
一個(gè)CS-2的性能相當(dāng)于整個(gè)GPU集群的性能,同時(shí)具有單個(gè)設(shè)備的簡單性。專為人工智能設(shè)計(jì)的Cerebras WSE突破了人們對芯片尺寸的想象,用很小的能耗和空間提升計(jì)算性能。