當(dāng)前位置:首頁 > 新基建 > 新基建
[導(dǎo)讀]Cerebras 展示了其第二代晶圓級引擎的功能,宣布它創(chuàng)造了有史以來在單個設(shè)備上訓(xùn)練的最大 AI 模型的記錄。 首次在單臺設(shè)備上訓(xùn)練了具有 200 億個參數(shù)的自然語言處理網(wǎng)絡(luò) GPT-NeoX 20B。這就是為什么這很重要。

Cerebras 展示了其第二代晶圓級引擎的功能,宣布它創(chuàng)造了有史以來在單個設(shè)備上訓(xùn)練的最大 AI 模型的記錄。

首次在單臺設(shè)備上訓(xùn)練了具有 200 億個參數(shù)的自然語言處理網(wǎng)絡(luò) GPT-NeoX 20B。這就是為什么這很重要。

為什么我們需要訓(xùn)練這么大的模型?

一種新型的神經(jīng)網(wǎng)絡(luò),變壓器,正在接管。如今,Transformer 主要用于自然語言處理 (NLP),其注意力機(jī)制可以幫助發(fā)現(xiàn)句子中單詞之間的關(guān)系,但它們正在擴(kuò)展到其他 AI 應(yīng)用程序,包括視覺。變壓器越大,精度越高。語言模型現(xiàn)在通常有數(shù)十億個參數(shù),并且它們正在迅速增長,沒有任何放緩的跡象。

使用大型變壓器的一個關(guān)鍵領(lǐng)域是在醫(yī)學(xué)研究中的應(yīng)用,例如表觀基因組學(xué),它們被用來模擬基因的“語言”——DNA序列。

為什么這在單個設(shè)備上完成很重要?

今天的大型模型大多使用多處理器系統(tǒng)進(jìn)行訓(xùn)練,通常是 GPU。Cerebras 表示,它的客戶發(fā)現(xiàn)在數(shù)百個處理器上劃分巨大的模型是一個耗時的過程,這對于每個模型和每個特定的多處理器系統(tǒng)都是獨(dú)一無二的,基于模型的屬性和每個處理器的特性(即,什么它是一種處理器,它有多少內(nèi)存)和 I/O 網(wǎng)絡(luò)的特性。這項(xiàng)工作不能移植到其他模型或系統(tǒng)。

通常對于多處理器系統(tǒng),有三種類型的并行在起作用:

· 如果模型適合單個處理器,則可以將其復(fù)制到其他處理器上,并且每個處理器都使用數(shù)據(jù)子集進(jìn)行訓(xùn)練——這稱為數(shù)據(jù)并行性,相對簡單。

· 如果模型不適合一個處理器,則模型可以在處理器之間拆分,每個處理器上運(yùn)行一個或多個層——這稱為流水線模型并行性。但是,這些層需要按順序運(yùn)行,因此用戶必須手動評估每層需要多少內(nèi)存和 I/O,以確保沒有瓶頸。它比數(shù)據(jù)并行更復(fù)雜。

· 如果模型的一層太大以至于它無法容納在一個處理器上,它甚至?xí)訌?fù)雜。張量模型并行性必須用于跨處理器拆分層,增加了另一個維度的復(fù)雜性,這也會對內(nèi)存和 I/O 帶寬造成壓力。

大型模型,例如 Cerebras 公告中的 GPT-NeoX 20B,需要所有三種類型的并行性進(jìn)行訓(xùn)練。

Cerebras 的 CS-2 避免了模型并行化的需要,部分原因在于其處理器的龐大尺寸——它實(shí)際上是一個巨大的850,000 核處理器,位于單個晶圓大小的芯片上,足以容納最大的網(wǎng)絡(luò)層——部分原因是 Cerebras從計(jì)算中分離出內(nèi)存。可以添加更多內(nèi)存來支持更多參數(shù),而無需添加更多計(jì)算,從而保持系統(tǒng)計(jì)算部分的架構(gòu)相同。

無需使用并行性,無需花費(fèi)時間和資源手動劃分模型以在多處理器系統(tǒng)上運(yùn)行。此外,如果沒有流程的定制部分,模型變得可移植。在具有多個參數(shù)的 GPT 模型之間進(jìn)行更改只需更改一個文件中的四個變量。類似地,在 GPT-J 和 GPT-Neo 之間切換也只需要幾次按鍵。據(jù) Cerebras 稱,這可以節(jié)省數(shù)月的工程時間。

對更廣泛的行業(yè)有何影響?

NLP 模型已經(jīng)變得如此龐大,以至于在實(shí)踐中,只有少數(shù)公司擁有足夠的資源——無論是計(jì)算成本還是工程時間——來訓(xùn)練它們。

Cerebras 希望通過在云中提供其 CS-2 系統(tǒng),以及幫助客戶減少所需的工程時間和資源,它可以為更多的公司提供大規(guī)模的模型培訓(xùn),即使是那些沒有龐大系統(tǒng)工程團(tuán)隊(duì)的公司. 這包括加速科學(xué)和醫(yī)學(xué)研究以及 NLP。

單個 CS-2 可以訓(xùn)練具有數(shù)千億甚至數(shù)萬億參數(shù)的模型,因此對于未來的巨大網(wǎng)絡(luò)以及今天的網(wǎng)絡(luò)來說,都有足夠的空間。

CEREBRAS 有真實(shí)世界的例子嗎?

生物制藥公司艾伯維(AbbVie)正在使用 CS-2 進(jìn)行生物醫(yī)學(xué) NLP 轉(zhuǎn)換器培訓(xùn),這為公司的翻譯服務(wù)提供支持,使龐大的生物醫(yī)學(xué)文獻(xiàn)庫可跨 180 種語言進(jìn)行搜索。

“我們在編程和訓(xùn)練 BERT LARGE模型時遇到的一個常見挑戰(zhàn)是在足夠長的時間內(nèi)提供足夠的 GPU 集群資源,”生物制藥公司 AbbVie 的人工智能負(fù)責(zé)人 Brian Martin 在一份聲明中說。“CS-2 系統(tǒng)將提供可緩解大部分挑戰(zhàn)的掛鐘改進(jìn),同時提供更簡單的編程模型,通過使我們的團(tuán)隊(duì)能夠更快地迭代和測試更多想法來加速我們的交付?!?

葛蘭素史克公司使用第一代 Cerebras 系統(tǒng) CS-1 進(jìn)行表觀基因組學(xué)研究。該系統(tǒng)啟用了使用數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò),否則該數(shù)據(jù)集會非常大。

GSK 人工智能和機(jī)器學(xué)習(xí)高級副總裁 Kim Branson 在一份聲明中說:“葛蘭素史克通過其基因組和基因研究生成了極其龐大的數(shù)據(jù)集,這些數(shù)據(jù)集需要新的設(shè)備來進(jìn)行機(jī)器學(xué)習(xí)?!?“Cerebras CS-2 是一個關(guān)鍵組件,它允許 GSK 使用以前無法達(dá)到的規(guī)模和大小的生物數(shù)據(jù)集訓(xùn)練語言模型。這些基礎(chǔ)模型構(gòu)成了我們許多人工智能系統(tǒng)的基礎(chǔ),并在發(fā)現(xiàn)轉(zhuǎn)化藥物方面發(fā)揮著至關(guān)重要的作用?!?

其他 Cerebras 用戶包括 TotalEnergies,他們使用 CS-2 加速電池、生物燃料、風(fēng)流、鉆井和 CO 2儲存的模擬;國家能源技術(shù)實(shí)驗(yàn)室使用 CS-2 加速基于物理的計(jì)算流體動力學(xué);阿貢國家實(shí)驗(yàn)室一直在使用 CS-1 進(jìn)行 Covid-19 研究和抗癌藥物;還有更多的例子。


聲明:該篇文章為本站原創(chuàng),未經(jīng)授權(quán)不予轉(zhuǎn)載,侵權(quán)必究。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉