當(dāng)前位置:首頁 > 公眾號精選 > AI科技大本營
[導(dǎo)讀]編譯|禾木木出品|?AI科技大本營(ID:rgznai100)微軟和英偉達(dá)聯(lián)手推出最大、最強的人工智能語言模型:Megatron-Turing自然語言生成模型(MT-NLG)。微軟和英偉達(dá)宣布,他們聯(lián)合推出迄今為止最大和最強的人工智能驅(qū)動的語言模型:Megatron-Turing...

微軟、英偉達(dá)聯(lián)手推出語言模型?MT-NLP,5300億參數(shù),現(xiàn)存最大


編譯 | 禾木木


出品 | AI科技大本營(ID:rgznai100)



微軟英偉達(dá)聯(lián)手推出最大、最強的人工智能語言模型:Megatron-Turing自然語言生成模型(MT-NLG)。

微軟和英偉達(dá)宣布,他們聯(lián)合推出迄今為止最大和最強的人工智能驅(qū)動的語言模型:Megatron-Turing(MT-NLP)。從公開披露的角度來看,MT-NLP 應(yīng)該是現(xiàn)存最大的公共模型。在訓(xùn)練過程一共使用了 4480 塊英偉達(dá) A100 GPU ,作為兩家公司 Turing NLG 17B 和 Megatron-LM 模型的繼承者,MT-NLP 包含5300億個參數(shù),在一系列廣泛的自然語言任務(wù)中實現(xiàn)了無與倫比的準(zhǔn)確性,例如:
  • 完成預(yù)測
  • 閱讀理解
  • 常識論證
  • 自然語言推理
  • 詞義消歧


微軟、英偉達(dá)聯(lián)手推出語言模型?MT-NLP,5300億參數(shù),現(xiàn)存最大



大規(guī)模語言模型

近年來,自然語言處理 (NLP) 中基于 Transformer 的語言模型在大規(guī)模計算、大型數(shù)據(jù)集以及用于訓(xùn)練這些模型的高級算法和軟件的推動下推動了快速發(fā)展。具有大量參數(shù)、更多數(shù)據(jù)和更多訓(xùn)練時間的語言模型可以獲得更豐富、更細(xì)致的語言理解。因此,它們可以很好地概括為有效的零樣本(zero-shot)或少樣本(few-shot)學(xué)習(xí)器,在許多 NLP 任務(wù)和數(shù)據(jù)集上具有很高的準(zhǔn)確性。NLP 領(lǐng)域的任務(wù)包括摘要、自動對話生成、翻譯、語義搜索以及代碼自動生成等。當(dāng)前,SOTA NLP 模型中的參數(shù)數(shù)量呈指數(shù)增長,如下圖 1 所示。微軟、英偉達(dá)聯(lián)手推出語言模型?MT-NLP,5300億參數(shù),現(xiàn)存最大圖 1. SOTA NLP 模型大小隨時間變化的趨勢然而,訓(xùn)練此類模型具有挑戰(zhàn)性,主要是以下兩個原因:
  • 即使是最大的 GPU,也不再可能在內(nèi)存中擬合這些模型的參數(shù)。
  • 如果不特別注意優(yōu)化算法、軟件和硬件堆棧,則所需的大量計算操作可能會導(dǎo)致不切實際的長訓(xùn)練時間。
AI 領(lǐng)域的大量創(chuàng)新和突破使訓(xùn)練 MT-NLG 變得可行。例如,在英偉達(dá)和微軟合作的一個項目中,研究者們通過將最先進(jìn)的 GPU 加速訓(xùn)練基礎(chǔ)設(shè)施與尖端的分布式學(xué)習(xí)軟件堆棧進(jìn)行融合,實現(xiàn)了前所未有的訓(xùn)練效率。用數(shù)千億的 token 構(gòu)建了高質(zhì)量的自然語言訓(xùn)練語料庫,并開發(fā)了提高優(yōu)化效率和穩(wěn)定性的解決方案。下面,將詳細(xì)介紹該研究的各個方面以及該方法的結(jié)果。


微軟、英偉達(dá)聯(lián)手推出語言模型?MT-NLP,5300億參數(shù),現(xiàn)存最大


大規(guī)模培訓(xùn)基礎(chǔ)設(shè)施

在 英偉達(dá) A100 Tensor Core GPU 和 HDR InfiniBand 網(wǎng)絡(luò)的支持下,NVIDIA Selene 和 Microsoft Azure NDv4 等最先進(jìn)的超級計算集群具有足夠的計算能力,可以在合理的時間范圍內(nèi)訓(xùn)練具有數(shù)萬億個參數(shù)的模型。然而,要充分發(fā)揮這些超級計算機的潛力,需要在數(shù)千個 GPU 之間實現(xiàn)并行性,在內(nèi)存和計算上都高效且可擴展。然而,現(xiàn)有的并行策略(例如數(shù)據(jù)、pipeline 或 tensor-slicing)在內(nèi)存和計算效率方面存在以下權(quán)衡,無法用于訓(xùn)練這種規(guī)模的模型:
  • 數(shù)據(jù)并行實現(xiàn)了良好的計算效率,但它復(fù)制了模型狀態(tài)并且無法利用聚合分布式內(nèi)存。
  • tensor-slicing 需要 GPU 之間的大量通信,所以單個節(jié)點以外的計算效率受限,使得高帶寬 NVLink 不可用。
  • pipeline 并行性可以跨節(jié)點有效擴展。然而,為了提高計算效率,它需要大批量、粗粒度的并行和完美的負(fù)載平衡,這在規(guī)模上是不可能的。



軟件設(shè)計

通過英偉達(dá) Megatron-LM 和微軟 DeepSpeed 之間的合作,創(chuàng)建了一個高效且可擴展的 3D 并行系統(tǒng),能夠?qū)?shù)據(jù)、pipeline 和 tensor-slicing 的并行性結(jié)合在一起來應(yīng)對這些挑戰(zhàn)。通過結(jié)合 pipeline 和 tensor-slicing 并行性,研究者們可以在它們最有效的范圍內(nèi)操作它們。更具體地說,該系統(tǒng)使用來自 Megatron-LM 的 tensor-slicing 來擴展節(jié)點內(nèi)的模型,并使用來自 DeepSpeed 的 pipeline 并行性來跨節(jié)點擴展模型。例如,對于 5300 億模型,每個模型副本(replica)跨越 280 個英偉達(dá) A100 GPU,具有節(jié)點內(nèi)的 8 路 tensor-slicing 和跨節(jié)點的 35 路 pipeline 并行性。然后,我們使用 DeepSpeed 的數(shù)據(jù)并行性進(jìn)一步擴展到數(shù)千個 GPU。



硬件系統(tǒng)

模型訓(xùn)練是在基于英偉達(dá) DGX SuperPOD 的 Selene 超級計算機上以混合精度完成的,該超級計算機由 560 個 DGX A100 服務(wù)器提供支持,這些服務(wù)器以完整的胖樹配置與 HDR InfiniBand 聯(lián)網(wǎng)。每個 DGX A100 有 8 個英偉達(dá) A100 80GB Tensor Core GPU,并通過 NVLink 和 NVSwitch 相互完全連接。微軟為 Azure NDv4 云超級計算機使用了類似的參考架構(gòu)。



系統(tǒng)吞吐量

我們考慮了我們的系統(tǒng)在 Selene 上的 280、350 和 420 DGX A100 服務(wù)器上,批量大小為 1920 的 5300 億參數(shù)模型的端到端吞吐量。研究者們觀察到的迭代時間分別為 60.1、50.2 和 44.4 秒。這些分別對應(yīng)于每個 GPU 126、121 和 113 teraFLOP/s。

訓(xùn)練數(shù)據(jù)集和模型配置

研究者們使用了 Transformer 解碼器的架構(gòu),它是一個從左到右生成的基于 Transformer 的語言模型,由 5300 億個參數(shù)組成。層數(shù)、隱藏維度和注意力頭分別為 105、20480 和 128。基于開源數(shù)據(jù)集集合 The Pile,研究者構(gòu)建了訓(xùn)練數(shù)據(jù)集。首先,從 The Pile 中選擇了相對質(zhì)量最高的數(shù)據(jù)集子集(圖 2 中的前 11 行)。然后,按照與用于生成 Pile-CC 的方法類似的方法,下載并過濾了兩個最近的 Common Crawl (CC) 快照。并對 CC 數(shù)據(jù)采取的步驟包括從原始 HTML 文件中提取文本、使用在高質(zhì)量數(shù)據(jù)上訓(xùn)練的分類器對提取的文檔進(jìn)行評分,以及根據(jù)評分過濾文檔。在構(gòu)建訓(xùn)練數(shù)據(jù)集時,文檔去重是必要的,因為相同的內(nèi)容可以存在于不同數(shù)據(jù)集的多個文檔中。研究者們使用 min-hash LSH 在文檔級別使用模糊重復(fù)數(shù)據(jù)刪除過程來計算稀疏文檔圖和其中的連接組件以識別重復(fù)文檔。然后,在從每個連接組件的重復(fù)文檔中選擇代表性文檔時,根據(jù)數(shù)據(jù)集的質(zhì)量使用優(yōu)先級順序。最后,使用基于 n-gram 的過濾從訓(xùn)練數(shù)據(jù)集中刪除下游任務(wù)數(shù)據(jù)以避免污染。最終的訓(xùn)練集包括 15 個數(shù)據(jù)集,總共包含 3390 億個 token。在訓(xùn)練期間,研究者根據(jù)圖 2 中給出的可變采樣權(quán)重將數(shù)據(jù)集混合到異構(gòu)批次中,重點放在更高質(zhì)量的數(shù)據(jù)集上,我在 2700 億個 token 上訓(xùn)練了模型。
Dataset Tokens (billions) Weights (%) Epochs
Books3 25.7 14.3 1.5
OpenWebText2 14.8 19.3 3.6
Stack Exchange 11.6 5.7 1.4
PubMed Abstracts 4.4 2.9 1.8
Wikipedia 4.2 4.8 3.2
Gutenberg (PG-19) 2.7 0.9 0.9
BookCorpus2 1.5 1.0 1.8
NIH ExPorter 0.3 0.2 1.8
Pile-CC 49.8 9.4 0.5
ArXiv 20.8 1.4 0.2
GitHub 24.3 1.6 0.2
CC-2020-50 68.7 13.0 0.5
CC-2021-04 82.6 15.7 0.5
RealNews 21.9 9.0 1.1
CC-Stories 5.3 0.9 0.5
圖2:用于訓(xùn)練 MT-NLG 模型的數(shù)據(jù)集。


微軟、英偉達(dá)聯(lián)手推出語言模型?MT-NLP,5300億參數(shù),現(xiàn)存最大


訓(xùn)練結(jié)果和成就

近期語言模型 (LM) 方面的工作表明,強大的預(yù)訓(xùn)練模型通??梢栽诓贿M(jìn)行微調(diào)的情況下,在廣泛的 NLP 任務(wù)中具有競爭力。為了了解擴大 LM 如何增強其零樣本或少樣本學(xué)習(xí)能力,研究者評估了 MT-NLG,并證明它在多個類別的 NLP 任務(wù)中建立了新的 SOTA。為確保評估的全面性,我們選擇了跨越五個不同領(lǐng)域的八項任務(wù):
  • 在文本預(yù)測任務(wù) LAMBADA 中,模型預(yù)測給定段落的最后一個詞。
  • 在閱讀理解任務(wù) RACE-h 和 BoolQ 中,模型根據(jù)給定的段落生成問題的答案。
  • 在常識推理任務(wù) PiQA、HellaSwag 和 Winogrande 中,每個任務(wù)都需要一定程度的常識知識,超出語言的統(tǒng)計模式才能解決。
  • 對于自然語言推理,兩個硬基準(zhǔn)(ANLI-R2 和 HANS),針對過去模型的典型失敗案例。
  • 詞義消歧任務(wù) WiC 從上下文評估多義詞的理解。
為了增強可重復(fù)性,研究者們將基于開源項目 lm-evaluation-harness 評估設(shè)置,并進(jìn)行了適當(dāng)?shù)奶囟ㄈ蝿?wù)更改,以便于研究者們的設(shè)置與之前的工作更緊密地保持一致。研究者們在零樣本、單樣本和少樣本設(shè)置中以沒有搜索最有價值的樣本方法評估了 MT-NLG。表 2 展示了準(zhǔn)確率度量的結(jié)果。如果測試集是公開可用的,研究者會在測試集上進(jìn)行評估;否則,將會報告開發(fā)集上的數(shù)字。最終公考報告 LAMBADA、RACE-h 和 ANLI-R2 上的測試集和開發(fā)集上的其他任務(wù)。
Tasks Zero-shot One-shot Few-shot
Lambada 0.766* 0.731* 0.872*
BoolQ 0.782 0.825 0.848
RACE-h 0.479 0.484 0.479
PiQA 0.820* 0.810* 0.832*
HellaSwag 0.802 0.802 0.824
WinoGrande 0.730 0.737 0.789
ANLI-R2 0.366 0.397 0.396
HANS 0.607 0.649 0.702
WiC 0.486 0.513 0.585
圖3:MT-NLG 在 PiQA 開發(fā)集和 LAMBADA 測試集的所有設(shè)置上都實現(xiàn)了 SOTA(用 * 表示)MT-NLG 在 PiQA 開發(fā)集和 LAMBADA 測試集的所有設(shè)置上都實現(xiàn)了 SOTA,并且在其他類別的類似單體模型中同樣表現(xiàn)出色。此外,MT-NLG 相比于之前的模型在訓(xùn)練上需要更少的 token ,也就是說 MT-NLG 具備更快的學(xué)習(xí)能力。除了報告基準(zhǔn)任務(wù)的匯總指標(biāo)外,研究者還對模型輸出進(jìn)行了定性分析,并得出了有趣的發(fā)現(xiàn)。在分析中觀察到,即使符號被嚴(yán)重混淆(樣本2),該模型也可以從上下文中推斷出基本的數(shù)學(xué)運算(樣本1)。雖然還不能稱上具有算術(shù)能力,但該模型似乎超出了僅記憶算術(shù)的水平。這是來自 HANS 測試集的任務(wù),一個包含簡單句法結(jié)構(gòu)的任務(wù)會被作為問題提出來,并提示模型給出答案。盡管這些結(jié)構(gòu)很簡單,但現(xiàn)有的自然語言推理(NLI)模型往往很難處理這樣的輸入。而微調(diào)的模型經(jīng)常從NLI數(shù)據(jù)集中的系統(tǒng)性偏差中發(fā)現(xiàn)某些句法結(jié)構(gòu)和蘊含關(guān)系之間的虛假關(guān)聯(lián)。
Tasks Sample 1 Sample 2
Inferring mathematical operations Prompt:Q: 11 # 2 = ?A: 5.5Q: 18 # 9 = ?A: 2Q: 35 # 4 = ?A: 8.75Q: 27 # 9 = ?A: 3Q: 75 # 6 = ?A: MT-NLG:12.5Q: 45 # 5 = ?A: 9Q: 18 # 6 = ?A: 3 Prompt:Q: 11 $^% 2 = ?A: 22 Q: 3 $^% 9 = ?A: 27 Q: 12 $^% 4 = ?A: 48 Q: 7 $^% 7 = ?A: 49 Q: 8 $^% 5 = ?A: MT-NLG:40Q: 9 $^% 6 = ?A: 54Q: 10 $^% 5 = ?A: 50
Natural language inference on different syntactic structures Prompt:The banker forgot that the judge advised the professors.Question: The judge advised the professors. True or False?Answer: MT-NLG:True. The banker forgot that the judge advised the professors. Prompt:Famous professors supported the secretary.Question: Professors supported the secretary. True or False?Answer: MT-NLG:True. The secretary was supported by famous professors.
圖4:MT-NLG 在不同句法結(jié)構(gòu)下的數(shù)學(xué)運算推理和自然語言推理的樣本。


微軟、英偉達(dá)聯(lián)手推出語言模型?MT-NLP,5300億參數(shù),現(xiàn)存最大



結(jié)語

今天,人工智能技術(shù)的進(jìn)步正在超越摩爾定律的極限。新一代的 GPU 以閃電般的速度互連,不斷升級算力。與此同時,AI 模型的擴展帶來了更好的性能,而且似乎前景無限。MT-NLG 就是一個例子,當(dāng)像英偉達(dá) Selene 或微軟 Azure NDv4 這樣的超級計算機與 Megatron-LM 和 DeepSpeed 的軟件創(chuàng)新一起用來訓(xùn)練大型語言 AI 模型時,可能會發(fā)生什么?DeepSpeed 和 Megatron-LM 的創(chuàng)新將助力未來更多的 AI 模型開發(fā),并使大型 AI 模型的訓(xùn)練成本更低、速度更快。在成本方面也是不可忽視的問題。比如說 MT-NLP、AI21 Labs 的 Jurassic-1、華為的盤古-Alpha、Naver 的 HyperCLOVA 和北京人工智能研究院的五道 2.0 等項目。例如 OpenAI 的 GPT-3 的訓(xùn)練數(shù)據(jù)集大小為 45 TB,一個 GPT-3 模型可能需要要 700G 的硬盤空間來存儲。通常認(rèn)為,模型的參數(shù)越多,它可以完成的任務(wù)就越復(fù)雜,性能也越好。但是越來越多的研究對這個概念提出了質(zhì)疑。今年9月 Google 發(fā)布 FLAN ,與 GPT-3 的 1750 億個參數(shù)相比,F(xiàn)LAN 擁有 1370 億個參數(shù),在研究人員對其進(jìn)行測試的 25 項任務(wù)中,有19項超過了 zero-shot 175B GPT-3。康奈爾大學(xué)的自然語言處理研究員 Maria Antoniak 也曾公開表示,是否一定需要更大的模型才能處理好自然語言,目前來說這個問題還沒有答案。即便說基準(zhǔn)測試的排行榜被這些大模型刷了個遍,但把更多的數(shù)據(jù)輸入到模型中,是否能繼續(xù)帶來性能提升,還是不確定的。雖然大規(guī)模語言模型推動了語言生成技術(shù)的發(fā)展,但它們也存在偏見和有害性等問題。人工智能社區(qū)正在積極研究、理解和消除語言模型中的這些問題。英偉達(dá)微軟的研究者表示, MT-NLG 模型從它所訓(xùn)練的數(shù)據(jù)中提取了刻板印象和偏見。他們正在致力于解決這個問題,并鼓勵幫助量化模型偏差的后續(xù)相關(guān)研究。參考鏈接:https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/https://venturebeat.com/2021/10/11/microsoft-and-nvidia-team-up-to-train-one-of-the-worlds-largest-language-models/https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/本文由AI科技大本營翻譯,轉(zhuǎn)載請注明出處。 微軟、英偉達(dá)聯(lián)手推出語言模型?MT-NLP,5300億參數(shù),現(xiàn)存最大



本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉