微軟、英偉達(dá)聯(lián)手推出語言模型?MT-NLP,5300億參數(shù),現(xiàn)存最大
微軟和英偉達(dá)聯(lián)手推出最大、最強的人工智能語言模型:Megatron-Turing自然語言生成模型(MT-NLG)。
微軟和英偉達(dá)宣布,他們聯(lián)合推出迄今為止最大和最強的人工智能驅(qū)動的語言模型:Megatron-Turing(MT-NLP)。從公開披露的角度來看,MT-NLP 應(yīng)該是現(xiàn)存最大的公共模型。在訓(xùn)練過程一共使用了 4480 塊英偉達(dá) A100 GPU ,作為兩家公司 Turing NLG 17B 和 Megatron-LM 模型的繼承者,MT-NLP 包含5300億個參數(shù),在一系列廣泛的自然語言任務(wù)中實現(xiàn)了無與倫比的準(zhǔn)確性,例如:
- 完成預(yù)測
- 閱讀理解
- 常識論證
- 自然語言推理
- 詞義消歧
大規(guī)模語言模型
近年來,自然語言處理 (NLP) 中基于 Transformer 的語言模型在大規(guī)模計算、大型數(shù)據(jù)集以及用于訓(xùn)練這些模型的高級算法和軟件的推動下推動了快速發(fā)展。具有大量參數(shù)、更多數(shù)據(jù)和更多訓(xùn)練時間的語言模型可以獲得更豐富、更細(xì)致的語言理解。因此,它們可以很好地概括為有效的零樣本(zero-shot)或少樣本(few-shot)學(xué)習(xí)器,在許多 NLP 任務(wù)和數(shù)據(jù)集上具有很高的準(zhǔn)確性。NLP 領(lǐng)域的任務(wù)包括摘要、自動對話生成、翻譯、語義搜索以及代碼自動生成等。當(dāng)前,SOTA NLP 模型中的參數(shù)數(shù)量呈指數(shù)增長,如下圖 1 所示。圖 1. SOTA NLP 模型大小隨時間變化的趨勢然而,訓(xùn)練此類模型具有挑戰(zhàn)性,主要是以下兩個原因:
- 即使是最大的 GPU,也不再可能在內(nèi)存中擬合這些模型的參數(shù)。
- 如果不特別注意優(yōu)化算法、軟件和硬件堆棧,則所需的大量計算操作可能會導(dǎo)致不切實際的長訓(xùn)練時間。
大規(guī)模培訓(xùn)基礎(chǔ)設(shè)施
在 英偉達(dá) A100 Tensor Core GPU 和 HDR InfiniBand 網(wǎng)絡(luò)的支持下,NVIDIA Selene 和 Microsoft Azure NDv4 等最先進(jìn)的超級計算集群具有足夠的計算能力,可以在合理的時間范圍內(nèi)訓(xùn)練具有數(shù)萬億個參數(shù)的模型。然而,要充分發(fā)揮這些超級計算機的潛力,需要在數(shù)千個 GPU 之間實現(xiàn)并行性,在內(nèi)存和計算上都高效且可擴展。然而,現(xiàn)有的并行策略(例如數(shù)據(jù)、pipeline 或 tensor-slicing)在內(nèi)存和計算效率方面存在以下權(quán)衡,無法用于訓(xùn)練這種規(guī)模的模型:- 數(shù)據(jù)并行實現(xiàn)了良好的計算效率,但它復(fù)制了模型狀態(tài)并且無法利用聚合分布式內(nèi)存。
- tensor-slicing 需要 GPU 之間的大量通信,所以單個節(jié)點以外的計算效率受限,使得高帶寬 NVLink 不可用。
- pipeline 并行性可以跨節(jié)點有效擴展。然而,為了提高計算效率,它需要大批量、粗粒度的并行和完美的負(fù)載平衡,這在規(guī)模上是不可能的。
軟件設(shè)計
通過英偉達(dá) Megatron-LM 和微軟 DeepSpeed 之間的合作,創(chuàng)建了一個高效且可擴展的 3D 并行系統(tǒng),能夠?qū)?shù)據(jù)、pipeline 和 tensor-slicing 的并行性結(jié)合在一起來應(yīng)對這些挑戰(zhàn)。通過結(jié)合 pipeline 和 tensor-slicing 并行性,研究者們可以在它們最有效的范圍內(nèi)操作它們。更具體地說,該系統(tǒng)使用來自 Megatron-LM 的 tensor-slicing 來擴展節(jié)點內(nèi)的模型,并使用來自 DeepSpeed 的 pipeline 并行性來跨節(jié)點擴展模型。例如,對于 5300 億模型,每個模型副本(replica)跨越 280 個英偉達(dá) A100 GPU,具有節(jié)點內(nèi)的 8 路 tensor-slicing 和跨節(jié)點的 35 路 pipeline 并行性。然后,我們使用 DeepSpeed 的數(shù)據(jù)并行性進(jìn)一步擴展到數(shù)千個 GPU。
硬件系統(tǒng)
模型訓(xùn)練是在基于英偉達(dá) DGX SuperPOD 的 Selene 超級計算機上以混合精度完成的,該超級計算機由 560 個 DGX A100 服務(wù)器提供支持,這些服務(wù)器以完整的胖樹配置與 HDR InfiniBand 聯(lián)網(wǎng)。每個 DGX A100 有 8 個英偉達(dá) A100 80GB Tensor Core GPU,并通過 NVLink 和 NVSwitch 相互完全連接。微軟為 Azure NDv4 云超級計算機使用了類似的參考架構(gòu)。
系統(tǒng)吞吐量
我們考慮了我們的系統(tǒng)在 Selene 上的 280、350 和 420 DGX A100 服務(wù)器上,批量大小為 1920 的 5300 億參數(shù)模型的端到端吞吐量。研究者們觀察到的迭代時間分別為 60.1、50.2 和 44.4 秒。這些分別對應(yīng)于每個 GPU 126、121 和 113 teraFLOP/s。訓(xùn)練數(shù)據(jù)集和模型配置
研究者們使用了 Transformer 解碼器的架構(gòu),它是一個從左到右生成的基于 Transformer 的語言模型,由 5300 億個參數(shù)組成。層數(shù)、隱藏維度和注意力頭分別為 105、20480 和 128。基于開源數(shù)據(jù)集集合 The Pile,研究者構(gòu)建了訓(xùn)練數(shù)據(jù)集。首先,從 The Pile 中選擇了相對質(zhì)量最高的數(shù)據(jù)集子集(圖 2 中的前 11 行)。然后,按照與用于生成 Pile-CC 的方法類似的方法,下載并過濾了兩個最近的 Common Crawl (CC) 快照。并對 CC 數(shù)據(jù)采取的步驟包括從原始 HTML 文件中提取文本、使用在高質(zhì)量數(shù)據(jù)上訓(xùn)練的分類器對提取的文檔進(jìn)行評分,以及根據(jù)評分過濾文檔。在構(gòu)建訓(xùn)練數(shù)據(jù)集時,文檔去重是必要的,因為相同的內(nèi)容可以存在于不同數(shù)據(jù)集的多個文檔中。研究者們使用 min-hash LSH 在文檔級別使用模糊重復(fù)數(shù)據(jù)刪除過程來計算稀疏文檔圖和其中的連接組件以識別重復(fù)文檔。然后,在從每個連接組件的重復(fù)文檔中選擇代表性文檔時,根據(jù)數(shù)據(jù)集的質(zhì)量使用優(yōu)先級順序。最后,使用基于 n-gram 的過濾從訓(xùn)練數(shù)據(jù)集中刪除下游任務(wù)數(shù)據(jù)以避免污染。最終的訓(xùn)練集包括 15 個數(shù)據(jù)集,總共包含 3390 億個 token。在訓(xùn)練期間,研究者根據(jù)圖 2 中給出的可變采樣權(quán)重將數(shù)據(jù)集混合到異構(gòu)批次中,重點放在更高質(zhì)量的數(shù)據(jù)集上,我在 2700 億個 token 上訓(xùn)練了模型。Dataset | Tokens (billions) | Weights (%) | Epochs |
Books3 | 25.7 | 14.3 | 1.5 |
OpenWebText2 | 14.8 | 19.3 | 3.6 |
Stack Exchange | 11.6 | 5.7 | 1.4 |
PubMed Abstracts | 4.4 | 2.9 | 1.8 |
Wikipedia | 4.2 | 4.8 | 3.2 |
Gutenberg (PG-19) | 2.7 | 0.9 | 0.9 |
BookCorpus2 | 1.5 | 1.0 | 1.8 |
NIH ExPorter | 0.3 | 0.2 | 1.8 |
Pile-CC | 49.8 | 9.4 | 0.5 |
ArXiv | 20.8 | 1.4 | 0.2 |
GitHub | 24.3 | 1.6 | 0.2 |
CC-2020-50 | 68.7 | 13.0 | 0.5 |
CC-2021-04 | 82.6 | 15.7 | 0.5 |
RealNews | 21.9 | 9.0 | 1.1 |
CC-Stories | 5.3 | 0.9 | 0.5 |
訓(xùn)練結(jié)果和成就
近期語言模型 (LM) 方面的工作表明,強大的預(yù)訓(xùn)練模型通??梢栽诓贿M(jìn)行微調(diào)的情況下,在廣泛的 NLP 任務(wù)中具有競爭力。為了了解擴大 LM 如何增強其零樣本或少樣本學(xué)習(xí)能力,研究者評估了 MT-NLG,并證明它在多個類別的 NLP 任務(wù)中建立了新的 SOTA。為確保評估的全面性,我們選擇了跨越五個不同領(lǐng)域的八項任務(wù):- 在文本預(yù)測任務(wù) LAMBADA 中,模型預(yù)測給定段落的最后一個詞。
- 在閱讀理解任務(wù) RACE-h 和 BoolQ 中,模型根據(jù)給定的段落生成問題的答案。
- 在常識推理任務(wù) PiQA、HellaSwag 和 Winogrande 中,每個任務(wù)都需要一定程度的常識知識,超出語言的統(tǒng)計模式才能解決。
- 對于自然語言推理,兩個硬基準(zhǔn)(ANLI-R2 和 HANS),針對過去模型的典型失敗案例。
- 詞義消歧任務(wù) WiC 從上下文評估多義詞的理解。
Tasks | Zero-shot | One-shot | Few-shot |
Lambada | 0.766* | 0.731* | 0.872* |
BoolQ | 0.782 | 0.825 | 0.848 |
RACE-h | 0.479 | 0.484 | 0.479 |
PiQA | 0.820* | 0.810* | 0.832* |
HellaSwag | 0.802 | 0.802 | 0.824 |
WinoGrande | 0.730 | 0.737 | 0.789 |
ANLI-R2 | 0.366 | 0.397 | 0.396 |
HANS | 0.607 | 0.649 | 0.702 |
WiC | 0.486 | 0.513 | 0.585 |
Tasks | Sample 1 | Sample 2 |
Inferring mathematical operations | Prompt:Q: 11 # 2 = ?A: 5.5Q: 18 # 9 = ?A: 2Q: 35 # 4 = ?A: 8.75Q: 27 # 9 = ?A: 3Q: 75 # 6 = ?A: MT-NLG:12.5Q: 45 # 5 = ?A: 9Q: 18 # 6 = ?A: 3 | Prompt:Q: 11 $^% 2 = ?A: 22 Q: 3 $^% 9 = ?A: 27 Q: 12 $^% 4 = ?A: 48 Q: 7 $^% 7 = ?A: 49 Q: 8 $^% 5 = ?A: MT-NLG:40Q: 9 $^% 6 = ?A: 54Q: 10 $^% 5 = ?A: 50 |
Natural language inference on different syntactic structures | Prompt:The banker forgot that the judge advised the professors.Question: The judge advised the professors. True or False?Answer: MT-NLG:True. The banker forgot that the judge advised the professors. | Prompt:Famous professors supported the secretary.Question: Professors supported the secretary. True or False?Answer: MT-NLG:True. The secretary was supported by famous professors. |
結(jié)語
今天,人工智能技術(shù)的進(jìn)步正在超越摩爾定律的極限。新一代的 GPU 以閃電般的速度互連,不斷升級算力。與此同時,AI 模型的擴展帶來了更好的性能,而且似乎前景無限。MT-NLG 就是一個例子,當(dāng)像英偉達(dá) Selene 或微軟 Azure NDv4 這樣的超級計算機與 Megatron-LM 和 DeepSpeed 的軟件創(chuàng)新一起用來訓(xùn)練大型語言 AI 模型時,可能會發(fā)生什么?DeepSpeed 和 Megatron-LM 的創(chuàng)新將助力未來更多的 AI 模型開發(fā),并使大型 AI 模型的訓(xùn)練成本更低、速度更快。在成本方面也是不可忽視的問題。比如說 MT-NLP、AI21 Labs 的 Jurassic-1、華為的盤古-Alpha、Naver 的 HyperCLOVA 和北京人工智能研究院的五道 2.0 等項目。例如 OpenAI 的 GPT-3 的訓(xùn)練數(shù)據(jù)集大小為 45 TB,一個 GPT-3 模型可能需要要 700G 的硬盤空間來存儲。通常認(rèn)為,模型的參數(shù)越多,它可以完成的任務(wù)就越復(fù)雜,性能也越好。但是越來越多的研究對這個概念提出了質(zhì)疑。今年9月 Google 發(fā)布 FLAN ,與 GPT-3 的 1750 億個參數(shù)相比,F(xiàn)LAN 擁有 1370 億個參數(shù),在研究人員對其進(jìn)行測試的 25 項任務(wù)中,有19項超過了 zero-shot 175B GPT-3。康奈爾大學(xué)的自然語言處理研究員 Maria Antoniak 也曾公開表示,是否一定需要更大的模型才能處理好自然語言,目前來說這個問題還沒有答案。即便說基準(zhǔn)測試的排行榜被這些大模型刷了個遍,但把更多的數(shù)據(jù)輸入到模型中,是否能繼續(xù)帶來性能提升,還是不確定的。雖然大規(guī)模語言模型推動了語言生成技術(shù)的發(fā)展,但它們也存在偏見和有害性等問題。人工智能社區(qū)正在積極研究、理解和消除語言模型中的這些問題。英偉達(dá)和微軟的研究者表示, MT-NLG 模型從它所訓(xùn)練的數(shù)據(jù)中提取了刻板印象和偏見。他們正在致力于解決這個問題,并鼓勵幫助量化模型偏差的后續(xù)相關(guān)研究。參考鏈接:https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/https://venturebeat.com/2021/10/11/microsoft-and-nvidia-team-up-to-train-one-of-the-worlds-largest-language-models/https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/本文由AI科技大本營翻譯,轉(zhuǎn)載請注明出處。