Meta與NVIDIA聯(lián)合打造大型AI研究超級計算機

時間：2022-01-27 08:35:21

關鍵字： NVIDIA AI 超級計算機

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]Meta的AI超級計算機是迄今為止最大的NVIDIA DGX A100客戶系統(tǒng)。該系統(tǒng)將為Meta的AI研究人員提供5百億億次級AI計算性能，采用了最先進的NVIDIA系統(tǒng)、InfiniBand網(wǎng)絡和軟件，實現(xiàn)了數(shù)千個GPU集群的系統(tǒng)優(yōu)化。

Meta的采用可以說是對NVIDIA的強力認可。

Meta Platforms充分認可NVIDIA，為其有望成為有史以來最強大的研究系統(tǒng)選擇了NVIDIA的先進技術。

于今日發(fā)布的AI研究超級集群（RSC）已在訓練新模型以推動AI發(fā)展。

全面部署后，Meta的RSC預計將成為最大的NVIDIA DGX A100客戶系統(tǒng)。

Meta在一篇博客文章中表示：“我們希望RSC幫助我們建立全新的AI系統(tǒng)，例如可以為多個不同語言的團隊提供實時語音翻譯，使他們可以在研究項目上無縫協(xié)作，甚至一起玩AR游戲?！?

訓練最大的AI模型

當RSC在今年晚些時候完全建成時，Meta將用它來訓練具有超過1萬億個參數(shù)的AI模型。這將推動自然語言處理等領域的發(fā)展，比如實時識別不法內(nèi)容等工作。

除了實現(xiàn)規(guī)模性能之外，Meta還將超高的可靠性、安全性、隱私性以及處理“各類AI模型”的靈活性作為RSC的關鍵指標。

Meta的AI研究超級集群擁有數(shù)百個NVIDIA DGX系統(tǒng)并通過NVIDIA Quantum InfiniBand網(wǎng)絡相連接，助力Meta AI研究團隊提高工作速率。

性能大揭秘

目前，此全新AI超級計算機已經(jīng)部署了760個NVIDIA DGX A100系統(tǒng)作為其計算節(jié)點。共有6080個NVIDIA A100 GPU，通過NVIDIA Quantum 200Gb/s InfiniBand網(wǎng)絡連接，可提供1895千萬億次TF32計算性能。

盡管受到新冠疫情的影響，這樣一臺可運行的AI超級計算機從想法到實現(xiàn)，RSC僅用了18個月！ “功臣”之一便是采用NVIDIA DGX A100技術作為基石。

Penguin Computing是NVIDIA合作伙伴網(wǎng)絡中負責RSC交付的合作伙伴。除了760個DGX A100系統(tǒng)和InfiniBand網(wǎng)絡之外，Penguin還為Meta提供管理服務和AI基礎架構優(yōu)化，包括一個46PB高速緩存的Altus系統(tǒng)。

性能提升20倍

這是Meta第二次選擇NVIDIA技術作為其研究平臺的基礎。2017年，Meta打造了第一代AI研究基礎架構，配備了22000個NVIDIA V100 Tensor Core GPU，每日可處理35000項AI訓練工作。

Meta的早期基準測試顯示，RSC訓練大型NLP模型的速度比之前的系統(tǒng)快3倍，運行計算機視覺工作的速度比之前的系統(tǒng)快20倍。

在今年晚些時候的第二階段，RSC將擴展至16000個GPU。Meta認為屆時RSC將提供高達5百億億次級混合精度AI計算性能，并且Meta希望通過擴展RSC的存儲系統(tǒng)，以每秒16TB的速度提供高達1EB的數(shù)據(jù)。

可擴展架構

NVIDIA AI技術適用于任何規(guī)模的企業(yè)應用。

NVIDIA DGX包含一個完整的NVIDIA AI軟件棧，可以輕松地從單個系統(tǒng)擴展至完整的DGX SuperPOD，可以在本地或主機托管商處運行?？蛻粢嗫梢酝ㄟ^NVIDIA DGX Foundry租用DGX系統(tǒng)。