當前位置:首頁 > 廠商動態(tài) > 亞馬遜云科技
[導讀]部署在Amazon EC2 UltraCluster中的新型Amazon EC2 P5實例經過充分優(yōu)化,可以利用英偉達 Hopper GPU加速生成式AI的大規(guī)模訓練和推理

北京——2023年3月22日 亞馬遜旗下的亞馬遜云科技和英偉達宣布了一項多方合作,致力于構建全球最具可擴展性且按需付費的人工智能(AI)基礎設施,以便訓練日益復雜的大語言模型(LLM)和開發(fā)生成式AI應用程序。

借助由NVIDIA H100 Tensor Core GPU支持的下一代Amazon Elastic Compute Cloud(Amazon EC2)P5實例,以及亞馬遜云科技最先進的網絡和可擴展性,此次合作將提供高達20 exaFLOPS的計算性能來幫助構建和訓練更大規(guī)模的深度學習模型。P5實例將是第一個利用亞馬遜云科技第二代Amazon Elastic Fabric Adapter(EFA)網絡技術的GPU實例,可提供3200 Gbps的低延遲和高帶寬網絡吞吐量。因此客戶能夠在Amazon EC2 UltraCluster中擴展多達2萬個H100 GPU,滿足按需訪問超級計算機的AI性能需求。

“亞馬遜云科技和英偉達合作已超過12年,為人工智能、機器學習、圖形、游戲和高性能計算(HPC)等各種應用提供了大規(guī)模、低成本的GPU解決方案?!眮嗰R遜云科技首席執(zhí)行官Adam Selipsky表示,“亞馬遜云科技在交付基于GPU的實例方面擁有無比豐富的經驗,每一代實例都大大增強了可擴展性,如今眾多客戶將機器學習訓練工作負載擴展到1萬多個GPU。借助第二代Amazon EFA,客戶能夠將其P5實例擴展到超過2萬個英偉達H100 GPU,為包括初創(chuàng)公司、大企業(yè)在內的所有規(guī)模客戶提供所需的超級計算能力?!?

“加速計算和人工智能已經到來,而且適逢其時。加速計算提升性能的同時,降低了成本和功耗,讓企業(yè)事半功倍。生成式AI已促使企業(yè)重新思考產品和商業(yè)模式,力求成為顛覆者,而不是被顛覆?!庇ミ_創(chuàng)始人兼首席執(zhí)行官黃仁勛表示,“亞馬遜云科技是英偉達的長期合作伙伴,也是首家提供英偉達GPU的云服務提供商。我們很高興能夠結合各自的專長、規(guī)模和業(yè)務范圍,幫助客戶利用加速計算和生成式AI抓住未來的大好機遇?!?

新的超級計算集群

新的P5實例構建于亞馬遜云科技和英偉達十多年來在AI和HPC基礎設施交付方面的合作基礎之上,也立足于雙方在P2、P3、P3dn和P4d(e)前四代實例方面的合作。P5實例是基于英偉達GPU的第五代亞馬遜云科技產品,與最初部署的英偉達GPU(始于CG1實例)已相隔近13年。

P5實例非常適合對日益復雜的LLM和計算機視覺模型進行訓練和運行推理,并應用于要求嚴苛的計算密集型生成式AI應用程序,包括問題回答、代碼生成、視頻圖像生成和語音識別等領域。

對于致力于以可擴展和安全的方式將AI賦能的創(chuàng)新推向市場的企業(yè)和初創(chuàng)公司而言,P5實例是不二之選。P5實例采用8個英偉達H100 GPU,能夠在一個Amazon EC2實例中實現(xiàn)16 petaFLOPs的混合精度性能、640 GB的高帶寬內存和3200 Gbps的網絡連接(比上一代實例高出8倍)。P5實例性能的提升使機器學習模型訓練時間加快了6倍(將訓練時間從數(shù)天縮短到數(shù)小時),額外的GPU內存可幫助客戶訓練更龐大更復雜的模型。預計P5實例的機器學習模型訓練成本將比上一代降低40%。相比靈活性較差的云產品或昂貴的本地系統(tǒng),它為客戶提供了更高的效率。

Amazon EC2 P5實例部署在Amazon EC2 UltraCluster的超大規(guī)模集群中,該集群由云端最高性能的計算、網絡和存儲系統(tǒng)組成。每個EC2 UltraCluster都是世界上功能最強大的超級計算機之一,助力客戶運行最復雜的多節(jié)點機器學習訓練和分布式HPC工作負載。它們采用PB級無阻塞網絡,基于Amazon EFA,這種面向Amazon EC2實例的網絡接口使客戶能夠在亞馬遜云科技上運行需要在大規(guī)模高級節(jié)點間通信的應用程序。EFA的定制操作系統(tǒng)繞過硬件接口,并與英偉達GPUDirect RDMA整合,可降低延遲、提高帶寬利用率,從而提升實例間通信性能,這對于在數(shù)百個P5節(jié)點上擴展深度學習模型的訓練至關重要。借助P5實例和EFA,機器學習應用程序可以使用NVIDIA Collective Communications Library(NCCL)擴展到多達2萬個H100 GPU。因此,客戶可以通過亞馬遜云科技的按需彈性和靈活擴展能力,獲得本地HPC集群的應用性能。除了這些出色的計算能力外,客戶可以使用業(yè)界最廣泛最深入的服務組合,比如面向對象存儲的Amazon S3、面向高性能文件系統(tǒng)的Amazon FSx,以及用于構建、訓練和部署深度學習應用的Amazon SageMaker。P5實例將在今后幾周提供有限預覽版。

借助新的Amazon EC2 P5實例,Anthropic、Cohere、Hugging Face、Pinterest和Stability AI等客戶將能夠大規(guī)模構建和訓練最龐大的機器學習模型?;谄渌鼛状鶤mazon EC2實例的合作將幫助初創(chuàng)公司、大企業(yè)和研究人員無縫擴展來滿足各自的機器學習需求。

Anthropic構建了可靠、可解釋和可操控的AI系統(tǒng),將創(chuàng)造巨大商業(yè)價值并造福公眾。 “Anthropic正在努力構建可靠、可解釋和可操控的AI系統(tǒng)。雖然當前已有的大型通用AI系統(tǒng)大有助益,但它們卻是不可預測、不可靠和不透明的。我們的目的是解決這些問題,為人們部署更實用的系統(tǒng)。”Anthropic的聯(lián)合創(chuàng)始人Tom Brown表示,“我們是全球為數(shù)不多的在深度學習研究領域建立基礎模型的組織之一。這種模型高度復雜,為了開發(fā)和訓練先進的模型,我們需要在龐大的GPU集群中有效地分布這些模型。我們正在廣泛應用Amazon EC2 P4實例,我們更為即將發(fā)布的P5實例感到興奮。預計P5實例會提供比P4d實例更顯著的性價比優(yōu)勢,它們可以滿足構建下一代大語言模型和相關產品的大規(guī)模需求?!?

Cohere是自然語言AI領域的先驅,它幫助開發(fā)者和企業(yè)使用世界領先的自然語言處理(NLP)技術構建出色的產品,同時確保數(shù)據(jù)的隱私和安全。 “Cohere不遺余力地幫助企業(yè)利用自然語言AI的強大功能,以自然直觀的方式探索、生成和搜索信息,并做出反應,并將產品部署在多云的數(shù)據(jù)環(huán)境中,為客戶提供最佳體驗。”Cohere首席執(zhí)行官Aidan Gomez表示,“基于英偉達H100的Amazon EC2 P5實例將釋放企業(yè)潛能,利用計算能力以及Cohere最先進的LLM和生成式AI能力,更快地開發(fā)產品、拓展業(yè)務和擴大規(guī)模。”

Hugging Face的使命是普及優(yōu)秀的機器學習。 “作為發(fā)展最迅猛的機器學習開源社區(qū),我們如今在面向NLP、計算機視覺、生物學和強化學習等領域的平臺上提供逾15萬個預訓練模型和2.5萬個數(shù)據(jù)集?!盚ugging Face首席技術官兼聯(lián)合創(chuàng)始人Julien Chaumond表示,“鑒于大語言模型和生成式AI取得了顯著進步,我們正與亞馬遜云科技合作,以構建和貢獻未來的開源模型。我們希望在結合了EFA的UltraCluster集群中通過大規(guī)模Amazon SageMaker使用Amazon EC2 P5實例,加快為所有客戶交付新的基礎AI模型?!?

如今,全球超過4.5億人通過Pinterest尋找視覺靈感,以購買符合自己品味的個性化產品、尋求線下創(chuàng)意,并發(fā)現(xiàn)最有才華的創(chuàng)作者。 “我們在用例中廣泛使用深度學習技術,比如對上傳到我們平臺上的數(shù)十億張照片進行標記和分類,以及讓用戶獲得從靈感到付諸行動的視覺搜索能力?!盤interest首席架構師David Chaiken表示,“我們使用P3和最新的P4d等Amazon GPU實例構建和部署了這些應用場景。我們希望使用由H100 GPU、EFA和Ultracluster加持的Amazon EC2 P5實例,加快產品開發(fā),為我們的客戶提供共情式AI(Empathetic AI)體驗?!?

作為多模態(tài)、開源AI模型開發(fā)和部署領域的領導者,Stability AI與公共和私營部門的合作伙伴合作,將這種下一代基礎架構提供給全球受眾。 “Stability AI的目標是最大限度地提高現(xiàn)代AI的普及性,以激發(fā)全球創(chuàng)造力和創(chuàng)新性?!盨tability AI首席執(zhí)行官Emad Mostaque表示,“我們于2021年開始與亞馬遜云科技合作,使用Amazon EC2 P4d實例構建了一個潛在的文本到圖像擴散模型Stable Diffusion,我們將該模型部署在大規(guī)模環(huán)境下,將模型訓練時間從數(shù)月縮短到數(shù)周。當致力于開發(fā)下一代開源生成式AI模型并擴展到新模型時,我們很高興能使用第二代EC2 UltraCluster中的Amazon EC2 P5實例。我們預計P5實例會進一步將我們的模型訓練時間縮短4倍,從而使我們能夠以更低的成本更快地提供突破性的AI?!?

為可擴展、高效的AI采用新的服務器設計

在H100發(fā)布之前,英偉達和在熱力、電氣和機械領域擁有專業(yè)知識的亞馬遜云科技工程團隊合作設計了服務器,以利用GPU提供大規(guī)模AI,重點關注亞馬遜云科技基礎設施的能源效率。在某些AI工作負載下,GPU的能效通常是CPU的20倍,對于LLM而言,H100的能效比CPU高300倍。

雙方的合作包括開發(fā)系統(tǒng)散熱設計、集成式安全和系統(tǒng)管理、與Amazon Nitro硬件加速虛擬機管理程序一起實現(xiàn)安全性,以及針對亞馬遜云科技定制EFA網絡結構的英偉達GPUDirect?優(yōu)化技術。

在亞馬遜云科技和英偉達專注于服務器優(yōu)化工作的基礎上,兩家公司現(xiàn)已開始合作開發(fā)未來的服務器設計,以借助新一代系統(tǒng)設計、冷卻技術和網絡可擴展性提高擴展效率。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉