Amazon SageMaker AI創(chuàng)新重塑生成式AI與機(jī)器學(xué)習(xí)模型的構(gòu)建與擴(kuò)展
通過Amazon SageMaker HyperPod的三項(xiàng)新功能,以及直接在Amazon SageMaker中整合亞馬遜云科技合作伙伴的熱門AI應(yīng)用產(chǎn)品,亞馬遜云科技幫助客戶消除AI開發(fā)生命周期中無差別的繁重工作,從而更快速、更輕松地構(gòu)建、訓(xùn)練和部署模型
北京2024年12月16日 /美通社/ -- 亞馬遜云科技在2024 re:Invent全球大會上,宣布推出Amazon SageMaker AI四項(xiàng)創(chuàng)新,助力企業(yè)更快使用熱門的公開模型,最大化訓(xùn)練效率、降低成本,并使用其首選工具加速生成式人工智能(AI)模型的開發(fā)。Amazon SageMaker AI是一項(xiàng)端到端的服務(wù),數(shù)十萬客戶使用它來構(gòu)建、訓(xùn)練和部署各種用例的AI模型,它提供完全托管的基礎(chǔ)設(shè)施、工具和工作流。
- Amazon SageMaker HyperPod新增三項(xiàng)強(qiáng)大功能,幫助客戶更輕松地快速開始訓(xùn)練時下流行的公開可用模型,通過靈活訓(xùn)練計(jì)劃節(jié)省數(shù)周的模型訓(xùn)練時間,并最大化計(jì)算資源利用率,將成本降低高達(dá)40%。
- 現(xiàn)在,客戶可以直接在Amazon SageMaker中輕松安全地發(fā)現(xiàn)、部署和使用來自亞馬遜云科技合作伙伴的完全托管的生成式AI和機(jī)器學(xué)習(xí)(ML)開發(fā)應(yīng)用,例如Comet、Deepchecks、Fiddler AI和Lakera,從而靈活選擇最適合的工具。
- Articul8、澳大利亞聯(lián)邦銀行、富達(dá)、Hippocratic AI、Luma AI、NatWest、NinjaTech AI、OpenBabylon、Perplexity、Ping Identity、Salesforce和湯森路透等客戶正在使用Amazon SageMaker的新功能,加速生成式AI模型開發(fā)。
亞馬遜云科技人工智能和機(jī)器學(xué)習(xí)服務(wù)與基礎(chǔ)設(shè)施副總裁Baskar Sridharan博士表示:"亞馬遜云科技在七年前推出Amazon SageMaker,以簡化構(gòu)建、訓(xùn)練和部署AI模型的過程,幫助各種規(guī)模的組織訪問和擴(kuò)展其對AI和機(jī)器學(xué)習(xí)的使用。隨著生成式AI的興起,Amazon SageMaker不斷快速創(chuàng)新,自2023年以來已經(jīng)推出了超過140項(xiàng)功能,幫助Intuit、Perplexity和Rocket Mortgage等企業(yè)更快地構(gòu)建基礎(chǔ)模型。通過此次發(fā)布,我們將為客戶提供更高性能、更具成本效益的模型開發(fā)基礎(chǔ)設(shè)施,幫助他們加速將生成式AI工作負(fù)載部署到生產(chǎn)環(huán)境中。"
Amazon SageMaker HyperPod:訓(xùn)練生成式AI模型的首選基礎(chǔ)設(shè)施
隨著生成式AI的出現(xiàn),構(gòu)建、訓(xùn)練和部署機(jī)器學(xué)習(xí)模型的過程變得更加困難,這需要深厚的AI專業(yè)知識、訪問大量數(shù)據(jù)以及創(chuàng)建和管理大型計(jì)算集群。此外,客戶需要開發(fā)專門的代碼來實(shí)現(xiàn)跨集群分布式訓(xùn)練,持續(xù)檢查和優(yōu)化模型,并手動處理硬件故障,同時盡量控制時間進(jìn)度和成本。亞馬遜云科技為此推出Amazon SageMaker HyperPod,幫助客戶在數(shù)千個AI加速器上高效擴(kuò)展生成式AI模型開發(fā),將訓(xùn)練基礎(chǔ)模型的時間縮短高達(dá)40%。無論是Writer、Luma AI、Perplexity等領(lǐng)先的初創(chuàng)公司,還是湯森路透、Salesforce等大型企業(yè),都在利用Amazon SageMaker HyperPod加速模型開發(fā)。亞馬遜還使用Amazon SageMaker HyperPod訓(xùn)練新的Amazon Nova模型,不僅降低了訓(xùn)練成本,提高了訓(xùn)練基礎(chǔ)設(shè)施的性能,還節(jié)省了數(shù)月手動設(shè)置和管理集群的時間。
現(xiàn)在,越來越多的企業(yè)希望微調(diào)熱門的公開可用模型,或訓(xùn)練自己的專用模型,以利用生成式AI改造業(yè)務(wù)和應(yīng)用。Amazon SageMaker HyperPod將持續(xù)創(chuàng)新,幫助客戶更輕松、更快速、更具成本效益地大規(guī)模構(gòu)建、訓(xùn)練和部署這些模型,具體創(chuàng)新包括:
- 新訓(xùn)練配方幫助客戶更快上手:許多客戶希望基于Llama和Mistral等熱門的公開可用模型,使用內(nèi)部數(shù)據(jù)為特定用例進(jìn)行定制。然而,優(yōu)化訓(xùn)練性能可能需要數(shù)周的反復(fù)測試,包括嘗試不同的算法、調(diào)整參數(shù)、觀察訓(xùn)練效果、調(diào)試問題和設(shè)定性能基準(zhǔn)。為了幫助客戶在幾分鐘內(nèi)快速入門,Amazon SageMaker HyperPod現(xiàn)在提供30多個精選的模型訓(xùn)練配方,可適用于時下熱門的一些公開可用模型,包括Llama 3.2 90B、Llama 3.1 405B和Mistral 8x22B。這些配方極大地簡化了客戶的入門過程,自動加載訓(xùn)練數(shù)據(jù)集、應(yīng)用分布式訓(xùn)練技術(shù),并配置系統(tǒng)以實(shí)現(xiàn)高效的檢查點(diǎn)管理和基礎(chǔ)設(shè)施故障恢復(fù)。不同技能水平的客戶能夠從一開始就在亞馬遜云科技基礎(chǔ)架構(gòu)上優(yōu)化模型訓(xùn)練的性價比,省去了數(shù)周的反復(fù)評估和測試的時間??蛻艨梢酝ㄟ^Amazon SageMaker GitHub存儲庫瀏覽可用的訓(xùn)練配方,根據(jù)定制需求調(diào)整參數(shù),并在幾分鐘內(nèi)完成部署。此外,客戶只需一行簡單編輯,即可在基于GPU或Trainium的實(shí)例之間無縫切換,進(jìn)一步優(yōu)化性價比。
Salesforce的研究人員一直在尋求一種快速啟動基礎(chǔ)模型訓(xùn)練和微調(diào)的解決方案,希望能夠在不用過多關(guān)注基礎(chǔ)設(shè)施的情況下,避免為每個新模型耗費(fèi)數(shù)周時間進(jìn)行訓(xùn)練堆棧優(yōu)化。通過Amazon SageMaker HyperPod的定制模板,他們現(xiàn)在能夠快速開展基礎(chǔ)模型的原型設(shè)計(jì)。目前,Salesforce的AI研究團(tuán)隊(duì)可以在短短幾分鐘內(nèi)啟動各種預(yù)訓(xùn)練和微調(diào)流程,并成功實(shí)現(xiàn)基礎(chǔ)模型的高效運(yùn)營。 - 靈活訓(xùn)練計(jì)劃可輕松滿足訓(xùn)練時限和預(yù)算要求:盡管基礎(chǔ)設(shè)施創(chuàng)新有助于降低成本并提高訓(xùn)練效率,但客戶仍需規(guī)劃并管理所需計(jì)算資源,以確保在預(yù)算范圍內(nèi)按時完成訓(xùn)練任務(wù)。因此,亞馬遜云科技為Amazon SageMaker HyperPod推出了靈活訓(xùn)練計(jì)劃??蛻糁恍栎p松點(diǎn)擊幾下,就能指定預(yù)算、截止日期和所需的最大計(jì)算資源量。Amazon SageMaker HyperPod會自動預(yù)留容量、設(shè)置集群并創(chuàng)建模型訓(xùn)練作業(yè),幫助團(tuán)隊(duì)節(jié)省數(shù)周的訓(xùn)練時間,減少客戶在獲取大型計(jì)算集群以完成模型開發(fā)任務(wù)時的不確定性。如果提議的訓(xùn)練計(jì)劃無法滿足指定的時間、預(yù)算或計(jì)算要求,Amazon SageMaker HyperPod會提供替代方案,如延長日期范圍、增加計(jì)算資源或選擇不同的亞馬遜云科技區(qū)域進(jìn)行訓(xùn)練。一旦計(jì)劃獲批,Amazon SageMaker會自動配置基礎(chǔ)設(shè)施并啟動訓(xùn)練作業(yè)。Amazon SageMaker使用 Amazon Elastic Compute Cloud (EC2)容量塊預(yù)留所需的加速計(jì)算實(shí)例,確保訓(xùn)練任務(wù)按時完成。根據(jù)容量塊的可用時間,Amazon SageMaker HyperPod通過有效的暫停和恢復(fù)訓(xùn)練作業(yè),確保客戶始終擁有按時完成任務(wù)所需的計(jì)算資源,無需人工干預(yù)。
Hippocratic AI為醫(yī)療保健開發(fā)以安全為重點(diǎn)的大語言模型(LLM)。為了訓(xùn)練多個模型,Hippocratic AI采用了Amazon SageMaker HyperPod靈活訓(xùn)練計(jì)劃,獲得了按時完成訓(xùn)練任務(wù)所需的加速計(jì)算資源。這幫助他們將模型訓(xùn)練速度提高了4倍,并更有效地?cái)U(kuò)展其解決方案,以適應(yīng)數(shù)百個用例。 - 任務(wù)治理功能最大化加速器利用率:越來越多的企業(yè)為模型訓(xùn)練配置大量加速計(jì)算資源。這些計(jì)算資源昂貴且有限,因此客戶需要一種管理資源使用率的方法,以確保其計(jì)算資源優(yōu)先用于最關(guān)鍵的模型開發(fā)任務(wù),避免任何浪費(fèi)或利用率不足。如果沒有對任務(wù)優(yōu)先級和資源分配的有效控制,一些項(xiàng)目最終會因資源不足而停滯,而同時其他項(xiàng)目卻資源利用率不足。這給管理員帶來了巨大負(fù)擔(dān),他們必須不斷重新規(guī)劃資源分配,而數(shù)據(jù)科學(xué)家則難以取得進(jìn)展。這不僅阻礙了企業(yè)將AI創(chuàng)新快速推向市場,還可能導(dǎo)致成本超支。通過Amazon SageMaker HyperPod任務(wù)治理功能,客戶可以在模型訓(xùn)練、微調(diào)和推理過程中最大化加速器的利用率,將模型開發(fā)成本降低最多 40%。只需點(diǎn)擊幾下,客戶就可以輕松為不同任務(wù)定義優(yōu)先級,并為每個團(tuán)隊(duì)或項(xiàng)目可以使用的計(jì)算資源設(shè)置限制。一旦客戶在不同團(tuán)隊(duì)和項(xiàng)目之間設(shè)置了限制,Amazon SageMaker HyperPod將分配相關(guān)資源,自動管理任務(wù)隊(duì)列以確保最關(guān)鍵的工作優(yōu)先進(jìn)行。例如,如果客戶緊急需要更多計(jì)算資源來支持面向客戶的推理任務(wù),但所有計(jì)算資源都已被占用,Amazon SageMaker HyperPod會自動釋放未充分利用的資源或非緊急任務(wù)的資源,以確保緊急推理任務(wù)獲得所需資源。在這種情況下,Amazon SageMaker HyperPod會自動暫停非緊急任務(wù),保存檢查點(diǎn)以保證已完成的工作完好無損,并在更多資源可用時從最后保存的檢查點(diǎn)恢復(fù)任務(wù),確??蛻糇畲蠡?jì)算資源的利用。
Articul8 AI是一家快速成長的初創(chuàng)企業(yè),致力于幫助企業(yè)構(gòu)建自己的生成式AI應(yīng)用產(chǎn)品,因此需要不斷優(yōu)化計(jì)算環(huán)境,以盡可能高效地分配資源。通過使用Amazon SageMaker HyperPod中的新任務(wù)治理功能,該公司的GPU利用率有了顯著提高,減少了空閑時間,并加速了端到端模型開發(fā)。自動將資源轉(zhuǎn)移到高優(yōu)先級任務(wù)的能力提高了團(tuán)隊(duì)的生產(chǎn)力,使他們能夠更快地推出生成式AI創(chuàng)新成果。
在Amazon SageMaker中使用亞馬遜云科技合作伙伴的熱門AI應(yīng)用產(chǎn)品,加速模型開發(fā)和部署
許多客戶在使用Amazon SageMaker AI的同時,也在使用業(yè)界一流的生成式AI和機(jī)器學(xué)習(xí)模型開發(fā)工具來執(zhí)行專業(yè)任務(wù),如跟蹤和管理實(shí)驗(yàn)、評估模型質(zhì)量、監(jiān)控性能和保護(hù)AI應(yīng)用產(chǎn)品。然而,將熱門的AI應(yīng)用產(chǎn)品集成到團(tuán)隊(duì)的工作流程中是一個耗時的多步驟過程。這包括尋找合適的解決方案、執(zhí)行安全和合規(guī)性評估、監(jiān)控跨多個工具的數(shù)據(jù)訪問、配置和管理必要的基礎(chǔ)設(shè)施、構(gòu)建數(shù)據(jù)集成以及驗(yàn)證是否符合治理要求?,F(xiàn)在,亞馬遜云科技幫助客戶更輕松地將專業(yè)AI應(yīng)用產(chǎn)品的強(qiáng)大功能與Amazon SageMaker AI的托管能力和安全性結(jié)合起來。這項(xiàng)新功能讓客戶能夠直接在Amazon SageMaker中輕松發(fā)現(xiàn)、部署和使用來自領(lǐng)先合作伙伴(如Comet、Deepchecks、Fiddler和Lakera Guard)的最佳生成式AI和機(jī)器學(xué)習(xí)開發(fā)應(yīng)用,從而消除其中的阻礙繁重的工作。
Amazon SageMaker是首個為一系列生成式AI和機(jī)器學(xué)習(xí)開發(fā)任務(wù)提供精選的、完全托管且安全的合作伙伴應(yīng)用集的服務(wù)。這為客戶構(gòu)建、訓(xùn)練和部署模型提供了更大的靈活性和控制權(quán),同時將AI應(yīng)用產(chǎn)品的上線時間從數(shù)月縮短到數(shù)周。每個合作伙伴應(yīng)用都由Amazon SageMaker AI完全托管,因此客戶不必?fù)?dān)心設(shè)置應(yīng)用或持續(xù)監(jiān)控以確保有足夠的容量。通過Amazon SageMaker可直接訪問這些應(yīng)用,客戶無需將數(shù)據(jù)從安全的亞馬遜云科技環(huán)境中移出,同時可以減少在不同界面之間切換的時間??蛻糁恍铻g覽Amazon SageMaker合作伙伴AI應(yīng)用產(chǎn)品目錄,了解他們想要使用的應(yīng)用的功能、用戶體驗(yàn)和定價。然后,他們可以輕松選擇和部署應(yīng)用,并使用Amazon Identity and Access Management(Amazon IAM)管理整個團(tuán)隊(duì)的訪問權(quán)限。
Amazon SageMaker在Ping Identity自研的AI和機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施的開發(fā)和運(yùn)營中也發(fā)揮著關(guān)鍵作用。借助Amazon SageMaker中的合作伙伴AI應(yīng)用產(chǎn)品,Ping Identity將能夠通過私有、完全托管的服務(wù),為其客戶提供更快速、更高效的機(jī)器學(xué)習(xí)驅(qū)動的功能,同時滿足嚴(yán)格的安全和隱私要求,并減少運(yùn)營開銷。
Amazon SageMaker全部創(chuàng)新技術(shù)現(xiàn)已全面可用。