AMD Instinct數(shù)據(jù)中心GPU第一時間支持DeepSeek

時間：2025-02-11 12:30:30

關(guān)鍵字： AMD 光電模塊賽靈思

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]2月10日消息，DeepSeek大模型火遍海內(nèi)外，AMD Instinct數(shù)據(jù)中心GPU第一時間實現(xiàn)了對最新版DeepSeek V3的支持，并且集成了SGLang推理框架優(yōu)化，從而提供最佳性能。

2月10日消息，DeepSeek大模型火遍海內(nèi)外，AMD Instinct數(shù)據(jù)中心GPU第一時間實現(xiàn)了對最新版DeepSeek V3的支持，并且集成了SGLang推理框架優(yōu)化，從而提供最佳性能。

據(jù)介紹，DeepSeek-V3是一種強大的開源混合專家MoE模型，共有6710億個參數(shù)，是目前開源社區(qū)最受歡迎的多模態(tài)模型之一，憑借創(chuàng)新的模型架構(gòu)，打破了高效低成本訓(xùn)練的記錄，獲得整個行業(yè)交口稱贊。

DeepSeek-V3不僅沿用了此前DeepSeek V2中的多頭潛在注意力機制MLA、MoE架構(gòu)，還開創(chuàng)了無輔助損失的負載平衡策略，并設(shè)定了多token預(yù)測訓(xùn)練目標，以提高性能。

目前，DeepSeek-V3在眾多主流基準測試中的表現(xiàn)都已比肩世界頂級開源、閉源模型，包括GPT-4o、laude 3.5 Sonnet、Qwen2.5-72B等等，尤其是擁有超強的長文本處理、數(shù)學(xué)及代碼編程能力。

AMD ROCm開源軟件、AMD Instinct數(shù)據(jù)中心GPU加速器軟硬聯(lián)合，構(gòu)成了強大的基礎(chǔ)設(shè)施，在DeepSeek-V3開發(fā)的關(guān)鍵階段發(fā)揮了重要作用，再次證明了AMD對開源AI軟件的承諾，也能幫助開發(fā)者打造強大的視覺推理和理解應(yīng)用。

DeepSeek-V3的另一大亮點是采用FP8低精度訓(xùn)練，而AMD ROCm平臺對于FP8的支持，顯著改善了大模型的計算過程，尤其是推理性能的提升。

通過支持FP8，AMD ROCm非常高效地解決了內(nèi)存瓶頸、更多讀寫格式高延遲等問題，可以在一定的硬件限制內(nèi)，運行更大的模型或批次。

相較于FP16，F(xiàn)P8精度計算可以顯著減少數(shù)據(jù)傳輸和計算的延遲，實現(xiàn)更高效地訓(xùn)練和推理。

乘著DeepSeek的東風，AMD將繼續(xù)推進ROCm開源開發(fā)生態(tài)，確保開發(fā)者能在第一時間基于AMD Instinct數(shù)據(jù)中心GPU從事DeepSeek相關(guān)的開發(fā)和應(yīng)用工作，實現(xiàn)最佳性能和擴展性。