當前位置:首頁 > 芯聞號 > 美通社全球TMT
[導讀]深圳2025年3月11日 /美通社/ -- 當前,大模型全流程訓練對數(shù)據(jù)存儲系統(tǒng)的要求已突破傳統(tǒng)邊界。企業(yè)級SSD作為AI算力基礎(chǔ)設施的核心組件,其高可靠性、高性能及智能化管理能力,正成為支撐大模型訓練效率與穩(wěn)定性的關(guān)鍵。 從海量數(shù)據(jù)的預處理到高頻參數(shù)迭代,從模型微調(diào)到實時推理...

深圳2025年3月11日 /美通社/ -- 當前,大模型全流程訓練對數(shù)據(jù)存儲系統(tǒng)的要求已突破傳統(tǒng)邊界。企業(yè)級SSD作為AI算力基礎(chǔ)設施的核心組件,其高可靠性、高性能及智能化管理能力,正成為支撐大模型訓練效率與穩(wěn)定性的關(guān)鍵。

從海量數(shù)據(jù)的預處理到高頻參數(shù)迭代,從模型微調(diào)到實時推理,大模型運行的每一個環(huán)節(jié)都需存儲設備在"硬指標"與"軟實力"間達成平衡。從產(chǎn)品可靠性視角出發(fā),憶聯(lián)新一代PCIe Gen5 ESSD UH812a/UH832a可高效支撐大模型全流程訓練。

可靠性硬指標:從容應對數(shù)據(jù)洪流"耐力賽" 

大模型訓練階段,需處理從10TB到100PB量級不等的海量數(shù)據(jù)集,讀寫頻率高、負載強度大。企業(yè)級SSD側(cè)重以高耐久性、大容量、混合讀寫性能等"硬指標"應對挑戰(zhàn)。

憶聯(lián)UH812a/UH832a采用最新一代PCIe 5.0接口,其存儲帶寬、時延、密度、耐久性、數(shù)據(jù)完整性和壽命與穩(wěn)定性等核心指標表現(xiàn),均高于行業(yè)標準,對比同代際產(chǎn)品,處于業(yè)內(nèi)領(lǐng)先水平。

  • 高速帶寬與超低延遲 

PCIe 5.0高速接口:支持單雙端口、NVMe2.0協(xié)議。對比PCIe 4.0帶寬翻倍,可高效處理海量非結(jié)構(gòu)化數(shù)據(jù)(文本、圖像等)的清洗、標注和格式轉(zhuǎn)換。
高吞吐量:順序讀寫14900MB/s-10500MB/s,峰值性能領(lǐng)先業(yè)內(nèi)同代際產(chǎn)品。
超低延遲:4K隨機讀取QD1延遲≤55μs,對比上一代(UH811a系列)改善43%。

憶聯(lián)PCIe 5.0 SSD以軟硬協(xié)同的高可靠性,支撐大模型全流程訓練


  • 高密度與大容量

單盤容量可達15.36TB:15.36TB容量SSD的TBW通常為 28PBW-70PBW,滿足大模型參數(shù)存儲需求,減少數(shù)據(jù)遷移開銷。

  • 錯誤率與數(shù)據(jù)完整性

UBER(不可恢復錯誤率):1E-18。JESD218A規(guī)范(固態(tài)硬盤可靠性測試方法)下,企業(yè)級SSD UBER滿足 ≤1E-17即可,部分高端產(chǎn)品通過技術(shù)優(yōu)化,可提升至1E-18。

  • 高耐久性

DWPD(每日全盤寫入次數(shù)):高達3 DWPD(UH832a)。5年保修期內(nèi),可滿足用戶每天3次全盤的數(shù)據(jù)寫入量,有力承載海量數(shù)據(jù)寫入的應用場景。

  • 高置信度

MTBF(平均故障間隔時間):≥250萬小時。累計1200+片盤測試。
AFR(年失效率):≤0.35%

根據(jù)OCP(開放計算項目)規(guī)范,企業(yè)級SSD的MTBF≥200萬小時(運行溫度0°-55°)、AFR(年失效率)≤0.44%即可。憶聯(lián)UH812a/UH832a高置信度的MTBF和AFR可輕松滿足模型訓練場景需求。

憶聯(lián)PCIe 5.0 SSD以軟硬協(xié)同的高可靠性,支撐大模型全流程訓練


系統(tǒng)級可靠性軟實力:毫秒級響應推理"敏捷戰(zhàn)" 

進入模型微調(diào)與推理階段,讀寫數(shù)據(jù)量降低,參數(shù)讀取速度和模型加載速度變得更為關(guān)鍵,存儲需求轉(zhuǎn)向低延遲與高服務質(zhì)量(QoS)。此時,企業(yè)級SSD需以"軟實力"極速響應推理"敏捷戰(zhàn)"。

憶聯(lián)UH812a/UH832a針對AI推理場景的典型需求,通過算法優(yōu)化、容錯與恢復機制、智能監(jiān)控與維護、數(shù)據(jù)保護等系統(tǒng)級可靠性設計,以及積累多年的完備測試驗證能力,構(gòu)建了多維度的"軟實力"保障體系。

憶聯(lián)PCIe 5.0 SSD以軟硬協(xié)同的高可靠性,支撐大模型全流程訓練


  • 固件算法優(yōu)化 

增強的LDPC糾錯算法:提供比Flash顆粒要求更高的糾錯能力,能夠精準識別并修正數(shù)據(jù)傳輸與存儲過程中出現(xiàn)的各類錯誤。LDPC+DSP算法引擎融合硬判決、軟判決、DSP等手段,使Flash壽命最高提升5倍。

全場景QoS調(diào)優(yōu):隨機讀99.999%的QoS時延小于1ms,達到業(yè)界領(lǐng)先。

智能磨損平衡技術(shù):智能均衡Flash顆粒磨損壓力,區(qū)分"健壯"與"脆弱"的NAND單元,優(yōu)化寫入分布,避免NAND局部過度擦寫,并結(jié)合智能健康監(jiān)測提前預警潛在風險,提升SSD壽命。

智能FSP算法:通過軟硬件協(xié)同設計,結(jié)合介質(zhì)特性,有效解決SSD在長期使用中性能衰減、數(shù)據(jù)可靠性下降的痛點。業(yè)界最低誤碼率的FSP算法保護SSD生命末期可靠,使得SSD全生命周期性能浮動小于10%。

  • 容錯與恢復機制 

內(nèi)置類RAID算法:基于智能的類RAID算法,當介質(zhì)數(shù)據(jù)出現(xiàn)錯誤后,可以恢復數(shù)據(jù),單芯片故障不影響數(shù)據(jù)完整性。

Flexible RAID算法:在發(fā)生Flash器件失效后,將主動恢復故障Flash中的數(shù)據(jù)并繼續(xù)對數(shù)據(jù)進行RAID保護。

掉電保護:當服務器異常下電時,通過內(nèi)置電容在斷電瞬間維持供電,確保硬盤內(nèi)的數(shù)據(jù)不丟失,優(yōu)先寫入緩存數(shù)據(jù),防止模型訓練中斷導致模型參數(shù)丟失。

  • 智能監(jiān)控與預測性維護 

健康狀態(tài)報告:實時檢測設備剩余壽命、溫度、IO統(tǒng)計、壞塊率等指標。支持設備診斷、監(jiān)測和SMART信息上報。

數(shù)據(jù)巡檢技術(shù):周期性巡檢錯誤、處理壞塊、校驗數(shù)據(jù)等,在后臺對全盤數(shù)據(jù)進行校驗檢查,可有效規(guī)避數(shù)據(jù)失真。若數(shù)據(jù)有失真風險,則及時搬遷此部分數(shù)據(jù),并屏蔽該Flash空間,避免業(yè)務讀取錯誤數(shù)據(jù),確保數(shù)據(jù)可靠性、完整性和設備健康。

NVMe-MI帶外管理:支持通過訪問帶外通道進行設備管理。如:軟硬件狀態(tài)監(jiān)控、主機業(yè)務性能監(jiān)控、SSD固件升級與激活、帶外業(yè)務管理等。

  • 全鏈路數(shù)據(jù)保護 

端到端數(shù)據(jù)保護:保護整個數(shù)據(jù)路徑中的數(shù)據(jù),支持用戶通過DIF域進行數(shù)據(jù)保護,數(shù)據(jù)在盤片內(nèi)部各模塊間傳輸時均有校驗保護,應用于大模型推理的復雜場景,可顯著降低數(shù)據(jù)丟失風險并延長SSD使用壽命。

高級Flash訪問技術(shù):組合應用Flash顆粒的Read retry和Adaptive read技術(shù),有效保證數(shù)據(jù)的有效性。

  • 深度調(diào)優(yōu)及驗證

企業(yè)級研發(fā)實驗室:可開展從軟件研發(fā)、算法到芯片、硬件及軟件測試等全方位的測試驗證任務。基于行業(yè)三大標準規(guī)范(JEDEC規(guī)范、SNIA和OCP),擁有強大的產(chǎn)品驗證及深度調(diào)優(yōu)能力,通過多種可靠性專項驗證測試,保障客戶使用的SSD具備長期可靠性和穩(wěn)定性。

全流程可靠性驗證:從白盒、灰盒、黑盒等多維度保障軟件特性功能和可靠性,已累計可靠性專項測試用例4000+。同時構(gòu)建了兼容性CI,持續(xù)累積可靠性測試強度,測試規(guī)模和測試壓力保持業(yè)界標桿水平。

憶聯(lián)PCIe 5.0 SSD以軟硬協(xié)同的高可靠性,支撐大模型全流程訓練


綜上所述,實現(xiàn)企業(yè)級SSD的高可靠性需"軟硬結(jié)合",既要硬指標達標(如MTBF、UBER、AFR),也需軟實力優(yōu)異(如算法優(yōu)化、容錯與恢復、高標準測試驗證等),通過構(gòu)建"零數(shù)據(jù)丟失"的可靠防線,方能支撐大模型從PB級數(shù)據(jù)訓練到毫秒級推理響應的全流程需求。

作為企業(yè)級PCIe 5.0標桿產(chǎn)品,憶聯(lián)UH812a/UH832a將以穩(wěn)定可靠的存力底座激發(fā)算力潛能,為客戶與伙伴提供堅實的數(shù)據(jù)存儲基礎(chǔ)設施保障。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉