面向AI時代的算力源泉
當(dāng)前,人工智能技術(shù)在互聯(lián)網(wǎng)、金融、交通、制造、能源等行業(yè)深入應(yīng)用,在帶動人工智能市場規(guī)模蓬勃發(fā)展的同時,也帶來指數(shù)級增長的算力需求,計(jì)算產(chǎn)業(yè)面臨著多元化及巨量化的算力挑戰(zhàn)。這種挑戰(zhàn)對承擔(dān)算力的基礎(chǔ)設(shè)施提出了更高的要求。基于此,面向人工智能應(yīng)用場景的服務(wù)器應(yīng)時而生,它既是實(shí)現(xiàn)數(shù)字經(jīng)濟(jì)時代澎湃算力、海量存儲和高速網(wǎng)絡(luò)的核心驅(qū)動器,也必須滿足語音識別、圖像分類、機(jī)器學(xué)習(xí)、認(rèn)知推理等多種人工智能業(yè)務(wù)場景下的算力表現(xiàn)。
一個核心提供強(qiáng)大算力
AI業(yè)務(wù)需要大量并行計(jì)算,目前AI領(lǐng)域最為強(qiáng)大的算力是NVIDIA Ampere架構(gòu)的A100 GPU卡。H3C UniServer R5500 G5服務(wù)器搭載了具備8張A100 GPU卡的HGX A100 8-GPU模塊,在模塊內(nèi)集成6個NVSwitch芯片,實(shí)現(xiàn)了GPU模塊內(nèi)600GB/s的高速全互聯(lián),對比上代產(chǎn)品算力提升可達(dá)20倍。
盡管算力強(qiáng)大,但如何將HGX A100 8-GPU模塊引入到服務(wù)器端,為人工智能業(yè)務(wù)提供高效的算力引擎,仍然是讓各服務(wù)器廠家頭疼的問題。盡管NVIDIA給出了DGX A100的參考設(shè)計(jì),但當(dāng)前能夠支持HGX A100 8-GPU模塊的服務(wù)器廠家仍然少之又少,滿足NVIDIA參考設(shè)計(jì)的服務(wù)器更是鳳毛麟角。
優(yōu)秀算力的GPU模塊
三大利器打造強(qiáng)大算力引擎
眾所周知,計(jì)算、存儲和網(wǎng)絡(luò)是數(shù)據(jù)中心最核心的三大部分,AI業(yè)務(wù)同樣需要CPU、網(wǎng)絡(luò)、存儲的參與,三者缺一不可,否則會形成計(jì)算瓶頸。
計(jì)算平臺多元靈活
R5500 G5在CPU方面設(shè)計(jì)了雙計(jì)算平臺架構(gòu),同時支持AMD和Intel新的CPU。如需切換CPU平臺,僅需切換計(jì)算節(jié)點(diǎn),線纜等其他配置均保持不變,系統(tǒng)PCIe拓?fù)湟膊粫l(fā)生變化,讓A100 GPU卡可以自由選擇搭檔,從而通過靈活選擇以滿足客戶對于不同計(jì)算平臺的需求。
支持兩顆 Intel CPU或兩顆AMD CPU
高效存儲匹配AI速度
AI服務(wù)器集群方案中通常選擇后掛高性能的分布式存儲,但服務(wù)器的本地存儲性能也同樣重要。尤其是針對AI計(jì)算所需要的讀寫速度時,NVMe硬盤更加適配。R5500 G5服務(wù)器采用高性能分布式存儲,最多可支持25個2.5英寸硬盤,其中最高支持12個NVMe硬盤。12個NVMe硬盤中,有8個硬盤是通過4個PCIe Switch直接與GPU互聯(lián)。和GPU直連網(wǎng)卡類似,配合GPU Direct Storge功能,GPU可直接通過PCIe Switch讀取NVMe硬盤的數(shù)據(jù),無需通過CPU中轉(zhuǎn),讀寫效率獲得了數(shù)倍的提升。
強(qiáng)大的存儲擴(kuò)展能力
網(wǎng)絡(luò)通信消除瓶頸
為保證多臺服務(wù)器之間的網(wǎng)絡(luò)通信速度,在網(wǎng)絡(luò)通信設(shè)計(jì)上,單臺R5500 G5服務(wù)器通過PCIe Switch分別和8張最高200G的PCIe4.0網(wǎng)卡互連,配合GPU Direct RDMA,使得每張GPU卡都可以直接讀取1張200G網(wǎng)卡的數(shù)據(jù),網(wǎng)絡(luò)通信速度最高可提升5~10倍。而當(dāng)多臺R5500 G5搭建服務(wù)器集群時,可支持1張GPU卡直接讀取1張網(wǎng)卡的數(shù)據(jù),極大地提高了多臺服務(wù)器之間的網(wǎng)絡(luò)通信速度。
高速互聯(lián)的網(wǎng)絡(luò)拓?fù)?
軟硬結(jié)合 構(gòu)建強(qiáng)大AI集群
硬件只是AI集群建設(shè)的一部分,如何讓用戶對服務(wù)器進(jìn)行全流程可視化管理,才是釋放AI算力的關(guān)鍵。通過軟件層面的深度優(yōu)化,R5500 G5服務(wù)器以軟硬結(jié)合的方式,為AI開發(fā)提供集群監(jiān)管/作業(yè)調(diào)度/AI建模/分區(qū)管理等功能,計(jì)算的效率實(shí)現(xiàn)了大幅提升。
得益于容器化的軟件架構(gòu),R5500 G5服務(wù)器所提供的計(jì)算資源可以被集中管理、統(tǒng)一分配與作業(yè)調(diào)度,包括實(shí)現(xiàn)GPU資源池的集中管理與分配、多租戶方式隔離計(jì)算資源、以作業(yè)方式動態(tài)分配計(jì)算資源以及計(jì)算資源回收等功能。用戶會實(shí)時監(jiān)控管理集群資源使用情況和集群狀態(tài),包括作業(yè)狀態(tài)、GPU使用率、集群健康度等。
R5500 G5服務(wù)器所匹配的豐富集群配置、管理工具,讓集群管理更加方便快捷。通過圖形化的一站式交互開發(fā)操作界面,幫助用戶完成模型腳本在線編輯、模型訓(xùn)練、模型驗(yàn)證以及模型推理等核心功能,并結(jié)合硬件資源可視化、作業(yè)調(diào)度器,較大化提高系統(tǒng)硬件資源的利用率。
縱觀市場上的人工智能服務(wù)器產(chǎn)品,H3C UniServer R5500 G5服務(wù)器是一款跨時代的服務(wù)器產(chǎn)品。性能的AI硬件平臺建設(shè)奠定了堅(jiān)實(shí)基礎(chǔ)。目前,眾多互聯(lián)網(wǎng)企業(yè)、科研機(jī)構(gòu)、智能制造等行業(yè)客戶已經(jīng)將R5500 G5服務(wù)器用于智能應(yīng)用開發(fā)。未來,R5500 G5將會在更多場景下加速各行各業(yè)智能化場景的落地。
(本文摘選自新華三集團(tuán)第25期《數(shù)字化領(lǐng)航》)