浪潮網(wǎng)絡(luò)發(fā)布基于RoCE的無損以太網(wǎng)解決方案
(全球TMT2022年4月27日訊)近日,浪潮網(wǎng)絡(luò)發(fā)布基于RoCE的無損以太網(wǎng)解決方案,該方案以浪潮高性能數(shù)據(jù)中心交換機(jī)組為核心,滿足在AI集群、分布式存儲(chǔ)、HPC集群、數(shù)據(jù)中心的網(wǎng)絡(luò)要求,助力實(shí)現(xiàn)算力的無縫協(xié)同,釋放數(shù)據(jù)潛能,為產(chǎn)業(yè)發(fā)展注入創(chuàng)新動(dòng)能。
- 計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、AIStation無縫融合
通過提供統(tǒng)一品牌的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)和人工智能開發(fā)平臺(tái)整體解決方案,浪潮網(wǎng)絡(luò)可以支持PFC、ECN等網(wǎng)絡(luò)流控技術(shù),以構(gòu)建端到端、無損、低延時(shí)的RDMA(遠(yuǎn)程直接內(nèi)存訪問)承載網(wǎng)絡(luò)。而交換機(jī)完美的緩存優(yōu)勢(shì),可平滑吸收突發(fā)流量,有效應(yīng)對(duì)TCP incast。
此外,方案具備智能緩存管理技術(shù)(近似公平丟棄、動(dòng)態(tài)報(bào)文優(yōu)先級(jí)),可保護(hù)短報(bào)文的作業(yè)管理流量,確保AI集群的運(yùn)行效率。并支持Telemetry技術(shù),可以提供實(shí)時(shí)網(wǎng)絡(luò)數(shù)據(jù)和設(shè)備狀態(tài)的可視化管理。同時(shí)支持RoCE-SAN業(yè)務(wù)域,RoCE網(wǎng)絡(luò)靈活接入,AI集群主機(jī)與交換機(jī)可以同時(shí)實(shí)現(xiàn)單歸、雙歸連接。浪潮AIStation可以提供統(tǒng)一的主流深度學(xué)習(xí)框架(Tensorflow、Pytorch、Caffe、Mxnet、PaddlePaddle),開發(fā)訓(xùn)練平臺(tái)以及計(jì)算資源(CPU、GPU、內(nèi)存、存儲(chǔ))管理平臺(tái)。
- 故障主動(dòng)發(fā)現(xiàn)、自動(dòng)倒換
RoCE-SAN網(wǎng)絡(luò)與存儲(chǔ)業(yè)務(wù)協(xié)同、故障快速感知,交換機(jī)快速檢測(cè)到故障狀態(tài),并通知給相關(guān)業(yè)務(wù)域內(nèi)訂閱通知消息的服務(wù)器,以便業(yè)務(wù)快速切換到冗余路徑,降低對(duì)業(yè)務(wù)的影響。針對(duì)大型無損以太網(wǎng)環(huán)境下PFC死鎖的問題,可以提供芯片級(jí)防PFC死鎖機(jī)制,實(shí)現(xiàn)自動(dòng)檢測(cè)PFC死鎖及恢復(fù)。
- 存儲(chǔ)即插即用
RoCE-SAN網(wǎng)絡(luò)能夠自動(dòng)發(fā)現(xiàn)設(shè)備服務(wù)器與存儲(chǔ)設(shè)備的接入,并通知服務(wù)器自動(dòng)建立與存儲(chǔ)設(shè)備的連接關(guān)系。