十多年之后...是時(shí)候了!Arm服務(wù)器正在擴(kuò)大陣地
憑借著在個(gè)人計(jì)算機(jī)領(lǐng)域的廣泛應(yīng)用打下的堅(jiān)實(shí)基礎(chǔ),X86自始至終統(tǒng)治著整個(gè)服務(wù)器生態(tài)。而這并不是業(yè)界希望看到的,因此Arm服務(wù)器被給予厚望。業(yè)界期盼Arm能夠帶來(lái)新的服務(wù)器CPU替代:打破一個(gè)同質(zhì)化的數(shù)據(jù)中心架構(gòu),實(shí)現(xiàn)更高效的計(jì)算資源分配。
從2011年開(kāi)始,英偉達(dá)、Calxeda、博通、高通、海思等大大小小的處理器創(chuàng)新先鋒開(kāi)始推出服務(wù)器級(jí)64位Arm CPU,雖然數(shù)年來(lái)并未在X86的陣地中奪得一隅,但業(yè)界從未放棄在這一領(lǐng)域的探索,尤其是云服務(wù)廠商。從2018年隨著AWS Graviton一代的發(fā)布,Arm CPU在云計(jì)算中的高能效價(jià)值凸顯。并且隨著Graviton的不斷迭代帶來(lái)的能效跨越式提升,越來(lái)越多AWS的客戶選擇了將其工作負(fù)載創(chuàng)建在基于Graviton的實(shí)例上。
“為什么超大規(guī)模云服務(wù)商如亞馬遜云服務(wù) (AWS)、阿里巴巴都要做自己的 CPU 設(shè)計(jì),而且都選擇和 Arm 合作?其實(shí)答案非常簡(jiǎn)單,通過(guò)和 Arm 合作,他們能夠根據(jù)自己的用例和基礎(chǔ)設(shè)施來(lái)打造并優(yōu)化解決方案。”
從2011年到現(xiàn)如今,經(jīng)歷了十余年的時(shí)間。眼下,Arm CPU開(kāi)始真正的展示出其在服務(wù)器領(lǐng)域不可或缺的計(jì)算價(jià)值和生態(tài)意義。英偉達(dá)Grace CPU、Fujitsu A64FX和Marvell的ThunderX2等不斷涌現(xiàn),讓人覺(jué)得眼前一亮。
雖然從Omdia 2022年第二季度統(tǒng)計(jì)來(lái)看,Arm在服務(wù)器CPU份額約為7.1左右,但隨著大型數(shù)據(jù)中心和邊緣計(jì)算服務(wù)器的需求激增,預(yù)計(jì)將為Arm CPU帶來(lái)更多新的機(jī)遇。
近日在Arm Tech Symposia年度技術(shù)大會(huì)北京場(chǎng),我們有幸采訪到了Arm高級(jí)副總裁兼基礎(chǔ)設(shè)施事業(yè)部總經(jīng)理Mohamed Awad,他針對(duì)Arm在基礎(chǔ)設(shè)施領(lǐng)域的計(jì)算平臺(tái)進(jìn)行了精彩的分享。
傳統(tǒng)服務(wù)器架構(gòu):已無(wú)法滿足AI應(yīng)用高帶寬需求
在傳統(tǒng)的服務(wù)器架構(gòu)中,一個(gè)通用的現(xiàn)成CPU和一個(gè)DRAM在一起,然后連接至多個(gè)加速器。這一傳統(tǒng)架構(gòu)一直適用了幾十年,但由于無(wú)法獲得足夠的內(nèi)存,這一架構(gòu)已經(jīng)很難滿足AI應(yīng)用所需的數(shù)據(jù)和計(jì)算量。面向新的AI應(yīng)用需求,數(shù)據(jù)中心基礎(chǔ)設(shè)施領(lǐng)域出現(xiàn)了新的現(xiàn)代化系統(tǒng)架構(gòu)。例如,現(xiàn)在我們可以通過(guò)一個(gè)定制CPU,在每一個(gè)DRAM和加速器之間建立高性能連接,從而在各個(gè)設(shè)備之間實(shí)現(xiàn)內(nèi)存一致性。
“人工智能 (AI) 正處于快速發(fā)展中,目前最大的挑戰(zhàn)之一內(nèi)存帶寬以及其能否為設(shè)備提供更好的支持。行業(yè)需要一個(gè)新的系統(tǒng)架構(gòu)來(lái)實(shí)現(xiàn)更多的內(nèi)存帶寬和內(nèi)存一致性?!盡ohamed Awad分享到,“不止于此,我們還需要不斷發(fā)展我們的系統(tǒng)架構(gòu),要有足夠的靈活性,并讓不同的想法蓬勃發(fā)展,進(jìn)而找到實(shí)現(xiàn) AI 的最佳途徑。”
在五年前,要構(gòu)建一個(gè)數(shù)據(jù)中心基礎(chǔ)設(shè)施,服務(wù)商會(huì)直接購(gòu)買通用的預(yù)配置好的現(xiàn)成芯片,然后按照CPU供應(yīng)商提供的固有方式來(lái)搭建整個(gè)服務(wù)器,接著將服務(wù)器放倒機(jī)架上,通電即可。但現(xiàn)在,阿里巴巴、AWS、微軟這樣的超大規(guī)模云服務(wù)商都開(kāi)始自研芯片,最主要的目的就是為了能夠把每一顆芯片的性能、效率都發(fā)揮到極致,做到最佳優(yōu)化,他們會(huì)根據(jù)自己的用例、工作負(fù)載,圍繞服務(wù)器、機(jī)架甚至是自己的數(shù)據(jù)中心來(lái)進(jìn)行個(gè)性化定制。
隨著GPTs等技術(shù)的發(fā)展,數(shù)據(jù)量和計(jì)算量只會(huì)越來(lái)越大,而芯片的定制化意味著生態(tài)伙伴可以通過(guò)優(yōu)化,支持不斷激增的數(shù)據(jù)量和計(jì)算量。就像近期 AWS和微軟的自研芯片發(fā)布中,他們都是同時(shí)推出一款新的CPU和一款新的 AI芯片,兩者結(jié)合從而能最大化效率、性能和價(jià)值。
Arm Neoverse能夠適應(yīng)新的AI應(yīng)用帶來(lái)的計(jì)算和內(nèi)存帶寬需求,為數(shù)據(jù)中心架構(gòu)帶來(lái)變革。例如近日發(fā)布的英偉達(dá)GH200超級(jí)芯片中,其CPU Grace Hopper就采用了72顆Neoverse 核心,加上來(lái)自NVIDIA的GPU的組合,實(shí)現(xiàn)了AI性能較基于x86架構(gòu)的系統(tǒng)10倍提升。
從大型云服務(wù)商到初創(chuàng)企業(yè),構(gòu)建開(kāi)放創(chuàng)新的服務(wù)器生態(tài)
過(guò)去了十多年,為什么直到近年來(lái)Arm CPU的服務(wù)器才得以站穩(wěn)腳跟,拿到一些份額?是因?yàn)樽鳛橹苯邮芤嬲叩拇笠?guī)模云服務(wù)器廠商開(kāi)始真正發(fā)力了。他們一方面有著豐富的應(yīng)用場(chǎng)景和計(jì)算需求,另一方面投入了大量的研發(fā)資金,從而真正使得Arm服務(wù)器得以成行。
但要持續(xù)擴(kuò)大Arm服務(wù)器的份額,提高到10%以上,未來(lái)甚至增大至15%、20%,絕非易事。這意味著要將X86 CPU主導(dǎo)的服務(wù)器生態(tài)中的系統(tǒng)堆棧和應(yīng)用軟件都移植過(guò)來(lái),而爭(zhēng)取到這些軟件商就需要硬件生態(tài)更加開(kāi)放繁榮,要讓整個(gè)生態(tài)變得更易加入,更易創(chuàng)新,不能只是大規(guī)模云服務(wù)商自研自用。Arm深知生態(tài)構(gòu)建的意義,需要降低門檻,乃至初創(chuàng)企業(yè)都能夠輕松構(gòu)建基于Arm Neoverse平臺(tái)的服務(wù)器CPU。
Arm幾十年來(lái)一直專注于計(jì)算性能,專注于計(jì)算性能與軟件的緊密藕合。而計(jì)算性能不僅和CPU IP相關(guān),而是包括了多種IP的組合、互連,以及軟硬件的協(xié)同工作。Arm不僅提供IP,還提供了完整的計(jì)算解決方案。在移動(dòng)計(jì)算領(lǐng)域有Arm 全面計(jì)算解決方案 (Arm Total Compute Solutions),在物聯(lián)網(wǎng)領(lǐng)域有Arm Corstone,在汽車領(lǐng)域有SOAFEE,而在基礎(chǔ)設(shè)施領(lǐng)域則是Arm Neoverse平臺(tái)。
為了進(jìn)一步幫助客戶加速部署基于Neoverse平臺(tái)的系統(tǒng),Arm Neoverse 計(jì)算子系統(tǒng) (CSS) 能夠提供完整的子系統(tǒng),合作伙伴可以直接采用,也可按需選用,從而加速產(chǎn)品的上市進(jìn)程。近日發(fā)布的微軟Azure Cobalt 100,就是基于Neoverse CSS打造而來(lái)。而Cobalt 100的超乎性能表現(xiàn),也代表著Neoverse CSS這一子系統(tǒng)的強(qiáng)大潛力。一方面顯著意義在于,Neoverse CSS可以幫助所有體量的客戶縮短研發(fā)時(shí)間,另一方面對(duì)于小體量客戶而言,直接選擇Neoverse CSS可以大幅降低他們的研發(fā)成本。
“并不是所有的合作伙伴都具備AWS這樣成熟的技術(shù)能力,一些合作伙伴可能需要我們?cè)诩夹g(shù)上給予更多的支持從而推動(dòng)產(chǎn)品上市。于是我們推出了進(jìn)一步的舉措——Arm Neoverse CSS ,來(lái)幫助客戶加速部署基于Neoverse平臺(tái)的系統(tǒng)?!盡ohamed Awad分享到,“Neoverse CSS能夠提供完整的子系統(tǒng),合作伙伴可以直接采用,也可按需選用。通過(guò) Neoverse CSS 能夠幫助我們的合作伙伴進(jìn)一步降低投資,加速整個(gè)生態(tài)系統(tǒng)對(duì)我們解決方案的可訪問(wèn)性?!?
據(jù)某些客戶反饋,使用Neoverse CSS,節(jié)省了長(zhǎng)達(dá)80人/年的工程師時(shí)間;另外一位客戶反饋,使用Neoverse CSS,助力其項(xiàng)目從概念到流片僅耗時(shí)13個(gè)月。在國(guó)內(nèi)也有諸多知名的客戶選擇了Neoverse平臺(tái)來(lái)搭建自己在基礎(chǔ)設(shè)施領(lǐng)域的產(chǎn)品,包括阿里巴巴、云豹智能、遇賢微電子和鴻鈞微電子等。
結(jié)語(yǔ)
2023年還剩不到一個(gè)月的時(shí)間,今年Arm服務(wù)器的份額能否突破10%還未嘗可知,但近期各種高性能定制Arm服務(wù)器CPU的出現(xiàn),以及不斷迭代發(fā)展的大模型應(yīng)用,勢(shì)必會(huì)影響到明年的服務(wù)器端的市場(chǎng)變化。
Mohamed Awad表示,如今中國(guó)合作伙伴基于 Arm 架構(gòu)芯片的總出貨量已累計(jì)達(dá)300億顆。假設(shè)僅中國(guó)市場(chǎng)的出貨量來(lái)看,就能平均為地球上的每個(gè)人出貨近四顆芯片。目前Arm在中國(guó)有近400家技術(shù)授權(quán)客戶,這個(gè)數(shù)字每個(gè)月都在不斷攀升。
而在AI引領(lǐng)的新一輪生產(chǎn)力變革中,中國(guó)比任何時(shí)候都要迫切,也更需要在這一次獲得領(lǐng)先。因此對(duì)于Arm Neoverse和新推出的Arm Neoverse CSS而言,中國(guó)客戶或許會(huì)更為關(guān)注,我們相信新的服務(wù)器生態(tài)也更有可能先在中國(guó)發(fā)展開(kāi)來(lái)。