明年就能雙劍合璧!AMD展示7nm GPU+CPU數(shù)據(jù)中心
在近日召開的AMD大中華區(qū)合作伙伴峰會上,AMD全球副總裁、數(shù)據(jù)中心解決方案產(chǎn)品部總經(jīng)理Scott Aylor展示了一個7nm數(shù)據(jù)中心的demo。在演示中可以看到全新的AMD 7nm GPU+CPU的平臺在進(jìn)行圖像訓(xùn)練的時候,可以達(dá)到前代產(chǎn)品兩倍的運(yùn)算速度。采用最新的7nm工藝制程的全新GPU Radeon INSTINCT MI60的預(yù)計(jì)年內(nèi)發(fā)布;而同樣為7nm制程,代號為“Rome”的EPYC系列數(shù)據(jù)中心處理器則宣布將在明年正式發(fā)布。
圖:7nm數(shù)據(jù)中心demo展示
隨著人工智能、物聯(lián)網(wǎng)等應(yīng)用場景的不斷普及。海量的數(shù)據(jù)和大量的運(yùn)算讓數(shù)據(jù)中心市場變得愈發(fā)龐大,而AMD在這個時間節(jié)點(diǎn)有一個很好的機(jī)會:既有非常強(qiáng)大的GPU的技術(shù)儲備,又搶占了7nm的工藝節(jié)點(diǎn)。那么AMD是如何發(fā)揮這一優(yōu)勢,進(jìn)行數(shù)據(jù)中心市場布局的?我們或可從此次峰會一窺端倪。
真實(shí)訓(xùn)練樣本數(shù)不夠?MI60模擬的拿來湊
“7nm制程的Radeon Instinct MI60這個季度就可以發(fā)貨,”AMD Radeon技術(shù)事業(yè)部、工程研發(fā)高級副總裁王啟尚如是說到。這句承諾引起了當(dāng)天在座諸多合作伙伴的一陣歡呼和掌聲。此處不掰飭實(shí)際哪種工藝制程的孰優(yōu)孰劣,但從數(shù)字上看,AMD確實(shí)勝了一籌。英特爾的10nmFPGA仍未量產(chǎn),英偉達(dá)的GPU去年剛步入12nm的制程。Radeon Instinct MI60(下文簡稱MI60)將會是AMD全面搶占數(shù)據(jù)中心加速類產(chǎn)品市場份額的利器。據(jù)王啟尚介紹,GPU在數(shù)據(jù)中心的主要應(yīng)用場景為云游戲、虛擬桌面及工作站、機(jī)器學(xué)習(xí)和高性能計(jì)算。MI60是全球首款7nm制程的GPU,采用了高性能、靈活的Vega架構(gòu),擁有領(lǐng)先的內(nèi)存和可拓展性,并且是業(yè)內(nèi)唯一的硬件虛擬化GPU。
圖:兩種工藝路線的性能對比
遵循摩爾定律的規(guī)律,7nm帶來的性能提升頗多。全新的工藝制程提供了高達(dá)2倍的密度,一個芯片在331mm²的面積上可以容納132億個晶體管;相同功耗條件下提升超過25%的性能;相同頻率下降低50%的功耗;具有更高的每瓦特性能。全新的Vega架構(gòu)可以實(shí)現(xiàn)了高效能的內(nèi)存系統(tǒng),可以達(dá)到1 TB/s的帶寬;基于第二代HBM存儲,可以支持大體量數(shù)據(jù)中心的部署;MI60是業(yè)界首款支持PCIe4.0的GPU,拓寬了GPU相互之間通信的頻寬達(dá)到了雙向64GB/s。MI60還是第三代的硬件虛擬化GPU,用戶可以輕松地將應(yīng)用程序部署到云端;每個GPU可以驅(qū)動多個虛擬機(jī),因此可以節(jié)約數(shù)據(jù)中心運(yùn)營商的成本;反過來呢,一個虛擬機(jī)又可以支持多個GPU,在一些虛擬計(jì)算應(yīng)用中也可以提高計(jì)算性能。
為了將生態(tài)系統(tǒng)做大,AMD還提供了完全開源的ROCm平臺。這個平臺是GPU與上層軟件的接口,完全的開源可以讓任何人都可以更容易實(shí)現(xiàn)GPU在機(jī)器學(xué)習(xí)方面的應(yīng)用搭建。王啟尚表示,要將ROCm拓展到數(shù)百萬的Linux內(nèi)核的用戶。目前ROCm已經(jīng)被開源社區(qū)所接納。
圖:開源ROCm2.0平臺
峰會現(xiàn)場展示了一個用MI60來進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練的客戶案例。這個案例來自highwai,他們遇到的問題是得不到足夠多真實(shí)的駕駛數(shù)據(jù)來進(jìn)行升級網(wǎng)絡(luò)的訓(xùn)練。要知道谷歌目前積累的自動駕駛的里程數(shù)也才10000萬英里,但是其實(shí)統(tǒng)計(jì)數(shù)據(jù)表示每50萬英里才會出現(xiàn)一次車禍。因此要想實(shí)現(xiàn)靠譜的自動駕駛,首先真實(shí)訓(xùn)練樣本數(shù)就差的很遠(yuǎn)。因此highwai采用了AMD的GPU來模擬一些駕駛數(shù)據(jù)。第一步GPU先為神經(jīng)網(wǎng)絡(luò)訓(xùn)練生成數(shù)據(jù),第二步用模擬的數(shù)據(jù)去訓(xùn)練神經(jīng)網(wǎng)絡(luò),第三步將模擬數(shù)據(jù)和正式數(shù)據(jù)交叉驗(yàn)證,第四步最終到真實(shí)世界中開始部署。這是一個非常典型的GPU加速的應(yīng)用案例,在這類加速應(yīng)用中GPU相比ASIC和FPGA有著明顯的優(yōu)勢。
圖:highwai的自動駕駛訓(xùn)練案例
MI60相比前代產(chǎn)品MI25,有大約8.8倍的提升。按照廣泛發(fā)布的數(shù)據(jù)中心路線圖來看,新一代的產(chǎn)品也已經(jīng)在規(guī)劃中。王啟尚表示,AMD的GPU在數(shù)據(jù)中心中有很大的機(jī)會,并且AMD已經(jīng)做好了競爭的準(zhǔn)備。
圖:AMD數(shù)據(jù)中心GPU路線圖
代號“Rome”的7nm數(shù)據(jù)中心CPU明年發(fā)布
因?yàn)檎谘邪l(fā)中,所以可以講的不是太多。負(fù)責(zé)這部分介紹的Scott先生更多著墨于當(dāng)前AMD的CPU在數(shù)據(jù)中心市場中的表現(xiàn)。他在演講中提到,10年前數(shù)據(jù)中心都是物理實(shí)體化和本地部署;而現(xiàn)在呢,當(dāng)然都是在云端進(jìn)行部署,虛擬化技術(shù)和混合云等應(yīng)用廣泛。AMD EPYC(霄龍)可以滿足現(xiàn)代數(shù)據(jù)中心在核心密度、內(nèi)存帶寬、I/O性能和安全性方面的需求。
圖:單路EPYC服務(wù)器提供了更好的浮點(diǎn)運(yùn)算性能
傳統(tǒng)的雙路服務(wù)器需要的成本更高,功耗也更多。而單路EPYC服務(wù)器在成本上則低了很多,并且性能上也毫不妥協(xié)。單路EPYC服務(wù)器可以將TCO降低45%,其它譬如管理費(fèi)用、硬件費(fèi)用、許可費(fèi)用和空間費(fèi)用上都有明顯的節(jié)省。浮點(diǎn)性能是云服務(wù)器的重要指標(biāo),單路EPYC服務(wù)器的浮點(diǎn)性能也有了提升,反應(yīng)在具體應(yīng)用上:可以使WRF氣象建模的計(jì)算速度提高44%;ANSYS流體力學(xué)的計(jì)算速度提高25%;NAMD分子動力學(xué)的計(jì)算速度提高41%。
圖:AMD數(shù)據(jù)中心CPU路線圖
最受關(guān)注的當(dāng)然還是代號為"Rome"的7nm數(shù)據(jù)中心CPU,Scott先生承諾其將于2019年發(fā)布,一個CPU中最多可以搭載64個Zen 2核心,提供更高的每時鐘周期指令數(shù)和領(lǐng)先的計(jì)算、I/O以及內(nèi)存帶寬。官方信息表示,每插槽的計(jì)算性能將提升至2倍左右,每插槽的浮點(diǎn)性能將提升至4倍左右。“Rome”的插槽將于現(xiàn)有的“Naples”平臺完全兼容,所以可以幫助客戶更輕松地實(shí)現(xiàn)升級,并且向前兼容“Milan”平臺。正如本文初所提及的,Scott先生展示了一個全新7nm GPU+CPU的數(shù)據(jù)中心與前代產(chǎn)品在進(jìn)行圖像識別訓(xùn)練的demo,筆者現(xiàn)場可見,全新7nm數(shù)據(jù)中心的計(jì)算速度確實(shí)比前代產(chǎn)品快了許多。距Rome正式發(fā)布還有不短的時間,說不定AMD還會帶來更高的性能提升。
圖:AMD全球副總裁、大中華區(qū)總裁潘曉明
本次峰會上,AMD還重點(diǎn)介紹了其CPU在筆記本市場方面的業(yè)績提升,以及GPU在游戲方面的赫赫戰(zhàn)果。明年將是AMD成立50周年,筆者最期待的周年禮自然是Rome處理器的面世!而AMD全球副總裁、大中華區(qū)總裁潘曉明在大會上也自信地表示:“在下一個五十年,當(dāng)我們邁入到沉浸式計(jì)算的時代,AMD做為技術(shù)的驅(qū)動者,責(zé)無旁待!讓我們‘攜手同芯’,堅(jiān)信‘未來可期’。”7nm GPU+CPU的數(shù)據(jù)中心到底有多贊?讓我們拭目以待其再次如7而至。