GK110來了,NVIDIA正式發(fā)布Tesla K20X/K20
新一屆超級(jí)計(jì)算大會(huì)SC12今天開幕了,除了公布新的TOP500超算榜單,各大相關(guān)廠商也是一股腦地發(fā)布或者宣布了多款高性能計(jì)算產(chǎn)品。先來看NVIDIA這邊,基于開普勒大核心GK110、擁有71億個(gè)晶體管的Tesla K20終于正式發(fā)布了,而且還有更高端的Tesla K20X。
Tesla K20X擁有十四組SMX、2688個(gè)流處理器,屏蔽了一組192個(gè),但同時(shí)啟用完整的384-bit顯存位寬和1.5MB二級(jí)緩存,搭配6GB GDDR5。頻率方面核心定在732MHz,浮點(diǎn)性能為單精度FP32 3.95TFlops、雙精度FP64 1.31TFlops(這代3:1上代費(fèi)米2:1),顯存頻率則是5.2GHz,帶寬達(dá)249.6GB/s。
事實(shí)上,美國橡樹嶺國家實(shí)驗(yàn)室的新一代超級(jí)計(jì)算機(jī)“泰坦”里配備的就是Tesla K20X,而不是Tesla K20,只不過之前雙方都口風(fēng)甚緊,誰也沒有明說。泰坦此番不僅成功登頂超算王者,拿下世界性能第一,還在能效上超越了半年前的綠色超算第一名。
Tesla K20又放棄了一組SMX和一個(gè)顯存控制器,因此有2496個(gè)流處理器、320-bit位寬,顯存容量5GB GDDR5,二級(jí)緩存也對(duì)應(yīng)地減少到1.25MB。核心頻率也略降至706MHz,因此浮點(diǎn)性能減少為單精度3.52TFlops、雙精度 1.17TFlops,而顯存頻率仍然是5.2GHz,帶寬為208GB/s。
Tesla K20X的熱設(shè)計(jì)功耗為235W,Tesla K20則降低到225W——?jiǎng)e小看了這區(qū)區(qū)10W,225W正是絕大多數(shù)服務(wù)器和機(jī)柜所允許的擴(kuò)展卡最大TDP,再高就需要定制了,AMD 375W的雙芯型FirePro S10000就比較麻煩。二者都提供主動(dòng)和被動(dòng)散熱,供客戶選擇。
相比之下,上一代費(fèi)米架構(gòu)的Tesla M2090/M2070Q只有30億個(gè)晶體管、最多512個(gè)流處理器、384-bit 3.7GHz 6GB GDDR5顯存,浮點(diǎn)性能最高單精度1.33TFlops、雙精度655GFlops,熱設(shè)計(jì)功耗最高250W。
Tesla K20的建議零售價(jià)為3199美元,Tesla K20X則未公布,估計(jì)4000-5000美元范圍。二者均已開始大規(guī)模出貨了,客戶包括Appro、華碩、Cray、Eurotech、富士通、惠普、IBM、廣達(dá)、SGI、Supermicro、T-Platforms、泰安。
除了橡樹嶺,其它采納Tesla K20系列的機(jī)構(gòu)還有:美國克萊姆森大學(xué)、印第安納大學(xué)、南加州大學(xué)(USC)、托馬斯·杰斐遜國家加速器實(shí)驗(yàn)室、國家超級(jí)計(jì)算應(yīng)用中心(NCSA)、國家海洋和大氣管理局(NOAA);沙特阿拉伯阿卜杜拉國王科技大學(xué)(KAUST);中國上海交大。
NVIDIA宣稱,Tesla K20X搭配Intel Sandy Bridge處理器,可以將大量高性能計(jì)算應(yīng)用的性能提升十倍乃至更多,包括:
- MATLAB(工程):18.1倍
- Chroma(物理):17.9倍
- SPECFEM3D(地球科學(xué)):10.5倍
- AMBER(分子動(dòng)力學(xué)):8.2倍
NVIDIA還表示,Tesla K20X/K20在過去三十天內(nèi)就累計(jì)出貨提供了超過30PFlops的浮點(diǎn)性能,相當(dāng)于過去時(shí)間最快超級(jí)計(jì)算機(jī)的總和!
此前發(fā)布的雙GK104核心的Tesla K10并不會(huì)被取代和淘汰,而是將與Tesla K20系列并存。事實(shí)上,Tesla K20的單精度浮點(diǎn)性能還更高呢,達(dá)到了4.5TFlops,只是沒有SRAM ECC、HyperQ、Dynamic Parallelism等高端技術(shù)。
Tesla K20X高清實(shí)物照
Tesla K20高清實(shí)物照
GK110核心架構(gòu)圖(完整的2880個(gè)流處理器)
GK110 SMX陣列架構(gòu)圖
Tesla K20/2000系列規(guī)格對(duì)比
開普勒、費(fèi)米核心規(guī)格對(duì)比
雙精度浮點(diǎn)效率:上代只有65%,現(xiàn)在提高到了驚人的93%,Intel Xeon也才不過86%
HyperQ、Dynamic Parallism技術(shù)
之前說的Tesla K20價(jià)格和出貨時(shí)間,實(shí)際上提前了
泰坦超級(jí)計(jì)算機(jī)的計(jì)算板:四顆十六核心Opteron、四塊Tesla K20X(左側(cè))