7nm安培GPU詳解：400W功耗、40GB HBM2、826mm2怪獸出爐

時(shí)間：2020-05-28 10:30:01

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]等了很久，今晚NVIDIA正式發(fā)布了7nm安培GPU，號(hào)稱是8代GPU史上最大的性能飛躍。不過(guò)官方并沒(méi)有公布安培GPU的技術(shù)細(xì)節(jié)，Anandtech網(wǎng)站倒是給出了一份詳細(xì)的介紹。這次的GTC 202

等了很久，今晚NVIDIA正式發(fā)布了7nm安培GPU，號(hào)稱是8代GPU史上最大的性能飛躍。不過(guò)官方并沒(méi)有公布安培GPU的技術(shù)細(xì)節(jié)，Anandtech網(wǎng)站倒是給出了一份詳細(xì)的介紹。

這次的GTC 2020大會(huì)演講中，NVIDIA CEO黃仁勛主要談的就是HPC計(jì)算、AI人工智能等方面的內(nèi)容，目前推出的A100大核心也是針對(duì)這個(gè)領(lǐng)域的，與之相比的是3年前發(fā)布的Volta架構(gòu)V100核心，很多東西跟RTX 3080 Ti游戲卡會(huì)不一樣，大家不用糾結(jié)。

首先來(lái)說(shuō)大方面的，V100核心使用的是12nm Volta架構(gòu)，211億晶體管，核心面積815mm2，而A100核心是臺(tái)積電7N工藝，應(yīng)該也是定制版的7nm工藝，826mm2，542億晶體管，同樣是核彈級(jí)別的。

V100核心擁有80組SM單元，5120個(gè)CUDA核心，SXM2/3架構(gòu)，而A100核心是108組SM單元，SXM4架構(gòu)，6912個(gè)CUDA核心。

AI方面是變化最大的，相比Volta架構(gòu)的640個(gè)Tensor Core，A100核心的Tensor Core減少到了432個(gè)，但是性能大幅增強(qiáng)，支持全新的TF32運(yùn)算，浮點(diǎn)性能156TFLOPS，同時(shí)INT8浮點(diǎn)性能624TOPS，F(xiàn)P16性能312TFLOPS。

常規(guī)的FP32、FP64性能提升倒是不算明顯，從V100核心的15.7.、7.8TFLOPS提升到了19.5、9.7TFLOPS。

頻率方面，A100核心實(shí)際上還倒退了，從V100的1530MHz降低到了1.41GHz左右，畢竟核心規(guī)模實(shí)在太大，功耗已經(jīng)飆到了400W，比V100的300/350W功耗高出不少。

顯存方面，A100配備的也是HBM2顯存，頻率從1.75Gbps提升到了2.4Gbps，位寬5120bit，相比V100的4096bit增加了1024bit，容量也從16/32GB增加到了40GB。

不過(guò)HBM2的配置略顯奇怪，增加1024bit理論上應(yīng)該多1組HBM2，但從核心圖上看又是6組HBM2顯存，或許是2組512bit的？保不準(zhǔn)以后還會(huì)有完整版A100核心。

不過(guò)HBM2顯存位寬、頻率雙雙提升的后果就是，A100核心寸帶寬達(dá)到了1.6TB/s，遠(yuǎn)高于V100的900GB/s，比AMD的Radeon VII顯卡的1TB/s帶寬還要高。

最后，NVLink技術(shù)也升級(jí)到了3.0版，帶寬從300GB/s提升到了600GB/s，適合服務(wù)器領(lǐng)域多卡互聯(lián)，不過(guò)未來(lái)應(yīng)該還會(huì)有PCIe版的。