GPU和FPGA有何關(guān)系?談一談GPU和FPGA

時間：2021-01-05 00:38:15

關(guān)鍵字： GPU 指數(shù) FPGA

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]為增進(jìn)大家對GPU的認(rèn)識，本文將對GPU和FPGA予以闡述，因為目前有很多人將二者進(jìn)行對比。

GPU是圖形處理器，GPU在很多方面都有所應(yīng)用，如手機(jī)、電腦等。前兩篇文章中，小編對GPU和顯卡的關(guān)系、GPU渲染等均有所介紹。為增進(jìn)大家對GPU的認(rèn)識，本文將對GPU和FPGA予以闡述，因為目前有很多人將二者進(jìn)行對比。如果你對GPU具有興趣，不妨繼續(xù)往下閱讀哦。

從峰值性能來說，GPU(10Tflops)遠(yuǎn)遠(yuǎn)高于FPGA(<1TFlops)。GPU上面成千上萬個core同時跑在GHz的頻率上還是非常壯觀的，最新的GPU峰值性能可達(dá)10TFlops以上。GPU的架構(gòu)經(jīng)過仔細(xì)設(shè)計(例如使用深度流水線，reTIming等技巧)，在電路實現(xiàn)上是基于標(biāo)準(zhǔn)單元庫而在criTIcal path上可以用手工定制電路，甚至在必要的情形下可以讓半導(dǎo)體fab依據(jù)設(shè)計需求微調(diào)工藝制程，因此可以讓許多core同時跑在非常高的頻率。相對而言，F(xiàn)PGA首先設(shè)計資源受到很大的限制，例如GPU如果想多加幾個core只要增加芯片面積就行，但FPGA一旦你型號選定了邏輯資源上限就確定了(浮點運算在FPGA里會占用很多資源)。而且，F(xiàn)PGA里面的邏輯單元是基于SRAM-查找表，其性能會比GPU里面的標(biāo)準(zhǔn)邏輯單元差好多。最后，F(xiàn)PGA的布線資源也受限制(有些線必須要繞很遠(yuǎn))，不像GPU這樣走ASIC flow可以隨意布線，這也會限制性能。

除了芯片性能外，GPU相對于FPGA還有一個優(yōu)勢就是內(nèi)存接口。GPU的內(nèi)存接口(傳統(tǒng)的GDDR，最近更是用上了HBM和HBM2)的帶寬遠(yuǎn)好于FPGA的傳統(tǒng)DDR接口，而眾所周知服務(wù)器端機(jī)器學(xué)習(xí)算法需要頻繁訪問內(nèi)存。

但是從靈活性來說，F(xiàn)PGA遠(yuǎn)好于GPU。FPGA可以根據(jù)特定的應(yīng)用去編程硬件(例如如果應(yīng)用里面的加法運算非常多就可以把大量的邏輯資源去實現(xiàn)加法器)，但是GPU一旦設(shè)計完那就沒法改動了，沒法根據(jù)應(yīng)用去調(diào)整硬件資源。目前機(jī)器學(xué)習(xí)大多數(shù)適合使用SIMD架構(gòu)(即只需一條指令可以平行處理大量數(shù)據(jù))，因此用GPU很適合。但是有些應(yīng)用是MISD(即單一數(shù)據(jù)需要用許多條指令平行處理，微軟在2014年ISCApaper里面就舉了一個MISD用于并行提取feature的例子)，這種情況下用FPGA做一個MISD的架構(gòu)就會比GPU有優(yōu)勢。不過FPGA的編程對于程序員來說并不容易，所以為了能讓機(jī)器學(xué)習(xí)程序員能方便地使用FPGA往往還需要在FPGA公司提供的編譯器基礎(chǔ)上進(jìn)行二次開發(fā)，這些都是只有大公司才能做。

FPGA實現(xiàn)的機(jī)器學(xué)習(xí)加速器在架構(gòu)上可以根據(jù)特定應(yīng)用優(yōu)化所以比GPU有優(yōu)勢，但是GPU的運行速度(>1GHz)相比FPGA有優(yōu)勢(~200MHz)。

所以，對于平均性能，看的就是FPGA加速器架構(gòu)上的優(yōu)勢是否能彌補運行速度上的劣勢。如果FPGA上的架構(gòu)優(yōu)化可以帶來相比GPU架構(gòu)兩到三個數(shù)量級的優(yōu)勢，那么FPGA在平均性能上會好于GPU。例如，百度在HotChips上發(fā)布的paper顯示，GPU的平均性能相比FPGA在矩陣運算等標(biāo)準(zhǔn)batchdataSIMDbench上遠(yuǎn)好于FPGA;但是在處理服務(wù)器端的少量多次處理請求(即頻繁請求但每次請求的數(shù)據(jù)量和計算量都不大)的場合下，平均性能會比GPU更好。

功耗方面，雖然GPU的功耗(200W)遠(yuǎn)大于FPGA的功耗(10W)，但是如果要比較功耗應(yīng)該比較在執(zhí)行效率相同時需要的功耗。如果FPGA的架構(gòu)優(yōu)化能做到很好以致于一塊FPGA的平均性能能接近一塊GPU，那么FPGA方案的總功耗遠(yuǎn)小于GPU，散熱問題可以大大減輕。反之，如果需要二十塊FPGA才能實現(xiàn)一塊GPU的平均性能，那么FPGA在功耗方面并沒有優(yōu)勢。

能效比的比較也是類似，能效指的是完成程序執(zhí)行消耗的能量，而能量消耗等于功耗乘以程序執(zhí)行的時間。雖然GPU的功耗遠(yuǎn)大于FPGA的功耗，但是如果FPGA執(zhí)行相同程序需要的時間比GPU長幾十倍，那FPGA在能效比上就沒有優(yōu)勢了;反之如果FPGA上實現(xiàn)的硬件架構(gòu)優(yōu)化得很適合特定的機(jī)器學(xué)習(xí)應(yīng)用，執(zhí)行算法所需的時間僅僅是GPU的幾倍或甚至于接近GPU，那么FPGA的能效比就會比GPU強。

以上便是此次小編帶來的“GPU”相關(guān)內(nèi)容，通過本文，希望大家對GPU和FPGA具備一定的了解。如果你喜歡本文，不妨持續(xù)關(guān)注我們網(wǎng)站哦，小編將于后期帶來更多精彩內(nèi)容。最后，十分感謝大家的閱讀，have a nice day!