FPGA“獨(dú)孤求敗”? 架構(gòu)創(chuàng)新與工藝提升并行
走在工藝領(lǐng)先前列的FPGA有些“獨(dú)孤求敗”的感覺(jué):集成度的大幅躍升,功能模塊如DSP、收發(fā)器的更上臺(tái)階,通過(guò)集成ARM核來(lái)拓展未曾染指的嵌入式市場(chǎng),加快替代ASIC/ASSP之勢(shì)不減,似乎已經(jīng)“笑傲江湖”。但此FPGA終究非彼FPGA,仍存在難以逾越的“關(guān)卡”如功耗、器件利用率等。如今,賽靈思宣布在20nm工藝節(jié)點(diǎn)發(fā)布第一個(gè)ASIC級(jí)可編程架構(gòu)UltraScale,以前FPGA對(duì)ASIC的侵襲之勢(shì)不減,這次為何“化干戈為玉帛”走向融合?
ASIC級(jí)勢(shì)在必行
大量總線布置以及系統(tǒng)功耗管理方面的挑戰(zhàn)與日俱增,要從根本上提高通信、時(shí)鐘、關(guān)鍵路徑以及互聯(lián)性能。
隨著需要極高數(shù)據(jù)速率的400G OTN、LTE/LTE-A、4K2K和8K視頻處理以及數(shù)字陣列雷達(dá)等新生代系統(tǒng)的不斷涌現(xiàn),F(xiàn)PGA中大量總線布置以及系統(tǒng)功耗管理方面的挑戰(zhàn)與日俱增,單靠FPGA的傳統(tǒng)“做法”已然心力不逮。
賽靈思全球高級(jí)副總裁湯立人說(shuō),解決上述挑戰(zhàn)并非僅是改善單個(gè)器件性能或增加模塊數(shù)量這么簡(jiǎn)單,而是要從根本上提高通信、時(shí)鐘、關(guān)鍵路徑以及互聯(lián)性能,才可滿足高性能應(yīng)用如海量數(shù)據(jù)流和智能數(shù)據(jù)包、DSP和圖像處理等方面的要求,這需要架構(gòu)和工藝的雙重創(chuàng)新來(lái)應(yīng)對(duì)。而借助ASIC源于“他山之石可以攻玉”的想法,賽靈思最新開(kāi)發(fā)的UltraScale架構(gòu)實(shí)現(xiàn)了在完全可編程架構(gòu)中應(yīng)用尖端的ASIC技術(shù),從而讓產(chǎn)品在功耗等性能方面拉近和ASIC產(chǎn)品的距離,而這是此前FPGA產(chǎn)品進(jìn)入原有ASIC市場(chǎng)的最大障礙。
借助于臺(tái)積電的20nm工藝,也讓賽靈思的FPGA架構(gòu)創(chuàng)新有了“立錐之地”。湯立人提到,最新開(kāi)發(fā)的UltraScale架構(gòu)能從20nm平面FET結(jié)構(gòu)擴(kuò)展至16nm鰭式FET晶體管技術(shù)甚至更高的技術(shù),同時(shí)還能從單芯片擴(kuò)展到3D IC。“當(dāng)客戶采用UltraScale架構(gòu)的FPGA,并通過(guò)Vivado設(shè)計(jì)套件進(jìn)行協(xié)同優(yōu)化后,其產(chǎn)品將比對(duì)手提前一年實(shí)現(xiàn)1.5倍至2倍的系統(tǒng)級(jí)性能和可編程集成,將進(jìn)一步加快替代ASIC/ASSP。” 湯立人指出。
基于UltraScale架構(gòu)的產(chǎn)品首先推出的是Artix和Virtex系列,與之配合的Vivado設(shè)計(jì)套件早期試用版也已推出,同時(shí)UltraScale架構(gòu)也將用于下一代的Zynq系列并將擴(kuò)展到16nm工藝的產(chǎn)品。
優(yōu)化方案破解瓶頸
在布線、時(shí)鐘歪斜、關(guān)鍵路徑和功耗方面,采用各種優(yōu)化手段,實(shí)現(xiàn)ASIC級(jí)的FPGA。
將ASIC融合到FPGA中并不是輕而易舉的事,要?jiǎng)?chuàng)建邏輯、運(yùn)行驗(yàn)證、設(shè)計(jì)分區(qū)等,賽靈思通過(guò)各種優(yōu)化手段來(lái)“各個(gè)擊破”。
在布線方面,湯立人透露,雖然在28nm工藝下FPGA產(chǎn)品可達(dá)到數(shù)十萬(wàn)甚至上百萬(wàn)的邏輯單元,但因?yàn)槠毡榇嬖诘臄?shù)據(jù)擁塞等問(wèn)題,實(shí)際的器件利用率只能達(dá)到70%~80%。在最新的UltraScale架構(gòu)中,賽靈思采用了一種更智能的布線方式,引入類似高速公路設(shè)計(jì)中的快速通道理念,通過(guò)對(duì)整體邏輯單元的更合理布局形成一些快速通道,減少了對(duì)很多作為中間布線通道的邏輯單元的浪費(fèi),從而讓更多的邏輯單元能夠發(fā)揮更重要的系統(tǒng)功能的作用。“經(jīng)這種布線優(yōu)化后,器件利用率可達(dá)到90%,且不降低性能或增加系統(tǒng)時(shí)延。”湯立人指出。
而時(shí)鐘歪斜問(wèn)題在系統(tǒng)需要512位到2048位寬度的總線時(shí)越發(fā)凸顯。而UltraScale架構(gòu)采用類似ASIC時(shí)鐘功能,幾乎可將時(shí)鐘布置到芯片的任何地方,不但消除了放置方面的眾多限制,還能夠在系統(tǒng)設(shè)計(jì)中實(shí)現(xiàn)大量獨(dú)立的高性能低歪斜時(shí)鐘資源,使系統(tǒng)級(jí)時(shí)鐘歪斜大幅降低達(dá)50%,而這正是新一代應(yīng)用的關(guān)鍵要求之一。
在關(guān)鍵路徑方面,賽靈思的UltraScale架構(gòu)更是“大費(fèi)周章”,在優(yōu)化方面所做的工作包括:大幅增強(qiáng)DSP處理,即增加DSP單元;提供高速存儲(chǔ)器級(jí)互聯(lián),從而消除DSP和包處理中的瓶頸問(wèn)題,即互聯(lián)性,也避免使用更多片上布線或邏輯資源;將高強(qiáng)度I/O功能做硬化IP處理,基于現(xiàn)有I/O功能相對(duì)完善不需要占用編程資源,這樣的做法可以降低時(shí)延同時(shí)釋放邏輯和布線資源。
在業(yè)界廣受關(guān)注的功耗方面,賽靈思也做足功課。湯立人表示,賽靈思采用20nm工藝的產(chǎn)品較上一代的產(chǎn)品靜態(tài)功耗將降低35%,動(dòng)態(tài)功耗也大大降低。而單純工藝節(jié)點(diǎn)的降低達(dá)不到這么顯著的效果,賽靈思通過(guò)一系列電源管理功能的優(yōu)化才得以實(shí)現(xiàn)。
工藝與架構(gòu)創(chuàng)新并進(jìn)
FPGA單純靠工藝進(jìn)步提升性能已是“過(guò)去時(shí)”,現(xiàn)在是工藝提升和架構(gòu)創(chuàng)新“齊頭并進(jìn)”的時(shí)代。
賽靈思的ASIC級(jí)FPGA成為彰顯其20nm工藝創(chuàng)新的“點(diǎn)晴”之筆,F(xiàn)PGA另一巨頭Altera也在這一道路上深耕,最新開(kāi)發(fā)的基于英特爾14nm三柵極工藝的第10代FPGA Stratix 10就是一集大成之作。
Altera公司產(chǎn)品營(yíng)銷資深總監(jiān)Patrick Dorsey介紹說(shuō),Stratix 10的性能提升歸功于工藝選擇和器件架構(gòu)兩大因素。Stratix 10集成超過(guò)400萬(wàn)個(gè)邏輯單元,如此高密度的集成正是因?yàn)槭褂昧擞⑻貭柕?4nm制程技術(shù)。除英特爾14nm三柵極工藝外,Stratix 10和SoC還采用了增強(qiáng)體系結(jié)構(gòu),其內(nèi)核的工作頻率能夠從當(dāng)前28nm FPGA的500MHz提高到1GHz,并且其還集成了第三代硬核處理器,是業(yè)界首款采用硬核處理器的FPGA,此前均為軟核。
不同于Stratix 10的是Altera的中端器件Arria 10,它采用臺(tái)積電的20nm工藝,Altera聲稱其將“重塑”中端系列FPGA。而其秘訣就是通過(guò)針對(duì)TSMC 20 nm工藝優(yōu)化的增強(qiáng)體系結(jié)構(gòu),其性能比上一代高端產(chǎn)品Stratix V快15%,而且比上一代中端器件Arria V的功耗降低40%,I/O帶寬高出4倍。“相比前代產(chǎn)品,Arria 10啟動(dòng)時(shí)客戶的設(shè)計(jì)承諾金要高出5倍,Arria 10的早期試用客戶有1000多家,其中200多家來(lái)自亞洲。” Patrick Dorsey強(qiáng)調(diào)說(shuō),“Altera通過(guò)最新的制程以及架構(gòu)的優(yōu)化,在新一代產(chǎn)品上實(shí)現(xiàn)了性能大幅提升。”
看來(lái),F(xiàn)PGA單純靠工藝進(jìn)步提升性能已是“過(guò)去時(shí)”,現(xiàn)在是工藝提升和架構(gòu)創(chuàng)新“齊頭并進(jìn)”的時(shí)代,對(duì)FPGA廠商的考驗(yàn)也將持續(xù)。