Achronix新一代嵌入式FPGA IP為AI/ML和網(wǎng)絡(luò)硬件加速應(yīng)用帶來更高性能
2016年,Achronix推出的Speedcore成為首款向客戶出貨的嵌入式FPGA(eFPGA)IP,使客戶將FPGA功能集成到他們的SoC中成為可能。由于Speedcore IP是專為計算和網(wǎng)絡(luò)加速應(yīng)用而設(shè)計的,并基于Speedster22i FPGA系列相同的高性能架構(gòu),采用Speedcore作為硬件加速器的方案被廣泛應(yīng)用到數(shù)據(jù)中心和通信基礎(chǔ)設(shè)施等領(lǐng)域。據(jù)了解,eFPGA IP授權(quán)業(yè)務(wù)在過去兩年間快速增長,2017年,已經(jīng)占到Achronix FPGA整體營收的20%,而2018年,憑借其顯著的功耗和成本優(yōu)勢,eFPGA IP授權(quán)業(yè)務(wù)比重進一步提高。
本月,Achronix宣布推出第四代嵌入式FPGA產(chǎn)品Speedcore Gen4 eFPGA IP。較前代產(chǎn)品,Speedcore Gen4將性能提高了60%、功耗降低了50%、芯片面積減少65%,同時保留了原有的Speedcore eFPGA IP的功能,即可將可編程硬件加速功能引入廣泛的計算、網(wǎng)絡(luò)和存儲應(yīng)用,實現(xiàn)接口協(xié)議橋接/轉(zhuǎn)換、算法加速和數(shù)據(jù)包處理。
圖:Speedcore 7t較前代產(chǎn)品性能顯著提升
據(jù)Achronix市場營銷副總裁Steve Mensor介紹,創(chuàng)新的架構(gòu)使這些性能提升成為可能。與上一代Speedcore產(chǎn)品相比,新的Speedcore Gen4架構(gòu)實現(xiàn)了多項創(chuàng)新,從而可將系統(tǒng)整體性能提高60%。其中查找表的所有方面都得到了增強,以支持使用最少的資源來實現(xiàn)各種功能,從而可縮減面積和功耗并提高性能。其中的更改包括將ALU的大小加倍、將每個LUT的寄存器數(shù)量加倍、支持7位函數(shù)和一些8位函數(shù)、以及為移位寄存器提供的專用高速連接。
圖:Achronix市場營銷副總裁Steve Mensor
Speedcore Gen4的路由架構(gòu)也借由一種獨立的專用總線路由結(jié)構(gòu)得到了增強。此外,在該路由結(jié)構(gòu)中還有專用的總線多路復(fù)用器,可有效地創(chuàng)建分布式的、運行時可配置的交換網(wǎng)絡(luò)。這為高帶寬和低延遲應(yīng)用提供了最佳的解決方案,并在業(yè)界首次實現(xiàn)了將網(wǎng)絡(luò)優(yōu)化應(yīng)用于FPGA互連。
圖:Speedcore Gen4架構(gòu)為高性能總線提供了專用路由
易用性也是eFPGA的特色之一,降低了客戶集成FPGA加速器的門檻??蛻敉ㄟ^定制其邏輯、RAM和DSP資源需求,Achronix接下來就會為其配置滿足其需求的Speedcore IP,Speedcore查找表(LUT)、RAM單元模塊和DSP64單元模塊可以像樂高積木一樣進行組合,以便為特定的應(yīng)用創(chuàng)建優(yōu)化的可編程功能。
根據(jù)艾瑞咨詢的數(shù)據(jù),2020年全球人工智能市場規(guī)模約1190億人民幣,未來10年,人工智能將會是一個2000億美元的市場,空間非常巨大。
在人工智能領(lǐng)域,傳統(tǒng)的芯片計算架構(gòu)已無法支撐深度學(xué)習(xí)等大規(guī)模并行計算的需求,這就需要新的底層硬件來更好地儲備數(shù)據(jù)、加速計算過程。其中,F(xiàn)PGA等用于性能加速的硬件、神經(jīng)網(wǎng)絡(luò)芯片、傳感器與中間件,則是支撐人工智能的前提。新的Speedcore Gen4可謂最佳的人工智能/機器學(xué)習(xí)加速器。Achronix機器學(xué)習(xí)處理器(MLP)利用了人工智能/機器學(xué)習(xí)處理的特定屬性,并將這些應(yīng)用的性能提高了300%。這是通過多種架構(gòu)性創(chuàng)新來實現(xiàn)的,這些創(chuàng)新可以同時提高每個時鐘周期的性能和操作次數(shù)。
MLP是一個完整的人工智能/機器學(xué)習(xí)計算引擎,支持定點和多個浮點數(shù)格式和精度。每個機器學(xué)習(xí)處理器包括一個循環(huán)寄存器文件,它用來存儲重用的權(quán)重或數(shù)據(jù)。各個機器學(xué)習(xí)處理器與相鄰的機器學(xué)習(xí)處理器單元模塊和更大的存儲單元模塊緊密耦合,以提供最高的處理性能、每秒最高的操作次數(shù)和最低的功率分集。這些機器學(xué)習(xí)處理器支持各種定點和浮點格式,包括Bfloat16、16位、半精度、24位和單元塊浮點。用戶可以通過為其應(yīng)用選擇最佳精度來實現(xiàn)精度和性能的均衡。
為了補充機器學(xué)習(xí)處理器并提高人工智能/機器學(xué)習(xí)的計算密度,Speedcore Gen4查找表(LUT)可以實現(xiàn)比任何獨立FPGA芯片產(chǎn)品高出兩倍的乘法器。領(lǐng)先的獨立FPGA芯片在21個查找表可以中實現(xiàn)6x6乘法器,而Speedcore Gen4僅需在11個LUT中就可實現(xiàn)相同的功能,并可在1 GHz的速率上工作。
GSMA智庫發(fā)布的最新的全球物聯(lián)網(wǎng)市場報告顯示,包括連接、應(yīng)用、平臺與服務(wù),到2025年全球物聯(lián)網(wǎng)市場規(guī)模將達到1.1萬億美元。數(shù)十億物聯(lián)網(wǎng)設(shè)備的出現(xiàn),將給傳統(tǒng)網(wǎng)絡(luò)和計算基礎(chǔ)設(shè)施帶來壓力。固定和無線網(wǎng)絡(luò)帶寬的急劇增加,加上處理能力向邊緣等進行重新分配。這種新的處理范式意味著每秒將有數(shù)十億到數(shù)萬億次的運算。傳統(tǒng)云和企業(yè)數(shù)據(jù)中心計算資源和通信基礎(chǔ)設(shè)施無法跟上數(shù)據(jù)速率的指數(shù)級增長、快速變化的安全協(xié)議、以及許多新的網(wǎng)絡(luò)和連接要求。傳統(tǒng)的多核CPU和SoC無法在沒有輔助的情況下獨立滿足這些要求,因而它們需要硬件加速器,通常是可重新編程的硬件加速器,用來預(yù)處理和卸載計算,以便提高系統(tǒng)的整體計算性能。經(jīng)過優(yōu)化后的Speedcore Gen4 eFPGA已經(jīng)可以滿足這些應(yīng)用需求。
Steve Mensor告訴21IC記者,現(xiàn)有已量產(chǎn)的Speedcore架構(gòu),Achronix可在6周內(nèi)為客戶配置并提供Speedcore eFPGA IP和支持文件。而最新采用臺積電7nm工藝節(jié)點的Speedcore Gen4將于2019年上半年投入量產(chǎn),芯片設(shè)計企業(yè)現(xiàn)已可以聯(lián)系A(chǔ)chronix,以獲得支持其特定需求的Speedcore Gen4實例。此外Achronix還將于2019年下半年提供用于臺積電16nm和12nm工藝節(jié)點的Speedcore Gen4 eFPGA IP。據(jù)Steve Mensor預(yù)測,憑借Speedcore Gen4 eFPGA的功耗和成本優(yōu)勢,人工智能/機器學(xué)習(xí)和高數(shù)據(jù)帶寬應(yīng)用的爆炸式需求將推動其在邊緣計算、5G、網(wǎng)絡(luò)加速和計算加速等領(lǐng)域被廣泛采納,2019年,eFPGA IP授權(quán)業(yè)務(wù)有望達到Achronix FPGA整體營收的50%甚至更多。