用于密集型在軌邊緣計算的微處理器和FPGA
Rajan Bedi博士是Spacechips公司的首席執(zhí)行官和創(chuàng)始人。該公司設(shè)計和制造L到k波段的一系列先進(jìn)超高吞吐量星載處理器、應(yīng)答機(jī)和OBC,用于電信、地球觀測、導(dǎo)航、互聯(lián)網(wǎng)和M2M/物聯(lián)網(wǎng)衛(wèi)星。該公司還提供空間電子設(shè)計咨詢、航空電子測試、技術(shù)營銷、商業(yè)情報和培訓(xùn)服務(wù)。
Spacechips的設(shè)計咨詢服務(wù)開發(fā)定制衛(wèi)星和航天器子系統(tǒng),為客戶提供如何使用和選擇正確的組件,如何設(shè)計、測試、組裝和制造空間電子產(chǎn)品等方面的建議。我們在空間應(yīng)用FPGA培訓(xùn)課程中講授半導(dǎo)體存儲器。
背景和引言
隨著衛(wèi)星運(yùn)營商在軌獲取的數(shù)據(jù)越來越多,他們更愿意在載荷上處理這些數(shù)據(jù)并提取有價值的信息,而不是將大量數(shù)據(jù)下行傳送到地面的云上進(jìn)行后處理?,F(xiàn)有宇航級半導(dǎo)體技術(shù)和/或射頻帶寬限制了可實(shí)時處理的數(shù)據(jù)量。我知道一些客戶由于下行鏈路的需求違反了ITU的規(guī)定,而不得不降低他們的項目預(yù)期。
另一方面,盡可能接近原始數(shù)據(jù)源(即邊緣)的局部處理基于對來自多個傳感器的大量信息的實(shí)時計算,可通過使用低延遲的確定性接口和滿足特定散熱和可靠性要求的小型低功耗形狀因數(shù)實(shí)現(xiàn)。在軌提取分析顯著減少了延遲和RF下行帶寬 – 我們正有效地將數(shù)據(jù)中心移動到原始數(shù)據(jù)的源頭!
在這篇文章中,我想探討和比較用于邊緣密集型星載處理的微處理器和FPGA。一些應(yīng)用需要從不同帶寬的多個傳感器(如RF、LIDAR、成像和GNSS)獲取大量數(shù)據(jù),同時需要實(shí)時做出關(guān)鍵決策,如用于航天器態(tài)勢感知的物體識
別和分類(即敵我識別)、避免空間碎片碰撞、高清視頻地球觀測、空間原位探測和資源利用等。利用機(jī)器學(xué)習(xí)技術(shù)在軌提取分析的自主星載處理的應(yīng)用也呈上升趨勢。
現(xiàn)有解決方案和局限性
目前的星載處理基于微處理器或FPGA,而這兩種方案都沒有對目標(biāo)的人工智能的在軌特征進(jìn)行優(yōu)化。前者有利于控制、復(fù)雜決策并支持操作系統(tǒng),后者可以處理各種高計算要求的算法,擅長數(shù)據(jù)傳輸、自定義加速、面向位的函數(shù)和接口。
然而,現(xiàn)有解決方案不能有效地處理線性代數(shù)、矩陣或矢量處理,也不能利用低功耗的并行性來進(jìn)行自主機(jī)器學(xué)習(xí)、人工智能推理以及用于特征檢測和分類的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。
在商業(yè)領(lǐng)域,最初為游戲玩家開發(fā)的GPU,正被用于加速加密、金融建模、網(wǎng)絡(luò)和人工智能等眾多計算任務(wù)。GPU 使用多核和并行處理來同時執(zhí)行數(shù)千個線程,運(yùn)行速度比微處理器更快,更具成本效益,能夠?qū)碜远鄠€傳感器的密集型數(shù)據(jù)進(jìn)行分析計算,時間為毫秒級,而不是秒、分鐘或小時。GPU經(jīng)過優(yōu)化,可以基于大量的存儲信息快速地執(zhí)行相同的操作,而CPU則傾向于經(jīng)常跳轉(zhuǎn)。
盡管市面上有接近30款宇航級微控制器、微處理器、FPGA和專用DSP引擎,但其中只有一小部分可以用于在軌邊緣應(yīng)用。許多現(xiàn)有設(shè)備沒有足夠的計算能力或低延遲的內(nèi)存/I/O接口。有些會消耗太多電力,需要龐大而昂貴的散熱 管理解決方案。之前我探討過如何保證宇航級半導(dǎo)體的良好散熱,以確保其安全運(yùn)行和最大限度的可靠性。表1列出了我考慮過的傳統(tǒng)標(biāo)準(zhǔn)處理產(chǎn)品。對于下面列出的FPGA,標(biāo)出的性能值是基于資源數(shù)和時鐘頻率的理論峰值。標(biāo)準(zhǔn)的V5QV不包含微處理器IP。
表1:現(xiàn)有的宇航級星載處理解決方案。
隨著星載數(shù)據(jù)量預(yù)計呈指數(shù)增長,我們應(yīng)該使用哪種類型的處理器來進(jìn)行密集型星載邊緣計算?微處理器和FPGA哪個更好?歐洲航天局最近的星載數(shù)據(jù)處理研討會探討了當(dāng)前的問題、趨勢和未來的需求。
阻礙在軌邊緣處理的基本技術(shù)限制是:
1. 缺乏高容量、低延遲、低功耗、宇航級的存儲器。目前, 高速宇航級存儲器僅限于易失性的DDR3/DDR4 SDRAM。此前我解釋了,實(shí)現(xiàn)1Tb星載存儲需要64片16Gb芯片,消耗總計17瓦功率,需要152.3立方厘米物理空間和468,060英鎊經(jīng)濟(jì)成本。這非常難以實(shí)現(xiàn)。另一方面,宇航級的非易失性內(nèi)存速度很慢
2. 缺乏為空間應(yīng)用提供所需處理能力的低功耗微處理器或FPGA。在過去十年中,基于65和20納米SRAM的FPGA提供了功耗為20瓦的有效載荷處理,而基于28納米閃存的器件提供了更低功耗的解決方案。超深亞微米性能、邏輯密度和資源會導(dǎo)致功耗的增加。具有處理原始數(shù)據(jù)的性能的宇航級微處理器的功耗超過30瓦。
3. 現(xiàn)有的宇航級微處理器或FPGA無法有效融合和處理來自多個傳感器的輸入。在處理器之間移動大量的信息會造成數(shù)據(jù)密集型計算的性能瓶頸。
4. 現(xiàn)有的宇航級微處理器或FPGA無法有效地實(shí)現(xiàn)針對目標(biāo)識別和分類的深度學(xué)習(xí)算法。
針對邊緣處理的新型解決方案
對于那些需要在軌邊緣星載處理的應(yīng)用,最新的FPGA和微處理器正努力解決上述局限:
1.我在之前的一篇文章中介紹過小形狀因數(shù)的4GB高速(高達(dá)2400MT/s)宇航級DDR4內(nèi)存,并對該SDRAM的硬件設(shè)計進(jìn)行了討論。
2. 低功耗的28納米閃存FPGA降低了功耗,更節(jié)能的微處理器提高了GFlops/W值。
3. 2020年以來,Teledyne e2v推出的耐輻射、QLS1046-4GB計算密集型微處理器引入了數(shù)據(jù)路徑加速架構(gòu)(DPAA), 以提高數(shù)據(jù)包解析、隊列管理、硬件緩沖區(qū)管理和加密,支持IEEE 1588精確時間協(xié)議。自2020年以來,Xilinx的XQRKU060也改善了信息流和吞吐量,優(yōu)化了數(shù)據(jù)路徑、I/O和內(nèi)存接口以降低延遲。
4. 新一代7納米FPGA包含專門用于處理線性代數(shù)的人工智能芯片,以提高深度學(xué)習(xí)算法的性能。QLS1046-4GB包 含四個核心,每個核心都集成了本地矢量協(xié)處理器e.NEON。
表2包含最新的宇航級FPGA和微處理器:前者結(jié)合了可配置邏輯和微處理器,新一代的器件將集成用于高效矢量處理的人工智能芯片。對于以綠色顯示的FPGAs/MPSoCs,標(biāo)稱的性能是基于資源數(shù)和時鐘頻率的理論峰值。實(shí)際的計算水平將會更低,這取決于其使用和實(shí)現(xiàn)方式、內(nèi)存和I/O使用情況。表2提供了包括軟核、RISC CPU在內(nèi)的有用的比較信息。KU060和Versal器件的高度并行特性反映在它們較大的TOPS值上。
表2:宇航級星載處理解決方案的比較。
隨著星載數(shù)據(jù)量的顯著增加,使用人工智能和機(jī)器學(xué)習(xí)技術(shù),為時間關(guān)鍵型和非實(shí)時型應(yīng)用進(jìn)行在軌分析的自主有效載荷處理呈現(xiàn)出增長趨勢。例如,一個在地面站覆蓋范圍之外的空間碎片回收航天器無法收到遲來的避免碰撞的指令。從多個傳感器獲取的星載態(tài)勢感知加上隨后的目標(biāo)檢測和分類,將使這種時間關(guān)鍵決策能夠在不受人類干預(yù)
的情況下實(shí)時做出。類似地,高分辨率SAR圖像會產(chǎn)生大量的地球觀測數(shù)據(jù),在軌人工智能推理和神經(jīng)網(wǎng)絡(luò)技術(shù)將
允許特征識別、場景分割和特征描述,而不是阻塞寶貴的RF下行鏈路。
Teledyne e2v推出耐輻射的Qormino QLS1046-4GB四核處理器,包含4個ARM® Cortex® A72核(最高運(yùn)行頻率為1.8GHz) 和4GB高速DDR4 SDRAM,形狀因數(shù)為44x26毫米,如下圖所示。它將CPU和片外存儲器集成到單個基板上,無需設(shè)計復(fù)雜耗時的接口,并具有顯著的尺寸、重量和功率(SWaP)優(yōu)勢,可用于在軌邊緣處理。該器件的計算性能為30000 DMIPS或超過45000 CoreMarks。
四個MPU包含ARMv8-A架構(gòu),每個都有自己的一級32KB數(shù)據(jù)緩存 和48KB指令緩存,并共享一個公共的2 MB二級緩存,如圖2所示。在核心頻率為1.2GHz,供電電壓為1伏,DDR速率為1.6GT/s時, QLS1046-4GB的總功耗范圍為6.5到12瓦(不含外圍設(shè)備),具 體取決于允許的最大結(jié)溫。在1.8GHz,供電為1伏,DDR4速率為2.1GT/s時,器件的功耗為9.3到19.4瓦。QLS1046-4GB的卓 越計算性能和可以突破I/O瓶頸限制的內(nèi)存帶寬,以及較小的形狀因數(shù),使其與表1中列出的解決方案相比更加優(yōu)秀。
圖1:Qormino® QLS1046A-4GB處理器和內(nèi)存[Teledyne e2v]。
圖2:Qormino® QLS1046A-4GB方框圖。
去年9月,Xilinx宣布將發(fā)布其Versal ACAP(自適應(yīng)計算加速平臺)的耐輻射版本。該器件包含一個由VLIW SIMD 高性能核心組成的人工智能引擎陣列,包含用于固定和浮點(diǎn)操作的矢量處理器、標(biāo)量處理器、專用程序和數(shù)據(jù)內(nèi)存、 專用AXI通道并支持DMA和鎖定。
人工智能芯片提供高達(dá)6路的并行指令,包括每個時鐘周期的2/3個標(biāo)量操作、2個矢量讀取和1個矢量寫入以及1個固定或浮點(diǎn)矢量操作。數(shù)據(jù)級并行性是通過矢量級操作實(shí)現(xiàn)的,在矢量級操作中,可以在每個時鐘周期的基礎(chǔ)上操作多個數(shù)據(jù)集。與最新的FPGA和微處理器相比,人工智能引擎將機(jī)器學(xué)習(xí)算法的性能分別提高了20倍和100倍,而功耗僅為50%。與表1中列出的現(xiàn)有的處理解決方案相比,人工智能芯片是實(shí)現(xiàn)智能、自主的在軌邊緣處理的關(guān)鍵區(qū)別性特征。
圖3:Xilinx的Versal ACAP框圖[Xilinx]。
總結(jié)
對于正在研發(fā)的應(yīng)用,哪種類型的星載處理器更好?FPGA,微處理器還是ACAP?這很大程度上取決于算法是如何實(shí)現(xiàn)的,例如芯片內(nèi)緩存的使用、外部內(nèi)存訪問的數(shù)量和頻率、流水線、并行化和緩沖。最新的宇航級器件性能優(yōu)于商用GPU,性價比也更高。
對于高分辨率SAR視頻,QLS1046-4GB的原始計算性能、高速內(nèi)存接口和小形狀因數(shù),使其非常適合從地球觀測成 像數(shù)據(jù)中提取實(shí)時信息。高達(dá)2.1GHz的DDR4速率突破了傳統(tǒng)的I/O瓶頸。
對于態(tài)勢感知,例如識別敵我或避免空間碎片碰撞,KU060等最新的FPGA能夠低延遲實(shí)時接收和處理來自多個傳感器的高達(dá)Tbps的數(shù)據(jù),從而實(shí)現(xiàn)ASIC級的系統(tǒng)級性能。對于空間原位探測和資源利用也同樣如此。FPGA可以處理各種高計算要求的算法,擅長數(shù)據(jù)移動、自定義加速、面向位的函數(shù)和接口。
在目標(biāo)分類、人工智能推理和自主決策方面,Xilinx的ACAP可幫助實(shí)現(xiàn)高效的邊緣矢量計算解決方案,為碎片回收航天器或基于實(shí)時流量需求的可重構(gòu)認(rèn)知應(yīng)答器的后期指揮提供特征識別。神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)需要TeraOPS的性能和Versal提供的特定領(lǐng)域的并行性。這些7納米器件可能非常耗電,所以需在項目前期進(jìn)行功耗預(yù)測,以確保它們滿足功率的分配預(yù)算。QLS1046-4GB能以更低的功耗和更低的成本提供深度學(xué)習(xí)。
宇航級微處理器、FPGA和ACAP是互補(bǔ)的星載處理技術(shù),各自具有獨(dú)特的優(yōu)勢。在軌邊緣處理需要對從數(shù)據(jù)源處的多個傳感器獲取的大量信息進(jìn)行實(shí)時計算,要求低延遲的確定性接口,具有包含獨(dú)特散熱和可靠性要求的小型低功耗形狀因數(shù)。
在為密集型在軌邊緣計算選擇最合適的星載處理器時,還需要考慮投向市場的時間、實(shí)現(xiàn)和采購方面的因素,例如FPGA通常需要比微處理器更多的電源,這意味著需要更多的穩(wěn)壓器,因此需要更大的印刷電路板來滿足這些需求。FPGA還以設(shè)計難度大而著稱。對于一些項目,投向市場的時間可能非常短,OEM會堅持使用來自熟悉供應(yīng)商的現(xiàn)有設(shè)備,以加快硬件設(shè)計。一些制造商沒有學(xué)習(xí)新開發(fā)工具或不同編程語言的技能或時間。最新的超深亞微米的宇航級FPGA價格高達(dá)六位數(shù),這對許多OEM來說也是一大障礙,尤其是那些以低成本的新空間應(yīng)用為目標(biāo)的廠商。
新一代在軌邊緣處理將結(jié)合微處理器、FPGA和智能計算,形成一個緊密集成的異構(gòu)平臺。這需要多種引擎類型,因?yàn)闆]有一種引擎能夠以最佳方式執(zhí)行應(yīng)用所需的所有任務(wù)。標(biāo)量微處理器是進(jìn)行控制、復(fù)雜決策和支持操作系統(tǒng)的理想選擇,可重新配置的FPGA增加了處理各種高要求算法的靈活性,智能引擎則為機(jī)器學(xué)習(xí)和AI推理優(yōu)化了線性代數(shù)和矢量算法的計算。
以下雷達(dá)圖(圖4)比較了QLS1046-4GB、最新的超深亞微米宇航級FPGA和在軌邊緣處理ACAP:
圖4:星載處理解決方案的比較。