支持10億模型參數(shù)的邊緣AI應(yīng)用,Arm推出基于Armv9架構(gòu)的邊緣AI計算平臺——Cortex-A320 CPU+Ethos-U85 NPU
邊緣設(shè)備的AI應(yīng)用中,Cortex-M CPU+Ethos-U NPU是許多端側(cè)AI解決方案的基石。然而,隨著人工智能技術(shù)的迅速發(fā)展,特別是大型語言模型參數(shù)規(guī)模的不斷擴(kuò)大,即便是最高性能的Cortex-M85和Ethos-U85的AI系統(tǒng),也逐漸暴露出其局限性。盡管Cortex-M85提供低功耗和高效率的微控制器性能,配合Ethos-U85神經(jīng)處理單元能夠滿足部分輕量級AI任務(wù)的需求,但它在面對超過更大規(guī)模參數(shù)的大型模型時顯得力不從心。受限于其架構(gòu),Cortex-M系統(tǒng)缺乏對高級語言的充分支持、無法運(yùn)行復(fù)雜的Linux系統(tǒng)管理,并且內(nèi)存(如System SRAM和System Flash)的容量和靈活性不足以應(yīng)對日益增長的語言模型規(guī)模。這些限制使得端點AI難以適應(yīng)當(dāng)前對高性能計算和實時處理的需求,尤其是在智能駕駛、復(fù)雜語音識別和大規(guī)模數(shù)據(jù)分析等前沿應(yīng)用場景中。因此,升級到更強(qiáng)大的Cortex-A基礎(chǔ)系統(tǒng)成為必然選擇。而此前要直接從Cortex-M85直接升級到Cortex-A520時,跨步是否過大?對于這些物聯(lián)網(wǎng)的AI+應(yīng)用,能效仍是尤為關(guān)鍵的考量。因此Arm最新推出了基于Armv9.2架構(gòu)的最小CPU——Arm Cortex-A320。旨在通過更好的能效表現(xiàn),以及來自Armv9架構(gòu)的安全和AI特性支持,來更好地幫助客戶實現(xiàn)邊緣AI的應(yīng)用?;贑ortex-A320+Ethos-U85的邊緣AI解決方案通過更高的計算能力、支持Linux系統(tǒng)以及擴(kuò)展的存儲和模型規(guī)模,為邊緣設(shè)備帶來了突破性的可能性。
推理才是 AI 釋放價值的關(guān)鍵——從云端下沉到端側(cè),AI將無處不在
從技術(shù)發(fā)展的角度來看,推理(Inference)正日益成為人工智能(AI)釋放核心價值的關(guān)鍵所在。隨著AI技術(shù)從云端逐步下沉到端側(cè),其應(yīng)用場景正在以前所未有的速度擴(kuò)展,逐步實現(xiàn)“無處不在”的愿景。過去,AI的強(qiáng)大能力主要依賴于云端的高算力和大數(shù)據(jù)處理,但如今,隨著端側(cè)設(shè)備算力的提升和算法的優(yōu)化,推理過程正逐步遷移到終端。這不僅降低了延遲、提升了效率,還讓AI能夠在更多離線場景中發(fā)揮作用。從智能家居到自動駕駛,從移動設(shè)備到工業(yè)物聯(lián)網(wǎng),AI的端側(cè)推理能力正在重塑各行各業(yè)??梢灶A(yù)見,隨著這一趨勢的深入,AI將真正融入生活的每一個角落,成為推動技術(shù)進(jìn)步和社會變革的 omnipresent(無處不在的)力量。
“Arm 推出的適用于 Armv8-M 架構(gòu)的 Cortex-M 向量擴(kuò)展技術(shù)——Helium,以及Arm Ethos-U AI 加速器已在物聯(lián)網(wǎng)領(lǐng)域廣泛應(yīng)用,將 AI 和機(jī)器學(xué)習(xí) (ML) 計算能力帶到了數(shù)十億臺邊緣設(shè)備上?!盇rm物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁 馬?。–hloe Ma)分享到,“但創(chuàng)新者永遠(yuǎn)不會停滯不前,所以今天 Arm 發(fā)布以全新基于 Armv9 架構(gòu)的超高能效 CPU —— Arm Cortex-A320 以及對 Transformer 網(wǎng)絡(luò)具有原生支持的 Ethos-U85 AI 加速器為核心的邊緣 AI 計算平臺?!?
在邊緣AI領(lǐng)域,Arm最新推出的技術(shù)組合展現(xiàn)了令人矚目的協(xié)同設(shè)計理念。據(jù)Chloe介紹,這并非簡單地將CPU與AI加速器堆疊在一起,而是通過深度整合實現(xiàn)了Cortex-A320與Ethos-U85之間的相輔相成,為開發(fā)者帶來了更高效的AI工作負(fù)載處理能力。我們注意到,Cortex-A320通過提供更高的內(nèi)存容量和帶寬,為Ethos-U85上的大模型推理注入強(qiáng)勁動力,使其執(zhí)行效率顯著提升。而對于那些開發(fā)者不傾向于在Ethos-U85上運(yùn)行的AI任務(wù),Cortex-A320則提供了靈活的回退選項,其內(nèi)置的Neon和SVE2引擎能夠在CPU側(cè)高效應(yīng)對多樣化需求。這種設(shè)計讓智能物聯(lián)網(wǎng)和消費(fèi)電子生態(tài)系統(tǒng)得以在恰當(dāng)?shù)臅r間與場景中,精準(zhǔn)分配最適合的工作負(fù)載。
邊緣AI的新基石——Armv9 賦能Cortex-A320,實現(xiàn)信息安全與 AI 的雙重突破
全新 Cortex-A320的微架構(gòu)來自于Cortex-A520基礎(chǔ),在面積和功耗方向上進(jìn)行了優(yōu)化取舍,最終在性能上的表現(xiàn)令人眼前一亮。相比前代超高效 CPU Cortex-A35,其機(jī)器學(xué)習(xí) (ML) 計算能力提升高達(dá) 10 倍;在 GEMM 性能方面,Cortex-A320 相較目前Cortex-M85提高了八倍。這種性能提升不僅歸功于 Armv9 架構(gòu)在 AI 處理上的增強(qiáng),還源于 Cortex-A320 內(nèi)存訪問性能的大幅提高和頻率的增加。
這一飛躍使其能夠輕松應(yīng)對日益復(fù)雜的邊緣 AI 任務(wù)。同時,得益于高效的分支預(yù)測器和預(yù)取器設(shè)計,其標(biāo)量計算性能提升了 30%(SPECINT2K6基準(zhǔn)測試),為通用計算提供了更強(qiáng)支撐。更值得一提的是能效:相較高效的 Armv9.2 CPU Cortex-A520,Cortex-A320 的功耗降低 50%,在低能耗場景中展現(xiàn)出無可比擬的優(yōu)勢。此外,支持最高四核共享集群的設(shè)計,讓它能夠根據(jù)需求靈活擴(kuò)展,適配從智能家居到工業(yè)物聯(lián)網(wǎng)的多樣化應(yīng)用場景。
Cortex-A320 的核心競爭力離不開 Armv9 架構(gòu)的加持。在安全性方面,隨著邊緣設(shè)備承載的軟件和數(shù)據(jù)價值日益提升,Cortex-A320 引入了一系列強(qiáng)化的特性。Secure EL2增強(qiáng)了 TrustZone 的隔離性,為軟件容器提供了更安全的運(yùn)行環(huán)境;PACBTI(指針驗證/分支目標(biāo)識別)有效緩解跳轉(zhuǎn)編程中的安全隱患;而內(nèi)存標(biāo)記擴(kuò)展 (MTE) 通過標(biāo)記機(jī)制顯著降低了內(nèi)存漏洞被利用的風(fēng)險。這些特性共同構(gòu)建了一個更堅固的安全防線,為物聯(lián)網(wǎng)設(shè)備保駕護(hù)航。
與此同時,AI 計算能力的提升同樣令人矚目。Cortex-A320 充分利用 Armv9 的Neon 和 SVE2技術(shù),支持 BFloat16 等新數(shù)據(jù)類型,并新增矩陣乘法指令,大幅優(yōu)化了神經(jīng)網(wǎng)絡(luò)的推理與訓(xùn)練效率。這不僅提升了計算精度和能效,也讓 Cortex-A320 成為邊緣 AI 任務(wù)的理想平臺,能夠高效處理復(fù)雜的實時工作負(fù)載。
邊緣 AI 的成功不僅依賴硬件性能,更需要靈活的工作負(fù)載分配能力。Cortex-A320 在這方面表現(xiàn)出色:它既能與 AI 加速器協(xié)同運(yùn)行連續(xù)圖像檢測等高能效任務(wù),也能通過 CPU 處理單張圖像檢測等場景。為進(jìn)一步釋放 CPU 的 AI 潛力,Arm 引入了 Kleidi 軟件庫。KleidiAI 針對 AI 框架開發(fā)者優(yōu)化,支持 Neon 和 SVE2,已集成于 Llama.cpp、ExecuTorch 和 LiteRT 等主流框架,加速 Meta Llama 3、Phi-3 等大模型的運(yùn)行;而 KleidiCV 則專注于機(jī)器視覺任務(wù)。這種軟硬結(jié)合的策略顯著提升了 Cortex-A320 的應(yīng)用彈性。
生態(tài)支持同樣是其亮點。Cortex-A320 可無縫運(yùn)行 FreeRTOS、Zephyr 等實時操作系統(tǒng) (RTOS),以及 Linux、Android 等功能豐富的系統(tǒng),開箱即用支持 Linux,并可輕松移植安卓。這種多操作系統(tǒng)兼容性為開發(fā)者提供了廣闊的選擇空間。此外,作為 Armv9 家族一員,其軟件兼容性覆蓋從高性能 Cortex-X925 到低功耗 Cortex-A320 的全系列處理器,開源社區(qū)和編譯器的支持進(jìn)一步縮短了開發(fā)周期,降低了總體擁有成本 (TCO)。
對于現(xiàn)有物聯(lián)網(wǎng)設(shè)備用戶,Cortex-A320 提供了一條平滑的升級路徑。無論是從 Cortex-A35 還是全球出貨量最大的 Cortex-A53 遷移,這款處理器都能帶來 Armv9 的安全性、性能和生態(tài)優(yōu)勢。對于 Linux 開發(fā)者,快速部署功能豐富的操作系統(tǒng)將大幅節(jié)省時間與成本;而對于從MCU升級而來的RTOS 用戶,如運(yùn)行 Zephyr 的場景,Cortex-A320 為 MCU 工作負(fù)載提供了面向未來的靈活升級方案,增強(qiáng)計算能力和內(nèi)存支持,助力低能耗設(shè)備集成 AI 功能。
首個基于Armv9架構(gòu)的邊緣AI平臺——Cortex-A320+Ethos-U85
此次的新品發(fā)布,Arm稱是首個基于Armv9架構(gòu)的邊緣AI計算平臺發(fā)布。而這個邊緣AI計算平臺,就是由CPU+NPU組成。CPU即上文介紹的新品Cortex-A320,而NPU仍是Ethos-U85。
Arm 的 Ethos-U 系列是一款專為邊緣 AI 和嵌入式設(shè)備設(shè)計的高效微神經(jīng)處理單元(microNPU),其目標(biāo)是將強(qiáng)大的機(jī)器學(xué)習(xí)(ML)推理能力帶入資源受限的物聯(lián)網(wǎng)(IoT)和低功耗場景。自 2020 年初推出以來,Ethos-U 系列憑借其緊湊的設(shè)計和優(yōu)異的能效比,成為 Arm 在邊緣計算領(lǐng)域的重要布局。ARM Ethos-U系列處理器在神經(jīng)網(wǎng)絡(luò)性能提升方面的強(qiáng)大能力,能夠助力開發(fā)者解鎖神經(jīng)網(wǎng)絡(luò)的全部潛能。從Ethos-U55到Ethos-U65再到Ethos-U85,MAC單元數(shù)持續(xù)提升的同時,還增加了對于最新的AI模型架構(gòu)Transformer的支持。通過對矩陣乘法(Matrix Multiplication)和權(quán)重(Weights)的優(yōu)化,Ethos-U85處理器目前可以更高效地執(zhí)行這些復(fù)雜的AI任務(wù)。
Ethos-U85需由一個主處理器(可以是 Cortex-M 或 Cortex-A)進(jìn)行驅(qū)動,一些具有明確定義的 AI 工作負(fù)載的邊緣 AI 用例可以通過將神經(jīng)網(wǎng)絡(luò)處理卸載到專用 NPU 上,從而釋放主處理器的計算密集型任務(wù)。
主處理器與 Ethos-U 間可以有多種配置方式。Ethos-U 可由像 Cortex-M55 等啟用 Helium 的 Cortex-M 處理器驅(qū)動使用。而對于以Cortex-A為主處理核心的SoC而言,可以通過一個Cortex-M與Ethos-U搭配組成一個ML島的方式,來與主處理器核心進(jìn)行AI負(fù)載卸載。而更直接的方式是,Cortex-A 處理器也可以直接驅(qū)動 Ethos-U NPU。這種配置無需專門的 Cortex-M 作為“驅(qū)動”處理器。Ethos-U85 的 Linux 驅(qū)動程序可在 Cortex-A 主控制器上運(yùn)行。
此次最新的Cortex-A320就具備直接驅(qū)動Ethos-U85的能力,這也非常有助于原先基于Cortex-M85+Ethos-U85的方案進(jìn)行升級,從而獲得對于更大參數(shù)模型的支持。據(jù)Chloe分享,從 Cortex-M 處理器 + AI 加速器的組合升級到當(dāng)前的組合(Cortex-A320+Ethos-U85)后將會給客戶獲得很多優(yōu)勢。首先是在模型方面,之前只是對 CNN 或語音模型等非常小的傳統(tǒng)模型能夠支持,而現(xiàn)在的方案支持最新的語言模型,無論是大模型還是小模型。其次,Cortex-M升級到Cortex-A之后能夠很好支持Linux或Android這類更為復(fù)雜的操作系統(tǒng),這些操作系統(tǒng)在內(nèi)存管理方面具備更高的靈活性,能夠同時支持SRAM和DRAM,并且在優(yōu)化DRAM以支持更大容量內(nèi)存的同時,還能有效降低內(nèi)存訪問的延遲。這意味著,當(dāng)采用先進(jìn)的操作系統(tǒng)時,應(yīng)用開發(fā)者無需再自行進(jìn)行這些底層的內(nèi)存優(yōu)化工作,這對產(chǎn)品上市的時間以及解決方案形成的時間都大有助益。
結(jié)語
在邊緣 AI 持續(xù)升溫的背景下,Arm 通過 Cortex-A320 鞏固了其在物聯(lián)網(wǎng)領(lǐng)域的領(lǐng)導(dǎo)地位。這款處理器不僅以超高能效和強(qiáng)勁性能滿足了當(dāng)下需求,更以安全性提升和靈活生態(tài)為未來發(fā)展鋪路。從智能物聯(lián)網(wǎng)到消費(fèi)電子,Cortex-A320+Ethos-U85的全新平臺正以“恰當(dāng)時間、合適場景”的方式,推動 AI 無處不在的愿景逐步落地。我們相信,Cortex-A320 的推出不僅是一次硬件升級,更是邊緣計算邁向成熟的重要里程碑,其影響力將在未來多年持續(xù)顯現(xiàn)。
“Arm 今天發(fā)布的全新平臺不僅僅是一次漸進(jìn)式的升級,它代表了我們?yōu)槲磥磉吘売嬎愫?AI 處理提出的新范式。這是我們首次專為物聯(lián)網(wǎng)應(yīng)用設(shè)計的 Armv9 架構(gòu)處理器,它將超高能效與先進(jìn) AI 能力相結(jié)合,實現(xiàn)了前所未有的突破。當(dāng)它與 Ethos-U85 結(jié)合時,將催生出全新的應(yīng)用類別,開啟無限可能?!盋hloe總結(jié)到,“物聯(lián)網(wǎng)領(lǐng)域正在迎來前所未有的機(jī)遇與生機(jī),我們堅信,AI 的未來在邊緣,而邊緣 AI 的未來屬于 Arm。”