當前位置:首頁 > 廠商動態(tài) > Arm
[導讀]了解 Arm 最小型的 Armv9-A 處理器 Cortex-A320 如何以更高的能效和性能擴展你在物聯(lián)網(wǎng)邊緣 AI 方面的選擇。

Arm Cortex-A320 是目前最小型的 Armv9-A 架構(gòu) CPU。得益于該處理器的推出,開發(fā)者現(xiàn)在能有更多選擇決定如何處理物聯(lián)網(wǎng)邊緣人工智能 (AI) 工作負載。然而,面對多樣化的選擇,要確定適合特定 AI 應用的處理器,系統(tǒng)開發(fā)者需要通過比較基于 Arm Cortex-A、Arm Cortex-M 和 Arm Ethos-U NPU 的設備及其可能的搭配進行決策。除了成本的考量,開發(fā)者還需了解各款處理器具備的 AI 功能,以及自身的項目可以通過何種軟件開發(fā)流程實現(xiàn)簡化。

在嵌入式設備中實現(xiàn)高能效 AI 計算

近年來,嵌入式設備中的 AI 計算效率突飛猛進。Arm 的 M 和 A 處理器架構(gòu)的提升使得每單位能耗的機器學習 (ML) 推理性能呈數(shù)倍增長。特別是在M 處理器架構(gòu)上,基于 Armv8.1-M 架構(gòu)的 Cortex-M52、Cortex-M55 和 Cortex-M85 CPU 集成了可編程的 Helium 向量擴展,從而解鎖了在微控制器級設備上實現(xiàn)新 AI 用例的能力。此外,得益于可伸縮向量擴展 (SVE2) 的引入,基于 Armv9 架構(gòu)的 Cortex-A 處理器(如最新推出的 Cortex-A320)相較其前代產(chǎn)品進一步提升了 AI 性能。而 Ethos-U 系列 NPU 的最新一代產(chǎn)品 Ethos-U85 ,尤其在處理 Transformer 網(wǎng)絡時,表現(xiàn)更為高效。

如何選擇合適的硬件?

每種架構(gòu)在不同方面各有優(yōu)勢。在考慮哪款硬件最適合時,原始性能應與設計靈活性相權(quán)衡。此外,還需要將包括 CI/CD 要求在內(nèi)的軟件開發(fā)流程納入考量。

性能

滿足所需的 AI 處理性能至關(guān)重要。Cortex-A 處理器本就是一款面向多種應用的可編程處理器,集成了 Neon/SVE2 向量引擎,旨在加速神經(jīng)網(wǎng)絡和各種向量化代碼,并能原生支持多種數(shù)據(jù)類型。而帶有 Helium 向量引擎的 Cortex-M 處理器具備相同特性,且更適用于成本和能耗相對有限的目標用例。相比之下,包含 Ethos-U85 在內(nèi)的 Ethos-U NPU 則專為處理神經(jīng)網(wǎng)絡算子而設計,尤其還具備了量化的 8 位整數(shù)數(shù)據(jù)權(quán)重的能力,對于可以映射到這些 NPU 硬件的網(wǎng)絡算子,其任務表現(xiàn)十分高效。

基于 Armv9 架構(gòu)的最新一代 Cortex-A CPU 支持 BF16 等廣泛的數(shù)據(jù)類型。此外,引入的新矩陣乘法指令顯著提高了神經(jīng)網(wǎng)絡的處理性能。關(guān)于如何通過 SVE2 實現(xiàn)矩陣乘法的詳細解釋,推薦閱讀《Neon、SVE 和 SME 實現(xiàn)矩陣-矩陣乘法的比較》。

Cortex-M55是首款集成Helium向量技術(shù)的Cortex-M處理器,此后推出的 Cortex-M85 也集成了這一技術(shù)。兩者都實現(xiàn)了雙節(jié)拍 (dual-beat) Helium 配置,每個時鐘周期可執(zhí)行多達八次的 8 位整數(shù)乘積累加運算 (MAC) 操作。此外,Helium 還原生支持 FP16、FP32 等其他數(shù)據(jù)類型。

最后,在具有量化數(shù)據(jù)類型的模型上,具體來說是 INT8 權(quán)重,以及 INT8 或 INT16 激活數(shù)據(jù),Ethos-U NPU 可以非常高效地處理神經(jīng)網(wǎng)絡。這種設計雖會限制其適用的數(shù)據(jù)類型,但可提高 NPU 的執(zhí)行效率。

評估處理器在實際 AI 工作負載中性能的方法之一,是分析其每種數(shù)據(jù)類型和每個時鐘周期的理論 MAC 執(zhí)行能力。由于神經(jīng)網(wǎng)絡處理使用大型數(shù)據(jù)集,因此內(nèi)存訪問性能是另一大關(guān)鍵因素。不過在本例中,我們著重于處理器密集 (processor-bound) 性能,而非內(nèi)存密集 (memory-bound) 性能。

神經(jīng)網(wǎng)絡處理速率通常受限于底層硬件的MAC操作速率。雖然實際的網(wǎng)絡處理性能因網(wǎng)絡結(jié)構(gòu)而異,但下表所示的的理論MAC處理速率提供了硬件能力的指標。

軟件

另外一個考慮的因素是每個硬件方案的軟件支持。Arm 為包括 Cortex-A、Cortex-M 和 Ethos-U 等在內(nèi)的各類 AI 硬件解決方案提供全面的開源運行時支持軟件。Arm為各種 ML 框架和運行時提供硬件加速支持,包括 PyTorch、ExecuTorch、Llama.cpp、TensorFlow 和 LiteRT(通過 XNNPACK)。任何 ML 框架都可通過優(yōu)化,進而充分利用 Arm 的 AI 特性。在 Arm 處理器上執(zhí)行的運行時可利用 CMSIS-NN(針對 Cortex-M/Helium)和 Arm Compute Library 或 Arm KleidiAI(針對 Neon/SVE2 中的 INT8 和 BF16)等軟件加速庫。Vela 編譯器是一個通過優(yōu)化模型來實現(xiàn)高效部署的離線工具,可在 Ethos-U 上進一步調(diào)優(yōu)可執(zhí)行二進制文件,從而實現(xiàn)更卓越的硬件性能。

何時使用 Ethos-U?

一些具有明確定義的 AI 工作負載的邊緣 AI 用例可以通過將神經(jīng)網(wǎng)絡處理卸載到專用 NPU 上,從而釋放主處理器的計算密集型任務,并由此獲益。如前所述,Ethos-U NPU 在處理具有量化的 8 位整數(shù)權(quán)重的神經(jīng)網(wǎng)絡時非常高效。Transformer 網(wǎng)絡特別適合在 Ethos-U85 上運行。然而,Ethos-U85 NPU 需由一個主處理器(可以是Cortex-M 或 Cortex-A)進行驅(qū)動。

主處理器與 Ethos-U 間可以有多種配置方式。Ethos-U可由像 Cortex-M55 等啟用 Helium 的 Cortex-M 處理器驅(qū)動使用。目前市面上已有這種系統(tǒng)級芯片 (SoC) 配置的示例。近期,在小語言模型 (SLM) 上運行生成式 AI 工作負載愈發(fā)受到業(yè)界關(guān)注。Ethos-U與啟用 Helium 的Cortex-M處理器相結(jié)合,是此類用例的上佳之選。

此外,還有基于Cortex-A處理器的 SoC 集成了基于 Cortex-M 核心的 ML 島與 Ethos-U。這類 SoC 通常適合運行 Linux 等功能豐富的操作系統(tǒng),并支持更大、更靈活的內(nèi)存系統(tǒng)。Cortex-M CPU 擁有32位可尋址內(nèi)存地址空間,能實現(xiàn)直接內(nèi)存地址映射,而像 Cortex-A320 等更新款的 Cortex-A處理器則具有40位內(nèi)存可尋址空間,還可以通過內(nèi)存管理單元 (MMU) 的虛擬內(nèi)存尋址。

隨著大語言模型 (LLM) 的執(zhí)行逐漸轉(zhuǎn)向邊緣 AI 設備,擁有更大和更靈活的內(nèi)存系統(tǒng)可以簡化較大參數(shù)規(guī)模(例如大于 10 億參數(shù)的 LLM)模型的執(zhí)行。Cortex-M 和Ethos-U85的組合很適合于越來越受到歡迎的小語言模型。Cortex-M處理器具有4GB的尋址空間,并保留了其中一些空間用于系統(tǒng)功能。隨著LLM模型規(guī)模的增長,具有更大和更靈活內(nèi)存的Cortex-A系統(tǒng)將變得至關(guān)重要。

Arm 近期又宣布了另一種配置方式,稱為“直接驅(qū)動 (direct drive)”,即 Cortex-A處理器直接驅(qū)動Ethos-U NPU。這種配置無需專門的 Cortex-M 作為“驅(qū)動”處理器。Ethos-U85的Linux驅(qū)動程序可在Cortex-A主控制器上運行。

利用 Cortex-A320 滿足邊緣設備的生成式 AI 需求

邊緣 AI系統(tǒng)開發(fā)者現(xiàn)在有更多的選擇來優(yōu)化物聯(lián)網(wǎng)中最靠近邊緣側(cè)的 AI。無論選擇Cortex-M、Cortex-A還是Ethos-U加速系統(tǒng),每種選擇都可滿足不同的需求。Cortex-A320處理器能夠直接驅(qū)動Ethos-U85,這讓設計人員獲得了更多的靈活性。作為Arm最小型、最高能效的 Armv9-A 處理器,Cortex-A320在提高邊緣側(cè)AI能效的同時,適應嵌入式系統(tǒng)中生成式AI演進的需求。點擊此處,了解Arm變革性的邊緣側(cè)AI解決方案如何塑造物聯(lián)網(wǎng)的未來!

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉