ARM cortex-M55適合用于設(shè)計電池供電的AI智能系統(tǒng)的方案
人工智能的出現(xiàn),或人工智能,作為一個關(guān)鍵的話題,很可能是由于大規(guī)模人工智能引擎的能力日益增長,如開放和它的生成前訓(xùn)練變壓器(GTP)語言模型架構(gòu)。雖然這些系統(tǒng)在數(shù)據(jù)中心層面發(fā)揮作用,而GPS提供了處理能力,但規(guī)模較小的人工智能工作量可以改善資源高度受限的嵌入式終端產(chǎn)品的性能和用戶體驗。
在人工智能的電子貓智能識別中,可以訓(xùn)練ML來區(qū)分一只貓和另一只貓,只為允許進入的貓打開門。
例如,一個人工智能的電子貓智能識別。使用機器學(xué)習(xí),這將首先訓(xùn)練,以區(qū)分貓與其他動物或物體。經(jīng)過進一步的訓(xùn)練,它可以學(xué)會區(qū)分一只貓和所有其他的貓,并為那只貓打開門。其結(jié)果是,我們的家是安全的其他貓,我們的貓不需要穿rfid領(lǐng)或類似不舒服的舊技術(shù)進入家。在這里,人工智能極大地改善了寵物及其主人的用戶體驗。
如果這個或其他Ai增強的嵌入式應(yīng)用程序是運行在電池電源,那么低耗電量是一個關(guān)鍵要求。大多數(shù)這種小型和資源有限的應(yīng)用程序今天將以通用微控制器為基礎(chǔ)。雖然使用微控制器實現(xiàn)機器學(xué)習(xí)功能是可能的,但是這些設(shè)備很難快速執(zhí)行AI任務(wù),而且在執(zhí)行AI功能時消耗了太多的力量。服務(wù)器規(guī)模的GPS為嵌入式應(yīng)用程序提供了多次所需的處理能力,但遠遠超過其成本和功率預(yù)算。
為了創(chuàng)建一個由電池操作的、啟用的產(chǎn)品,設(shè)計師需要一種更好的方法來實現(xiàn)機器學(xué)習(xí)工作量,同時仍然保留通用微控制器中熟悉的工具和指令集。阿爾夫半導(dǎo)體公司開發(fā)的一種方法結(jié)合了一個新的處理架構(gòu)和一個ARMcortex-M實時核心提供一個新的AI優(yōu)化微控制器類別,以符合解決實現(xiàn)電池功率人工智能的挑戰(zhàn)。我們將致力于演示與傳統(tǒng)微控制器相比,這種方法如何提高人工智能工作負載的性能和功率效率。
人工智能工作量的特點
在大規(guī)模人工智能部署中使用GPS的原因是因為它們能夠并行執(zhí)行許多流程,這對于為人工智能創(chuàng)建有效的培訓(xùn)環(huán)境至關(guān)重要。神經(jīng)網(wǎng)絡(luò)通過同時處理幾個大型數(shù)據(jù)集來學(xué)習(xí).
例如,即使是單個圖像也是一組大型數(shù)據(jù)集,由圖像的高度和寬度以及每個像素上的數(shù)據(jù)定義。當我們將此添加到視頻時,我們將像素數(shù)據(jù)的變化作為一個時間函數(shù)添加到這個訓(xùn)練過程中。不同于并行處理GPU,通用微控制器中的標準CPU可以連續(xù)處理數(shù)據(jù),一次掃描每個像素,而不是像GPU那樣感知整個圖像。這意味著,為了執(zhí)行同樣的圖像識別任務(wù),即使是相對較慢的GPU,例如,為了精確識別寵物貓,微控制器的CPU必須在掃描每個像素時以更高的速度運行。
這樣的操作將傾向于驅(qū)動CPU核心長期達到其最大工作頻率。由于幾乎所有的處理能力都分配給人工智能任務(wù),微控制器的整體性能可能會受到影響。同時,該設(shè)備的功耗將增加到電池操作不再可行的程度。這表明了在基于傳統(tǒng)通用微控制器的電池驅(qū)動產(chǎn)品中實現(xiàn)有用的人工智能功能的困難。
TinyML支持簡單的AI工作負載,但可能不能解決貓智能識別的場景
雖然在通用微控制器的基礎(chǔ)上開發(fā)出一種能增強電池的產(chǎn)品是很有挑戰(zhàn)性的,但這絕不是不可能的。一種解決方案是降低工作負載的復(fù)雜性,直到設(shè)備的電源消耗和性能可以控制為止。TINML是機器學(xué)習(xí)的一個子集,它按毫瓦功率的順序運行,而不是大規(guī)模人工智能工作負載使用的GPS消耗的數(shù)十瓦特功率。
通過利用專門設(shè)計的軟件庫進行資源受限的人工智能的培訓(xùn)和實現(xiàn),Tinyml使電池驅(qū)動的設(shè)備能夠運行簡單的人工智能工作負載,例如使用加速計的手勢識別--這種類型的模型可以用于智能可穿戴設(shè)備,以區(qū)分用戶進行的不同練習(xí)。
這就是說,比像面部識別這樣的高級人工智能任務(wù)更簡單,而且需要更少的內(nèi)存和處理能力。雖然有很多用于圖像處理的工作量,比如目標跟蹤,但這些工作量并沒有達到識別單個貓的水平。對于改進終端產(chǎn)品的用戶體驗來說,TINML有很多優(yōu)點,但低耗電量是犧牲了更高水平的AI功能的結(jié)果。
ARM-55和GPS的運算
設(shè)計AI增強產(chǎn)品時的另一個解決方案是選擇一個配備了為任務(wù)設(shè)計的處理核心的單片機,例如ARM cortex-M55。由于一個新的矢量指令集擴展,ARM的內(nèi)核技術(shù),cortex-M55設(shè)備能夠進行并行的算術(shù)運算,使類似于GPS的運算成為可能,盡管規(guī)模較小。
這,以及其他微控制器體系結(jié)構(gòu)的發(fā)展,如cortex-M55浮點單元(fp),使cortex-M-55核心能夠處理比典型的Tinyml應(yīng)用程序更有挑戰(zhàn)性的AI工作負載。雖然這個解決方案標志著在使用通用微控制器時可以實現(xiàn)的人工智能工作負載的復(fù)雜性有了很大的改善,但仍然存在著電池操作產(chǎn)品所不能滿足的耗電問題。
通用微控制器的人工智能加速器
解決這一問題的秘訣在于ARM設(shè)計的一種新的加工結(jié)構(gòu):電子-U微處理器。這個專門的神經(jīng)處理單元極大地提高了cortex-M核心的性能,并可以作為一個人工智能/ML加速器嵌入式iot設(shè)備。在需要cortex-M微控制器控制功能的AI增強終端產(chǎn)品中,AI/ML計算可以以比在cortex-MCPU上更有效的方式在這個新的密克羅尼西亞體系結(jié)構(gòu)上直接運行。
將AI/ML工作負載轉(zhuǎn)移到這個功能特定的核心,也允許主要的cortexM核心在睡眠或低功率模式中發(fā)揮作用,在AI操作期間提供了大量的電源節(jié)約。此外,這個微用戶可以使用人工智能來篩選數(shù)據(jù),這樣只有在微用戶推斷出應(yīng)用程序中有需求時,cortexM核心的更高功能才會被啟動。通過使用EOS-U-FISUU,通用的cortex-M微控制器不受AI/ML工作量的負擔(dān),可以在不犧牲性能或電池壽命的情況下運行標準操作。
這一體系結(jié)構(gòu)的第一個微控制器是Alif半導(dǎo)體器件的集成家庭。在現(xiàn)實世界的測試中,他們的皮質(zhì)-M-55實時核心和EOS-U-55微孔的結(jié)合,已經(jīng)發(fā)現(xiàn)減少了一個人工智能工作負載的能源消耗比其他皮質(zhì)-M設(shè)備90%。
支持這一點的是高達90%的系統(tǒng)內(nèi)存需求減少和高達75%的機器學(xué)習(xí)模型的尺寸減少由于脫機優(yōu)化在密克羅尼西亞,以及先進的,無損的模型壓縮算法。這個家庭在32位微控制器空間中添加了新的一類設(shè)備,這些設(shè)備保持了通用微控制器的熟悉性,但又增加了節(jié)能人工智能/ML推斷的好處。
在阿爾夫集成開發(fā)工具包上運行一個8位16×16矩陣乘法的一個真實例子的現(xiàn)場演示中,ARM通過在該系統(tǒng)中的e3系統(tǒng)的cortex-M-55上啟動氦矢量加速度,在CMM-DS本地庫函數(shù)和編譯器優(yōu)化的幫助下,能夠突出顯示高達82%的執(zhí)行時間改進。
AI/ML工作負載示例
不同水平的AI/ML推斷可以通過堆疊多組cortex-M和EOS-U處理器配對來實現(xiàn)。例如,合體家庭中最基本的設(shè)備使用一個單一的cortex-M55實時核心,由一個單一的EOS-U55微浦AI/ML加速器支持。在這個新的硬件加速單片機家族中,集成e3是第一個進入生產(chǎn)的?;鶞蕯?shù)據(jù)顯示,一個經(jīng)過圖像集數(shù)據(jù)訓(xùn)練的移動網(wǎng)V21.0模型使用Alif的微脈沖加速器執(zhí)行速度比單獨使用cortex-M-55單片機執(zhí)行速度快135倍,執(zhí)行時間為20毫秒,而使用cortex-M-55核心時則快近3秒。
請記住,cortexM-55的運行性能要比上一代cm核心高很多。每項推斷所用的測量能量也顯著下降。加速運行是108X更多的電力效率,消耗僅0.86MJ相比,對62.MJ。
當我們考慮到這個設(shè)備的雙核版本時,事情變得非常有趣,它是建立在以前的微控制器的機器學(xué)習(xí)能力基礎(chǔ)上的,它增加了第二個更強大的cortex-M55核,并按比例增加了電子檔案,當與第一核心一起使用時,可以為運行較低和較高級別的AI/ML工作負載創(chuàng)建一個兩級參照系統(tǒng)。
在限制耗電的情況下執(zhí)行AI/ML任務(wù)的另一個關(guān)鍵是低功率模式,其中大部分芯片都被關(guān)閉。由于只有實時時鐘和尾流源仍然活躍,這些微控制器繪制了大約1.0歐姆A,使他們成為電池操作系統(tǒng)的一個吸引人的解決方案。當系統(tǒng)需要醒來時,cortexM55核心可以以超低功率運行,僅僅是為了引導(dǎo)EOS-UMISCUU執(zhí)行一個參考任務(wù),以決定是否需要使用更多的集成設(shè)備。
現(xiàn)在考慮一下這項技術(shù)對我們前面提到的人工貓智能識別的影響。在我們之前的例子中,我們可以預(yù)期,貓最初是通過某種形式的運動感知、視頻監(jiān)控或兩者的組合來檢測的。不管這只貓是否還在框架中,當它試圖識別我們的貓時,一個持續(xù)的視頻傳輸和相關(guān)的AI推斷將消耗大量的能量。
為了節(jié)省電源,雙芯集成微控制器可以利用第一cortexM-55核心的喚醒功能,使用低功率傳感器,首先檢測貓智能識別前是否有運動。
一旦探測到運動,第一個cortexM55核就會喚醒低級別的參考系統(tǒng)中的電子-U-Meuu,以捕捉到視頻的一些畫面,并分析數(shù)據(jù)以檢查是否有貓;它可能是另一種動物或者是在攝像機前經(jīng)過的異物。如果在查看視頻后發(fā)現(xiàn)一只貓接近了貓的皮瓣,第一個cortexM55可以喚醒更高層次的參考系統(tǒng)的第二個動作,以檢查它是否是我們的貓。
如果CAT不被識別,該系統(tǒng)可以通過恢復(fù)低級別的運動檢測系統(tǒng)來節(jié)省能量,直到一個新的物體進入框架。如果確定它是我們的貓,那么第二個微生物可以喚醒第二個cortexM55系統(tǒng),并激活機制,讓貓進來。貓和它的家人仍然獲得了優(yōu)越的用戶體驗的人工智能設(shè)備,但通過使用兩級人工智能推斷系統(tǒng),啟用了新的微控制器設(shè)計在集成設(shè)備,功率消耗可以大幅度降低。
在電池操作終端產(chǎn)品實現(xiàn)機器學(xué)習(xí)時遇到的困難中,由這種處理架構(gòu)實現(xiàn)的兩級參考系統(tǒng)可以解決高耗電和有限處理功率的問題。