TinyML?適合單片機(jī)的機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)(ML)作為人工智能的一個(gè)子類,在各個(gè)領(lǐng)域(包括大氣科學(xué)和計(jì)算機(jī)視覺)都得到了廣泛的應(yīng)用。正如哈佛大學(xué)博士Matthew Stewart所說,tinyML 是一個(gè)新興的發(fā)展學(xué)科,它能夠在資源受限的微控制器上實(shí)現(xiàn)低資源消耗、低功耗的機(jī)器學(xué)習(xí)算法。?
C.J.Abate:讓我們從您的背景開始。您是什么時(shí)候?qū)C(jī)器學(xué)習(xí)感興趣的? 您是因?yàn)榫幊袒蛴布O(shè)計(jì)的背景而選擇該領(lǐng)域的嗎??Matthew Stewart:我的本科專業(yè)是機(jī)械工程,這給了我一些編程和機(jī)電一體化的經(jīng)驗(yàn)。但是,直到進(jìn)入哈佛大學(xué),我才開始學(xué)習(xí)機(jī)器學(xué)習(xí)。在博士學(xué)位研究的第一年,我參加了哈佛大學(xué)的數(shù)據(jù)科學(xué)入門課程,激起了我對(duì)機(jī)器學(xué)習(xí)的興趣,那時(shí)我意識(shí)到了機(jī)器學(xué)習(xí)的巨大潛力,無論是一般性的應(yīng)用,還是專門用于大氣研究的。?Abate:是什么使您進(jìn)入哈佛大學(xué)的??Stewart:顯然,哈佛大學(xué)是世界上頂尖的研究機(jī)構(gòu)之一,在這里學(xué)習(xí)是許多富有熱情而努力的學(xué)生的目標(biāo)。我的老師的研究興趣也吸引了我,他們使用無人機(jī)研究了熱帶亞馬遜雨林。在獲得機(jī)械工程學(xué)位的過程中,我對(duì)轉(zhuǎn)向環(huán)境科學(xué)產(chǎn)生了興趣,因?yàn)閷?duì)我來說,越來越明顯的是,現(xiàn)代時(shí)代定義的大多數(shù)工程問題將是環(huán)境問題,即氣候變化、能源安全和可持續(xù)性。根據(jù)我的興趣和工程背景,這項(xiàng)關(guān)于亞馬遜雨林無人機(jī)的工作似乎是理想的,是來哈佛的主要刺激因素。?Abate:作為一名環(huán)境科學(xué)家,您如何使自己了解嵌入式系統(tǒng)和編程? 要緊緊掌握Al領(lǐng)域的所有新發(fā)展以及傳感器技術(shù),嵌入式系統(tǒng)等方面的創(chuàng)新一定很困難。您是如何了解這些不同學(xué)科的??Stewart:這些領(lǐng)域不斷地迅速發(fā)展,對(duì)許多研究生和學(xué)者來說,這是一個(gè)非?,F(xiàn)實(shí)的問題。就個(gè)人而言,我使用了幾種資源來保持學(xué)科信息的更新。首先,Twitter可以成為發(fā)現(xiàn)該領(lǐng)域其他學(xué)者發(fā)表的新研究的好平臺(tái)。我也是一些Slack頻道的粉絲,在該頻道中,同事定期共享有關(guān)相關(guān)主題的新聞和研究文章。我還定期回顧發(fā)表在相關(guān)期刊上的新論文,以尋找任何特別引人注目和值得詳細(xì)閱讀的東西。幸運(yùn)的是,大多數(shù)已發(fā)表的作品與我自己的研究沒有什么關(guān)系,而更廣泛的趨勢(shì)往往是大學(xué)內(nèi)各部門和興趣小組進(jìn)行的研討會(huì)演講的主題工作。?Abate:雖然幾個(gè)月前我在一次DanielSitunayake的采訪中提到了細(xì)節(jié),但對(duì)Elektor全球社會(huì)的許多工程師來說,這仍然是一個(gè)新的主題。您如何定義tinyML? 它是否是在邊緣微控制器上運(yùn)行機(jī)器學(xué)習(xí)應(yīng)用程序的一種最基本的方法??Stewart:是的,這實(shí)際上就是我們的目標(biāo)。tinyML不是一種特定的技術(shù)或一系列的原則,確切地說,它更像是一種涉及計(jì)算機(jī)架構(gòu)、性能工程和機(jī)器學(xué)習(xí)領(lǐng)域協(xié)同作用的重要學(xué)科。其首要目標(biāo)是在資源受到限制的微控制器上實(shí)現(xiàn)快速、低資源和高效的機(jī)器學(xué)習(xí)算法。這還可能涉及到為特定任務(wù)開發(fā)定制的硬件,開發(fā)專門為資源約束設(shè)計(jì)的新算法或新的工具來移植算法,或是優(yōu)化各種硬件架構(gòu)的性能。本文提出了一個(gè)有用的指導(dǎo)方針,將tinyML作為機(jī)器學(xué)習(xí)的應(yīng)用程序應(yīng)用到小于1 MB的隨機(jī)存取內(nèi)存和功耗低于1 mW 的微控制器上,但這絕不是一個(gè)嚴(yán)格或詳盡的定義。?Abate:需要明確的是,我們并非在討論像NVIDIA 和樹莓派這樣的設(shè)備,而是關(guān)注受資源限制的設(shè)備(即小于1 mW 和千字節(jié),而不是兆字節(jié)),對(duì)嗎??Stewart:是的。像樹莓派和NVIDIA這些設(shè)備并不是tinyML的重點(diǎn),也不是與自動(dòng)駕駛技術(shù)相關(guān)的應(yīng)用,這些場景通常都需要較多的計(jì)算資源。我們研究的重點(diǎn)是“資源約束”。對(duì)于tinyML,我們必須就如何有效地優(yōu)化算法的性能做出明智的決定,以便適應(yīng)應(yīng)用程序和硬件特定的限制。?例如,在某些應(yīng)用中,必須同時(shí)具有快速推斷和高精度性能,以提高推斷速度,我們可以使用8位算術(shù)代替浮點(diǎn)算術(shù),但這會(huì)影響算法的準(zhǔn)確性,也將影響算法所需的內(nèi)存和計(jì)算資源。這個(gè)示例有助于理解為什么我將tinyML視為一門原始工程學(xué)科,因?yàn)槲覀兏嗫紤]的是必須滿足需求,但往往是這些要求都存在直接競爭,因此必須進(jìn)行平衡。?Abate:您能提供一些實(shí)際應(yīng)用的例子嗎??Stewart:實(shí)際上,已經(jīng)有一些在智能手機(jī)中使用tinyML的例子。其中一個(gè)重要的例子是關(guān)鍵詞發(fā)現(xiàn),它涉及檢測諸如“Hey Siri”和“Hey Google”之類的單詞。如果智能手機(jī)使用CPU 連續(xù)監(jiān)測麥克風(fēng)并檢測到這些單詞,那么手機(jī)電池只能使用幾個(gè)小時(shí)。相反,一個(gè)輕量級(jí)的數(shù)字信號(hào)處理器能夠持續(xù)檢測這些單詞。當(dāng)有人提及關(guān)鍵詞時(shí)立刻喚醒CPU,并驗(yàn)證是否來自已知的麥克風(fēng),然后等待其他的語音輸入。?還有一個(gè)例子存在于智能手機(jī)中,用于監(jiān)測用戶何時(shí)拿起手機(jī)。來自車載慣性測量單元和陀螺儀的數(shù)據(jù)被持續(xù)監(jiān)測,當(dāng)用戶拿起他們的手機(jī)時(shí),一組信號(hào)會(huì)通知設(shè)備、喚醒CPU。?另一個(gè)有用的例子是人體檢測,連接到相機(jī)的微控制器可以檢測個(gè)體的存在。例如,檢測用戶是否佩戴口罩,這在目前疫情大流行期間特別實(shí)用。異常檢測可能成為工業(yè)中的一個(gè)重要用例,來自重型機(jī)器的信號(hào)可以被連續(xù)監(jiān)測,實(shí)現(xiàn)設(shè)備的異常檢測功能。?Abate:在2019 年,您發(fā)表了一篇引人入勝的文章———“科學(xué)研究中的機(jī)器學(xué)習(xí)危機(jī)”,探討了機(jī)器學(xué)習(xí)是否會(huì)導(dǎo)致科學(xué)中的“可再現(xiàn)性危機(jī)”的問題,例如,如果科學(xué)家在實(shí)驗(yàn)中使用了知之甚少的ML算法,這可能意味著其他科學(xué)家無法重現(xiàn)這些原創(chuàng)性研究成果,甚至非專業(yè)人士也可以在那里發(fā)現(xiàn)問題。我認(rèn)為機(jī)器學(xué)習(xí)與統(tǒng)計(jì)數(shù)據(jù)的爭論在過去一年中愈演愈烈。您現(xiàn)在如何看待這一問題??Stewart:我認(rèn)為這在學(xué)術(shù)界仍然是一個(gè)重要的問題。我在此主題上發(fā)表的文章是針對(duì)可再現(xiàn)性危機(jī)的,該危機(jī)首次由哈佛商學(xué)院前教授Amy Cuddy在功率主題方面所做的一些工作上的爭議中引出。?Andrew Gelman撰寫了一篇有影響力的論文,譴責(zé)心理學(xué)領(lǐng)域的不良研究實(shí)踐,包括使用P圖等技術(shù)進(jìn)行虛假的數(shù)據(jù)分析和挑選數(shù)據(jù)來產(chǎn)生具有統(tǒng)計(jì)學(xué)意義的結(jié)果。這產(chǎn)生了一系列旨在再現(xiàn)心理學(xué)文獻(xiàn)中的一些重要結(jié)果的實(shí)驗(yàn),其中許多是不可再現(xiàn)的。這暴露了研究過程中的一個(gè)缺陷,即可再現(xiàn)性研究通常沒有資金資助,因?yàn)樗鼈儽徽J(rèn)為是不必要的并且浪費(fèi)資源。從這時(shí)起,可再現(xiàn)性研究危機(jī)也被發(fā)現(xiàn)影響到其他領(lǐng)域,包括文學(xué)和經(jīng)濟(jì)學(xué)。?自然,這種對(duì)研究過程完整性的破壞導(dǎo)致對(duì)使用大數(shù)據(jù)集和機(jī)器學(xué)習(xí)的擔(dān)憂。給定數(shù)據(jù)集中足夠多的變量,最終不可避免地會(huì)出現(xiàn)一些具有統(tǒng)計(jì)意義的結(jié)果。這表明虛假數(shù)據(jù)將更容易找到,但是只有在實(shí)驗(yàn)被設(shè)計(jì)為專門測試該假設(shè)而不是同時(shí)進(jìn)行多個(gè)假設(shè)的的情況下測試才是有效的,所以大數(shù)據(jù)可以更容易用數(shù)據(jù)進(jìn)行“欺騙”。而對(duì)于機(jī)器學(xué)習(xí)呢? 機(jī)器學(xué)習(xí)的使用使它更容易“隱藏”作弊。許多機(jī)器學(xué)習(xí)算法的可解釋性降低,而且許多研究社區(qū)缺乏機(jī)器學(xué)習(xí)背景,因而在發(fā)表的研究中很難發(fā)現(xiàn)這些問題。幸運(yùn)的是,解決這個(gè)問題的方法非常簡單———資助可再現(xiàn)性研究,并對(duì)研究人員關(guān)于實(shí)驗(yàn)的正確設(shè)計(jì)和機(jī)器學(xué)習(xí)在研究中的應(yīng)用進(jìn)行培訓(xùn)。?Abate:您在文章中提出了一個(gè)有趣的觀點(diǎn)———“機(jī)器學(xué)習(xí)算法的另一個(gè)問題是算法必須做出預(yù)測,而不能說我什么也沒找到”。聽起來機(jī)器學(xué)習(xí)并非總是有效。?Stewart:雖然我同意機(jī)器學(xué)習(xí)不適合完成一些任務(wù),但我不認(rèn)為是由于這個(gè)原因。例如,由任務(wù)轉(zhuǎn)換為二元分類問題所提出的問題之一,它們實(shí)際上可能不能被最好地總結(jié)出來,從而導(dǎo)致錯(cuò)誤的二分法;在某些情況下,它可能更適合對(duì)靠近決策邊界的數(shù)據(jù)進(jìn)行分析,而不是讓算法做出一個(gè)明確的決定。這種類型的決策有時(shí)被稱為“人類循環(huán)決策”,在所做的決定有重要影響的情況下,它將最有用,比如決定是否提供貸款或是否患有癌癥。?Abate:您認(rèn)為在tinyML的哪些行業(yè)中會(huì)有巨大的創(chuàng)新機(jī)會(huì)??Stewart:總的來說,我認(rèn)為在這一領(lǐng)域工作的許多人都在期待tinyML可以引發(fā)一場新的工業(yè)革命。出于這個(gè)原因,一些人開始將這個(gè)新設(shè)想的工業(yè)階段稱為“工業(yè)4.01階段”。在這個(gè)階段,任何使用大量loT設(shè)備的行業(yè)都將因使用tinyML 而受益匪淺,包括減少了與tinyML相關(guān)的功耗和網(wǎng)絡(luò)負(fù)載。?更具體地說,某些行業(yè)可能會(huì)從tinyML提供的新功能中獲得更大的好處。農(nóng)業(yè)就是一個(gè)很好的例子。在農(nóng)業(yè)中使用tinyML可實(shí)現(xiàn)智能感應(yīng)功能,而無需連接到電網(wǎng),這可以幫助確定某些作物何時(shí)要收獲或需要額外的肥料或水。?另一個(gè)很好的例子是重工業(yè),正如前面提到的那樣,通過使用異常檢測進(jìn)行預(yù)測維護(hù)可以節(jié)省成本和提高效率。預(yù)先發(fā)現(xiàn)大型機(jī)械的運(yùn)輸問題可能比災(zāi)難性故障更便宜,生產(chǎn)力損失也更小。?Abate:那么那些對(duì)開發(fā)節(jié)能計(jì)算解決方案感興趣的公司呢??Stewart:蘋果和ARM 可能是目前最大的專注于節(jié)能計(jì)算的公司。高性能和高效架構(gòu)的開發(fā)在智能手機(jī)中至關(guān)重要,不僅可以延長手機(jī)電池壽命,而且能夠增強(qiáng)功能、提升運(yùn)行速度。近年來,我們看到移動(dòng)架構(gòu)在性能方面功率效率大幅提高,而英特爾等競爭對(duì)手的傳統(tǒng)架構(gòu)則相對(duì)停滯不前。因此,移動(dòng)體系結(jié)構(gòu)現(xiàn)在不僅可以與更傳統(tǒng)的體系結(jié)構(gòu)相媲美,還有幾個(gè)獨(dú)特的優(yōu)點(diǎn),包括功率系統(tǒng)的高效率。最近,蘋果公司對(duì)外宣布了最新基于ARM 的M1芯片,聲稱它將提供Mac電腦有史以來最長的電池壽命。蘋果的這一舉動(dòng)被一些人視為計(jì)算行業(yè)的一個(gè)分水嶺,未來幾年將在社區(qū)中產(chǎn)生連鎖效應(yīng)。?Abate:請(qǐng)介紹一下您在無人機(jī)和化學(xué)監(jiān)測系統(tǒng)方面的工作。tinyML在您的研究中扮演什么角色??Stewart:目前,使用tinyML進(jìn)行一些微無人機(jī)應(yīng)用的工作已經(jīng)發(fā)布。這樣做的重點(diǎn)是創(chuàng)造能夠借助嵌入的強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)智能導(dǎo)航的輕量級(jí)無人機(jī)。這對(duì)于室內(nèi)和室外應(yīng)用中檢測氣體泄漏或定位污染物排放源等可能非常有用。?對(duì)于更廣泛的化學(xué)監(jiān)測系統(tǒng),tinyML可以提供創(chuàng)建與電網(wǎng)斷開的遠(yuǎn)程定位傳感器網(wǎng)絡(luò)的能力,以及更智能地使用化學(xué)傳感器信息。例如,該系統(tǒng)可以被設(shè)計(jì)為只關(guān)注異常數(shù)據(jù),而不是連續(xù)地向云服務(wù)器傳輸數(shù)據(jù)。這將減少通信系統(tǒng)上的網(wǎng)絡(luò)以及與執(zhí)行持續(xù)監(jiān)控相關(guān)的功耗。隨著設(shè)備數(shù)量的指數(shù)級(jí)增長,近些年來這些方面將變得越來越重要。?Abate:您的文章和研究很可能會(huì)激勵(lì)許多人更加投入地研究tinyML。專業(yè)工程師和電子愛好者或許想了解更多關(guān)于這個(gè)主題的知識(shí)。除了PeteWarden和DanielSitunay這樣的書外,您還可以推薦一些其他資源嗎??Stewart:不幸的是,尖端技術(shù)的一個(gè)缺點(diǎn)是往往只有少數(shù)可用的資源。話雖如此,我們還是開始看到同行中有人定期發(fā)布關(guān)于tinyML的文獻(xiàn),其中相當(dāng)一部分是發(fā)表在預(yù)印服務(wù)器arXiv上的。我猜測很快就會(huì)有幾家期刊專門關(guān)注這個(gè)話題。另一個(gè)資源是由TinyML基金會(huì)于2021 年3 月發(fā)布的tinyML 研究研討會(huì)(https://www.tinyml.org/researchsymposium2021/),我們可能會(huì)看到一些令人興奮的最新進(jìn)展!?相關(guān)鏈接[1] Machine Learning (Elektor):www.elektormagazine.com/tags/machine-learning.[2] C. Abate,"TheFuture of Machine Learning:An Interviewwith Daniel Situnayake/", ElektorMagazine.com,8/26/2020:www.elektormagazine.com/mlsitunayake.[3] M. Stewart,"TheMachine Learning Crisis in ScientificResearch/",TowardsDataScience.com,11/18/2019:http://bit.ly/ml-crisis-stewart.[4] Cornell University,"Hardware Architecture",arXiv.org:https://arxiv.org/list/cs.AR/recent.本文授權(quán)來自本刊的合作伙伴Elektor媒體集團(tuán),如果希望免費(fèi)訂閱Elektor 的英文在線內(nèi)容,請(qǐng)?jiān)L問https://www.elektormagazine.com/。—— The End?——