計算機視覺:通過壓縮技術(shù)減少 AI 推理所需的內(nèi)存大小
今天,我們將討論計算機視覺。我們將聽到 Perceive 的首席執(zhí)行官 Steve Teig 談論他提出的一種壓縮激活的方法,該方法可以減少 AI 推理所需的內(nèi)存大小。我們還將先睹為快,了解來自 GrAI Matter Labs 的新型神經(jīng)形態(tài)啟發(fā)式視覺芯片。
但首先:計算機視覺會再次自我改造嗎?我有幸聽到了匹茲堡大學眼科教授、CMU 機器人研究所兼職教授 Ryad Benosman 教授。他也是我們今天所知的神經(jīng)形態(tài)視覺的創(chuàng)始人之一,即基于事件的視覺。
基于事件的視覺的想法是基于生物視覺系統(tǒng)的工作方式,檢測場景動態(tài)的變化,而不是像主流的基于人工智能的計算機視覺系統(tǒng)那樣連續(xù)分析整個場景。Benosman 不想完全復制大腦或視網(wǎng)膜?!皼]有必要在硅中制作神經(jīng)元的精確復制品,”他說。當然,部分問題在于我們今天還沒有完全理解神經(jīng)元之間的所有信號。如果我們不了解大腦是如何工作的,我們怎么能復制它呢?
Benosman 還認為,如果我們沒有生物計算基礎來運行大腦,那么復制大腦是沒有意義的。相反,我們所做的需要適應硅的質(zhì)量。
當基于事件的視覺是一個新想法時,該領(lǐng)域的開創(chuàng)性工作是如此新穎和與眾不同,以至于最初的論文被當時領(lǐng)先的計算機視覺期刊拒絕,甚至沒有經(jīng)過審查。只是不相信計算機視覺可以在沒有全幀圖像的情況下工作。但是今天,有幾種基于事件的商業(yè)視覺傳感器可供包括 Prophecy 在內(nèi)的公司使用。但 Benosman 認為在處理方面肯定有改進的余地。
我們還將與神經(jīng)形態(tài)視覺領(lǐng)域的初創(chuàng)公司 GrAI Matter Labs 進行了交談。該公司有效地從基于事件的愿景中借鑒了一些概念。他們不使用基于事件的傳感器;該芯片處理全幀圖像。但是,在處理階段應用了查找事件的概念。他們更像是一種稀疏性。通過關(guān)注正在發(fā)生某些事情的視頻區(qū)域,它們可以使數(shù)據(jù)更稀疏,因此您可以更有效地處理它。如果你有合適的芯片,那就是。Grai Matter 當然為此專門制造了一個芯片。
什么樣的應用程序需要這個功能?有點基于事件,但不是基于事件。Grai Matter 正在將他們的技術(shù)應用于最終產(chǎn)品供人類消費的應用。他們的芯片適用于媒體處理應用程序,您可以在其中處理高質(zhì)量的視頻,并可能以某種方式使用人工智能來操縱視頻作為該過程的一部分。所以輸出也是高質(zhì)量的視頻,而不僅僅是用于做出決定的元數(shù)據(jù)或信息。
今天,世界上大多數(shù)人都關(guān)心理解音頻和視頻,并且您可以從中獲取元數(shù)據(jù)。所以沒有人真正關(guān)心原始提要發(fā)生了什么,不是真的。你可以做一些覆蓋,但這并不重要。因此,所有的架構(gòu)基本上都將盡可能多的 max 塞進他們的架構(gòu)中,并且盡可能少地精確地獲取元數(shù)據(jù)。但這只是讓我們到目前為止。為您提供元數(shù)據(jù):框、動作信號等等。我們希望為消費者在家中和工作場所改變音頻和視頻體驗。為了改造它,你需要一個不同的架構(gòu)。該架構(gòu)在延遲和質(zhì)量方面確實有很多不同的要求要滿足。指標非常不同。
GrAI Matters 芯片的一個不同尋常的方面是它使用 16 位浮點精度。對于通常我們試圖盡可能降低精度的邊緣芯片來說,這是非常不尋常的。作為神經(jīng)形態(tài)提供商的關(guān)鍵方面之一是我們所有的 Mac 操作都是在 16 位浮點中完成的。與幾乎所有其他邊緣架構(gòu)相比,這有點獨特。正如你所看到的,很多人當然會通過使用 8 位 int 來權(quán)衡功率和效率,對嗎?這基本上給你帶來了很多好處。現(xiàn)在有了稀疏性和基于事件的處理,我們不得不進行 16 位浮點運算,因為我們要跟蹤過去發(fā)生的事情。但我們基本上領(lǐng)先了,因為有很多積極的東西可以得到,16 位浮點對我們來說不是開銷。事實上,它在實時處理方面的一些關(guān)鍵用例中為我們提供了相當多的幫助。