麻省理工學(xué)院設(shè)計(jì)出人工智能系統(tǒng)可用來(lái)識(shí)別物體的變形
人類利用對(duì)物質(zhì)世界的隱式理解來(lái)預(yù)測(cè)物體的運(yùn)動(dòng),并推斷它們之間的相互作用。舉個(gè)例子,如果你看到三個(gè)顯示傾倒的罐子的畫(huà)面,第一個(gè)畫(huà)面是罐子整齊地堆疊在一起,第二個(gè)畫(huà)面是手指放在堆放好的罐子的底部,第三個(gè)畫(huà)面是罐子傾倒了,那么,你很有可能會(huì)認(rèn)為這個(gè)手指是造成罐子傾倒的原因。
機(jī)器人努力實(shí)現(xiàn)這些邏輯上的飛躍。但在麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的一篇論文中,研究人員描述了一個(gè)稱為時(shí)間關(guān)系網(wǎng)絡(luò)(TRN)的系統(tǒng)--它基本上學(xué)習(xí)了物體是如何隨時(shí)間變化的。
這個(gè)團(tuán)隊(duì)并不是第一個(gè)這樣做的人,有很多公司都在研究工智能輔助時(shí)空建模,百度和谷歌也不例外。但麻省理工學(xué)院的團(tuán)隊(duì)聲稱較之以前的方法,他們的方法在既有準(zhǔn)確性,又有效率。
?
這篇論文的主要作者Bolei Zhou告訴《麻省理工學(xué)院新聞》:“我們建立了一個(gè)人工智能系統(tǒng)來(lái)識(shí)別物體的變形,而不是物體的外觀。這個(gè)系統(tǒng)不會(huì)檢查所有的幀,而是拾取關(guān)鍵幀,使用幀的時(shí)間關(guān)系來(lái)識(shí)別正在發(fā)生的事情。這提高了系統(tǒng)的效率,使其準(zhǔn)確實(shí)時(shí)地運(yùn)行。”
研究人員在三個(gè)數(shù)據(jù)集的基礎(chǔ)上訓(xùn)練了卷積神經(jīng)網(wǎng)絡(luò)--一類非常擅長(zhǎng)分析視覺(jué)圖像的機(jī)器學(xué)習(xí)模型:TwentyBN的Something-Something,包含174個(gè)動(dòng)作類別中的2萬(wàn)多個(gè)視頻;Jester包含具有27個(gè)手勢(shì)的15萬(wàn)個(gè)視頻;卡內(nèi)基梅隆大學(xué)的Charades,包括157個(gè)分類活動(dòng)的1萬(wàn)個(gè)視頻。
然后,他們將網(wǎng)絡(luò)與視頻文件結(jié)合,通過(guò)按組排序幀進(jìn)行處理,并設(shè)定屏幕上的物體與學(xué)習(xí)活動(dòng)相匹配的概率,比如例如撕開(kāi)一張紙或舉手。
那么,這是怎么做到的?由于信息量有限,這個(gè)模型設(shè)法達(dá)到了Jester數(shù)據(jù)集的95%準(zhǔn)確率,并且在預(yù)測(cè)活動(dòng)方面優(yōu)于現(xiàn)有的模型。那怎么辦?在處理了25%的視頻幀后,這個(gè)模型超越了基線,甚至設(shè)法區(qū)分了“假裝打開(kāi)書(shū)”和“打開(kāi)書(shū)本”等行為。
在未來(lái)的研究中,這個(gè)團(tuán)隊(duì)打算通過(guò)實(shí)現(xiàn)物體識(shí)別和添加“直觀物理”來(lái)改進(jìn)模型的復(fù)雜性--即,理解物體在真實(shí)世界中所具有的屬性。
Zhou說(shuō):“因?yàn)槲覀冎肋@些視頻中的很多物理知識(shí),我們可以訓(xùn)練模塊來(lái)學(xué)習(xí)這些物理定律,并用它來(lái)識(shí)別新的視頻。我們還開(kāi)放所有源代碼和模型。對(duì)人工智能來(lái)說(shuō),活動(dòng)理解是一塊令人興奮的發(fā)展領(lǐng)域。”