據VentureBeat報道,人類利用對物理世界的隱含理解來預測物體的運動,并推斷它們之間的相互作用,但機器人很難實現這些邏輯上的飛躍。不過,在麻省理工學院(MIT)下屬計算機科學與人工智能實驗室(CSAIL)發(fā)布的最新論文中,研究人員描述了一個被稱為“時間關系網絡”(TRN)的人工智能系統,它本質上可以了解物體隨時間如何變化。
MIT CSAIL并不是第一個開發(fā)類似技術的公司,百度和谷歌也正在研究人工智能輔助時空建模技術。但是MIT的團隊聲稱,他們的方法在之前方法的準確性和效率之間取得了很好的平衡。論文的第一作者周伯磊(Bolei Zhou)解釋稱:“我們建立的AI系統可識別物體的變化,而不是物體的外觀。這套系統不會檢查所有的幀,它會挑選關鍵幀,然后利用幀的時間關系來識別發(fā)生了什么。這提高了系統的效率,并使其實時準確運行。”
研究人員在三個數據集上訓練了一個卷積神經網絡——這是一種機器學習模型,它非常擅長分析視覺圖像。這些數據集包括TwentyBN的Something-Something(包括174個動作類別的20000多個視頻)、Jester(包含27個手勢的15萬個視頻)以及卡內基梅隆大學的Charades(包含157個分類活動的10000個視頻)。
隨后,研究人員將這個卷積神經網絡松散地放在視頻文件中,通過對幀進行分組排序,并確定屏幕上的對象與學習活動相匹配的概率,比如撕下一張紙,或者舉起一只手。那么結果如何呢?該模型對Jester數據集實現了95%的準確識別,并且在有限信息量情況下超過了現有的預測活動模型。
在只處理了25%的視頻幀后,它打破了基準,甚至能夠區(qū)分“假裝打開一本書”和“真正打開一本書”等動作。在未來的研究中,研究團隊計劃通過實現對象識別和添加“直觀物理”(即了解對象的真實世界屬性),來改進模型的復雜性。
周伯磊表示:“因為我們知道這些視頻里的很多物理知識,所以我們可以訓練模型來學習這些物理定律,并利用它們來識別新的視頻。我們也開源了所有的代碼和模型。‘活動理解’現在是人工智能的一個令人興奮的領域。”