MIT CSAIL開發(fā)出新式AI可隨時間推移追蹤目標變化

時間：2018-09-17 16:31:05

關鍵字：人工智能機器人電源資訊麻省理工

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]據VentureBeat報道，人類利用對物理世界的隱含理解來預測物體的運動，并推斷它們之間的相互作用，但機器人很難實現這些邏輯上的飛躍。不過，在麻省理工學院(MIT)下屬計算機科學與人工智能實驗室(CSAIL)發(fā)布的最新論文中，研究人員描述了一個被稱為“時間關系網絡”(TRN)的人工智能系統，它本質上可以了解物體隨時間如何變化。

據VentureBeat報道，人類利用對物理世界的隱含理解來預測物體的運動，并推斷它們之間的相互作用，但機器人很難實現這些邏輯上的飛躍。不過，在麻省理工學院(MIT)下屬計算機科學與人工智能實驗室(CSAIL)發(fā)布的最新論文中，研究人員描述了一個被稱為“時間關系網絡”(TRN)的人工智能系統，它本質上可以了解物體隨時間如何變化。

MIT CSAIL并不是第一個開發(fā)類似技術的公司，百度和谷歌也正在研究人工智能輔助時空建模技術。但是MIT的團隊聲稱，他們的方法在之前方法的準確性和效率之間取得了很好的平衡。論文的第一作者周伯磊(Bolei Zhou)解釋稱：“我們建立的AI系統可識別物體的變化，而不是物體的外觀。這套系統不會檢查所有的幀，它會挑選關鍵幀，然后利用幀的時間關系來識別發(fā)生了什么。這提高了系統的效率，并使其實時準確運行。”

研究人員在三個數據集上訓練了一個卷積神經網絡——這是一種機器學習模型，它非常擅長分析視覺圖像。這些數據集包括TwentyBN的Something-Something(包括174個動作類別的20000多個視頻)、Jester(包含27個手勢的15萬個視頻)以及卡內基梅隆大學的Charades(包含157個分類活動的10000個視頻)。

隨后，研究人員將這個卷積神經網絡松散地放在視頻文件中，通過對幀進行分組排序，并確定屏幕上的對象與學習活動相匹配的概率，比如撕下一張紙，或者舉起一只手。那么結果如何呢?該模型對Jester數據集實現了95%的準確識別，并且在有限信息量情況下超過了現有的預測活動模型。

在只處理了25%的視頻幀后，它打破了基準，甚至能夠區(qū)分“假裝打開一本書”和“真正打開一本書”等動作。在未來的研究中，研究團隊計劃通過實現對象識別和添加“直觀物理”(即了解對象的真實世界屬性)，來改進模型的復雜性。

周伯磊表示：“因為我們知道這些視頻里的很多物理知識，所以我們可以訓練模型來學習這些物理定律，并利用它們來識別新的視頻。我們也開源了所有的代碼和模型。‘活動理解’現在是人工智能的一個令人興奮的領域。”