微軟為什么要公開AI系統測試數據集和度量指標？

時間：2017-11-21 10:33:38

關鍵字： ai系統微軟數據集度量指標

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]共享經濟正處于如火如荼的發(fā)展狀態(tài)，但你有沒有想到，人工智能有一天也會步入共享經濟時代?今年秋天，微軟的研究人員對外公開了新一組可用來測試AI系統的數據集，以助力全世界的AI研究。

共享經濟正處于如火如荼的發(fā)展狀態(tài)，但你有沒有想到，人工智能有一天也會步入共享經濟時代?今年秋天，微軟的研究人員對外公開了新一組可用來測試AI系統的數據集，以助力全世界的AI研究。協作精神對人工智能領域的長足發(fā)展至關重要，許多正在開發(fā)數據集的團隊表示，從某種意義上說，他們是在“預先付費”，因為他們將來也會用到其他人所創(chuàng)建的數據集。

微軟研究院Maluuba團隊的研究員SamiraEbrahimi Kahou等人在研究如何利用人工智能理解柱線圖和餅圖中所包含的信息這一問題時遇到了一個難題：沒有現成的數據集可以用來測試他們的假設。為了解決這一問題，他們自己創(chuàng)建了FigureQA數據集，并在今年秋天對外公布。

數據集FigureQA的AI專家團隊成員：(從左至右，微軟研究院Maluuba團隊研究員AdamAtkinson、蒙特利爾大學教授Yoshua Bengio、微軟研究院Maluuba團隊研究員Samira Ebrahimi Kahou)

這個數據集只是近年來微軟研究人員和工程師用來測試AI系統的眾多數據集、度量指標和工具之一。目前，這些工具向全世界的研究人員開放，可以被用于測試各自的AI系統在例如實時語音翻譯、輸入詞匯預測等任務中的表現。微軟開發(fā)這些工具的團隊認為，這些開放工具可以幫助學術研究人員和行業(yè)專家測試各自系統、比較研究成果以及相互學習。

微軟必應搜索部門合作伙伴項目經理Rangan Majumder說：“這些公開數據集使我們的目標變得更加清晰。這樣其他研究人員就很容易看清楚我們的技術發(fā)展方向。”Majumder帶領的團隊負責MS MARCO機器讀閱讀理解數據集的開發(fā)工作，他們即將在年底再次更新這個誕生剛剛一年的數據集。

微軟必應搜索部門合作伙伴項目經理RanganMajumder

對于習慣傳統科技行業(yè)行事風格的人來說，這種信息共享似乎無法理解。但是，在人工智能領域，這種開放性正在變得越來越普遍。位于蒙特利爾的微軟研究院Maluuba團隊項目經理RahulMehrotra 表示：“傳統上，企業(yè)的研究工作是秘不示人的。但是現在，共享的風潮正席卷整個行業(yè)——幾乎所有企業(yè)都在發(fā)表論文，試圖引領科技前沿的發(fā)展。”去年，微軟研究院Maluuba團隊還發(fā)布了另外兩個數據集：NewsQA和Frames。

不少人工智能專家認為，協作精神對人工智能領域的長足發(fā)展至關重要，許多人工智能領域的早期突破都源于此。甚至身處有競爭關系的不同機構內的研究人員都可以共享彼此的研究成果。

微軟翻譯團隊高級項目經理Christian Federmann表示：“我們不可能想到世界上所有的好點子，所以如果別人有個好點子并想嘗試一下，我們可以給他們提供一個數據集來試一試。”

Federmann的團隊開發(fā)了微軟語音翻譯語料庫(MicrosoftSpeech Language Translation Corpus)，并在最近在語料庫中加入了更多語言。目前，所有人都可以利用這個語料庫測試他們自己的類似于MicrosoftTranslator的實時翻譯以及Skype Translator的語音翻譯系統。Federmann表示，微軟公司是少數幾個擁有雄厚預算和資源的大公司之一，可以創(chuàng)建高質量的工具和數據集，讓業(yè)界同行得以比較各自的研究成果。

研究人員需要創(chuàng)造一些標桿(benchmark)來展示自己的研究成果，而這些公開的數據集恰恰是上述標桿的關鍵。例如，語音識別研究領域新近的幾項里程碑式的成就正是基于Switchboard語料庫的訓練結果。

預付費模式

許多正在開發(fā)數據集和度量指標的團隊表示，從某種意義上說，他們是在“預先付費”，因為他們將來也會用到其他人所創(chuàng)建的數據集。

Mehrotra說，當Maluuba還是一個小型創(chuàng)業(yè)公司時，他們的研究非常依賴名為MCTest的微軟數據集?，F在，Maluuba已成為微軟的一部分，他們很高興看到自己所創(chuàng)建的數據集正在被業(yè)內其他人所使用。

喬治亞理工學院助理教授、Facebook人工智能研究院的研究員Devi Parikh表示，Maluuba最近發(fā)布的FigureQA數據集很有幫助，在這個數據集的幫助下，像她這樣的研究人員就可以研究需要多種人工智能技術才能解決的問題。例如，計算機要能準確閱讀圖形并回答有關問題，就需要同時運用計算機視覺和自然語言處理。她說：“從研究的角度來看，研究人工智能各分領域之間的交叉問題變得越來越有趣。”

盡管大家都看到了信息共享的價值，但AI領域的研究人員和工程師有時候也希望既能夠比較他們的系統，也不必公開所有所用數據。

在微軟去年收購的SwiftKey公司，高級軟件工程主管DougOrr表示，他所在的團隊希望創(chuàng)建一種標準方法，用于衡量某個輸入法在詞匯預測(預測用戶即將輸入的詞匯)方面的表現。詞匯預測是SwiftKey輸入法的一個關鍵組件，它能夠根據個人的表達風格提供個性化的詞匯預測。SwiftKey團隊并沒有共享某個具體的數據集，而是創(chuàng)建了一套可供研究人員應用于任何數據集的衡量標準——Language Model Challenge 。用戶可通過GitHub下載到這套標準，它讓研究人員有了一個標準化的尺度，用于衡量自身的改進并將結果與其他同行進行比較，而又無須共享專有數據。

Orr表示，這些衡量標準讓公司的內部團隊受益匪淺，因為他們能更了解自己的輸入法，能夠看到輸入法改進的幅度，同時，該領域的每一個參與者也能更清晰地了解彼此的表現。