當前位置:首頁 > 智能硬件 > 智能硬件
[導讀]共享經濟正處于如火如荼的發(fā)展狀態(tài),但你有沒有想到,人工智能有一天也會步入共享經濟時代?今年秋天,微軟的研究人員對外公開了新一組可用來測試AI系統的數據集,以助力全世界的AI研究。

共享經濟正處于如火如荼的發(fā)展狀態(tài),但你有沒有想到,人工智能有一天也會步入共享經濟時代?今年秋天,微軟的研究人員對外公開了新一組可用來測試AI系統的數據集,以助力全世界的AI研究。協作精神對人工智能領域的長足發(fā)展至關重要,許多正在開發(fā)數據集的團隊表示,從某種意義上說,他們是在“預先付費”,因為他們將來也會用到其他人所創(chuàng)建的數據集。

微軟研究院Maluuba團隊的研究員SamiraEbrahimi Kahou等人在研究如何利用人工智能理解柱線圖和餅圖中所包含的信息這一問題時遇到了一個難題:沒有現成的數據集可以用來測試他們的假設。為了解決這一問題,他們自己創(chuàng)建了FigureQA數據集,并在今年秋天對外公布。

數據集FigureQA的AI專家團隊成員:(從左至右,微軟研究院Maluuba團隊研究員AdamAtkinson、蒙特利爾大學教授Yoshua Bengio、微軟研究院Maluuba團隊研究員Samira Ebrahimi Kahou)

這個數據集只是近年來微軟研究人員和工程師用來測試AI系統的眾多數據集、度量指標和工具之一。目前,這些工具向全世界的研究人員開放,可以被用于測試各自的AI系統在例如實時語音翻譯、輸入詞匯預測等任務中的表現。微軟開發(fā)這些工具的團隊認為,這些開放工具可以幫助學術研究人員和行業(yè)專家測試各自系統、比較研究成果以及相互學習。

微軟必應搜索部門合作伙伴項目經理Rangan Majumder說:“這些公開數據集使我們的目標變得更加清晰。這樣其他研究人員就很容易看清楚我們的技術發(fā)展方向。”Majumder帶領的團隊負責MS MARCO機器讀閱讀理解數據集的開發(fā)工作,他們即將在年底再次更新這個誕生剛剛一年的數據集。

微軟必應搜索部門合作伙伴項目經理RanganMajumder

對于習慣傳統科技行業(yè)行事風格的人來說,這種信息共享似乎無法理解。但是,在人工智能領域,這種開放性正在變得越來越普遍。位于蒙特利爾的微軟研究院Maluuba團隊項目經理RahulMehrotra 表示:“傳統上,企業(yè)的研究工作是秘不示人的。但是現在,共享的風潮正席卷整個行業(yè)——幾乎所有企業(yè)都在發(fā)表論文,試圖引領科技前沿的發(fā)展。”去年,微軟研究院Maluuba團隊還發(fā)布了另外兩個數據集:NewsQA和Frames。

不少人工智能專家認為,協作精神對人工智能領域的長足發(fā)展至關重要,許多人工智能領域的早期突破都源于此。甚至身處有競爭關系的不同機構內的研究人員都可以共享彼此的研究成果。

微軟翻譯團隊高級項目經理Christian Federmann表示:“我們不可能想到世界上所有的好點子,所以如果別人有個好點子并想嘗試一下,我們可以給他們提供一個數據集來試一試。”

Federmann的團隊開發(fā)了微軟語音翻譯語料庫(MicrosoftSpeech Language Translation Corpus),并在最近在語料庫中加入了更多語言。目前,所有人都可以利用這個語料庫測試他們自己的類似于MicrosoftTranslator的實時翻譯以及Skype Translator的語音翻譯系統。Federmann表示,微軟公司是少數幾個擁有雄厚預算和資源的大公司之一,可以創(chuàng)建高質量的工具和數據集,讓業(yè)界同行得以比較各自的研究成果。

研究人員需要創(chuàng)造一些標桿(benchmark)來展示自己的研究成果,而這些公開的數據集恰恰是上述標桿的關鍵。例如,語音識別研究領域新近的幾項里程碑式的成就正是基于Switchboard語料庫的訓練結果。

預付費模式

許多正在開發(fā)數據集和度量指標的團隊表示,從某種意義上說,他們是在“預先付費”,因為他們將來也會用到其他人所創(chuàng)建的數據集。

Mehrotra說,當Maluuba還是一個小型創(chuàng)業(yè)公司時,他們的研究非常依賴名為MCTest的微軟數據集?,F在,Maluuba已成為微軟的一部分,他們很高興看到自己所創(chuàng)建的數據集正在被業(yè)內其他人所使用。

喬治亞理工學院助理教授、Facebook人工智能研究院的研究員Devi Parikh表示,Maluuba最近發(fā)布的FigureQA數據集很有幫助,在這個數據集的幫助下,像她這樣的研究人員就可以研究需要多種人工智能技術才能解決的問題。例如,計算機要能準確閱讀圖形并回答有關問題,就需要同時運用計算機視覺和自然語言處理。她說:“從研究的角度來看,研究人工智能各分領域之間的交叉問題變得越來越有趣。”

盡管大家都看到了信息共享的價值,但AI領域的研究人員和工程師有時候也希望既能夠比較他們的系統,也不必公開所有所用數據。

在微軟去年收購的SwiftKey公司,高級軟件工程主管DougOrr表示,他所在的團隊希望創(chuàng)建一種標準方法,用于衡量某個輸入法在詞匯預測(預測用戶即將輸入的詞匯)方面的表現。詞匯預測是SwiftKey輸入法的一個關鍵組件,它能夠根據個人的表達風格提供個性化的詞匯預測。SwiftKey團隊并沒有共享某個具體的數據集,而是創(chuàng)建了一套可供研究人員應用于任何數據集的衡量標準——Language Model Challenge 。用戶可通過GitHub下載到這套標準,它讓研究人員有了一個標準化的尺度,用于衡量自身的改進并將結果與其他同行進行比較,而又無須共享專有數據。

Orr表示,這些衡量標準讓公司的內部團隊受益匪淺,因為他們能更了解自己的輸入法,能夠看到輸入法改進的幅度,同時,該領域的每一個參與者也能更清晰地了解彼此的表現。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯系該專欄作者,如若文章內容侵犯您的權益,請及時聯系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數據產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數據產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯合牽頭組建的NVI技術創(chuàng)新聯盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現場 NVI技術創(chuàng)新聯...

關鍵字: VI 傳輸協議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉