讓機(jī)器人學(xué)習(xí)使用語言及處理對話
很難教機(jī)器人使用語言,這就是為什么他們應(yīng)該自己教自己。據(jù)悉,目前,機(jī)器人正在學(xué)習(xí)通過探索3D虛擬世界來處理簡單的指令。
像亞馬遜Alexa和谷歌Home這樣的設(shè)備已經(jīng)把語音控制技術(shù)引入主流,但它們?nèi)灾荒芴幚砗唵蔚拿睢W寵C(jī)器智能地處理真實的對話,仍是一個非常艱巨的挑戰(zhàn)。
嘗試通過直接編碼單詞和對象與動作之間的關(guān)系來解決這個問題需要很多新的規(guī)則,這使得機(jī)器無法適應(yīng)新的情況。而機(jī)器學(xué)習(xí)語言的這一努力通常需要大量的人力進(jìn)行協(xié)助。
如今,DeepMind的團(tuán)隊、Alphabet旗下的一家專注于人工智能的子公司,與卡內(nèi)基梅隆大學(xué)共同研發(fā)出一種方法,可以讓機(jī)器在基于第一人稱射擊游戲的3D環(huán)境中為自己找出簡單的語言原理。
卡內(nèi)基梅隆大學(xué)的碩士研究生DevendraChaplot說:“在3D的情況下做到這一點(diǎn)絕對是在現(xiàn)實世界中取得成功的重要一步。”他將于計算語言學(xué)協(xié)會年會上介紹他的論文。他表示,最終的目標(biāo)是創(chuàng)造一種接近真實生活的模擬,接受訓(xùn)練的人工智能可以把它學(xué)到的東西傳輸?shù)浆F(xiàn)實世界中。
DeepMind和卡內(nèi)基梅隆大學(xué)都采用了由DeepMind的人工智能技術(shù)所推廣的深度強(qiáng)化學(xué)習(xí)法。神經(jīng)網(wǎng)絡(luò)從虛擬環(huán)境中獲取原始像素數(shù)據(jù),并使用獎勵方式刺激機(jī)器通過反復(fù)試驗來學(xué)習(xí),例如游戲中獲取高分。
通常,在游戲中目標(biāo)是獲得高分,但在這里,兩個人工智能程序得到了“前往綠色的柱子”這樣的指令,然后必須導(dǎo)航到正確的對象以獲得獎勵。通過已加速的速度運(yùn)行數(shù)百萬個訓(xùn)練場景,這兩個人工智能程序都學(xué)會了將單詞與特定的物體和特征聯(lián)系起來,讓它們按照指令執(zhí)行。他們甚至理解了“更大”或“更小”這樣的關(guān)系術(shù)語,以區(qū)分相似的對象。
最重要的是,這兩個程序都可以“概括”他們所學(xué)到的內(nèi)容,并將其應(yīng)用到從未見過的情境中。如果訓(xùn)練場景中有柱子和紅色物體,他們可以執(zhí)行“前往紅柱”的命令,即使他們從未在訓(xùn)練中看到過紅柱。
這使得它們比以往那些基于規(guī)則的系統(tǒng)更加靈活??▋?nèi)基梅隆大學(xué)的團(tuán)隊將視覺和語言輸入混合在一起,將人工智能的注意力集中在最相關(guān)的信息上,而DeepMind則為他們的系統(tǒng)提供了額外的學(xué)習(xí)目標(biāo),比如猜測它的視圖在移動時將如何變化,這提高它的整體性能。由于這兩種方法從不同的角度解決了這個問題,所以它們的結(jié)合可以提供更好的性能。
華盛頓大學(xué)教授、《The Master Algorithm》一書的作者PedroDomingos說道,“這些論文只是初步的,但取得的進(jìn)步是非常令人興奮的。”據(jù)悉,《The Master Algorithm》這本書是關(guān)于不同機(jī)器學(xué)習(xí)方法的。
這項研究遵循了人工智能的一種趨勢,即把語言和機(jī)器人控制等棘手問題結(jié)合在一起。他說,與直覺相反,這反而讓這兩種挑戰(zhàn)變得更容易。這是因為,如果你能接觸到它所指代的現(xiàn)實世界,理解語言就會容易一些,而通過一些指導(dǎo)來了解這個世界就會容易一些。
數(shù)以百萬計的訓(xùn)練,也就意味著,Domingos不相信純粹的深層強(qiáng)化學(xué)習(xí)將會打破現(xiàn)實世界。他認(rèn)為,通常被當(dāng)作人工智能進(jìn)步基準(zhǔn)的AlphaGo,實際上顯示出了整合各種人工智能方法的重要性。
布朗大學(xué)專門研究強(qiáng)化學(xué)習(xí)的教授MichaelLittman說,研究結(jié)果“令人印象深刻”,視覺輸入比之前的工作要困難得多。他指出,以前大多數(shù)用模擬器來模擬地面語言的嘗試都局限在簡單的2D環(huán)境中。
但Littman回應(yīng)了Domingos對該方法在現(xiàn)實世界中的可擴(kuò)展性的擔(dān)憂,并指出這些命令是基于模擬器設(shè)定的目標(biāo)而生成的。這意味著它們并不真正代表人類在現(xiàn)實生活中給機(jī)器的不精確和含有語境的指令。
Littman說:“我擔(dān)心人們可能看到這樣的例子,網(wǎng)絡(luò)系統(tǒng)智能回應(yīng)口頭命令和推斷,這些網(wǎng)絡(luò)語言的理解和導(dǎo)航比他們實際做的更深入。”