谷歌科學(xué)家杰夫 迪恩:人工智能離普及還有多遠(yuǎn)?
谷歌科學(xué)家杰夫·迪恩:人工智能離普及還有多遠(yuǎn)?
問:在推動(dòng)人工智能領(lǐng)域研究的過程中,科研人員主要面臨哪些挑戰(zhàn)?
人類的學(xué)習(xí)有大量內(nèi)容來自無監(jiān)督式的學(xué)習(xí),也就是說,你只是在觀察周圍的世界,理解事物的道理。這是機(jī)器學(xué)習(xí)研究的一個(gè)非常活躍的領(lǐng)域,但目前研究的進(jìn)展與監(jiān)督式學(xué)習(xí)還是不能比擬的。
也就是說,無監(jiān)督式學(xué)習(xí)指的是一個(gè)人通過觀察和感知進(jìn)行的學(xué)習(xí),如果計(jì)算機(jī)也能自行進(jìn)行觀察和感知,就能幫助我們解決更復(fù)雜的問題了?
是的,人類的洞察力主要是通過無監(jiān)督式學(xué)習(xí)訓(xùn)練出來的。你從小就會(huì)觀察世界,但偶爾你也會(huì)得到一些監(jiān)督式學(xué)習(xí)的信號(hào),比如有人會(huì)告訴你:“那是一只長頸鹿”或“那是一輛小汽車”。你獲了這些少量的監(jiān)督式信息后,你的心智模式就會(huì)自然地對(duì)其產(chǎn)生回應(yīng)。
我們需要將監(jiān)督式和非監(jiān)督式學(xué)習(xí)更緊密地結(jié)合起來。不過以我們大部分機(jī)器學(xué)習(xí)系統(tǒng)的工作模式來看,我們現(xiàn)在還沒有完全進(jìn)展到那個(gè)地步。
你能解釋一下什么是“強(qiáng)化學(xué)習(xí)”技術(shù)嗎?
“強(qiáng)化學(xué)習(xí)”背后的理念是,你并不一定理解你可能要采取的行動(dòng),所以你會(huì)先嘗試你應(yīng)該采取的一系列行動(dòng),比如你覺得某個(gè)想法很好,就可以先嘗試一下,然后觀察外界的反應(yīng)。這就好比玩桌游,你可以針對(duì)對(duì)手的舉動(dòng)做出回應(yīng)。最終在一系列的類似行為之后,你就會(huì)獲得某種獎(jiǎng)勵(lì)信號(hào)。
強(qiáng)化學(xué)習(xí)的理念就是,在你獲得獎(jiǎng)勵(lì)信號(hào)的同時(shí),可以將功勞或過錯(cuò)分配給你在嘗試過程中采取的所有行動(dòng)。這項(xiàng)技術(shù)在今天的某些領(lǐng)域的確非常有效。
我覺得強(qiáng)化學(xué)習(xí)面臨的一些挑戰(zhàn)主要集中在當(dāng)你可以采取的行為狀態(tài)極為寬泛的時(shí)候。在真實(shí)世界中,人類在任何給定的時(shí)候都可以采取一系列極為寬泛的行為。而在你玩桌游的時(shí)候,你能采取的只有有限的一系列行為,因?yàn)橛螒虻囊?guī)則限制了你,而且獎(jiǎng)勵(lì)信號(hào)也要明確得多——不是贏就是輸。
如果我的目標(biāo)是泡一杯咖啡之類的,那我可能采取的潛在行為就相當(dāng)寬泛了,而獎(jiǎng)勵(lì)信號(hào)也沒有那么明顯了。
不過你們還是可以將步驟分解開,對(duì)吧?比如,如果你想泡一杯咖啡,你就可以通過學(xué)習(xí)得知,如果你在沖泡之前不將咖啡豆充分研磨,泡出來的咖啡就不會(huì)好喝。
對(duì)。我認(rèn)為增強(qiáng)學(xué)習(xí)的一個(gè)特點(diǎn)就是它需要探索,所以在物理系統(tǒng)環(huán)境下使用它往往有些困難。不過我們已經(jīng)開始嘗試在機(jī)器人上使用這種技術(shù)了。當(dāng)機(jī)器人要需要采取某些行動(dòng)中,它在特定一天內(nèi)可以采取的行為是有限的。但是如果使用計(jì)算機(jī)模擬的話,就可以輕易地使用大量計(jì)算機(jī)獲得上百萬個(gè)樣本。
谷歌已經(jīng)開始將強(qiáng)化學(xué)習(xí)技術(shù)用在核心搜索產(chǎn)品上了嗎?
我們通過與DeepMind(一家人工智能領(lǐng)域的創(chuàng)業(yè)公司,2014年被谷歌收購)和我們的數(shù)據(jù)中心運(yùn)營人員的共同努力,已經(jīng)將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用到了我們的核心產(chǎn)品上。他們還將這項(xiàng)技術(shù)運(yùn)用在了數(shù)據(jù)中心的空調(diào)溫控系統(tǒng)上,在大大降低能耗的同時(shí),達(dá)到了相同的、安全的冷卻效果和運(yùn)行條件。它能探索溫控旋鈕的哪種設(shè)置是合理的,以及當(dāng)你改變運(yùn)行條件時(shí)應(yīng)該如何做出響應(yīng)。
通過強(qiáng)化學(xué)習(xí)技術(shù),他們能夠探索這18個(gè)或者更多個(gè)溫控旋鈕的最優(yōu)設(shè)置,而這可能是連專門負(fù)責(zé)溫控的工作人員都沒有做過的。熟悉溫控系統(tǒng)的人可能會(huì)覺得:“這個(gè)設(shè)置真奇怪。”然而事實(shí)上它的工作效果非常好。
什么樣的任務(wù)更適合應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù)?
上面說的數(shù)據(jù)中心這個(gè)案例之所以效果很好,就是因?yàn)樵谝欢谓o定時(shí)間內(nèi)并沒有太多不同的行為。溫控系統(tǒng)大概有18個(gè)溫控旋鈕,你可以把一個(gè)旋鈕調(diào)高或調(diào)低,結(jié)果都是很容易衡量的。只要你在可以接受的適當(dāng)溫度范圍內(nèi)運(yùn)行,你的能耗利用率就會(huì)更好。從這個(gè)角度看,這幾乎是一個(gè)理想的強(qiáng)化學(xué)習(xí)技術(shù)的使用案例。