互聯(lián)網(wǎng)大會之:AI的“不靠譜”之處,你知道多少?
11月17日,第三屆世界互聯(lián)網(wǎng)大會進入第二天。搜狗CEO王小川在會上分享了以深度學(xué)習(xí)為代表的人工智能技術(shù)目前的瓶頸及希望,并在現(xiàn)場首次公布了搜狗自研的機器實時翻譯技術(shù)。
王小川表示,AlphaGo之后,大家關(guān)注到了人工智能技術(shù)的進展,但實際上,在文字領(lǐng)域,人工智能的進展還比較緩慢,今天機器翻譯方面有了一些突破,但在問答及語義理解方面還很不夠。
對此,王小川指出了兩大挑戰(zhàn):一是多人情景下的語音識別,目前搜狗的技術(shù)在安靜環(huán)境下已經(jīng)可以達到95%-97%的識別準(zhǔn)確率,但一旦出現(xiàn)兩個人同時說話,機器就無法識別,王小川表示,這個問題在學(xué)術(shù)至今依然無解。
另外一個挑戰(zhàn)是語義理解。王小川說,Google之前采取的解決方法是知識圖譜,但現(xiàn)在遇到了瓶頸,例如機器詢問用戶需不需要停車,用戶回答要或者不要都沒問題,但如果回答“我沒車”,機器就不能理解。“自然語言的處理是可以做的,但是,語音的理解到現(xiàn)在還是個不靠譜的階段。”
王小川還提到了無人駕駛的可靠性,他認(rèn)為,在封閉場景中,無人駕駛汽車是可以使用的,但在真正開放的環(huán)境中,以目前的技術(shù),仍然不安全。
雖然人工智能技術(shù)還有種種困難,但王小川認(rèn)為,搜索和輸入仍將是該技術(shù)比較有應(yīng)用前景的兩大領(lǐng)域,而這也正是搜狗的兩大核心業(yè)務(wù)。
王小川認(rèn)為搜索的未來應(yīng)該是問答機器人,而對于輸入,他表示這項技術(shù)的極致應(yīng)該是能夠開始尋找信息,幫助用戶思考。隨后,王小川還在現(xiàn)場演示視頻中展示了搜狗最新的實時機器翻譯功能。
以下是演講實錄:
我非常喜歡張一鳴先生剛才的分享,作為一個創(chuàng)業(yè)時間不長的公司,取得今天這樣一個成績,既有技術(shù),也有情懷。已經(jīng)聽了12場分享了,最后一場是我給大家?guī)淼奈覀儗θ斯ぶ悄艿睦斫狻?/p>
前面12場中間有技術(shù)、有產(chǎn)品,我希望我給大家的分享能夠有些不同的內(nèi)容,有自己獨有的視角。
今天一開始大家都提到了AlphaGo這個事情,作為今天人工智能引爆的一個開端,深度學(xué)習(xí)在中間承擔(dān)了最重要的責(zé)任。今天大家開始暢想的時候,有可能認(rèn)為人工智能未來真的會取代人,我希望今天的分享更多地能夠知道人工智能在今天能做什么,不能做什么,未來終極的理想又是什么。AlphaGo之后,我們看到最重要的領(lǐng)域突破是在語音和圖像上,但事實上在文字領(lǐng)域的進展是緩慢的,今天在機器翻譯里面會有一些突破,但是更多的問答或者其他的對語音的理解并不夠。
所以,我們回到AlphaGo之外的圖靈測試,上個世紀(jì)50年代圖靈就提出了問答機器和對話系統(tǒng)這樣一個概念。開篇來講,我們今天有一個直觀的感受就是語音圖像進步很快,但是自然語言的處理是慢的。
拋開技術(shù),作為一個產(chǎn)品經(jīng)理,我會提到人工智能有三個產(chǎn)品的方向,今天的會上我們都談到了,一個叫識別,語音識別、圖像識別、視覺的識別。另外一個大家提的比較多的是創(chuàng)造,基于一幅圖,我們生成它的文字描述,生成音樂,生成圖像,這些都有。還有一件事情是判斷,就是我們講的做決策。這三件事情里面,我跟一些做投資的人聊過,我告訴他們中間最重要的、有重大商業(yè)意義的在于判斷,今天大家分享的時候有提到了類似的概念。
大家提到了人工智能往前進步的幾個層次,我想換一個語言來描述,就是工程師在今天人工智能時代會處于越來越重要的位置。我們開始提到傳統(tǒng)的方法是把規(guī)則交給機器,隨著統(tǒng)計系統(tǒng)的發(fā)展,包括深度學(xué)習(xí),我們開始更容易地將答案交給機器。剛才湯道生講的監(jiān)督學(xué)習(xí)就是這樣一個方式,所以,在數(shù)據(jù)足夠的積累下,我們就能讓機器變得更聰明。
這里面最前沿的方式是將目標(biāo)交給機器。AlphaGo融合了這樣幾套算法。但是我跟他們工程師溝通的時候,這樣一個目標(biāo)交給機器的強化學(xué)習(xí)還并不成熟。也就是說,如果沒有之前三千萬局人機對戰(zhàn)的棋譜,這樣一個AlphaGo的機器是沒有能力做到只通過強化學(xué)習(xí)去贏得人類的。我會感覺在技術(shù)層面這是往下需要突破的一個重點。如果將目標(biāo)交給機器能夠做自我學(xué)習(xí)有新的突破,那我們離新的人工智能時代的到來就更近了。
今年6月份我去了英國倫敦,也跟DeepMind公司的工程師做了交流。我特別好奇的是在下棋的第四局機器輸?shù)袅?,我遇到他們的第一個問題就是第四局怎么回事?他們跟我說,不是程序有bug,就是深度學(xué)習(xí)本身有瓶頸。圍棋比賽是3月份,我是6月份去的倫敦,已經(jīng)過了3個月。3個月的時間。對不起,這個問題依然沒有解決掉。但是很好的是在我離開后的第一個星期,他們的程序能夠正確地面對之前的第四局棋譜,但是問他是否這個bug修好了?工程師跟我說沒有,只是代表第四局那個特定的問題正好機器能夠解決,但是,我們依然不知道什么情況下這樣一個AlphaGo會繼續(xù)出錯,所以我們知道深度學(xué)習(xí)這樣一個體系還是有它的瓶頸所在。所以我今天更多的想跟大家談以深度學(xué)習(xí)為代表的人工智能技術(shù)還有哪些不靠譜的地方是在產(chǎn)品上不適用的。
第一個問題先問一下語音識別靠譜嗎?剛才百度和騰訊都提到了語音識別這樣一個能力,今天我跟大家的演示也談到了語音識別,這是搜狗自己的技術(shù)。安靜的環(huán)境下我們的識別準(zhǔn)確率到了95%或者97%,但是一旦有噪音迅速下降,這種噪音可能還只是汽車引擎噪音,風(fēng)的噪音,我們把噪音當(dāng)成原始數(shù)據(jù)進入到監(jiān)督學(xué)習(xí)系統(tǒng)里面,把這種噪音變成機器能見過的問題之一。但是假設(shè)同時兩個人在說話,會怎么樣?可以告訴大家,在今天的學(xué)術(shù)界依然無解,同時兩個人說話,這樣的噪音我們都沒見過,我也沒辦法做提前的訓(xùn)練。
今年6月份我也在問學(xué)術(shù)界的人,人跟機器在語音識別上的區(qū)別究竟怎么解決?我們機器上能采用立體聲的方式做定向的識別,我們做個麥克風(fēng)矩陣,通過立體方式能夠知道其中一個人在說話,把另一個人說的話去掉,那人是這么干的嗎?如果把我的一只耳朵堵上,我是否沒辦法從兩個人中間分別出說話的人,或者把兩個人說話的聲音錄到一個單聲道的錄音帶里,人還能識別嗎?在座各位怎么看?人是可以的,所以人的方法跟機器并不一樣。因此,我就跟一些博士在聊,究竟人怎么識別?是因為兩個人的音色不一樣,還是一個人聲音大,一個人聲音小,還是因為他們說不同的語言?那個博士笑了,他說,但凡同時有兩個人說話的時候,只要能夠找到一個差別,人就能把其中的一個聲音識別出來,所以,人在跟機器處理的過程中還有巨大的不同。我在這里先不展開。我們認(rèn)為語音識別已經(jīng)在機器智能方面最成熟的領(lǐng)域還是跟人有很大的區(qū)別的。
另外一件事是語義靠譜嗎?就是對語言的理解。Google之前是用知識圖譜的方法解決,現(xiàn)在開始遇到了瓶頸。今年6月,我在一個實驗室看到他們最先進的人機對話系統(tǒng),這個系統(tǒng)能幫你訂餐和訂酒店。在對話過程中,機器的表現(xiàn)是非常驚艷的,讓我們上去試,中間有個環(huán)節(jié)請大家注意,機器開始問你,你是需要停車位,還是不要停車位?如果這個時候,我們回答說要或者不要,都沒問題。我們就說,我沒車。大家知道機器怎樣的?它完全不理解我沒車就代表著我不需要停車位,這是因為今天的機器在自然語言概念的理解里面還是遠(yuǎn)遠(yuǎn)不夠的。所以,自然語言的處理是可以做的,但是,語音的理解到現(xiàn)在還是個不靠譜的階段。
Google今年也發(fā)布了一套對于自然語言能夠做句子分析的一個引擎,把主語、謂語、賓語都能提出來,但是準(zhǔn)確度可能就在90%,就提不上去了,它自己也說,為什么呢?是因為這個時候光靠統(tǒng)計、靠語法已經(jīng)不足夠支撐了,往下需要對句子中具體的概念有理解才能消除歧義,就像我們知道不可能把一條馬路放在一個冰箱上面,對人來講是特別簡單的事情,但是對計算機的挑戰(zhàn)就非常大,所以這是深度學(xué)習(xí)為代表的人工智能還不夠的地方。
很敏感的問題是,無人駕駛靠譜嗎?今天百度在現(xiàn)場也提出了發(fā)布無人駕駛的汽車,但是從我的了解來看,如果以今天人類的技術(shù),對于見過的場景、對于封閉場景的無人駕駛汽車確實是可以使用的,但是對于真正開放的環(huán)境,不只是跑在高速上或者是五環(huán)路上的汽車,對不起,以現(xiàn)在人類的技術(shù),是不安全的。因為這個場景只要它沒見過,它可能會犯嚴(yán)重的錯誤,就像AlphaGo下棋一樣,它會突然發(fā)瘋,所以我們可能叫輔助駕駛是可行的,無人駕駛在有新的技術(shù)突破前,我認(rèn)為還做不到。
所以今天深度學(xué)習(xí)的弱點大家提得比較多了,本身不透明,所以它的可靠性有限,缺乏推理能力,特別缺乏對符號的理解。如果不能理解符號,自然語言的理解就會成為瓶頸。即便是這樣,我們也提到它能夠取代一些行業(yè),比如說棋手、醫(yī)生、司機,機器在里面都能做到很好的輔助,但是對于一些大家沒見過的創(chuàng)造性的事情、規(guī)劃、科研,其實是很難的。我們今天在媒體上看到的機器能夠自動寫文章、自動畫圖,我覺得更多的是在科研層面給我們展示出來它的一些例子,但是并不是能達到取代人真正使用的階段。
所以在這里面我先把大家對人工智能的預(yù)期降低下來,也有人在問是否會出現(xiàn)第三次的退潮?前兩次我們都認(rèn)為人工智能到來了,但這一次可能會比之前好。在之前兩次的人工智能退潮前,我們問一個老師,你是研究人工智能的嗎?這是罵他的話,因為人工智能不靠譜。這一次是第一次真正進入到了使用,確實在語言處理、聲音處理、圖像處理和一些高維數(shù)據(jù)空間上,它能比人做得更好。因此,這次的區(qū)別就是大量的資金、資本投入到了人工智能,也有大量的研究人員在畢業(yè)后從事人工智能的工作,這是跟之前的工作不一樣的,所以一方面開始使用,另一方面我們開始期待不斷的產(chǎn)生新的突破。
我個人對這次是樂觀的,但是我也會很緊張,也許我們自己做的搜索引擎就是會被顛覆的一部分。
在這里面,我要開始暢想未來的路在什么地方?從我自己的描述來看,搜索的未來就是人工智能時代的皇冠。為什么這么說呢?搜索的未來是什么?人工智能的未來又是什么?為什么是皇冠?簡單來講,我會認(rèn)為搜索的未來就是問答機器人,因為我們已經(jīng)習(xí)慣了一件事情,是做搜索的時候我們先輸入關(guān)健詞,然后給你10條結(jié)果或者是10條鏈接,但是這真的是最好的方法嗎?肯定是不夠的。我們也會提到是否我們用個性化的方法能夠使得搜索的結(jié)果更準(zhǔn),但其實個性化能夠提供的信息非常有限。真正能夠使得這個系統(tǒng)變得有用的辦法是用問句。以前不用問句的一個原因是因為機器聽不懂你在說什么。真的到了問句之后,它能夠從給你10條鏈接變成給你一個答案,就會好很多。
我們可以想像,如果你問機器四個字,“烏鎮(zhèn)大會”,這個信息不可能給你想要的內(nèi)容,最多是只能把新聞,烏鎮(zhèn)的百科或者官網(wǎng)介紹給你,但是如果你問到烏鎮(zhèn)大會哪一天開?這個時候機器才有機會給你更好的答案。所以我相信隨著技術(shù)往下突破,搜索引擎會自然而然轉(zhuǎn)化成一個問答引擎。
在這個道路里面,很多公司都在做,包括蘋果、微軟、亞馬遜、Google,這里面起步最早做對話系統(tǒng)的大家知道是蘋果的Siri,這個系統(tǒng)并不成功,在中國用的人很少,不知道對英語現(xiàn)在的使用會怎樣?為什么不成功?簡單的原因是因為現(xiàn)在的技術(shù)還沒有到來,現(xiàn)在我們對于自然語言的處理能力和自然語言的理解能力還非常有限,我就在想,為什么蘋果這樣一個追求極致的公司會把這個系統(tǒng)發(fā)布出來?一種可能性是蘋果對技術(shù)了解不夠,另一種可能性我認(rèn)為是喬布斯的一個意愿,咱們知道在發(fā)布iPhone手機的時候,他已經(jīng)躺在病床上看發(fā)布會了,發(fā)布會完成之后,他很快就離開人世了。所以這像一個早產(chǎn)的嬰兒在iPhone 4S里面發(fā)布出來,所以我認(rèn)為這樣一個系統(tǒng)代表了喬布斯對于人類蠻終極的一種人機交互的暢想。
事實上在我們大量的文學(xué)作品、電影、科幻里面都會提到問答的機器,不管是《星球大戰(zhàn)》、《超能陸戰(zhàn)隊》、《星際穿越》都會提到。一個最偉大的科幻作家阿西莫夫也在他的小說里面有一個短片,叫做《最后的問題》,他描繪的就是人類造出一臺機器把整個地球、整個宇宙的能源都用上去。這個機器回答不了一個終極的問題,就是這個宇宙是怎么誕生的,但是其他的問題它都能回答。所以文學(xué)作品,其實是代表了我們對問答機器的一個思考。
除了搜索引擎做問答以外,咱們知道在中國搜狗的輸入法擁有3億的用戶,輸入法的未來是什么?我也會提到跟自動問答有關(guān)系。給大家看一個視頻。(播放視頻)
之前我們討論輸入法的時候很多朋友跟我說語音是最重要的,搜狗有完整的語音識別的技術(shù)和語音合成的技術(shù),但是在我內(nèi)心,這個遠(yuǎn)不是輸入法的極致,它真正的極致是能夠開始尋找信息,幫你去思考。剛才大家演示的是一個分享的能力,真正的回答能力可以在后面給大家做一個新的演示。(播放視頻)
在我們討論問答技術(shù)和討論人機對話的時候,輸入法也許是一個最好的切入場景。我們之前提到了百度的度秘或者是Google的Assistant,它都是一個獨立的引擎,但是輸入法作為人的一個分身,剛才余承東提到的這個概念,更容易幫助你建立人的思考,輸入法也會從一個拼音工具開始走向一個對話和問答的系統(tǒng)。
搜狗我們有兩個核心產(chǎn)品,一個是輸入法,一個是搜索,就提到了表達信息和獲取信息,讓表達和獲取更簡單。隨著AI技術(shù)的發(fā)展,我們也真正能夠去更好地解放人的思考。所以我們會有一個理念,兩件事情,一個是做自然的交互,不只是語音,而是語言。另外,就是做知識的計算,能讓機器逐步建立推理的能力。搜狗輸入法擁有最大的語言數(shù)據(jù)的積累,我們最有機會在這個領(lǐng)域里面取得突破。