距離人工智能普及化還有多遠(yuǎn)
引爆AI技術(shù)的Alphago與李世石的“人工智能”世紀(jì)大戰(zhàn)已經(jīng)過去三年,與三年前Alphago大勝李九段時(shí)人們驚呼“人工智能將要替代人類”相比,2019年的人們在面對AI時(shí)則更為淡然,與之對應(yīng)的現(xiàn)實(shí)是,近三年來人工智能技術(shù)雖已取得驚人成就,但仍未真正脫離“人工”的現(xiàn)實(shí)。
2018年5月,谷歌在其I/O開發(fā)者大會(huì)上,展示了令人印象深刻的Duplex人工智能語音技術(shù),當(dāng)時(shí)谷歌現(xiàn)場演示了Duplex語音AI預(yù)約理發(fā)服務(wù),在與理發(fā)店溝通過程中Duplex的那一聲“嗯哼”更是技驚四座、驚艷全球,隨后谷歌董事長驕傲的向世界宣布:在電話預(yù)約領(lǐng)域,Duplex已經(jīng)通過了圖靈測試。
然而,事情當(dāng)然沒有那么簡單,在《紐約時(shí)報(bào)》記者的測試中發(fā)現(xiàn),在成功預(yù)約的4次中,有三次是由人工偽裝成Duplex完成的,隨后谷歌官方聲明,目前通過Duplex撥打的電話中,約有25%由人類完全操作,在其他非人工操作的情況下,有15%的呼叫受到了人為干預(yù)。即使人工智能技術(shù)強(qiáng)如谷歌,也仍然邁不過AI語音交互的“智能之坑”。而實(shí)際上,著名的圖靈測試,也有其特定歷史環(huán)境下的局限性。
實(shí)際上,AI語音交互的基礎(chǔ)是基于深度學(xué)習(xí)算法對語言系統(tǒng)的深度集成,因而決定其具有明顯的“雙邊效應(yīng)”,一方面,AI語音交互的完成度越高,其用戶數(shù)量增長越快;另一方面,用戶數(shù)量與使用頻次的增長反作用于AI語音交互的深度學(xué)習(xí)訓(xùn)練,從而實(shí)現(xiàn)更高的完成度。在互聯(lián)網(wǎng)江湖(ITVIPTI)看來,語言交互的過程的本質(zhì),是數(shù)據(jù)在“動(dòng)態(tài)規(guī)劃”邏輯下對數(shù)據(jù)特征的精確匹配。
簡單來說,這就像你拿著一只印著小貓圖案的黃色鉛筆并且想要一只同樣的鉛筆,你需要去一個(gè)有著各種各樣筆的文具店,因而你需要用“動(dòng)態(tài)規(guī)劃”思維將這只獨(dú)特的鉛筆“拆分開來”,明確它的種類以及特征:首先,它是鉛筆、其次它是黃色的,最后它印著小貓圖案。然后根據(jù)這些特征通過篩選(算法)去找到文具店中同樣的鉛筆。
但就目前的技術(shù)條件下,想要實(shí)現(xiàn)語言數(shù)據(jù)的100%精確匹配需要一些“先決條件”。交互層實(shí)現(xiàn)100%準(zhǔn)確率的語音識別準(zhǔn)確率是保證整個(gè)語音交互不會(huì)出現(xiàn)語義“理解”偏差的重要前提,而要實(shí)現(xiàn)語音識的精準(zhǔn)必須構(gòu)建完整的“語句數(shù)據(jù)庫”,然后通過大量的識別訓(xùn)練提升其準(zhǔn)確度。
其次,在實(shí)現(xiàn)精確語音識別后,需要算法對其進(jìn)行“數(shù)據(jù)打包”并且實(shí)現(xiàn)對“語言系統(tǒng)數(shù)據(jù)庫”進(jìn)行快速檢索,從而匹配到相應(yīng)的“反饋方案”,而由于不同的語義決定了不同的語音交互場景,因此需要涵蓋幾乎所有語音交互場景的“算法倉”,同時(shí)每個(gè)算法必須滿足對于精度和效率的雙重需求。在數(shù)據(jù)層,“語言系統(tǒng)”數(shù)據(jù)庫的完善程度重某種意義上決定了整個(gè)語言交互系統(tǒng)的完成度。
無論是“交互層”還是“算法層”都需要“語言系統(tǒng)大數(shù)據(jù)”的全面參與,因而,構(gòu)建完善的“語言系統(tǒng)”數(shù)據(jù)是整個(gè)AI語音交互系統(tǒng)的核心,也是技術(shù)上難度最高的一環(huán)。然而,現(xiàn)實(shí)中在語音識別領(lǐng)域,目前只有科大訊飛的語音識別技術(shù)達(dá)到了98%的準(zhǔn)確率,在整個(gè)語音交換互領(lǐng)域,也僅僅只有谷歌的Duplex通過了圖靈測試,而要想真正實(shí)現(xiàn)語音交互的人工智能,仍然需要AI底層技術(shù)革新的推動(dòng)。
目前,無論是蘋果的Siri 還是微軟的小娜,在語音交互中均未實(shí)現(xiàn)基于時(shí)間線對語境的理解。而就2018年5月谷歌開發(fā)者大會(huì)上Duplex的表現(xiàn)來看,谷歌人工智能語音識別技術(shù)在語境的“理解”上已經(jīng)取得了一些進(jìn)展?;ヂ?lián)網(wǎng)江湖團(tuán)隊(duì)(ITVIP1)認(rèn)為,在進(jìn)階的語音交互過程中,除了遵循“動(dòng)態(tài)規(guī)劃”原則實(shí)現(xiàn)對語言數(shù)據(jù)的檢索外,基于“語言系統(tǒng)”對輸入數(shù)據(jù)的反饋則是一場算法驅(qū)動(dòng)下數(shù)據(jù)與數(shù)據(jù)的“納什均衡博弈。”
“數(shù)據(jù)納什均衡”下的進(jìn)階AI語音交互雖然從理論上可以實(shí)現(xiàn)AI對特定語境下的理解,但這樣的AI仍不能夠算的上真正的人工智能,真正意義上的人工智能不僅僅是“具有人類語言特征”的AI,而是真正具備人類思維能力以及行為能力的AI系統(tǒng)。因此,從這個(gè)意義上來講,真正的人工智能不僅具有“人類思維”的軟件范式,也需要在物理上的“擬人化”,使之具備作為“人”行動(dòng)能力。而想要實(shí)現(xiàn)真正的人工智能,不僅需要AI技術(shù)的“人化”也需要工程上的“人類化”。
也就是說,剝?nèi)ト斯ぶ悄艿耐庖拢缃竦腁I并未真正意義上實(shí)現(xiàn)“人工智能”,更多的還是一種用于大數(shù)據(jù)分析與檢索的工具,實(shí)際上,當(dāng)下AI的價(jià)值也在于對數(shù)據(jù)的高效匹配和應(yīng)用。另一方面,雖然AI技術(shù)在產(chǎn)業(yè)應(yīng)用上仍有巨大的空間,但深度學(xué)習(xí)算法的“工具式”人工智能的天花板已經(jīng)觸及,算法驅(qū)動(dòng)下的AI技術(shù)已經(jīng)到達(dá)瓶頸。
也許,《機(jī)械姬》中對于人工智能的幻想在本世紀(jì)末也未必能夠?qū)崿F(xiàn),而對于“人工智能顛覆人類”的恐懼也頗為“杞人憂天”,相對于人工智能時(shí)代的到來,或許我們更應(yīng)該關(guān)注如今AI技術(shù)對于當(dāng)下的改變,而AI語音交互作為AI技術(shù)應(yīng)用的前沿陣地,任何的技術(shù)以及應(yīng)用層面的進(jìn)展都更值得我們?nèi)リP(guān)注。