2019年8月15日,微軟正式推出了第七代微軟小冰,這一年也標志著微軟小冰的走過了第五個年頭。作為微軟推廣其人工智能應(yīng)用與落地的高級品類,并歷經(jīng)了前六代的積累,有著更完備情感計算引擎的微軟小冰正朝著更全面、更廣泛的平臺化方向邁進。當前,微軟小冰自身的技術(shù)演進也在持續(xù)的推進過程中。面對平臺化戰(zhàn)略帶來的多樣化需求,微軟小冰也需要進行快速的自我迭代,以應(yīng)對各種已知的和未知的應(yīng)用場景,以實現(xiàn)微軟小冰的通用化,甚至在某種程度上實現(xiàn)自我學習。
就像嬰兒咿呀學語一樣,“對話”不僅是微軟小冰的價值輸出核心,也是實現(xiàn)自身進化的引擎。作為一個走向“自我完備”的對話AI,微軟小冰需要做到進行更長的多輪對話,從人類和其他對話AI中學習,能夠跨模態(tài)吸收知識,還要具備強大的比喻聯(lián)想能力和創(chuàng)造力。這些能力貫穿了對話機器人這些年來,甚至可能是未來一段時間整個業(yè)界的研究與發(fā)展的方向。
微軟小冰的對話引擎進化,一部分來源于三種模型:檢索模型、生成模型和共感模型。其中,檢索模型通過重用已有的人類的對話來實現(xiàn)人機交互,目前不僅能夠在單輪對話中實現(xiàn)高精度的回復匹配,在多輪對話中也有著很好地表現(xiàn);生成模型現(xiàn)在能夠自然地把外部的知識引入進來,通過基于注意力機制的序列到序列的模型遴選話題語料,最后再在解碼的過程中單獨做出一個話題的生成概率,讓話題能夠更容易出現(xiàn)在回復中,使對話更加深刻。
而共感模型的核心是通過對話策略對整個的對話流程進行把控,因此共感模型背后是由有兩個模型組成的:回復生成模型,決定機器人說什么;策略決定模型,決定機器人要怎么去說。
這兩個模型結(jié)合在一起就把微軟小冰從原來基于上下文直接產(chǎn)生回復的模式,變成了從上下文到?jīng)Q策,然后再根據(jù)這個決策來決定說什么。共感模型最大的靈活性就在于策略,這個策略可以是一些要表達的意圖,比如主動引導話題、提問、向?qū)Ψ酱_認一些事情,或者聽一聽用戶在說什么,或者做一些無意識的、簡單的回復。它也可以是一些話題,也可以是一些情感等等,當然也可以是意圖、話題、情感的組合,通過這種策略組合,可以產(chǎn)生非常多樣的、復雜的對話流程。通過策略模型就可以去管理整個復雜的對話。
當微軟小冰積累足夠多的策略時,團隊引入了meta-word的概念,將語句中的不同屬性排列、變換、組合,就可以生成各種各樣的回復,在整個對話的流程中,秩序通過變換屬性就可以組合成多種的對話。這種模型可解釋性很強,并且可以做成像一個接口一樣,工程師可以通過編輯這個接口,編輯meta-word中的屬性,以及這個屬性的值去打造具有各種各樣的風格、情感、話題、意圖等等各種各樣的對話機器人。
各種模型的不斷進化也給微軟小冰的研發(fā)團隊帶來了一個有趣的嘗試:通過Co-teaching算法讓兩個檢索模型在訓練過程中互為師生,互相交流。在每一次迭代的時候,一個模型都把它從數(shù)據(jù)中學到的知識傳達給另外一個模型,同時又從另外一個模型中接觸到它的知識,然后這兩個模型互相學習,最終希望能夠得到共同的進步。微軟小冰首席語音科學家欒劍表示:“由于有了Co-teaching,每一個模型的效果都得到了提升。”
微軟小冰的對話引擎進化的另一部分來自于多模態(tài)交互。簡單來講,多模態(tài)交互就是用戶通過輸入對話、語音、文本知識、多媒體,輸出也可以是對話、語音、多媒體。在這個過程中,機器人能夠把多模態(tài)的知識連結(jié)在一起,進行消化、吸收,最終把它有機的組合起來,并進行輸出。
在關(guān)于多模態(tài)的研究中,微軟小冰團隊受“體驗?zāi)M假說”的啟發(fā),通過調(diào)動微軟小冰自己以往的記憶,與一些圖像和文字的匹配,使得微軟小冰看到一個故事的句子之后,調(diào)動出她以前的一些經(jīng)驗,然后模擬出現(xiàn)在的場景,甚至做一些替換,然后使得這個場景更加一致。其中,上下文感知故事編碼、密集視覺語義匹配以及一對多覆蓋增強等技術(shù)讓微軟小冰實現(xiàn)對文字的聯(lián)想,與圖片進行匹配,并通過Storyboard Creator對現(xiàn)有圖片進行再創(chuàng)作,使得文字和場景更加匹配。這種多模態(tài)的表達方式極大提升了微軟小冰的對話維度,讓微軟小冰在諸如學齡前兒童或者失讀癥等環(huán)境等更多場景中也能充分地展現(xiàn)其對話能力。
隨著第七代微軟小冰的不斷進化,其獨特的創(chuàng)造能力也在不斷突破。唱歌是微軟小冰的“拿手好戲”,參數(shù)模型的演進使得小冰現(xiàn)在能夠通過一組DNN就能分析樂譜信息,相比之前利用不同DNN分別分析樂譜信息中關(guān)鍵內(nèi)容,現(xiàn)在的參數(shù)模型能夠讓合成的歌聲更加流暢;而通過原始波形輸入、全卷積網(wǎng)絡(luò)與殘差連接,以及軟分類標簽,讓混合伴奏音頻中的人聲音高提取成為可能,這也使得微軟小冰的音準更加準確。更優(yōu)質(zhì)的模型和更多的數(shù)據(jù)輸入,讓微軟小冰不僅能夠自己唱歌,出單曲,也能輔助音頻制作者更好地創(chuàng)作,使創(chuàng)作者的效率更高。
微軟小冰的創(chuàng)造里不止唱歌,現(xiàn)在也能夠像人一樣使用比喻句。微軟小冰研發(fā)團隊從中文詩歌的主題中抽取了120個主題,擴展出6個詞,并用日志進行過濾,找出小冰的用戶也喜歡說的一些概念,最終確定了96個抽象詞,同時找出3000個具體的名詞,并將這些詞用Word Embedding來進行表達,并通過分別對形容詞、名詞和動詞的不同表達進行不同的處理,讓微軟小冰最終能夠表達出通順、恰當、新穎的比喻句。
不論是引擎的進化還是創(chuàng)造方面,第七代微軟小冰正在不斷地突破自我,讓其形象更加智能、立體,甚至更像一個“人”。并且,第七代微軟小冰正正在覆蓋更多場景,幫助廠商做出各種各樣的AI,讓更多的人用上AI。微軟小冰首席科學家宋睿華表示:“我們也希望微軟小冰以后能夠成為一個通用的平臺,能夠讓她幫助廠商包括我們?nèi)プ龀龈鞣N各樣的AI來。這樣最終就可以形成一片AI的森林,我們也把他們叫AI beings?!?/p>