11月21日,微軟(亞洲)互聯(lián)網(wǎng)工程院在北京微軟總部召開了微軟小冰2019年年度研究進展分享會,微軟小冰三大首席科學家—;—;微軟小冰首席科學家宋睿華、微軟小冰首席NLP科學家武威、微軟小冰首席語音科學家欒劍在會上展示了微軟第一美少女AI小冰近期的技術突破,帶來了相當硬核的技術干貨分享。
左:武威 中:欒劍 右:宋睿華
一、會比喻 懂常識 越來越像人的微軟小冰
—;—;會比喻的小冰
語言無疑是復雜的,其包含了陳述、疑問、反問、比喻、修辭乃至“陰陽怪氣”等只有人類才能領會并熟練運用的微妙技能,所以當微軟小冰首席科學家宋睿華表示小冰已經(jīng)學會使用“比喻”時,著實令人震撼。
而且小冰不僅僅做到了諸如“愛情是復雜的,像數(shù)學一樣”簡單形容詞比喻,甚至可以實現(xiàn)“靈魂就像球迷一樣,在無聲地吶喊”、“愛情就像是脂肪,是點點滴滴的積累”這樣的動詞與名詞形容句,而且毫無違和感。
宋睿華介紹道,為了幫助小冰學會“比喻”這項技能,他們從復雜的詩歌中挑選了6大類,每類122個主題,并通過小冰聊天日志過濾出了包括愛情、內心、世界、母親、美麗、人類在內的96個常用比喻概念。隨后從1000個常用詞中選取了3000個最常用的形容詞擴充小冰的比喻能力。
比喻句的基本結構是“XX像XX”,其中前者是比喻的本體,后者是比喻的喻體,說好一句比喻的重點無疑在如何篩選本體和喻體上,并且還要為這句比喻提出一個合理的支撐點,避免出現(xiàn)“戀人像報表,都十分可靠”這種奇怪的比喻。為此小冰會對比本體與喻體的可能存在的相關詞匯。
比如愛情與國足,它們共同的相關詞匯可能有未來、虛幻,那么小冰就可以作出“愛情就像國足,未來都是虛幻的”這樣自然的比喻句。
—;—;懂常識的小冰
常識對人類而言是一個非常簡單事情,比如提到北極熊時就很少會有人說“這是一只白色的北極熊”,因為常識默認北極熊是白色的,大多數(shù)人都會省略到這種眾所周知的常識性信息。
但對于小冰而言,這種省略會對它的理解造成困擾,比如一篇描寫北極熊捕食的文章在描述“北極熊在接近海豹前會用爪子捂住鼻子”時,人類會自然懂得這是為了擋住鼻子的黑色防止海豹看到自己,但缺乏上下文的對話機器人就會很難理解捂住鼻子的原因是什么。
為此微軟為小冰增加了常識與“記憶”能力,當一句話提到某個概念時小冰會自動“回想”起與其相關的圖片,并識別出圖片上的特征。而且與業(yè)界”一對一“文字與圖片對應能力不同的是,小冰可以做到”一對多“,比如一句話中同時提到了老奶奶與鵝,小冰就可以同時”回想“起老奶奶與鵝的照片,幫助自己更好地理解這句話。
二、日本出道成歌手 小冰如何學會唱歌?
微軟小冰會唱歌已經(jīng)不是什么秘密,在此前的微軟小冰發(fā)布會中,小冰已經(jīng)演唱過中文、日文、戲曲等多種語言和類型的歌曲,前一段時間甚至發(fā)布了翻唱的”野狼Disco“。微軟小冰首席語音科學家欒劍在會上分享了讓小冰跨界唱歌技術干貨。
首先欒劍談到了讓小冰學習唱歌的原因,他表示小冰推出后經(jīng)過努力語音合成領域一些大的問題已經(jīng)解決了,于是就開始尋找更有挑戰(zhàn)性的課題,此時比說話門檻高、情感更豐富、人們喜聞樂見的唱歌就自然成為了微軟的下一個目標。
唱歌包含了發(fā)音、節(jié)拍、旋律三大要素,機器可以通學習人類的歌聲和識別五線譜兩種方式進行學習。為了為小冰提供素材,微軟甚至與一家擁有十幾年歷史的唱片公司合作。但這里遇到了一個教材問題。
唱片公司很少保留歌手清唱的錄音,但對于機器而言清唱的干擾最少,最適合學習,為此微軟甚至發(fā)表了一篇論文,提出了輸入原始波形、全卷積網(wǎng)絡+殘差連接、軟分類標簽3大創(chuàng)新,實現(xiàn)了從伴奏中把人聲部分準確地截取出來的能力。
后面的問題就是如何更自然地合成歌聲,這方面微軟選擇了比傳統(tǒng)單元拼接更自然的參數(shù)合成法,并且為了進一步提高小冰的”唱歌技巧“,微軟選擇了用一個模型預測三大要素困難模式,最終使得小冰的歌聲自然度和流暢度有一個明顯的提升。
當然微軟科學家辛苦付出讓小冰學會唱歌并非只是培養(yǎng)她的業(yè)余愛好,其商業(yè)化前景也是不可限量。比如小冰的日本分身凜菜(りんな)已經(jīng)與日本最大唱片公司AVEX正式簽約,成為濱崎步、安室奈美惠等叱咤國際樂壇多年的著名人類音樂人的同門師妹。
除了專業(yè)的歌唱領域,會唱歌的小冰還能覆蓋到兒童機器人以及兒童陪伴APP中,會中微軟工作人員透露小冰該領域份額高達70-80%。
三、小冰成長的背后:Self-Complete
自2015年小冰誕生以來,其已經(jīng)進化至第七代,實現(xiàn)了從“平等對話”向“主導對話”的跨越式升級。但在背后究竟是什么在支撐它從一介聊天機器人迅速成長為業(yè)界巨擘?微軟小冰首席NLP科學家武威進行了詳細解答。
武威表示,Self-Complete(自我完備)可以很好地概括近些年來微軟在小冰身上的研究成果。而一個具有Self-Complete能力的對話機器人涵蓋了三種能力:學習、管理、聯(lián)結。
首先是學習。對話機器人對話的過程其實就是一個檢索自己的候選回復,然后通過檢索模型來找到最匹配的回復,檢索模型直接關系到對話能力。而微軟則為檢索模型引入了外部知識,在知識層面、詞語層面、短語層面進行融合,開發(fā)出了業(yè)界最好的模型之一。目前微軟的檢索模型已經(jīng)成為了各種做檢索模型必比的一個基線模型。
此外微軟也探索了讓兩個檢索模型互相訓練的嘗試,并開發(fā)出了Co-teaching算法,取得了相當好的效果,經(jīng)過Co-teaching互相教的每一個模型都實現(xiàn)了明顯提升。
其次是自主管理。此前第六代小冰引入了共感模型,可以對對話過程進行把控,通俗的講,就是讓小冰能實現(xiàn)了主導與人類對話的能力。
共感模型背后包含了決定小冰說什么內容的回復模型與決定小冰怎么說的策略模型,這兩個模型結合在一起就把微軟小冰從原來基于上下文直接產(chǎn)生回復的模式,變成了從上下文到?jīng)Q策,然后再根據(jù)這個決策來決定自己說什么。
憑借著自主管理能力,小冰可以通過問問題快速了解用戶意圖,進行商品推薦,微軟在日本和美國對小冰的這種能力進行了測試,發(fā)現(xiàn)推薦轉化率高達68%,即100個和小冰聊天的客戶中會有68個人進店查看小冰推薦的商品。
當然上述案例僅僅小冰擁有自主管理能力后的應用之一,其未來前景不可限量。
最后就是聯(lián)結了,聯(lián)結本質上是多模態(tài)交互,即小冰可以同時處理對話、語音、文本、多媒體等各種形勢的資源,進行消化吸收,最終可以將它們有機聯(lián)結起來。
微軟在今年2月份,已經(jīng)在日本公測了多模態(tài)交互功能,為小冰在日本的分身凜菜增加了視覺能力。當?shù)赜浾邤y帶著配有攝像頭的“日本美女高中生”凜菜,在水族館中游覽,在測試中,凜菜在識別出當前畫面的同時,也能就當前畫面與用戶展開深入交流。例如看到魚之后,會聯(lián)想到魚的大小、顏色、種類與魚翅(本質吃貨?),讓用戶獲得了近似真人的聊天體驗。
四、總結:鄰家有女初長成
會上微軟同時披露了微軟小冰在應用上的最新進展,截止目前,小冰已經(jīng)入住了超過30個平臺,搭載小冰的智能設備數(shù)量已經(jīng)超過了4.5億部。而小冰的CPS(對話輪數(shù),即用戶與小冰的可以對話多少輪)高達23,換句話說,平均每個小冰用戶都會與小冰聊上23輪,這是一個相當驚人的數(shù)字。
雖然受限于商業(yè)合同,微軟無法全面公布小冰在商業(yè)化上取得的成績,但從上述幾個數(shù)字中不難想象,憑借著微軟在小冰背后的科研投入與成果,微軟小冰已經(jīng)成為人工智能產(chǎn)業(yè)中一個難以忽視的存在,其所存在的廣度與深度已經(jīng)遠遠超出人們的想象,而它也正如一個18歲少女一樣,冉冉升起,未來可期。