智能語音助手成為2017年CES和MWC熱點之一,內置智能語音助手的產品覆蓋多個領域、多個品牌的多類產品,例如福特汽車、惠而浦、LG等家電廠商的洗衣機、電冰箱、電烤箱等家用電器,LG家庭機器人和華為智能手機等,智能語音助手儼然成為諸多智能產品的核心配置。智能語音助手在2016年呈現了加速發(fā)展之勢,體現在以下方面:
智能語音以智能家居做為切入點快速發(fā)展。蘋果公司早在2011年就發(fā)布了智能語音助手,但其快速發(fā)展是以2016年亞馬遜Alexa的快速發(fā)展為標志,一是銷量迅速增長。亞馬遜旗下內置Alexa的語音購物助手Echo客戶滲透率已由2%提升至5%,截至2016年年底,亞馬遜共賣出600萬臺Amazon Echo設備[1]。二是智能語音助手功能急速完善。Alexa在2014年最初發(fā)布時只有13個內嵌的技能,現在這項功能已經兼容7000款應用,包括連接Uber、Twitter等應用程序。用戶可以通過Echo的語音識別功能,操控任何一項具有聯網功能的設備,比如電燈、電視、空調等等。三是生態(tài)快速擴建。2015年12月,英特爾與亞馬遜聯合宣布,雙方未來將在一系列智能家庭項目上合作,并計劃開發(fā)一個采用英特爾芯片、搭載亞馬遜Alexa虛擬助理的智能語音架構。汽車生產商福特在本屆CES上也宣布與亞馬遜合作,未來車主將能夠在福特的車輛上體驗Alexa語音服務,實現聲控購物、搜索導航,甚至車主在家就可以通過語音指令啟動引擎、鎖定或解鎖車門。LG、GE等眾多企業(yè)都與亞馬遜達成協議,將自家產品內嵌Alexa。
深度學習算法助力語音識別技術提升是智能語音助手快速發(fā)展的主要原因。近兩年,深度學習算法得到快速發(fā)展,其成果率先應用于語音識別等領域,推動其取得突破性進展。2016年,《麻省理工科技評論》將語音識別和自然語言理解相結合,評為2016年十大突破技術。應用于語音識別的深度學習算法的卷積神經網絡層級(CNN),從最初的8層,到19層、22層、乃至152層的網絡結構,而隨著網絡結構的加深,語音識別的錯誤率也從2012年的16.4%逐步下降到3.57%[2]。許多公司的語音識別系統語音識別正確率超過90%,在很多場合的已經超過人類。
二、智能語音助手將成為新的用戶入口語音將成為主流人機交互方式之一。語音交互方式將人們的雙手從觸摸屏解放出來,減少人們在數據輸入上花費的時間。但語音交互并不適用于所有場景,例如公共場所跟手機對話是不禮貌的。這時通過屏幕交互可能比語音更方便。較適合語音應用的設備包括家居和汽車,這也是亞馬遜Alexa雖然比蘋果Siri推出晚,卻能取得更快增長的原因之一。
當前的各種智能語音交互助手,只是虛擬個人助理(VPA)的雛形,VPA將具備完善的私人助理功能,成為用戶連接服務的節(jié)點,提供無所不在的服務。VPA將與眾多第三方app程序交互,用戶需要某類服務時均可告知VPA,VPA可搜索并決定調用哪款app提供服務,單獨app將從桌面移至后臺,成為VPA的一個子服務;VPA還具有學習能力,根據歷史數據掌握用戶的偏好、習慣等,對用戶需求做出預判,提供符合用戶個性特點的不斷優(yōu)化的服務。
三、巨頭加快展開智能語音助手生態(tài)布局
巨頭已悉數入場,爭搶智能語音交互新入口。蘋果是發(fā)展智能語音助手的先鋒,于2011年在iPhone中內置了智能語音助手產品Siri。谷歌2012年發(fā)布了名為Google now的智能語音產品,并于2016年推出演進產品Google Assistant。亞馬遜于2014年推出內置語音助手Alexa的無線音箱產品。微軟發(fā)布智能語音助手時間相對較晚,其智能語音助手產品Cortana于2015年與新的Windows 10操作系統一同發(fā)布。Facebook于2015年推出智能語音助手服務M,內置AI技術,并有一個人工團隊支撐。百度也于2015年發(fā)布名為Duer的智能語音助手產品。三星2016年收購了智能語音助手技術公司Viv,并計劃于2017年推出相關產品。這些廠商均擁有一個主導的生態(tài),例如電子商務,搜索引擎,智能手機,這些都提供了大量的數據來支撐這些具體平臺的智能語音助手。大量用于“學習”的數據,使得AI更有效率,使得推薦和定位更加細致入微。
亞馬遜暫時領先發(fā)展,未來競爭格局存在變數。亞馬遜搭載Alexa無論從銷量、功能、生態(tài)等方面,均領先于蘋果和谷歌。然而,設備仍然是智能語音助手成功的關鍵,智能語音助手需要有足夠大的設備平臺作為分發(fā)接口,提供隨時隨地、無所不在的服務,隨身攜帶的手機是較為理想的硬件載體。蘋果和谷歌已經在智能手機領域成功,未來可能后來居上,占據主導位置。
巨頭圍繞智能語音助理展開生態(tài)布局,推動跨平臺、跨系統的智能語音助手應用。廠商通過開放api、與第三方app互動等形式擴大生態(tài)建設,推動語音助手在手機、家居、汽車等領域應用。亞馬遜采取開放Alexa的語音技術供第三方開發(fā)者免費使用。此外亞馬遜沒有對合作伙伴設置獨家合作協議,硬件制造商可以自由切換到競爭對手的語音助理,這也使得硬件廠商更樂于集成Alexa。蘋果早在2014年就發(fā)布了自家的智能家居平臺HomeKit,并不斷加強HomeKit與Siri的融合;2016年6月,蘋果宣布開放SDK 給開發(fā)者們,允許其他的第三方應用接入 Siri。谷歌也表示將向開發(fā)者和第三方軟硬件開放assistant。
當前智能語音助手商業(yè)模式呈現多樣化。目前較為成熟的亞馬遜的商業(yè)模式。亞馬遜的核心零售業(yè)務內置于Echo中,用戶與 Echo 的互動會鼓勵用戶更多地去購物,而且會將更多的數據反饋給亞馬遜的推薦系統,因此網站和應用程序都可以再次促進用戶購買更多商品。另外一種是利用智能語音助手實現對用戶更深層次理解,實現更精準的用戶定位。智能語音助手有著用戶需求的詳細數據集,結合對物理行蹤、搜索歷史以及電子郵件和文本內容的了解,可實現更好的廣告定位,Google和Facebook等公司目前主要采取此種收入模式。
四、智能語音助手當前發(fā)展仍存不足使用習慣還有待培養(yǎng)
根據Gartner的調查數據,用戶經常使用智能語音助手的兩至三個功能—天氣、位置和日歷核對。Echo雖然擁有上千種功能,但是大部分功能用戶并不會使用,用戶使用亞馬遜Echo的最的功能是設置時間和播放歌曲,80%以上用戶使用過[3]。
市場碎片化
目前,市場上有多家廠商提供智能語音助手服務,這些廠商與不同的設備廠商達成合作,形成了各自為陣的生態(tài)系統。內置智能語音助手的設備商,必須對現存的替代方案開放,并與不同的服務提供商協作,才能提供便于用戶使用、尤其是跨平臺使用的服務。
隱私問題
理想情況下,個人鑒別信息應該安全地存儲在用戶設備上,并且不會泄露給智能語音助手提供商或者其他服務提供商。但是實際上智能語音助手需要把用戶數據上傳至云端服務器,經過計算后將結果返回到終端,涉及到云端存儲保障隱私問題。
技術瓶頸
智能語音助手還存在語義理解方面的問題。雖然語音識別技術這兩年取得了較大進步,但理解整個對話的環(huán)境和上下文語義,是目前絕大部分機器學習或人工智能的瓶頸,機器還很難將詞語表達的意思與語境和情緒相結合。
五、國內與國外同步發(fā)展一方面,語音識別技術與國外發(fā)展同步??拼笥嶏w在國際最高水平語音合成賽Blizzard Challenge 中十連冠,14、15 年兩次國際漢英翻譯大賽IWSLT 全球第一、15 年機器口語翻譯系統獲NIST 國際評測冠軍,在車內語音方面交互成功率更是超過86%,領先第二名高達10%[4]。
另一方面,本土智能語音助手相較國外產品具有競爭優(yōu)勢。百度是除美國公司之外,同規(guī)模公司中唯一一個運營智能語音助手的。百度智能語音助手Duer可提供搜索信息、預定電影票、叫出租車等助理服務,采用端到端的深度學習系統,有時它在識別漢語語音片段方面,要比人為識別更加準確。國內的大量人口和強勁的中國內容數據庫是Duer的競爭優(yōu)勢,相比于微軟Cortana,百度的搜索引擎數據庫更具優(yōu)勢,谷歌則至今在中國沒法使用,使得Duer成為最受中國市場驅動的智能語音助手。Duer內置于百度安卓搜索app中,安裝在中國上百萬手機中。百度正在致力于將Duer擴展至手機以外的其他設備,例如機器人或者家庭設備。