(文章來源:神小無)
語音識別是一種可以識別口語單詞的技術,然后可以將其轉換為文本。語音識別的一個子集是語音識別,這是一種基于語音識別人的技術。全球五家頂尖科技公司Amazon,Microsoft,Google和Apple已通過Google Home,Amazon Echo和Siri等服務在各種設備上提供此功能。
隨著市場上許多語音識別產品的推出,我們決定研究語音識別的業(yè)務含義。通過研究這些公司的語音識別技術,我們嘗試為讀者解答以下問題:語音識別如何驅動這些公司的商業(yè)價值?他們?yōu)槭裁匆顿Y語音識別?幾年后這項技術會是什么樣?我們從一些背景開始,探討技術巨頭如何以及為何開發(fā)語音識別技術。其次是來自亞馬遜,微軟,谷歌和蘋果的語音識別技術的衰落。
技術公司正在意識到對語音識別技術的興趣,并正在努力使語音識別成為大多數產品的標準。這些公司的目標之一可能是使語音助手圍繞上下文和內容更加準確地講話和答復。研究表明,具有語音識別功能的虛擬助手的使用量預計將在明年繼續(xù)增長,從2017年的6050萬在美國增加到2018年的6240萬。到2019年,有6660萬美國人使用語音或語音識別技術。
為了建立強大的語音識別體驗,其背后的人工智能必須變得更好,以應對口音和背景噪音等挑戰(zhàn)。如今,自然語言處理和神經網絡技術的發(fā)展極大地改善了語音和語音技術,以至于今天據說與人類同等。例如,在2017年,該公司記錄的Microsoft語音技術的單詞錯誤率達到5.1%,而Google報告說它已將其錯誤率降低到4.9%。
研究公司Research and Markets報告說,到2023年,語音識別市場的價值將達到180億美元。隨著語音識別技術變得越來越大,該研究估計它可以應用于從電話到冰箱再到汽車的所有領域。在拉斯維加斯舉行的CES 2017年度展會上可以看到其中的一瞥,那里推出或宣布了帶有語音的新設備。盡管所有應用程序都具有非常相似的功能和集成機會,但我們已根據我們研究的重點將它們歸類為每個應用程序的主要關注領域。
直到最近,亞馬遜的語音虛擬助手Alexa僅在亞馬遜生產的商業(yè)產品上可用。但是,Amazon Web Services已將語音助手提供給其他公司。亞馬遜與英特爾合作推出了Alexa語音服務設備軟件開發(fā)套件,該套件可允許第三方公司將Alexa功能嵌入其設備。此次合作是亞馬遜“ Alexa Everywhere”戰(zhàn)略的結果,該公司表示,該戰(zhàn)略旨在使各種智能和可穿戴設備的制造商都能普遍使用Alexa背后的技術。
在拉斯維加斯舉行的CES 2018上,索尼,TiVo和海信發(fā)布了集成Alexa的智能家居技術,使客戶能夠通過語音控制電視?;荻?,三角洲,LG和海爾等家用電器制造商還增加了Alexa的語音識別技能,以幫助人們控制房屋的各個方面,從電視,微波爐到空調裝置和水龍頭。根據Amazon Alexa網站的數據,Alexa可以控制來自2500多個品牌的13,000多種智能家居設備。
包括其他公司的產品在內,Alexa現在擁有30,000種技能。盡管蘋果擁有Siri,谷歌將其未命名的虛擬助手內置在智能手機和揚聲器中,但亞馬遜將Alexa集成到了智能揚聲器Echo中。亞馬遜沒有透露最終的銷售數字,Forrester預測到2017年底將售出2200萬個Echo單元。Forrester稱,達到這個銷售數字將使Echo成為美國最大的語音助手。
作為虛擬助手,亞馬遜聲稱亞馬遜提供的Alexa for Business可以幫助專業(yè)人士管理日程安排,跟蹤任務并設置提醒。當集成到會議控制臺等設備中時,該應用程序可以通過發(fā)言人的聲音控制會議室設置。支持Alexa的設備還可以在較小的會議室中充當音頻會議設備,或者在較大的會議室中充當控制設備。
羅技將Alexa內置到其Harmony遠程裝置中,以控制家庭娛樂系統(tǒng)和智能家居設備。當客戶說出簡單的命令(例如“ Alexa,打開電視”或“ Alexa,播放DVD”)時,將激活遠程單元。然后,Alexa將請求發(fā)送給Harmony,后者通過紅外將請求中繼到家用設備,藍牙或IP。
據亞馬遜稱,原型團隊由羅技公司的一名高級軟件架構師組成,他花了兩個小時將Alexa集成到Harmony中。一旦原型準備就緒,羅技(Logitech)的團隊就準備了發(fā)射所需的技能。根據羅技(Logitech)的數據,亞馬遜報告說,從原型開發(fā)到生產級技能的過程不到兩周。在此案例研究中未提供其他詳細信息或編號。
在更基本的層面上,亞馬遜還提供自動語音識別(ASR)服務Transcribe,使開發(fā)人員能夠向其應用程序添加語音到文本功能。一旦語音功能集成到應用程序中,最終用戶就可以分析音頻文件,然后接收轉錄語音的文本文件。Google Assistant是谷歌的語音虛擬助手,其技能包括諸如通過Google Pay發(fā)送和請求付款或對Pixel 手機進行故障排除之類的任務。
在Android或iOS手機,智能手表,Pixelbook筆記本電腦,Android智能電視/顯示器和Android自動啟用的汽車等設備上都可以使用Assistant。當需要在諸如庫之類的地方保持安靜時,用戶還可以在Assistant中鍵入命令。Google Assistant為兒童和家庭提供了50種與語音相關的游戲。
隨身攜帶的Google智能揚聲器包括Home。谷歌聲稱該揚聲器可與來自150多個品牌的5,000多個智能家居設備配合使用,例如咖啡機,電燈和恒溫器,其中包括索尼,飛利浦,LG和東芝。據報道,在2018年第一季度,谷歌售出了320萬臺其Home和Home Mini設備,超過了Alexa支持的Echo設備(250萬臺)。兩家公司都沒有發(fā)布官方數據。
為了使Assistant更加普及,Google通過AcTIons打開了軟件開發(fā)工具包,該工具包允許開發(fā)人員在支持人工智能的自己的產品中建立聲音。谷歌最近還啟動了Assistant Investments計劃,該計劃投資于致力于提高語音和輔助技術(無論是硬件還是軟件)的初創(chuàng)公司,并專注于旅游,游戲或酒店業(yè)。
根據該計劃,谷歌將在技術,業(yè)務開發(fā)和產品潛在客戶方面提供支持。初創(chuàng)公司還將獲得對Assistant的新功能和計劃的首次訪問; Google產品(包括Google Cloud)的信用; 以及潛在的聯(lián)合營銷機會。Google的另一種語音識別產品是由AI驅動的云語音到文本工具,開發(fā)人員可以通過深度學習神經網絡算法將音頻轉換為文本。該工具可使用120種語言,支持語音命令和控制,轉錄來自呼叫中心的音頻,處理實時流或預先錄制的音頻。
? ? ?