當(dāng)前位置:首頁 > 芯聞號 > 充電吧
[導(dǎo)讀]2018年,亞馬遜Alexa語音助手取得的進(jìn)步更多來自于廣度而不是深度。記得,亞馬遜在2014年秋季推出了第一款A(yù)I人工智能音響Echo時(shí),當(dāng)時(shí)很多人都不了解Echo的運(yùn)行機(jī)制是怎樣的。從2014年到

2018年,亞馬遜Alexa語音助手取得的進(jìn)步更多來自于廣度而不是深度。記得,亞馬遜在2014年秋季推出了第一款A(yù)I人工智能音響Echo時(shí),當(dāng)時(shí)很多人都不了解Echo的運(yùn)行機(jī)制是怎樣的。從2014年到2018年,Echo以及Alexa驅(qū)動的智能設(shè)備,已經(jīng)漸漸褪去神秘感,遍布人們?nèi)粘I钪械拿恳粋€(gè)角落。

亞馬遜語音助手Alexa的可用國家數(shù)量已經(jīng)增加了一倍之多,取得規(guī)模上的較大收益。對于初級用戶而言,可以利用Alexa學(xué)習(xí)法語和西班牙語?,F(xiàn)階段,有超過2萬8千臺智能設(shè)備與Alexa展開合作,是今年年初合作設(shè)備數(shù)量的6倍之多。Alexa內(nèi)置入100多種不同的產(chǎn)品、設(shè)備中。還記得1999年首次出售的大嘴比利·巴斯Big Mouth Billy Bass嗎?這條會轉(zhuǎn)頭、可以搖動尾巴、張嘴唱歌的魚,在今年已經(jīng)可以兼容Alexa了。

Alexa在2018年的發(fā)展路徑,時(shí)刻影響、定義著2019年乃至更遠(yuǎn)將來的發(fā)展趨勢。Alexa正在悄悄、微妙地發(fā)生著一些改變,這些改變大眾平時(shí)可能根本沒有注意、察覺到。

技術(shù)與改變

在過去的一年中,Alexa get到了很多新技能。舉例來講,Alexa可以根據(jù)上下文,從一個(gè)查詢轉(zhuǎn)移到下一個(gè)查詢,激活后續(xù)問題,無需重復(fù)喚醒單詞。用戶可以根據(jù)自己的需求,要求Alexa在同一個(gè)請求中執(zhí)行多項(xiàng)操作,在Alexa應(yīng)用程序中召喚一個(gè)技能,且無需知道確切的名稱。

這些小的調(diào)整并不可見,但累積后,量變引起質(zhì)變。用戶與機(jī)器的交流,變得更加柔和、順暢,比一年前更加自然。亞馬遜不斷引入、完善機(jī)器學(xué)習(xí)技術(shù)。在人類語言專家的幫助下,通過系統(tǒng)識別中的主動學(xué)習(xí)功能,大大降低了錯(cuò)誤率。

亞馬遜Alexa的副總裁兼首席科學(xué)家Rohit Prasad表示,主動學(xué)習(xí)已經(jīng)融入進(jìn)亞馬遜的每個(gè)渠道中,包括語音識別和自然語言理解?!斑@些使得亞馬遜的所有機(jī)器學(xué)習(xí)模型更加完善?!?/p>

近年來,數(shù)據(jù)表示已經(jīng)成為一項(xiàng)重要的研究課題。自然語言理解(NLU)系統(tǒng)很少輸入原始文本,而是采用嵌入形式。數(shù)據(jù)表示保留文本的語義信息,而不是以持續(xù)、確定的方式呈現(xiàn)。采用嵌入式改善特殊的NLU任務(wù)已經(jīng)被多次應(yīng)用。

今年IEEE語言技術(shù)峰會上,亞馬遜展示了專門針對Alexa NLU的數(shù)據(jù)表示方案。數(shù)據(jù)顯示,在一些關(guān)鍵任務(wù)的技能選擇上,以及在數(shù)千種技能中,該方案將技能選擇錯(cuò)誤率降低了40%。在Alexa的NLU系統(tǒng)中,用戶語言經(jīng)過了更加細(xì)粒度的分類。

首先,對話領(lǐng)域或者對話主題的分類,例如,音樂、天氣。其次,根據(jù)潛在的意圖,或者用戶所希望的對話分類。比如,音樂領(lǐng)域中,可能是搜索、播放、下載等指令。最后,根據(jù)詞語位置類型進(jìn)行分類。例如,播放AA唱的XX歌曲,AA屬于歌手名字,XX屬于歌曲名字。

亞馬遜數(shù)據(jù)表示方案通過領(lǐng)域、意圖、位置三個(gè)方面形成了一個(gè)比較自然的層次結(jié)構(gòu)。通過一系列語言位置,將語言串聯(lián)起來來界定用戶意圖,一系列的意圖構(gòu)成了域。亞馬遜已經(jīng)訓(xùn)練了覆蓋17個(gè)域在內(nèi)的24.6萬個(gè)語言神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)首先生成一個(gè)位置表示( 注:slot representation),然后生成意圖表示(intent representation),最后產(chǎn)生域表示(domain representation)。

在訓(xùn)練期間,神經(jīng)網(wǎng)絡(luò)需要評估怎樣準(zhǔn)確地對域分類,其目的在于表達(dá)(注:representation)而不是分類(classification)。評估有效地執(zhí)行了表示的層次結(jié)構(gòu),即確保語言位置和意圖不會丟失域所必須的任何信息。網(wǎng)絡(luò)輸入時(shí),首先會通過一個(gè)“去詞匯化器”,即用一個(gè)特定的語言位置值代替,例如,播放Drake的Nice for What,變?yōu)椴シ鸥枋值母枨?。這個(gè)過程由單獨(dú)的NLU系統(tǒng)處理。網(wǎng)絡(luò)分類的目的在于分類表示的最佳方法,而不是進(jìn)行分類。

注:架構(gòu)圖,如何產(chǎn)生意圖,聚合意圖,產(chǎn)生域表示

去詞匯化的語句傳遞進(jìn)入嵌入層,該層采用現(xiàn)成的嵌入網(wǎng)絡(luò)。網(wǎng)絡(luò)將單詞轉(zhuǎn)換成固定長度的向量—數(shù)字串。比如,在高緯空間中的空間坐標(biāo),將有相似意義的單詞聚集在一起。特定的詞語通過去詞匯化器,由網(wǎng)絡(luò)以簡單的標(biāo)準(zhǔn)嵌入,但語言位置的理解會有所不同。通過訓(xùn)練表示網(wǎng)絡(luò)。算法對訓(xùn)練數(shù)據(jù)進(jìn)行梳理,以識別每個(gè)語言位置采用的可能值。比如,天氣領(lǐng)域天氣狀況相關(guān)的語言位置,可能包括風(fēng)、暴雨、雪、暴雪等等。

具有相似詞語含義的嵌入詞彼此空間位置接近,平均嵌入層的幾個(gè)相關(guān)詞匯可以捕獲其空間位置的接近性。在訓(xùn)練以前,去詞匯化的位置被簡單的嵌入,作為平均的可能值。訓(xùn)練過程中,可以修改嵌入網(wǎng)絡(luò)的設(shè)置,根據(jù)語言位置、意圖、域的特性情況進(jìn)行調(diào)整,基本原則仍為對向量進(jìn)行分組。

去詞匯化話語嵌入后傳遞到雙向長短期記憶網(wǎng)絡(luò)。長短期記憶LSTMs按順序處理數(shù)據(jù),并在其之前的輸出中,處理給定的輸出因子。LSTM在NLU中被廣泛使用,因?yàn)樗梢愿鶕?jù)在句子中的位置來學(xué)習(xí)解釋單詞。融合LSTM(bi-LSTM)是處理從前到后和從后到前相同輸入序列的一種LSTM。

bi-LSTM的輸出是一個(gè)向量,用作意圖表示。意圖向量通過單個(gè)網(wǎng)絡(luò)層,該網(wǎng)絡(luò)層產(chǎn)生域表示。為了評估表示方案,亞馬遜將編碼輸入到兩種技術(shù)選擇系統(tǒng)中。當(dāng)使用原始文本作為輸入時(shí),系統(tǒng)準(zhǔn)確率為90%,亞馬遜則將準(zhǔn)確率提高到94%。

為了證明其表示成功依賴于分類類別的分層嵌套,將設(shè)計(jì)的三個(gè)不同系統(tǒng)進(jìn)行比較,通過融合LSTM編碼的去詞匯化輸入學(xué)習(xí)域和意圖嵌入。三個(gè)系統(tǒng)顯示原始文本的改進(jìn),均不能匹配分層系統(tǒng)?!皬谋举|(zhì)講,通過深度學(xué)習(xí),亞馬遜對大量領(lǐng)域進(jìn)行了建模,并將學(xué)習(xí)轉(zhuǎn)移到新的領(lǐng)域或者新的技能。”Rohit Prasad說。

最近,亞馬遜推出了遷移學(xué)習(xí),該項(xiàng)目屬于亞馬遜未來戰(zhàn)略的一部分。機(jī)器學(xué)習(xí)的改進(jìn)最直接的影響就是使得系統(tǒng)錯(cuò)誤率較去年減少25%。此外,今年12月,亞馬遜啟動了機(jī)器的自學(xué)習(xí),系統(tǒng)可以聯(lián)系上下文線索進(jìn)行修正。Rohit Prasad舉例說,用戶對Echo說玩XM Chill請求失敗時(shí),可以通過說播放Sirius 53頻道繼續(xù)收聽。對于Alexa而言,XM Chill和Sirius 53頻道的意義是相同且獨(dú)立的?!皬碾[藏式反饋中學(xué)習(xí)?!?/p>

現(xiàn)狀與未來

“當(dāng)兩個(gè)人開始說話時(shí),很容易感受、理解到對方的情緒,系統(tǒng)卻對此無能為力。人們正在努力地開發(fā)能夠使得系統(tǒng)更加成熟,更能夠理解對話如何發(fā)展的人性化能力?!笨▋?nèi)基梅隆大學(xué)語音識別專家Alex Rudnicky說。

今年秋天,亞馬遜的一項(xiàng)技術(shù)專利顯示,Alexa可以識別用戶的情緒并做出相應(yīng)的反應(yīng)。Rohit Prasad表示,Alexa的最終目標(biāo)是遠(yuǎn)程會話功能,根據(jù)要求對給定的問題作出不同的反應(yīng),當(dāng)然,成為一個(gè)理解語音、語調(diào)微妙差別的語音助手還有很長的一段路需要走。Alex Rudnicky認(rèn)為人類的五大情緒中,憤怒最容易辨別成功。

現(xiàn)階段,亞馬遜在穩(wěn)定版本中擁有7萬項(xiàng)技能,從測試、游戲再到冥想,是兩年前的7倍之多。隨著Alexa設(shè)備的增加,其技能也在不斷地改善。Alexa可以很好的預(yù)測人們的意圖,不過更多Alexa用戶并不了解其潛在的用途,廚房、鬧鈴成為用途最多的場景。另一方面,開發(fā)者也沒有更多的精力、動力研究用戶更多的潛在應(yīng)用場景。

事實(shí)上,語音助手除了直接表現(xiàn)出的使用需求之外,還擁有很多潛力。更多人使用Alexa收聽美國國家公共電臺、檢查天氣。2016年Alexa推出過互動幻想的游戲,算法顯然難以提醒用戶Alexa其它潛在功能的存在。

“如果我們向用戶介紹新技能、新功能,與用戶正在做的事情高度相關(guān),那么,結(jié)果是好的。值得注意的是,這些推薦需要適當(dāng)?shù)臅r(shí)機(jī),適當(dāng)?shù)膬?nèi)容。否則,會造成信息過載?!盩oni Reid說。Canalys數(shù)據(jù)顯示,2018年Q3Echo出貨量為630萬臺,谷歌僅次之,出貨量為590臺。盡管谷歌起步較晚,但谷歌已經(jīng)成為亞馬遜不能忽視的競爭對手。

從市場體量來看,不包括第三方設(shè)備,Alexa在使用數(shù)量、用戶基數(shù)上占據(jù)了主導(dǎo)地位。但谷歌的優(yōu)勢依舊明顯,Canalys分析師Vincent Thielke表示,谷歌擁有多年的人工智能積累,Alexa則是從頭開始。谷歌在人工智能領(lǐng)域絕對領(lǐng)先,所以很容易趕超亞馬遜。

Android、Android Auto、WearOS,可以為谷歌助手提供更多土壤。亞馬遜曾在2014推出Fire Phone,失敗較為慘烈,所以在移動端口,亞馬遜的選擇極其有限。在汽車領(lǐng)域的較好表現(xiàn),不能抵消其在原生項(xiàng)目集成方面落后于谷歌、蘋果。

不可否認(rèn)的是,亞馬遜Alexa增長趨勢絲毫沒有放緩的跡象。優(yōu)勢和缺點(diǎn)同樣明顯的Alexa未來將會走向何方,只有Alexa知道答案。


本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉