當(dāng)前位置:首頁(yè) > 消費(fèi)電子 > 消費(fèi)電子
[導(dǎo)讀]人類語(yǔ)音的機(jī)器翻譯領(lǐng)域內(nèi)的進(jìn)展還遠(yuǎn)遠(yuǎn)沒(méi)有發(fā)展到為主流用戶帶來(lái)實(shí)質(zhì)性好處的地步,與機(jī)器對(duì)話依然還不太順暢。目前在低功耗音頻技術(shù)方面的開(kāi)發(fā)活動(dòng)具有了改善這種永遠(yuǎn)是瓶頸的人-機(jī)交互關(guān)系的潛力,而這種先前曾阻礙了語(yǔ)音識(shí)別領(lǐng)域內(nèi)真正進(jìn)步的瓶頸將被突破。

語(yǔ)音也許是人類最自然的交流方式,但是將一臺(tái)機(jī)器引入到該過(guò)程則產(chǎn)生了對(duì)新的行為協(xié)議的需求,特別是在語(yǔ)音溝通過(guò)程中沒(méi)有另一方持續(xù)視覺(jué)線索的時(shí)候更為重要。因此值得去在一個(gè)比傳統(tǒng)案例更為廣泛的意義上去定義語(yǔ)音控制的“性能”.

語(yǔ)音也許是人類最自然的交流方式,但是將一臺(tái)機(jī)器引入到該過(guò)程則產(chǎn)生了對(duì)新的行為協(xié)議的需求,特別是在語(yǔ)音溝通過(guò)程中沒(méi)有另一方持續(xù)視覺(jué)線索的時(shí)候更為重要。對(duì)于早期的用戶,第一次電話通話是極不順暢的;而且即使在今天,雙向無(wú)線電臺(tái)的斷續(xù)通話方式也要求新用戶進(jìn)行一些調(diào)整。在這兩種情況下,很快就發(fā)展出來(lái)一些常用的方法來(lái)實(shí)現(xiàn)相當(dāng)自然的溝通方式,主要是因?yàn)橥ㄔ挼牧硪环揭彩侨祟悺kS著移動(dòng)用戶面臨新的語(yǔ)音識(shí)別界面,他們將面臨與使用那些很老的通信手段時(shí)所出現(xiàn)的類似挑戰(zhàn)。

一個(gè)更近期的例子是,觸摸屏革命展示出了它們?nèi)绻軐?shí)現(xiàn)高品質(zhì)同時(shí)具有可為用戶體驗(yàn)帶來(lái)附件價(jià)值的功能時(shí),新的、陌生的、棘手的界面如何切入到主流應(yīng)用并且受到歡迎。

因此值得去在一個(gè)比傳統(tǒng)案例更為廣泛的意義上去定義語(yǔ)音控制的“性能”.因而能夠在考慮到下一代瓶頸時(shí),設(shè)計(jì)出更多不會(huì)過(guò)時(shí)的解決方案。

構(gòu)建一種高性能的語(yǔ)音識(shí)別解決方案

過(guò)去一直用非常簡(jiǎn)單的性能指標(biāo)來(lái)評(píng)估語(yǔ)音識(shí)別解決方案。這些指標(biāo)通常被換算為單獨(dú)的“精度”或者“命中率”數(shù)值,從根本上來(lái)表述正確識(shí)別字和詞組的概率。在定義“性能”時(shí),需要一種更廣泛的和深思熟慮的方式,它能夠反映語(yǔ)音界面的長(zhǎng)期發(fā)展?jié)摿Γ员阆蛴脩籼峁┫裼|屏界面一樣的舒適性和可用性等級(jí)。

翻譯質(zhì)量扮演了一個(gè)關(guān)鍵的角色,從根本上講它是一種人工智能,遠(yuǎn)不止基本的字詞識(shí)別。訪問(wèn)所有設(shè)備功能也使語(yǔ)音識(shí)別成為了觸摸屏的一種切實(shí)可行的替代方案,有趣的是這也使該技術(shù)可用于一個(gè)更大范圍的設(shè)備種類,包括像可穿戴技術(shù)這樣更小的設(shè)備。低響應(yīng)延遲以及一種自然的、“無(wú)協(xié)議的”的交互方式,以及即使在有噪音環(huán)境中也能很好地運(yùn)行,也改善了體驗(yàn)。這要求精心的系統(tǒng)設(shè)計(jì),以使設(shè)備級(jí)的信號(hào)處理技術(shù)能夠與基于云計(jì)算的智能很好地結(jié)合,以將這些性能增強(qiáng)帶給用戶。

去除按鍵

語(yǔ)音識(shí)別目前最大的人體工程學(xué)局限性是需要進(jìn)行按鍵或者其它機(jī)械性啟動(dòng),從而限制了它在許多環(huán)境中的可用性。這種機(jī)械觸發(fā)是功耗這一制約因素的終極結(jié)果。為了保持具有競(jìng)爭(zhēng)力的電池壽命數(shù)值,移動(dòng)設(shè)備中待機(jī)功耗的預(yù)算都極低,典型的電池電流值為單位數(shù)毫安。當(dāng)功率預(yù)算這么低的時(shí)候,連續(xù)地運(yùn)行語(yǔ)音識(shí)別(或者至少隨意的語(yǔ)音識(shí)別)是不可行的。

到目前為止,一個(gè)按鍵觸發(fā)器為這個(gè)問(wèn)題提供了一種粗放的解決方案,它通過(guò)在按下按鍵之前禁用語(yǔ)音識(shí)別,使功率消耗平均值降到最低。但是,現(xiàn)今的語(yǔ)音觸發(fā)功能作為一種特性正在被加載到最新的高端音頻中樞(AudioHubs)上,因?yàn)镺EM廠商希望語(yǔ)音識(shí)別功能能夠更靈活、更易于使用。通過(guò)顯著地降低語(yǔ)音識(shí)別的平均功耗數(shù)值,甚至降到待機(jī)模式預(yù)算范圍內(nèi)這樣的水平,允許主處理器“休眠”.這種功耗降低(通常為一個(gè)數(shù)量級(jí))是如此的顯著,以至于可以完全消除對(duì)按鍵的需要。

語(yǔ)音觸發(fā)器架構(gòu)的選擇

一次語(yǔ)音觸發(fā)是一個(gè)簡(jiǎn)短的關(guān)鍵字或者詞(例如“你好!手機(jī)”),它能夠使設(shè)備被喚醒并且響應(yīng)后面輸入的語(yǔ)音。圖1所示即為這種半自主的低功耗的“永遠(yuǎn)工作”的處理域,它為這種語(yǔ)音觸發(fā)提供了一個(gè)平臺(tái)。

 

 

圖1:使用了一個(gè)音頻中樞的永遠(yuǎn)工作的語(yǔ)音觸發(fā)。

音頻中樞為語(yǔ)音觸發(fā)功能提供了一個(gè)自然的中心,它帶有通往所有內(nèi)部功能和耳機(jī)麥克風(fēng)端口的接口,并且在待機(jī)模式下通常也在運(yùn)行,這是因?yàn)樾枰幚硐窀郊涌诒O(jiān)控其它原因。這個(gè)降低了系統(tǒng)中諸如時(shí)鐘發(fā)生器和電壓參考等常用基礎(chǔ)功能的重復(fù)率,降低了靜態(tài)功耗。音頻中樞里針對(duì)語(yǔ)音喚醒的硬件優(yōu)化使信號(hào)處理周期針對(duì)不同環(huán)境的噪聲情況將被保持在絕對(duì)的最低值,將平均電池電流最小化。

可相互替代的架構(gòu)分成兩類:分離式解決方案和基于系統(tǒng)級(jí)芯片(SoC)語(yǔ)音的觸發(fā)。其功率消耗情況和用戶交互方式在很大程度上依賴于對(duì)這些架構(gòu)的選擇。軟件架構(gòu),尤其是管理應(yīng)用場(chǎng)景轉(zhuǎn)換和串行端口配置的軟件,也在確定交流方式中扮演著一個(gè)重要的角色。

基于系統(tǒng)級(jí)芯片(SoC)的語(yǔ)音觸發(fā)器(如圖2)往往因?yàn)橹饕闹醒胩幚韱卧掷m(xù)活躍而引起的非常高的靜態(tài)功耗開(kāi)銷。這些解決方案的電池電流消耗通常比那些基于音頻中樞的解決方案高出一個(gè)數(shù)量級(jí)。[!--empirenews.page--]

 

 

圖2:基于SoC的語(yǔ)音觸發(fā)模式。

分離式解決方案(如圖3)通常使用來(lái)自主音頻通道的不同的硬件接口。這有時(shí)可以導(dǎo)致音頻不持續(xù),原因在于應(yīng)用場(chǎng)景轉(zhuǎn)換管理和噪音抑制的啟用/禁用等在不同的集成電路間,因?yàn)檠舆t和信號(hào)格式不同等因素而變得復(fù)雜。這些不連續(xù)有時(shí)會(huì)引起通話被中斷,尤其是在轉(zhuǎn)換到工作模式運(yùn)行發(fā)生時(shí),從而導(dǎo)致了對(duì)可聽(tīng)見(jiàn)提示的需要并限制了交流方式。在一些情況,因?yàn)檫B接到有限數(shù)量的麥克風(fēng)也能限制其使用性(例如耳機(jī)麥克風(fēng)的操作)。

 

 

圖3:分離式語(yǔ)音觸發(fā)解決方案。

確保更好的用戶體驗(yàn)

由于所有技術(shù)創(chuàng)新都是從根本上改變用戶與消費(fèi)電子設(shè)備交互的方式,衡量成功的真正標(biāo)準(zhǔn)是用戶對(duì)他們所期望的改變的回應(yīng)。參考觸摸屏案例,新的語(yǔ)音控制技術(shù)的最終目標(biāo)是它們應(yīng)該成為下一代移動(dòng)硬件可接受的和所預(yù)期的一項(xiàng)功能。我們將可能非常快就學(xué)會(huì)如何與新一代能夠響應(yīng)語(yǔ)音的機(jī)器進(jìn)行交互,其方式與我們?cè)?strong>觸摸屏中開(kāi)發(fā)出來(lái)的直觀熟悉性大致相同,直到像觸摸功能已經(jīng)成為進(jìn)入市場(chǎng)的新設(shè)備的一個(gè)標(biāo)準(zhǔn)功能這樣的程度。

盡管如此,不同于較早的在遠(yuǎn)端也是人類的語(yǔ)音通信技術(shù),仍然不確定的是用戶在熟悉技術(shù)的行為特性后,是否將受益于與其設(shè)備進(jìn)行了有用的或有趣的溝通。這在很大程度上取決于該技術(shù)的性能,但是今天用來(lái)衡量語(yǔ)音識(shí)別性能的標(biāo)準(zhǔn)仍然很粗放,并且不足以用來(lái)描述未來(lái)代系語(yǔ)音識(shí)別系統(tǒng)的有效性??紤]到更高級(jí)別的機(jī)器智能化、與系統(tǒng)其余部分的交互,以及與云計(jì)算的交互,還需要一種更廣泛的方式。一種不會(huì)限制或者延遲下一代改善的音頻架構(gòu),能夠使這些性能跨越更加迅速地發(fā)生,很大程度上將不受硬件和低級(jí)別固件的限制?,F(xiàn)在已經(jīng)可以使用這種技術(shù)去構(gòu)建移動(dòng)設(shè)備。

低功耗音頻中樞待機(jī)模式音頻處理能力已經(jīng)突破了語(yǔ)音識(shí)別可用性中一些最關(guān)鍵的瓶頸。雖然去除按鍵是一個(gè)重要的里程碑,但這只是可用于今天移動(dòng)平臺(tái)設(shè)計(jì)的許多語(yǔ)音識(shí)別提升中的一項(xiàng)。但在集成階段選擇了合適的架構(gòu),就可以支持一種完全自然的溝通風(fēng)格,它極大地改變我們?cè)谖磥?lái)幾年使用移動(dòng)設(shè)備的方式。

結(jié)束語(yǔ)

在一條通往人機(jī)互動(dòng)領(lǐng)域內(nèi)快速創(chuàng)新的道路正在開(kāi)啟,這將沿著我們與機(jī)器互動(dòng)的方向引領(lǐng)諸多有趣的開(kāi)發(fā)活動(dòng),這些機(jī)器將能夠傾聽(tīng)我們,而且越來(lái)越多地聽(tīng)懂我們。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉