穩(wěn)定的低功耗語音命令系統(tǒng)的設(shè)計(jì)考慮

時間：2024-09-09 10:43:53

關(guān)鍵字：語音助理低功耗

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]語音助理和集成正在大多數(shù)產(chǎn)品,電器和技術(shù)引入市場。盡管如此,這些有用的語音助手總是在聽激活/警訊,這通常會使用很大的力量,這并不是什么秘密。在科技發(fā)展迅速的世界里,必須考慮它對能源消費(fèi)的影響。

語音助理和集成正在大多數(shù)產(chǎn)品,電器和技術(shù)引入市場。盡管如此,這些有用的語音助手總是在聽激活/警訊,這通常會使用很大的力量,這并不是什么秘密。在科技發(fā)展迅速的世界里,必須考慮它對能源消費(fèi)的影響。

本文提供了使用語音活動檢測(VAD)的低功耗、始終在語音命令系統(tǒng)的設(shè)計(jì)考慮。它探討了在選擇創(chuàng)建易于使用的高能效語音用戶界面(VUI)所需的組件時的權(quán)衡和考慮。

VAD功能在聽一個警醒詞之前檢測到環(huán)境中的人類聲音,這意味著當(dāng)沒有人在家時,你的語音助理不會浪費(fèi)不必要的精力。據(jù)估計(jì),全世界有42億名數(shù)字語音助理,預(yù)計(jì)到2024年將增加一倍。將這一技術(shù)應(yīng)用到語音助理軟件和其他依靠語音集成的產(chǎn)品中,將大大降低使用語音助理的人的能源消耗。

有幾個硬件架構(gòu)來實(shí)現(xiàn)V只能系統(tǒng)。一般來說,典型的語音用戶界面實(shí)現(xiàn)包括麥克風(fēng),或者是一個麥克風(fēng),或者是一個麥克風(fēng)陣列連接到一個音頻處理器,用于捕獲和處理語音。

傳入的音頻流可以在邊緣音頻邊緣處理器、內(nèi)置音頻邊緣處理器的智能麥克風(fēng)或標(biāo)準(zhǔn)應(yīng)用處理器(AP)上進(jìn)行處理。邊緣音頻處理器被優(yōu)化為低功率和低延遲的音頻信號處理。除了提供專門的處理輸入音頻,邊緣音頻處理器也可以用于后處理音頻輸出信號。如果VAI系統(tǒng)是云連接的,那么音頻邊緣處理器也可以通過具有無線連接的主系統(tǒng)芯片與云連接接口進(jìn)行通信。本文介紹了VII系統(tǒng)的兩種不同實(shí)現(xiàn),以及它們各自的權(quán)衡。

超低功率VAD(語音活動檢測)

圖1所示的架構(gòu)支持超低功率VII,使用模擬信號路徑,包括模擬麥克風(fēng)和模擬比較器,以提供一個尾波觸發(fā)器。當(dāng)聲音活動被檢測到時,模擬信號鏈會產(chǎn)生一個中斷來喚醒音頻處理器,以獲取聲音。該設(shè)備還可以包括一個"推到說話"功能,即用戶按下按鈕喚醒音頻處理器。

圖1超低功耗,無前滾緩沖的遠(yuǎn)程控制用的一直在VAI硬件信號鏈上。

模擬尾音麥克風(fēng)必須總是聽環(huán)境,因此這個麥克風(fēng),連同比較器,必須消耗很少的功率。一個高效率的音頻處理器的例子是,在其最簡單的覺醒觸發(fā)模式下,功率消耗不到1兆瓦,高級音頻處理的1mb內(nèi)存是諾爾斯I8201。盡管圖1所示的方法為遠(yuǎn)程控制和可穿戴設(shè)備中的永遠(yuǎn)的VI提供了一種簡單的低功率AAD(聲學(xué)活動檢測)方法,但它有其局限性。這個實(shí)現(xiàn)喚醒了音頻處理器的任何聲音信號,可以導(dǎo)致高整體系統(tǒng)功率消耗在吵鬧的情況下。同時,語音用戶界面系統(tǒng)是云連接的要求音頻數(shù)據(jù)在一個時期之前,要捕獲,以提高準(zhǔn)確性的叫醒字檢測。這通常被稱為預(yù)卷,并且是一個必須有的要求,由亞歷山大啟用的設(shè)備和其他智能揚(yáng)聲器設(shè)備。

圖2支持智能揚(yáng)聲器等設(shè)備的預(yù)滾緩沖的架構(gòu)。

圖2顯示了支持智能揚(yáng)聲器等設(shè)備預(yù)滾緩沖的架構(gòu)。這些設(shè)備通常有更大的電池和/或可能沒有一個電池的多個月的電池壽命要求。VUI系統(tǒng)一直在運(yùn)行,傾聽環(huán)境并在循環(huán)緩沖區(qū)中預(yù)先記錄。預(yù)卷的長度一般為500毫秒的音頻數(shù)據(jù),用來校準(zhǔn)環(huán)境噪聲水平。

有幾種不同的方法來設(shè)計(jì)始終如一的前端架構(gòu)。音頻處理器的選擇取決于使用的麥克風(fēng)的數(shù)量,以及它們是模擬的還是數(shù)字的。

上面所示的架構(gòu)使用了一個用于語音活動檢測的諾爾斯a611,用于波束形成的Sph055m4h1-康奈爾數(shù)字麥克風(fēng),以及用于音頻處理的諾爾斯a8201。如下面一節(jié)所討論的那樣,諾爾斯?a611是一個為系統(tǒng)設(shè)計(jì)者提供好處的智能麥克風(fēng)。

麥克風(fēng)選擇

對于圖1所示的架構(gòu),單個模擬麥克風(fēng)和比較器被用作觸發(fā)器輸入,以便在檢測到聲音活動時喚醒音頻處理器。它應(yīng)該是一個低功率的模擬麥克風(fēng),信噪比最好高于62分貝。諾爾斯西塞尼MEMS麥克風(fēng)組合提供了幾個選擇的尾音麥克風(fēng)。例如,SPV1840LR5H-B卡斯卡德模擬麥克風(fēng)是一個很好的選擇,當(dāng)打開時,只需45英寸。一直在模擬路徑,包括一個麥克風(fēng),放大器和比較器,消耗不到67兆a。市場上有很低的、無間斷電源(10-OMA)的壓電麥克風(fēng),但它們的信噪比通常很低,這可能會影響系統(tǒng)性能。

對于圖2所示的預(yù)滾緩沖功能架構(gòu),帶有嵌入式音頻處理器和充足內(nèi)存的麥克風(fēng),可以在2秒鐘的循環(huán)緩沖區(qū)中連續(xù)捕捉語音數(shù)據(jù),如諾爾斯Ia611,是連續(xù)語音活動檢測的可行選擇。它還伴隨著一個移植語音觸發(fā)器和命令的生態(tài)系統(tǒng),比如亞馬遜的阿列克莎。當(dāng)關(guān)鍵字被檢測到時,預(yù)先滾動緩沖區(qū)和發(fā)出的語音音頻都被發(fā)送到云自動語音識別(ASR)引擎。在像藍(lán)牙揚(yáng)聲器這樣的電池操作設(shè)備中,iaa611一直保持著0.39ma@電池1.8V的語音喚醒功率和90%的效率,這使它成為語音用戶界面的一個很好的選擇。該設(shè)備還接受來自數(shù)碼麥克風(fēng)的PDM輸入,并可用于支持波束形成的主機(jī)bt-soc處理器,通過通過音頻一旦系統(tǒng)醒來。

雖然對于預(yù)卷應(yīng)用程序來說,這種一直使用的電源是可以接受的,但是對于非預(yù)卷架構(gòu)來說,也值得考慮,如圖1所示。如前所述,模擬尾音麥克風(fēng)將觸發(fā)任何傳入的聲音并打開音頻處理器。在吵鬧的環(huán)境中,這可能是個問題,比如當(dāng)電視打開的時候,會有許多錯誤的醒來導(dǎo)致嚴(yán)重的權(quán)力浪費(fèi)。如果使用語音活動檢測代替低功率模擬尾音麥克風(fēng),系統(tǒng)只在檢測到一個關(guān)鍵詞時才打開。從邏輯上講,為什么使用語音活動檢測麥克風(fēng)比簡單的模擬尾音麥克風(fēng)在噪音環(huán)境下更有效。

圖3顯示了模擬數(shù)據(jù),這些數(shù)據(jù)比較了一個典型的電視遙控器使用VAD的VAD611的電池壽命天數(shù)。一個競爭性的壓電低功率AAD麥克風(fēng)和一個音頻處理器,在不同的時間聲活動的時間。當(dāng)電視機(jī)或其他家用電器打開時,或在有閑言碎語的其他情況下,可以出現(xiàn)聲學(xué)活動。如圖3所示,在大約3小時內(nèi)有一個交叉點(diǎn),使用模擬AAD在競爭對手的麥克風(fēng)上相對于IAA611上的語音活動檢測的功率優(yōu)勢就消失了。

在5小時的聲活動,語音活動檢測解決方案提供了8天額外的電池壽命比競爭的基于AAD的解決方案。把這個優(yōu)勢放在背景之下,美國。根據(jù)2017年發(fā)表的尼爾森研究報(bào)告,成年人每天看近八小時的電視。隨著對互聯(lián)網(wǎng)連接設(shè)備(如智能電視、游戲機(jī)和其他多媒體設(shè)備)的需求不斷增加,美國典型的聲學(xué)活動時間越來越長。家庭也可能繼續(xù)增長。使用基于智能VAD的喚醒將有助于系統(tǒng)設(shè)計(jì)人員開發(fā)更高效的V只能系統(tǒng)。

圖3VAD與AAD的遙控電池壽命。

結(jié)論

從智能家居,好客,數(shù)字工作場所,語音支付,智能能源管理,語音邊緣和醫(yī)療保健,一直到工業(yè)化的應(yīng)用,改變工廠地板,語音增加了靈活性,效率,可持續(xù)性,以及新技術(shù)的采用接受。

設(shè)計(jì)語音用戶界面的各種硬件架構(gòu),以及麥克風(fēng)部分,根據(jù)終端設(shè)備的應(yīng)用程序和設(shè)計(jì)者的偏好,每個都有略微不同的需求;例如,啟用亞歷克的設(shè)備和智能揚(yáng)聲器都需要一個預(yù)滾緩沖功能架構(gòu)。

重要的是,電子工程師和設(shè)計(jì)師要仔細(xì)評估終端設(shè)備將如何利用語音、他們希望訪問的能力,并從那里確定正確的架構(gòu)和麥克風(fēng)組件。