當(dāng)前位置:首頁 > 模擬 > 模擬
[導(dǎo)讀]模型補(bǔ)償技術(shù)已成功應(yīng)用到噪聲環(huán)境下的語音識別任務(wù)中。流行的模型補(bǔ)償技術(shù)如Log-Add和Log-NormalPMC(并行模型合并)方法對動態(tài)特征參數(shù)通常只能給出近似的補(bǔ)償。因此他們的識別率在較低的信噪比條件下變得很低。本文利用靜態(tài)特征的導(dǎo)函數(shù)推導(dǎo)出了一種新的動態(tài)模型參數(shù)補(bǔ)償方法。新的方法可以同任何已知的靜態(tài)模型補(bǔ)償算法結(jié)合產(chǎn)生出新的用于識別的噪聲語音模型。實(shí)驗(yàn)證明這一新算法的應(yīng)用,使其識別率比僅使用原有的模型補(bǔ)償算法有較為明顯的提高,并且新算法的復(fù)雜度較原有的模型補(bǔ)償算法只有輕微的增加。

1 引言
    與機(jī)器進(jìn)行語音交流,是人們長期以來夢寐以求的事情。語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),其被認(rèn)為是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。在語音識別中,當(dāng)識別器的訓(xùn)練環(huán)境同應(yīng)用環(huán)境不同時(shí),其性能會急劇下降。為了解決這一問題,各種技術(shù)方法陸續(xù)地被提了出來,這些技術(shù)方法主要分為三大類:1)語音魯棒特征的表達(dá)和提取技術(shù);2)語音增強(qiáng)技術(shù);3)模型補(bǔ)償技術(shù)。關(guān)于這些方法的詳細(xì)回顧可參見文獻(xiàn)。本文的討論重點(diǎn)是模型補(bǔ)償技術(shù)。模型補(bǔ)償技術(shù)主要是通過合并純凈語音模型與噪聲模型,從而產(chǎn)生出用于識別的帶噪語音模型。文獻(xiàn)中已經(jīng)證明PMC方法是一種非常有效的模型補(bǔ)償方法,它能產(chǎn)生出具有魯棒性的帶噪語音模型,這些文獻(xiàn)中并且給出了幾種不同的PMC方法。在這些PMC方法中,一些諸如數(shù)字積分PMC(Numerical Integral PMC)和數(shù)據(jù)驅(qū)動PMC(Date—driven PMC)方法能夠獲得很佳的識別率,但是這些方法的運(yùn)算復(fù)雜度巨大,很難運(yùn)用到實(shí)際應(yīng)用中去。另一方面,一些諸如對數(shù)_力口PMC(Log-Add PMC)和對數(shù).正態(tài)PMC(Log—Normal PMC)方法通過使用較簡單的估計(jì)方法來生成帶噪語音模型,這樣在很低信噪比的條件下識別效果不是很令人滿意。其中Log-Normal PMC方法對靜態(tài)模型參數(shù)給出一個(gè)嚴(yán)格的補(bǔ)償方案,但是對動態(tài)模型參數(shù),到目前為止只能對其均值進(jìn)行簡單的補(bǔ)償。雖然這種動態(tài)的均值補(bǔ)償可以提高識別率,但是算法仍有改進(jìn)的空間,使其能夠?yàn)閯討B(tài)的協(xié)方差參數(shù)提供補(bǔ)償。
    為了解決這一問題,本文提出了一種新的動態(tài)模型補(bǔ)償方法(DPCM)。DPCM選定語音特征與噪聲特征的差為一個(gè)新的附加隨機(jī)變量,并假設(shè)該附加變量與語音和噪聲特征的導(dǎo)數(shù)之間均相互統(tǒng)計(jì)獨(dú)立。這樣,動態(tài)特征的補(bǔ)償即可通過數(shù)學(xué)的方法來解決。此外新的DPCM可以同任何已知的靜態(tài)補(bǔ)償方法結(jié)合生成新的帶噪語音模型。實(shí)驗(yàn)結(jié)果也證明使用該DPCM可以提供更好的識別率。
    本文定義和使用一致的域標(biāo)號。上標(biāo)l表示對數(shù)功率譜域,無上標(biāo)的則表示Mel線性功率譜域。估計(jì)出的噪聲模型參數(shù)用~標(biāo)記,補(bǔ)償出的帶噪語音模型參數(shù)用^標(biāo)記。

2 模型補(bǔ)償技術(shù)
    模型補(bǔ)償技術(shù)是根據(jù)應(yīng)用環(huán)境的背景噪聲情況,通過修正純凈語音特征的統(tǒng)計(jì)模型產(chǎn)生出一個(gè)更接近真實(shí)帶噪語音特征的統(tǒng)計(jì)模型。圖1是一個(gè)基本模型補(bǔ)償方案框圖,輸入為一個(gè)純凈的語音模型(目前一般采用HMM對語音建模)和一個(gè)估計(jì)出的噪聲模型??偟膩碇v,模型補(bǔ)償依據(jù)補(bǔ)償進(jìn)行的域不同可以分為兩類:線性譜域補(bǔ)償算法和對數(shù)譜域補(bǔ)償算法。

    對于Log-Normal PMC(見圖1-II),純凈語音模型同噪聲模型的合并是在線性譜域進(jìn)行。那么純凈語音和噪聲模型的參數(shù)先要從倒譜域變換到對數(shù)譜域,然后再映射到線性譜域。在線性譜域進(jìn)行模型的合并,然后進(jìn)行相反的操作把模型參數(shù)映射變換回倒譜域。另一方面,Log—Add PMC(見圖1一I)模型的補(bǔ)償是在對數(shù)譜域進(jìn)行。
    通常的噪聲信號有兩類:卷積噪聲(信道的頻率響應(yīng))和加性噪聲。在本文中僅考慮加性噪聲情況。在文章中采用以下假設(shè):1)噪聲是平穩(wěn)加性噪聲,噪聲和語音信號是相互統(tǒng)計(jì)獨(dú)立的;2)每個(gè)子帶的對數(shù)頻譜域的特征(功率譜)分布被認(rèn)為是(混合)高斯分布,Mel線性譜域的特征分布被認(rèn)為是(混合)對數(shù)一正態(tài)分布。那么在Mel線性譜域第k個(gè)子帶帶噪語音特征Yk為:

   
    其中Xk和Nk分別是線性頻譜域的純凈語音和噪聲子帶特征(“觀測”)。g是調(diào)節(jié)噪聲和語音的縮放比例因子,為了表達(dá)簡單起見,在后面的算法公式中省略此縮放比例因子g。那么對數(shù)頻譜域子帶的帶噪語音特征Ykl同純凈語音特征Xkl和噪聲特征Nkl的失配函數(shù)為:

   
2.1 靜態(tài)特征補(bǔ)償
   
對于Log-Normal PMC靜態(tài)模型特征補(bǔ)償?shù)暮诵乃惴ㄊ菍?shù)譜域與線性譜域之間的非線性映射同線性譜域模型的合并,即:


其中k、l分別為第k、l個(gè)子帶。
    對于Log—Add PMC靜態(tài)模型特征補(bǔ)償?shù)闹粚颠M(jìn)行補(bǔ)償:

   
2.2 動態(tài)特征補(bǔ)償
   
由于推導(dǎo)出嚴(yán)格的Log—Normal PMC動態(tài)特征補(bǔ)償算法非常困難,目前對Log—Normal PMC的動態(tài)特征補(bǔ)償一般采用粗略的補(bǔ)償方法,只對其均值進(jìn)行補(bǔ)償。

   
    對于Log-Add PMC其動態(tài)特征補(bǔ)償算法為:

   


3 新的動態(tài)模型參數(shù)補(bǔ)償方法

    在本文中,使用靜態(tài)“觀測”的時(shí)間導(dǎo)數(shù)作為動態(tài)的“觀測”。這樣,動態(tài)特征的失配函數(shù)就應(yīng)等于靜態(tài)特征的失配函數(shù)的一階導(dǎo)函數(shù)。根據(jù)(2),動態(tài)特征失配函數(shù)為:

   
    定義一個(gè)附加的隨機(jī)變量Zkl,定義為Zkl=Nkl一Xkl。由于Nkl和Xkl均為正態(tài)分布,并且他們之間相互獨(dú)立,那么隨機(jī)變量Zkl也是一個(gè)正態(tài)分布。其的均值和方差分別可以表示為μZkl=μN(yùn)kl-μXkl和那么動態(tài)失配函數(shù)(9)就可以進(jìn)一步改寫成含Zkl的函數(shù)。

   
    由于假設(shè)背景噪聲為平穩(wěn)加性噪聲,那么噪聲動態(tài)特征的均值就可以被近似為零。本文還假設(shè)附加的隨機(jī)變量同語音和噪聲的動態(tài)特征不相關(guān)。這個(gè)假設(shè)也是DPCM的核心本質(zhì)假設(shè)。由于靜態(tài)特征與其微分變換量之間是松相關(guān)的,所以這個(gè)假設(shè)是比較合理的。
3.1 均值補(bǔ)償
    依據(jù)失配函數(shù)(10)和上述假設(shè),對數(shù)譜域的帶噪語音特征的統(tǒng)計(jì)均值為:

   
其中


參數(shù)ti和ωi(i=l~n)是Hermite多項(xiàng)式Hn(t)的橫坐標(biāo)和對應(yīng)的權(quán)值。
3.2 協(xié)方差補(bǔ)償
   
同樣根據(jù)(10)和相關(guān)假設(shè),可以獲得對數(shù)譜域的帶噪語音特征的協(xié)方差補(bǔ)償算法。

其中


    附加隨機(jī)變量Zkl的引入以及附加隨機(jī)變量與語音和噪聲的動態(tài)特征不相關(guān)假設(shè)的使用降低了動態(tài)模型補(bǔ)償問題的求解維數(shù)。這種維數(shù)的降低同Gauss-Hermite數(shù)字積分的應(yīng)用,使得新的DPCM成為一種十分有效的動態(tài)模型補(bǔ)償方法。


4 算法評估
    算法評估實(shí)驗(yàn)采用基于孤立字的6狀態(tài)HMM來做識別器。每個(gè)狀態(tài)有4個(gè)高斯密度函數(shù)。選取24個(gè)MFCC(12個(gè)靜態(tài)特征,12個(gè)動態(tài)特征)作為語音特征。訓(xùn)練階段,用純凈語音訓(xùn)練出純凈語音模型。在識別階段,使用純凈語音模型作為基本模型來識別。
    使用TI—digits為算法評估語音庫,選用數(shù)據(jù)庫中有16個(gè)人(8男8女)的5081個(gè)短句,其中包含20個(gè)孤立詞,數(shù)字‘0’到‘9’和10個(gè)附加命令如‘go’、‘help’、‘repeate’等。訓(xùn)練集含有641句,測試集包括5081句。算法分析窗口的長度為32ms,幀速率為9.6ms/幀。選取NOISEX-92中的White、Pink和Destoryerengine 3種噪聲作為評估的環(huán)境噪聲。使用200幀非重疊的噪聲來估計(jì)噪聲模型。全局信噪比定義為:

   
其中Pm(k)是第m幀的純凈語音功率普,N(k)是估計(jì)的噪聲能量平均譜,H是每句的語音幀數(shù),L是FFT的長度,g是縮放因子讓所加的噪聲符合指定的全局信噪比。帶噪語音由(20)生成。

   
其中y(i)是帶噪語音,x(i)和n(i)分別是純凈語音和噪聲。對于文中語音的動態(tài)特征參數(shù)是依據(jù)(21)獲得。

   
    為了比較DPCM方法的性能,采用5種識別方法:失配情況下的識別,Log—Add PMC,Log—Normal PMC,以及Log-AddPMC與Log—Normal PMC和DPCM相結(jié)合的方法。
    圖2給出了White Noise環(huán)境下Gauss—Hermite積分項(xiàng)數(shù)n與識別率及算法復(fù)雜度關(guān)系。從圖中可以看出隨著積分項(xiàng)n的增加,兩種方法的識別率都沒有明顯的變化。但是算法的復(fù)雜度卻隨著n的增加而增加。結(jié)果說明n=2的Gauss—Hermite積分可以提供足夠的計(jì)算精度。因此在DPCM 中采用n=2, 即

   

    表1~表3列出的是在不同噪聲環(huán)境和信噪比條件下的各種算法的識別率??梢钥闯鍪褂醚a(bǔ)償算法的識別率比失配情況下有很大的提高。在-5dB條件下,使用了DPCM的識別方法對各種噪聲語音的平均識別率比僅使用Log—Add PMC和Log—NormalPMC的方法有絕對的7.5%和6.6%增加,在0dB情況下絕對增加值分別為8%和7.3%。在信噪比5—10dB下,有含DPCM方法的識別率比其他兩種算法仍然有性能上的提高。

    表4列出了更新每個(gè)狀態(tài)的4個(gè)高斯密度分布中的單個(gè)高斯密度分布時(shí),靜態(tài)均值和方差以及動態(tài)均值和方差(注:Log—Add PMC算法只對均值補(bǔ)償)從倒譜域變化到對數(shù)譜域、在對數(shù)譜域進(jìn)行模型補(bǔ)償、以及從對數(shù)譜域變回倒譜域所需的乘法、除法、指數(shù)運(yùn)算以及對數(shù)運(yùn)算的次數(shù)。其中N和M分別表示在倒譜域和對數(shù)譜域特征的維數(shù)。從表中可看出含有DPCM的算法復(fù)雜度比其原始算法的復(fù)雜度只有輕微的增加。
    實(shí)驗(yàn)證明了本文的DPCM算法可以處理在不同加性噪聲環(huán)境下的語音識別任務(wù),并且能夠取得比較好的識別效果。性能的提升歸功于相對應(yīng)比較準(zhǔn)確的動態(tài)模型補(bǔ)償方法的應(yīng)用。通過這種方法的使用,含DPCM算法的識別率比目前的PMC算法有較明顯的提升。

5 結(jié)論
    文中提出了一種新的動態(tài)特征補(bǔ)償方法,并給出了反映加性噪聲的語音動態(tài)特征失配函數(shù),以及在此基礎(chǔ)上依據(jù)合理的假設(shè),推導(dǎo)出的一系列動態(tài)模型參數(shù)補(bǔ)償DPCM的算法公式。并且DPCM算法可以與任意的靜態(tài)模型補(bǔ)償算法結(jié)合以提高原始算法的識別率。實(shí)驗(yàn)結(jié)果表明在不同的噪聲環(huán)境下結(jié)合DPCM的PMC算法可以給出比原始PMC算法具有更好的識別率,在低信噪比條件下提升效果更為明顯。此外結(jié)合DPCM的模型補(bǔ)償算法的復(fù)雜度與原補(bǔ)償算法的復(fù)雜度基本相當(dāng),只有輕微的增加??梢奃PCM算法是一種非常有效的動態(tài)特征補(bǔ)償算法。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉