基于內(nèi)容的音頻檢索系統(tǒng)的前端抗噪技術(shù)

時間：2010-09-14 11:17:35

關(guān)鍵字：音頻語音增強算法 BSP BETA

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]引言基于內(nèi)容的音頻檢索指通過音頻特征分析，對不同音頻數(shù)據(jù)賦以不同語義，使具有相同語義的音頻在聽覺上保持相似。該技術(shù)在許多領(lǐng)域都有極大應(yīng)用價值。在檢索系統(tǒng)中一種常見情形是將安靜環(huán)境下訓(xùn)練的模型應(yīng)用于實際

引言

基于內(nèi)容的音頻檢索指通過音頻特征分析，對不同音頻數(shù)據(jù)賦以不同語義，使具有相同語義的音頻在聽覺上保持相似。該技術(shù)在許多領(lǐng)域都有極大應(yīng)用價值。在檢索系統(tǒng)中一種常見情形是將安靜環(huán)境下訓(xùn)練的模型應(yīng)用于實際有背景噪聲的環(huán)境。尤其在哼唱輸入的情況下，噪聲不可避免，因此噪聲背景環(huán)境中的音頻識別技術(shù)一直備受關(guān)注。本文給出一個將音頻增強和音頻檢索系統(tǒng)相連接的抗噪聲音頻檢索系統(tǒng)，重點分析基于內(nèi)容的音頻檢索系統(tǒng)的前端抗噪技術(shù)。

2 系統(tǒng)平臺的建立

基于內(nèi)容的音頻檢索系統(tǒng)運用多媒體信息處理技術(shù)，結(jié)合人感知心理研究和模式識別技術(shù)實現(xiàn)音頻檢索，包括音頻分割、特征提取和索引檢索等關(guān)鍵步驟。在提交哼唱式音頻過程中不可避免地會受到來自周圍環(huán)境和傳輸媒介引入的噪聲、設(shè)備內(nèi)部電噪聲的干擾。這些干擾將使檢索系統(tǒng)的性能惡化。因此，必須對帶噪音頻進行抗噪處理。音頻檢索系統(tǒng)首先是建立數(shù)據(jù)庫，對音頻數(shù)據(jù)進行特征提取。音頻檢索主要采用哼唱查詢方式，用戶通過查詢界面哼入查詢信息，然后提交查詢。在進行屬性特征提取前通過前端抗噪模塊增強哼唱語音。接著系統(tǒng)對哼唱音頻提取特征，然后檢索引擎對特征矢量進行匹配，按相關(guān)性排序后通過查詢接口返回給用戶。圖1為抗噪聲檢索系統(tǒng)原理框圖。

3 音頻抗噪技術(shù)分析

3.1 語音增強算法分類

系統(tǒng)前端輸入信號通常是哼唱輸入，語音頻段可以采用語音增強技術(shù)。語音增強是指為了提高受噪聲污染的語音信號的質(zhì)量而對含噪語音所做的處理，主要用于從帶噪語音信號中提取純凈的原始音頻或原始語音參數(shù)。根據(jù)不同的標(biāo)準(zhǔn)，語音增強算法有多種分類方法。

從信號輸入的通道數(shù)分為單通道的語音增強算法與多通道的語音增強算法。單通道語音系統(tǒng)下語音與噪聲同時存在于一個通道中，語音信息與噪聲信息必須從同一個信號中得出。常用方法包括譜減法、信號統(tǒng)計模型方法、聽覺掩蔽算法、維納濾波方法、信號子空間算法等。多通道語音增強算法則采用麥克風(fēng)陣列獲取信號數(shù)據(jù)，它可充分利用陣列信號的信號源方向、說話人位置等空間特性，結(jié)合語音信號與噪聲的特征實現(xiàn)語音增強。代表性的算法有自適應(yīng)波束形成算法、結(jié)合波束形成與后濾波算法及各種基于信號子空間、統(tǒng)計模型算法等。

另一種分類方法是根據(jù)對語音信號處理方式的不同，將語音增強算法分為時域語音增強算法和變換域語音增強算法兩大類。時域語音增強是在時間域直接處理帶噪語音來恢復(fù)純凈語音，利用語音信號在時域中的短時平穩(wěn)特性、相關(guān)特性等來研究具有針對性的噪聲消除技術(shù)，其代表性算法有最大后驗概率估計法、卡爾曼濾波法、梳狀濾波器法、子空間的方法、自適應(yīng)噪聲抵消算法、語音生成模型等。變換域語音增強需一個適當(dāng)?shù)淖儞Q將語音信號轉(zhuǎn)換到變換域中，然后針對變換域中的帶噪語音分量的特性設(shè)計算法恢復(fù)純凈語音分量，最后通過相應(yīng)的反變換獲得純凈語音信號在時域中的估計。其常用變換有離散傅里葉變換、離散余弦變換及K-L變換和小波變換等，代表性算法有譜減法、維納濾波法、短時譜幅度的MMSE估計、自適應(yīng)濾波法等、聽覺掩蔽效應(yīng)增強算法，小波變換算法、基于頻域盲源分離的語音增強技術(shù)等。還有一些新方法，如神經(jīng)網(wǎng)絡(luò)、分形理論等。

3.2 系統(tǒng)抗噪算法的確定

在基于內(nèi)容的音頻檢索系統(tǒng)中，用戶通過哼唱等方式輸入檢索信息，基于單麥克風(fēng)輸入的單通道語音增強算法是一種簡便、實用的形式。變換域語音增強算法可充分利用變換域中語音與背景噪聲較其在時域中更為顯著的特征區(qū)別，且能有效消除語音信號在時域中存在的相關(guān)特性，因此其對帶噪語音的增強效果要優(yōu)于時域語音增強算法。因此系統(tǒng)適合采用譜減法、聽覺掩蔽算法、維納濾波方法、信號子空間算法。

維納濾波法能改善平穩(wěn)段的譜估計，殘留噪聲類似于白噪聲，降低音樂噪聲的干擾，但算法復(fù)雜度較大，適用于對實時性要求不高的場合。聽覺掩蔽算法可減少不必要的語音失真，實際應(yīng)用中常只能用帶噪語音估計掩蔽閾值，則估計結(jié)果誤差較大，對噪聲估計要求較高。信號子空間算法能有效去除帶噪語音中的背景噪聲，使語音的質(zhì)量和可懂度都有較大提高，但計算量較大。譜減法算法簡單，算法復(fù)雜度低，實現(xiàn)較容易，能夠最大程度上滿足實時性要求，但會引入較大音樂噪聲，適合在平穩(wěn)噪聲環(huán)境和對實時性要求較高的場合使用。由于本系統(tǒng)為實時檢索系統(tǒng)，對實時性和快速性的要求較高，因此這里采用譜減法。

4 基于譜減法的減噪技術(shù)

4.1 譜減法的基本原理

譜減法就是在頻域?qū)⒃肼暤念l譜分量從帶噪語音信號的頻譜中減去。其基本思想是：在假定加性高斯噪聲與短時平穩(wěn)的語音信號獨立的條件下，從帶噪語音信號的功率譜中減去噪聲的功率譜，從而得到增強后較為純凈的語音頻譜。其基本原理框圖如圖2所示，圖1中，s(n)表示純凈語音，d(n)表示加性噪聲，r(n)=s(n)+d(n)表示帶噪語音信號，Yk和Sk(k=0，1，2…)分別表示帶噪語音信號和純凈語音的頻譜系數(shù)，λn(k)表示噪聲的功率譜系數(shù)。

式中，α和β為參數(shù)。當(dāng)α=1，β=1時，為幅度譜減法形式。當(dāng)α=2，β=1時，為功率譜減法形式。

該譜減法稱為傳統(tǒng)譜相減法。它基于人耳對聲音相位不敏感特性，從含噪語音中減去估計噪聲而達到語音增強的目的，直觀簡單，但容易產(chǎn)生“音樂噪聲”，因此實際應(yīng)用中常采用譜減法的改進算法。

4.2 譜減法的改進算法

用功率譜減法處理語音信號后，在頻域中仍殘留有噪聲，要濾除或減少這些噪聲，可適當(dāng)?shù)亩鄿p去噪聲分量，使殘留噪聲在幅值上減少，從而降低噪聲的影響，即過減法。此時式(1)取β>1，這樣語音失真可能會增大。因此，通過噪聲估計來調(diào)整和確定β的取值。β值的取值原則：對信噪比低的帶噪語音，噪聲的方差大，β可適當(dāng)大些；對信噪比高的帶噪語音，β取值則可小些。因為噪聲譜的估計是平均值，所以當(dāng)前幀的噪聲譜實際上與估計值有偏差，因此，經(jīng)譜減法計算的語音譜值可能是負值，一般則設(shè)結(jié)果設(shè)為零，即采用半波整流法，還可采用殘余噪聲衰減法，噪聲殘留的幅值介于零和整個非語音活動期最大噪聲殘留幅值之間，由于殘留噪聲的隨機性，在每個頻點上其振幅值隨不同分析幀而隨機波動，因此在給定頻點上通過用相鄰幀的頻點振幅最小值代替當(dāng)前幀的振幅而壓縮殘留噪聲。這樣就形成改進型譜減法的系統(tǒng)，能有效實現(xiàn)前端減噪。

5 結(jié)束語

基于內(nèi)容的音頻檢索技術(shù)適應(yīng)性更強，具有廣泛的應(yīng)用價值，具有噪聲魯棒性的檢索系統(tǒng)在實際應(yīng)用中不可或缺。本文給出一個將音頻增強和音頻檢索系統(tǒng)級聯(lián)的抗噪聲音頻檢索系統(tǒng)，從不同角度分析語音增強算法，并通過比較選取譜減法作為基于內(nèi)容的音頻檢索系統(tǒng)的前端抗噪技術(shù)，同時給出譜減法的改進算法。