當(dāng)前位置:首頁 > 模擬 > 模擬
[導(dǎo)讀]本文依據(jù)主元分析原理從語音特征觀察空間分離說話人語音特征子空間,對輸入語音特征矢量與子空問的距離測度進(jìn)行了定義,并對基于特征子空問的說話人識別性能進(jìn)行了分析。說話人語音訓(xùn)練樣本提取特征后在語音特征觀察空間形成具有一定散度的分布,根據(jù)主元分析原理和分布散度提取主要散度本征向量作為基底構(gòu)成說話人語音特征子空間,并通過測試語音特征矢量與子空間的距離測度進(jìn)行模式匹配。實驗結(jié)果表明,特征子空間方法對說話人識別是有效的,特別是在小于3秒的短時測試語音下能夠得到較高的識別率。

1 引言
   
隨著電話銀行等網(wǎng)絡(luò)電子消費(fèi)的普及,說話人識別作為一種有效的身份認(rèn)證手段,其技術(shù)特點(diǎn)和優(yōu)越性越來越明顯,在國防安全、司法和金融等各應(yīng)用領(lǐng)域的價值越來越顯得重要。目前說話人識別的主要方法一般通過在語音特征觀察空間建立說話人模型進(jìn)行,如基于VQ的碼本模型識別方法、基于GMM模型的識別方法以及其他一些方法,這些方法大都利用了說話人語音特征的統(tǒng)計特性。但是,說話人識別應(yīng)用中存在的兩個主要問題是:(1)由于語音特征的時變性,模型訓(xùn)練時期和實際識別時期語音特征發(fā)生變化而導(dǎo)致識別性能的下降,而目前這些方法只能在一定程度上處理這種變化;(2)實際應(yīng)用中往往需要能通過較短的語音及時識別說話人身份,但目前這些方法一般需要輸入3秒以上的語音才能得到較高的識別率。
    語音信號中包含語義和說話人個性這兩大特征,如果能夠較好地將這兩類特征進(jìn)行分離,并依據(jù)個性特征建立說話人模型,則說話人識別性能將會得到提高并大大增強(qiáng)識別系統(tǒng)的魯棒性,但兩類特征的完全分離非常困難。統(tǒng)計方法建立的模型不可避免地需要較大的數(shù)據(jù)量進(jìn)行訓(xùn)練和識別,在短時測試語音下識別性能下降是必然的。如果能夠建立一種非純粹統(tǒng)計模型或在統(tǒng)計模型的基礎(chǔ)上結(jié)合結(jié)構(gòu)性模型則可能會提高短時測試語音條件下的識別性能。
    本文依據(jù)主元分析(PCA:Principal Component Analysis)原理和說話人語音特征在觀察空間的分布散度提取主要散度向量構(gòu)造說話人語音特征子空間,將說話人語音特征子空間從觀察空間分離出來。實驗分析了基于特征子空間的說話人識別性能,結(jié)果證明了這種方法的有效性,特別是在小于3秒的短時測試語音情況下識別性能明顯優(yōu)于VQ和GMM等方法。


2 特征子空間分離
   
基于語音特征子空間分離的說話人識別系統(tǒng)中,說話人模型由特征子空間表示,模式匹配部分則通過計算輸入測試語音特征矢量與子空間的距離進(jìn)行。特征子空間根據(jù)說話人訓(xùn)練語音提取的特征矢量在觀察空間的統(tǒng)計分布特性,依據(jù)PCA原理選取具有較大權(quán)值的散度向量構(gòu)成。
    設(shè)一個說話人訓(xùn)練語音集合為{S1,S2,…,SN},每一個訓(xùn)練語音樣本經(jīng)過特征提取后形成特征矢量序列,即如果特征矢量具有P個參數(shù),則特征矢量Vij表示P維觀察空間的一個點(diǎn),所有的特征矢量在觀察空間形成具有一定統(tǒng)計分布特性的點(diǎn)集{V1,V2,…,VM},其中M是說話人所有訓(xùn)練語音特征矢量的總數(shù)。描述說話人語音特征矢量在觀察空間分布的一個主要統(tǒng)計指標(biāo)是分布散度,它可以由平均特征矢量和自協(xié)方差矩陣表示,如下:


    公式(1)中平均特征矢量V反映說話人所有特征矢量在觀察空問的中心點(diǎn)。公式(2)中自協(xié)方差矩陣R是一個P×P正定對稱矩陣,它反映了說話人特征矢量各參數(shù)的平均偏離值,因此可以衡量特征矢量在觀察空間的分布散度。
    求自協(xié)方差矩陣R的本征值{λ1,λ2,…,λP}和相應(yīng)的本征向量{e1,e2,…,eP},則它們之間的關(guān)系如下式(3)~(5)所示。其中φ是由本征向量作為每一列構(gòu)成的P×P矩陣,A是由本征值構(gòu)成的對角矩陣。

   

    因為本征向量ei,i=1~P是從描述說話人語音特征矢量分布散度的自協(xié)方差矩陣計算得到,所以,從空間的角度看,說話人的語音特征分布完全可以由以平均特征矢量V為中心,本征向量ei,i=l~P為正交歸一化基底的子空間描述,如圖1所示。這樣,就從語音特征觀察空問將說話人語音特征子空間分離了出來,不同的說話人具有不同的特征子空間。
    雖然計算得到的本征向量個數(shù)與觀察空間維數(shù)相同,但有些本征向量對應(yīng)的本征值較小,在表示語音特征分布散度時影響較小。因此,實際應(yīng)用中可以選擇具有較大散度權(quán)值(本征值)的向量構(gòu)成子空間的基向量。圖1顯示了一個三維觀察空間中分離出的兩個二維說話人特征子空問例子,這些子空間的基底對應(yīng)前兩個較大的散度權(quán)值。第4小節(jié)分析了選取不同散度權(quán)值本征向量構(gòu)成子空間情況下的識別性能,結(jié)果表明子空間維數(shù)并非越多越好。
    說話人語音特征子空間本質(zhì)上是根據(jù)訓(xùn)練語音特征矢量在觀察空間的統(tǒng)計分布特性分析得到的一種結(jié)構(gòu)性說話人模型,各子空間的基底描述了說話人語音特征分布的框架結(jié)構(gòu)。因此,可以認(rèn)為子空間融合了說話人語音特征的統(tǒng)計特性和結(jié)構(gòu)特性,可由下式(6)表示:


3 子空間距離測度與模式匹配

    系統(tǒng)模式匹配對輸入測試語音與各說話人子空間的相關(guān)度進(jìn)行分析,提供說話人身份的判別依據(jù)。設(shè)輸入測試語音St相應(yīng)的特征矢量序列為則通過計算該特征矢量序列與說話人特征子空間的距離來分析測試語音與子空間的相關(guān)度,距離越小,相關(guān)度越大。最終的說話人識別判決可以依據(jù)最小距離準(zhǔn)則進(jìn)行,即測試語音說話人所對應(yīng)的子空間應(yīng)該與測試語音之間的距離最小,即相關(guān)度最大。
    輸入語音特征矢量Vt與子空間的距離測度采用子空問投影距離計算,如下式(7)所示。其中Q是子空間的維數(shù),Q≤P。

   
    上式第一項是觀察空間特征矢量Vt與說話人語音特征子空間中心矢量V之差向量Vt一V的平方模;第二項是這個差向量Vt一V在子空間各維投影的平方和,代表了這個差向量在子空間上的投影長度的平方。兩項相減就是輸入測試語音特征矢量Vt與子空間的距離。
    以上距離測度中采用了訓(xùn)練語音的平均特征矢量V,使觀察空間特征矢量轉(zhuǎn)換為適合子空間處理的差向量形式。實際應(yīng)用中,說話人語音特征是時變的,并引起特征矢量統(tǒng)計分布特性的變化,其表現(xiàn)之一是平均特征矢量隨時問的漂移。從子空間角度看,這個平均特征矢量的變化代表了說話人語音特征子空間的一種整體時變漂移,在計算子空間距離時如果不能及時反映這種變化,將可能引起一定程度的失真,為此,定義第二種距離測度如下:

   
    前面兩項的含義與第一種測度d1(Vt,SF)是一致的,但差向量不是根據(jù)訓(xùn)練語音的平均特征矢量V形成,而是由輸入測試語音的平均特征矢量Vt形成。這樣,不僅使觀察空間特征矢量轉(zhuǎn)換為適合子空間處理的差向量形式,并且使形成差向量的兩個特征矢量在時間上一致起來。但是,子空間是根據(jù)訓(xùn)練語音構(gòu)造的,其中心特征矢量是訓(xùn)練語音的平均特征矢量,距離測度中必須反映這一差異。所以,在第二種距離測度中增加第三項描述訓(xùn)練語音和測試語音特征矢量的平均差異,兩者通過加權(quán)系數(shù)c結(jié)合,其中N是測試語音短時幀個數(shù)。因此,這一距離測度不僅描述了特征矢量與說話人特征子空間的距離,而且描述了測試語音特征與子空間所表示的說話人語音特征的平均距離,同時考慮了語音特征的結(jié)構(gòu)性和統(tǒng)計特性差異。加權(quán)系數(shù)c的選擇使兩類距離對整個測度的影響保持平衡,可以通過各自的統(tǒng)計方差之比計算。
    模式匹配通過計算整個輸入測試語音特征矢量序列與子空間的距離進(jìn)行。利用以上距離測度,輸入測試語音St與說話人語音特征子空問的總距離如下:


    設(shè)系統(tǒng)需要識別的M個說話人對應(yīng)的子空間分別為SF1~SFM,經(jīng)過模式匹配得到輸入測試語音St與各子空間的距離SFD1~SFDM,則識別判決準(zhǔn)則如下:

   


4 實驗分析

    需要通過實驗分析的問題包括:(1)基于特征子空間識別方法的有效性?(2)子空間維數(shù)與識別性能的關(guān)系?并確定一個最佳子空間維數(shù)。(3)不同子空間距離測度下識別性能的比較分析(4)不同特征參數(shù),例如LPCC、MFCC情況下識別性能分析?(5)不同長度測試語音輸入時,說話人識別性能的變化趨勢?(6)在相同訓(xùn)練語音數(shù)據(jù)、實驗環(huán)境和條件下,子空間方法和VQ、GMM等其他方法的識別性能比較分析。
4.1 實驗數(shù)據(jù)與條件
   
語音數(shù)據(jù)選擇SD2002一D2數(shù)據(jù)庫,該數(shù)據(jù)庫中包含了在普通實驗室環(huán)境下通過計算機(jī)聲音系統(tǒng)采集得到的40個說話人的280條語音片段,其中,男聲26人,女聲14人,每人分別有7段語音,每段語音包括停頓間隙長度為12秒。語音采樣率為11025Hz,16位量化,單聲道輸入。實驗中,每說話人的前4段語音用于模型訓(xùn)練,后3段用于測試。
    在模型訓(xùn)練和識別測試中,預(yù)處理部分首先消除輸入語音信號的背景噪聲,保留純語音數(shù)據(jù),并進(jìn)行權(quán)重系數(shù)為0.97的高頻提升。短時分析采用27ms哈明窗,幀移步長18ms。特征參數(shù)LPCC和MFCC為16階,其中,LPCC由16階LPC線性預(yù)測系數(shù)推導(dǎo)得到,MFCC是基于Mel頻率尺度的倒譜系數(shù),通過計算Mel頻率域均勻分布的19個三角濾波器組的DFT輸出,并經(jīng)DCT變換得到,實驗中選取第l~16個系數(shù)作為特征參數(shù)。實驗中,特征子空間采用說話人的前4段語音信號進(jìn)行訓(xùn)練,其純語音成分的長度平均為32秒。測試實驗采用每說話人的后3段語音。
4.2 不同距離測度和特征參數(shù)下子空間維數(shù)與識別性能關(guān)系分析
    根據(jù)PCA原理,特征子空間可以選擇較大散度本征值對應(yīng)的本征向量為基底,這樣可以提高子空間之間的非相關(guān)性。但是,選擇的基向量不能過少,否則可能引起子空間不能充分表示語音特征的分布結(jié)構(gòu)。因此,需要在實驗分析子空間維數(shù)與識別性能關(guān)系的基礎(chǔ)上確定一個最佳子空間維數(shù)。
    將散度本征值按大小順序排列,并選取前面幾個較大本征值所對應(yīng)的本征向量作為子空間的基向量進(jìn)行分析。圖2顯示了采用LPCC特征參數(shù)以及兩種不同子空間距離測度情況下系統(tǒng)誤識率隨子空間維數(shù)變化的情況,其中測試語音長度為3秒??梢钥吹?,第二種子空間距離測度總體上比第一種距離測度更優(yōu)越,但兩種測度下都顯示當(dāng)子空間維數(shù)為6時系統(tǒng)的誤識率最低。圖3顯示了采用第二種子空間距離測度時,兩種特征參數(shù)LPCC和MFCC所對應(yīng)的識別性能隨維數(shù)變化的情況,其測試語音長度也是3秒??梢钥吹剑琈FCC參數(shù)相對而言比LPCC要優(yōu)越些,但差距并不大。另外,從圖3同樣可以看到當(dāng)子空間維數(shù)為6時系統(tǒng)具有最佳識別性能。

    根據(jù)以上實驗結(jié)果可以得出這樣得結(jié)論:基于子空間分離的說話人識別方法是有效的,但其識別性能隨子空間維數(shù)是變化的,當(dāng)維數(shù)為6時識別性能達(dá)到最佳,誤識率僅為0.189%。因此,在以下的實驗分析中子空間維數(shù)均采用6。
4.3 不同特征參數(shù)下識別性能與測試語音長度關(guān)系分析
    實際應(yīng)用中,測試語音的長度不是固定的。因此,衡量一個說話人識別系統(tǒng)的識別性能必須針對不同的測試語音長度進(jìn)行分析。
    圖4顯示了當(dāng)采用兩種特征參數(shù)LPCC和MFCC時,不同測試語音長度下系統(tǒng)的識別性能情況。其中,子空間距離的計算采用第二種測度,即d2(Vt,SF)。

    從圖4可以看到,所有測試語音長度下系統(tǒng)都能夠得到較好的識別性能,誤識率均在3%以下,當(dāng)測試長度達(dá)到5秒時,MFCC對應(yīng)的誤識率趨于零,但LPCC對應(yīng)的誤識率下降趨勢慢一些。另外可以看到,采用MFCC作為特征參數(shù)時的識別性能比LPCC時優(yōu)越,但差距并不大。
4.4 子空間方法與其他方法的比較分析
   
說話人識別的根本性問題是模型和特征參數(shù),即用怎樣的方法去描述說話人的語音特征以及采用什么樣的參數(shù)表示說話人語音特征的問題。但到目前為止,還沒有提出專門用于說話人識別的語音特征參數(shù)和模型,常用的文本無關(guān)說話人模型有GMM和VQ。
    圖5和圖6分別顯示了子空間方法與VQ和GMM方法的比較。其中,VQ碼本的碼字?jǐn)?shù)為128,GMM的混合分量數(shù)為16??梢钥吹剑涌臻g方法在測試語音長度小于3秒時其識別性能優(yōu)于其他方法,而在大于等于3秒時則相反。這個結(jié)果說明,GMM和VQ等完全基于統(tǒng)計聚類的方法由于運(yùn)用了說話人語音的統(tǒng)計特性,所以對于較長的測試語音有較可靠的識別性能,但當(dāng)測試語音較短時,由于無法提供可靠的統(tǒng)計特性進(jìn)行匹配,誤識率就很快下降。而子空間方法是根據(jù)說話人語音特征的分布散度得到的一種空間結(jié)構(gòu)性模型,由于不是完全依靠語音特征的統(tǒng)計特性,所以在較短的測試語音時也能夠得到較好的識別性能。

5 結(jié)論
    依據(jù)PCA原理,從說話人語音特征觀察空間根據(jù)其分布散度特性分離出特征子空間作為說話人的一種結(jié)構(gòu)性語音模型是有效的。當(dāng)采用MFCC參數(shù),測試語音長度為5秒時系統(tǒng)誤識率趨于零。特別是在小于3秒的短時測試語音情況下,其識別性能優(yōu)于其他方法。另外,子空間方法在識別時的計算量明顯小于其他方法。
    說話人識別和語音識別中存在同樣的核心問題,即沒有解決說話人個性特征和語義特征的提取和描述,這個問題極難。目前主要采用的特征參數(shù)LPCC、MFCC等反映了語音信號的頻譜特征,既包含語義特征信息,又包含個性特征信息,在具體應(yīng)用中只是根據(jù)不同的識別任務(wù)進(jìn)行語義特征或個性特征的歸一化處理,主要的歸一化處理通過語音模型訓(xùn)練進(jìn)行。顯然,這樣的傳統(tǒng)方法為了使語音模型很好地表示說話人的語音特征必須通過大量的語音樣本進(jìn)行訓(xùn)練,測試時需要的語音數(shù)據(jù)也比較多。但是,實際應(yīng)用中系統(tǒng)往往沒有足夠的數(shù)據(jù)用于這類統(tǒng)計模型的訓(xùn)練和識別,因此,在考慮如何提高說話人識別系統(tǒng)魯棒性的同時,需要研究少量語音數(shù)據(jù)前提下的訓(xùn)練和識別問題?;谧涌臻g分離的說話人識別方法在短測試語音長度下有一定優(yōu)勢,但在較長測試語音情況下識別性能提高不快。因此,今后將考慮通過子空間映射,在子空間建立說話人統(tǒng)計模型的方法來提高總體識別性能,特別是較長測試語音長度下的識別性能。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉