說話人語音特征子空間分離及識別應用

時間：2009-08-10 10:07:04

關鍵字： BSP 矢量向量特征參數(shù)

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]本文依據主元分析原理從語音特征觀察空間分離說話人語音特征子空間，對輸入語音特征矢量與子空問的距離測度進行了定義，并對基于特征子空問的說話人識別性能進行了分析。說話人語音訓練樣本提取特征后在語音特征觀察空間形成具有一定散度的分布，根據主元分析原理和分布散度提取主要散度本征向量作為基底構成說話人語音特征子空間，并通過測試語音特征矢量與子空間的距離測度進行模式匹配。實驗結果表明，特征子空間方法對說話人識別是有效的，特別是在小于3秒的短時測試語音下能夠得到較高的識別率。

1 引言
    隨著電話銀行等網絡電子消費的普及，說話人識別作為一種有效的身份認證手段，其技術特點和優(yōu)越性越來越明顯，在國防安全、司法和金融等各應用領域的價值越來越顯得重要。目前說話人識別的主要方法一般通過在語音特征觀察空間建立說話人模型進行，如基于VQ的碼本模型識別方法、基于GMM模型的識別方法以及其他一些方法，這些方法大都利用了說話人語音特征的統(tǒng)計特性。但是，說話人識別應用中存在的兩個主要問題是：(1)由于語音特征的時變性，模型訓練時期和實際識別時期語音特征發(fā)生變化而導致識別性能的下降，而目前這些方法只能在一定程度上處理這種變化；(2)實際應用中往往需要能通過較短的語音及時識別說話人身份，但目前這些方法一般需要輸入3秒以上的語音才能得到較高的識別率。
    語音信號中包含語義和說話人個性這兩大特征，如果能夠較好地將這兩類特征進行分離，并依據個性特征建立說話人模型，則說話人識別性能將會得到提高并大大增強識別系統(tǒng)的魯棒性，但兩類特征的完全分離非常困難。統(tǒng)計方法建立的模型不可避免地需要較大的數(shù)據量進行訓練和識別，在短時測試語音下識別性能下降是必然的。如果能夠建立一種非純粹統(tǒng)計模型或在統(tǒng)計模型的基礎上結合結構性模型則可能會提高短時測試語音條件下的識別性能。
    本文依據主元分析(PCA：Principal Component Analysis)原理和說話人語音特征在觀察空間的分布散度提取主要散度向量構造說話人語音特征子空間，將說話人語音特征子空間從觀察空間分離出來。實驗分析了基于特征子空間的說話人識別性能，結果證明了這種方法的有效性，特別是在小于3秒的短時測試語音情況下識別性能明顯優(yōu)于VQ和GMM等方法。

2 特征子空間分離
基于語音特征子空間分離的說話人識別系統(tǒng)中，說話人模型由特征子空間表示，模式匹配部分則通過計算輸入測試語音特征矢量與子空間的距離進行。特征子空間根據說話人訓練語音提取的特征矢量在觀察空間的統(tǒng)計分布特性，依據PCA原理選取具有較大權值的散度向量構成。
設一個說話人訓練語音集合為{S1，S2，…，SN}，每一個訓練語音樣本經過特征提取后形成特征矢量序列，即如果特征矢量具有P個參數(shù)，則特征矢量Vij表示P維觀察空間的一個點，所有的特征矢量在觀察空間形成具有一定統(tǒng)計分布特性的點集{V1，V2，…，VM}，其中M是說話人所有訓練語音特征矢量的總數(shù)。描述說話人語音特征矢量在觀察空間分布的一個主要統(tǒng)計指標是分布散度，它可以由平均特征矢量和自協(xié)方差矩陣表示，如下：

公式(1)中平均特征矢量V反映說話人所有特征矢量在觀察空問的中心點。公式(2)中自協(xié)方差矩陣R是一個P×P正定對稱矩陣，它反映了說話人特征矢量各參數(shù)的平均偏離值，因此可以衡量特征矢量在觀察空間的分布散度。
求自協(xié)方差矩陣R的本征值{λ1，λ2，…，λP}和相應的本征向量{e1，e2，…，eP}，則它們之間的關系如下式(3)～(5)所示。其中φ是由本征向量作為每一列構成的P×P矩陣，A是由本征值構成的對角矩陣。

    因為本征向量ei，i=1～P是從描述說話人語音特征矢量分布散度的自協(xié)方差矩陣計算得到，所以，從空間的角度看，說話人的語音特征分布完全可以由以平均特征矢量V為中心，本征向量ei，i=l～P為正交歸一化基底的子空間描述，如圖1所示。這樣，就從語音特征觀察空問將說話人語音特征子空間分離了出來，不同的說話人具有不同的特征子空間。
    雖然計算得到的本征向量個數(shù)與觀察空間維數(shù)相同，但有些本征向量對應的本征值較小，在表示語音特征分布散度時影響較小。因此，實際應用中可以選擇具有較大散度權值(本征值)的向量構成子空間的基向量。圖1顯示了一個三維觀察空間中分離出的兩個二維說話人特征子空問例子，這些子空間的基底對應前兩個較大的散度權值。第4小節(jié)分析了選取不同散度權值本征向量構成子空間情況下的識別性能，結果表明子空間維數(shù)并非越多越好。
    說話人語音特征子空間本質上是根據訓練語音特征矢量在觀察空間的統(tǒng)計分布特性分析得到的一種結構性說話人模型，各子空間的基底描述了說話人語音特征分布的框架結構。因此，可以認為子空間融合了說話人語音特征的統(tǒng)計特性和結構特性，可由下式(6)表示：

3 子空間距離測度與模式匹配
系統(tǒng)模式匹配對輸入測試語音與各說話人子空間的相關度進行分析，提供說話人身份的判別依據。設輸入測試語音St相應的特征矢量序列為則通過計算該特征矢量序列與說話人特征子空間的距離來分析測試語音與子空間的相關度，距離越小，相關度越大。最終的說話人識別判決可以依據最小距離準則進行，即測試語音說話人所對應的子空間應該與測試語音之間的距離最小，即相關度最大。
輸入語音特征矢量Vt與子空間的距離測度采用子空問投影距離計算，如下式(7)所示。其中Q是子空間的維數(shù)，Q≤P。

    上式第一項是觀察空間特征矢量Vt與說話人語音特征子空間中心矢量V之差向量Vt一V的平方模；第二項是這個差向量Vt一V在子空間各維投影的平方和，代表了這個差向量在子空間上的投影長度的平方。兩項相減就是輸入測試語音特征矢量Vt與子空間的距離。
    以上距離測度中采用了訓練語音的平均特征矢量V，使觀察空間特征矢量轉換為適合子空間處理的差向量形式。實際應用中，說話人語音特征是時變的，并引起特征矢量統(tǒng)計分布特性的變化，其表現(xiàn)之一是平均特征矢量隨時問的漂移。從子空間角度看，這個平均特征矢量的變化代表了說話人語音特征子空間的一種整體時變漂移，在計算子空間距離時如果不能及時反映這種變化，將可能引起一定程度的失真，為此，定義第二種距離測度如下：

    前面兩項的含義與第一種測度d1(Vt，SF)是一致的，但差向量不是根據訓練語音的平均特征矢量V形成，而是由輸入測試語音的平均特征矢量Vt形成。這樣，不僅使觀察空間特征矢量轉換為適合子空間處理的差向量形式，并且使形成差向量的兩個特征矢量在時間上一致起來。但是，子空間是根據訓練語音構造的，其中心特征矢量是訓練語音的平均特征矢量，距離測度中必須反映這一差異。所以，在第二種距離測度中增加第三項描述訓練語音和測試語音特征矢量的平均差異，兩者通過加權系數(shù)c結合，其中N是測試語音短時幀個數(shù)。因此，這一距離測度不僅描述了特征矢量與說話人特征子空間的距離，而且描述了測試語音特征與子空間所表示的說話人語音特征的平均距離，同時考慮了語音特征的結構性和統(tǒng)計特性差異。加權系數(shù)c的選擇使兩類距離對整個測度的影響保持平衡，可以通過各自的統(tǒng)計方差之比計算。
    模式匹配通過計算整個輸入測試語音特征矢量序列與子空間的距離進行。利用以上距離測度，輸入測試語音St與說話人語音特征子空問的總距離如下：

設系統(tǒng)需要識別的M個說話人對應的子空間分別為SF1~SFM，經過模式匹配得到輸入測試語音St與各子空間的距離SFD1～SFDM，則識別判決準則如下：

4 實驗分析
    需要通過實驗分析的問題包括：(1)基于特征子空間識別方法的有效性?(2)子空間維數(shù)與識別性能的關系?并確定一個最佳子空間維數(shù)。(3)不同子空間距離測度下識別性能的比較分析(4)不同特征參數(shù)，例如LPCC、MFCC情況下識別性能分析?(5)不同長度測試語音輸入時，說話人識別性能的變化趨勢?(6)在相同訓練語音數(shù)據、實驗環(huán)境和條件下，子空間方法和VQ、GMM等其他方法的識別性能比較分析。
4．1 實驗數(shù)據與條件
    語音數(shù)據選擇SD2002一D2數(shù)據庫，該數(shù)據庫中包含了在普通實驗室環(huán)境下通過計算機聲音系統(tǒng)采集得到的40個說話人的280條語音片段，其中，男聲26人，女聲14人，每人分別有7段語音，每段語音包括停頓間隙長度為12秒。語音采樣率為11025Hz，16位量化，單聲道輸入。實驗中，每說話人的前4段語音用于模型訓練，后3段用于測試。
    在模型訓練和識別測試中，預處理部分首先消除輸入語音信號的背景噪聲，保留純語音數(shù)據，并進行權重系數(shù)為0．97的高頻提升。短時分析采用27ms哈明窗，幀移步長18ms。特征參數(shù)LPCC和MFCC為16階，其中，LPCC由16階LPC線性預測系數(shù)推導得到，MFCC是基于Mel頻率尺度的倒譜系數(shù)，通過計算Mel頻率域均勻分布的19個三角濾波器組的DFT輸出，并經DCT變換得到，實驗中選取第l～16個系數(shù)作為特征參數(shù)。實驗中，特征子空間采用說話人的前4段語音信號進行訓練，其純語音成分的長度平均為32秒。測試實驗采用每說話人的后3段語音。
4．2 不同距離測度和特征參數(shù)下子空間維數(shù)與識別性能關系分析
    根據PCA原理，特征子空間可以選擇較大散度本征值對應的本征向量為基底，這樣可以提高子空間之間的非相關性。但是，選擇的基向量不能過少，否則可能引起子空間不能充分表示語音特征的分布結構。因此，需要在實驗分析子空間維數(shù)與識別性能關系的基礎上確定一個最佳子空間維數(shù)。
    將散度本征值按大小順序排列，并選取前面幾個較大本征值所對應的本征向量作為子空間的基向量進行分析。圖2顯示了采用LPCC特征參數(shù)以及兩種不同子空間距離測度情況下系統(tǒng)誤識率隨子空間維數(shù)變化的情況，其中測試語音長度為3秒?？梢钥吹?，第二種子空間距離測度總體上比第一種距離測度更優(yōu)越，但兩種測度下都顯示當子空間維數(shù)為6時系統(tǒng)的誤識率最低。圖3顯示了采用第二種子空間距離測度時，兩種特征參數(shù)LPCC和MFCC所對應的識別性能隨維數(shù)變化的情況，其測試語音長度也是3秒?？梢钥吹?，MFCC參數(shù)相對而言比LPCC要優(yōu)越些，但差距并不大。另外，從圖3同樣可以看到當子空間維數(shù)為6時系統(tǒng)具有最佳識別性能。

    根據以上實驗結果可以得出這樣得結論：基于子空間分離的說話人識別方法是有效的，但其識別性能隨子空間維數(shù)是變化的，當維數(shù)為6時識別性能達到最佳，誤識率僅為0．189％。因此，在以下的實驗分析中子空間維數(shù)均采用6。
4．3 不同特征參數(shù)下識別性能與測試語音長度關系分析
    實際應用中，測試語音的長度不是固定的。因此，衡量一個說話人識別系統(tǒng)的識別性能必須針對不同的測試語音長度進行分析。
    圖4顯示了當采用兩種特征參數(shù)LPCC和MFCC時，不同測試語音長度下系統(tǒng)的識別性能情況。其中，子空間距離的計算采用第二種測度，即d2(Vt，SF)。

    從圖4可以看到，所有測試語音長度下系統(tǒng)都能夠得到較好的識別性能，誤識率均在3％以下，當測試長度達到5秒時，MFCC對應的誤識率趨于零，但LPCC對應的誤識率下降趨勢慢一些。另外可以看到，采用MFCC作為特征參數(shù)時的識別性能比LPCC時優(yōu)越，但差距并不大。
4．4 子空間方法與其他方法的比較分析
    說話人識別的根本性問題是模型和特征參數(shù)，即用怎樣的方法去描述說話人的語音特征以及采用什么樣的參數(shù)表示說話人語音特征的問題。但到目前為止，還沒有提出專門用于說話人識別的語音特征參數(shù)和模型，常用的文本無關說話人模型有GMM和VQ。
    圖5和圖6分別顯示了子空間方法與VQ和GMM方法的比較。其中，VQ碼本的碼字數(shù)為128，GMM的混合分量數(shù)為16?？梢钥吹?，子空間方法在測試語音長度小于3秒時其識別性能優(yōu)于其他方法，而在大于等于3秒時則相反。這個結果說明，GMM和VQ等完全基于統(tǒng)計聚類的方法由于運用了說話人語音的統(tǒng)計特性，所以對于較長的測試語音有較可靠的識別性能，但當測試語音較短時，由于無法提供可靠的統(tǒng)計特性進行匹配，誤識率就很快下降。而子空間方法是根據說話人語音特征的分布散度得到的一種空間結構性模型，由于不是完全依靠語音特征的統(tǒng)計特性，所以在較短的測試語音時也能夠得到較好的識別性能。

5 結論
依據PCA原理，從說話人語音特征觀察空間根據其分布散度特性分離出特征子空間作為說話人的一種結構性語音模型是有效的。當采用MFCC參數(shù)，測試語音長度為5秒時系統(tǒng)誤識率趨于零。特別是在小于3秒的短時測試語音情況下，其識別性能優(yōu)于其他方法。另外，子空間方法在識別時的計算量明顯小于其他方法。
說話人識別和語音識別中存在同樣的核心問題，即沒有解決說話人個性特征和語義特征的提取和描述，這個問題極難。目前主要采用的特征參數(shù)LPCC、MFCC等反映了語音信號的頻譜特征，既包含語義特征信息，又包含個性特征信息，在具體應用中只是根據不同的識別任務進行語義特征或個性特征的歸一化處理，主要的歸一化處理通過語音模型訓練進行。顯然，這樣的傳統(tǒng)方法為了使語音模型很好地表示說話人的語音特征必須通過大量的語音樣本進行訓練，測試時需要的語音數(shù)據也比較多。但是，實際應用中系統(tǒng)往往沒有足夠的數(shù)據用于這類統(tǒng)計模型的訓練和識別，因此，在考慮如何提高說話人識別系統(tǒng)魯棒性的同時，需要研究少量語音數(shù)據前提下的訓練和識別問題?；谧涌臻g分離的說話人識別方法在短測試語音長度下有一定優(yōu)勢，但在較長測試語音情況下識別性能提高不快。因此，今后將考慮通過子空間映射，在子空間建立說話人統(tǒng)計模型的方法來提高總體識別性能，特別是較長測試語音長度下的識別性能。