模板匹配的方法發(fā)展比較成熟,目前已達(dá)到了實(shí)用階段。在模板匹配方法中,要經(jīng)過四個(gè)步驟:特征提取、模板訓(xùn)練、模板分類、判決。常用的技術(shù)有三種:動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。
1、動(dòng)態(tài)時(shí)間規(guī)整(DTW)
語音信號(hào)的端點(diǎn)檢測(cè)是進(jìn)行語音識(shí)別中的一個(gè)基本步驟,它是特征訓(xùn)練和識(shí)別的基礎(chǔ)。所謂端點(diǎn)檢測(cè)就是在語音信號(hào)中的各種段落(如音素、音節(jié)、詞素)的始點(diǎn)和終點(diǎn)的位置,從語音信號(hào)中排除無聲段。在早期,進(jìn)行端點(diǎn)檢測(cè)的主要依據(jù)是能量、振幅和過零率。但效果往往不明顯。60年代日本學(xué)者Itakura提出了動(dòng)態(tài)時(shí)間規(guī)整算法(DTW:DynamicTimeWarping)。算法的思想就是把未知量均勻的升長(zhǎng)或縮短,直到與參考模式的長(zhǎng)度一致。在這一過程中,未知單詞的時(shí)間軸要不均勻地扭曲或彎折,以使其特征與模型特征對(duì)正。
2、隱馬爾可夫法(HMM)
隱馬爾可夫法(HMM)是70年代引入語音識(shí)別理論的,它的出現(xiàn)使得自然語音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。HMM方法現(xiàn)已成為語音識(shí)別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識(shí)別系統(tǒng)都是基于HMM模型的。HMM是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程:一個(gè)是用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個(gè)是與Markov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測(cè)的。人的言語過程實(shí)際上就是一個(gè)雙重隨機(jī)過程,語音信號(hào)本身是一個(gè)可觀測(cè)的時(shí)變序列,是由大腦根據(jù)語法知識(shí)和言語需要(不可觀測(cè)的狀態(tài))發(fā)出的音素的參數(shù)流?梢奌MM合理地模仿了這一過程,很好地描述了語音信號(hào)的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。
3、矢量量化(VQ)
矢量量化(VectorQuantization)是一種重要的信號(hào)壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識(shí)別中。其過程是:將語音信號(hào)波形的k個(gè)樣點(diǎn)的每一幀,或有k個(gè)參數(shù)的每一參數(shù)幀,構(gòu)成k維空間中的一個(gè)矢量,然后對(duì)矢量進(jìn)行量化。量化時(shí),將k維無限空間劃分為M個(gè)區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。矢量量化器的設(shè)計(jì)就是從大量信號(hào)樣本中訓(xùn)練出好的碼書,從實(shí)際效果出發(fā)尋找到好的失真測(cè)度定義公式,設(shè)計(jì)出最佳的矢量量化系統(tǒng),用最少的搜索和計(jì)算失真的運(yùn)算量,實(shí)現(xiàn)最大可能的平均信噪比。
|