語音作為一種典型的非平穩(wěn)隨機(jī)信號(hào),人類交流信息最方便、最快捷的一種方式,在高度發(fā)達(dá)的信息社會(huì)中, 音頻信號(hào)處理技術(shù)有非常廣泛的應(yīng)用。而在自動(dòng)控制領(lǐng)域,其在雷達(dá)、系統(tǒng)控制、通信、航空航天等眾多方面都獲得了極其廣泛的應(yīng)用。

隨著計(jì)算機(jī)和語音處理技術(shù)以及移動(dòng)互聯(lián)網(wǎng)的發(fā)展,語音識(shí)別在智能手機(jī)、平板等便攜設(shè)備中得到了廣泛應(yīng)用,用戶可以通過語音識(shí)別應(yīng)用控制便攜設(shè)備的各項(xiàng)功能,大大的提高了效率,完全“說”出了未來。

語音識(shí)別技術(shù),也被稱為自動(dòng)語音識(shí)別(英語:Automatic Speech Recognition, ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識(shí)別及說話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。

語音識(shí)別技術(shù) 的應(yīng)用包括語音撥號(hào)、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡(jiǎn)單的聽寫數(shù)據(jù)錄入等。語音識(shí)別技術(shù)與其他自然語言處理技術(shù)如機(jī)器翻譯及語音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語音到語音的翻譯。

語音識(shí)別技術(shù) 所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。

按識(shí)別器的類型:孤立單詞識(shí)別和連續(xù)語音識(shí)別 (詳細(xì))

按識(shí)別器對(duì)使用者的適應(yīng)情況:特定人語音識(shí)別和非特定人語音識(shí)別 (詳細(xì))

按語音詞匯表的大。河邢拊~匯識(shí)別和無限詞匯識(shí)別 (詳細(xì))

語音識(shí)別系統(tǒng) 是建立在一定的硬件平臺(tái)和操作系統(tǒng)之上的一套應(yīng)用軟件系統(tǒng)。語音識(shí)別一般分兩個(gè)步驟。第一部是系統(tǒng)“學(xué)習(xí)”或“訓(xùn)練”階段。第二步是“識(shí)別”或“測(cè)試”階段。語音識(shí)別技術(shù)加上各種外圍技術(shù)的組合,才能構(gòu)成一個(gè)完整的實(shí)際應(yīng)用的語音識(shí)別系統(tǒng)。

訓(xùn)練(Training):預(yù)先分析出語音特征參數(shù),制作語音模板(Template)并存放在語音參數(shù)庫(kù)中。

識(shí)別(Recognition):待識(shí)語音經(jīng)過與訓(xùn)練時(shí)相同的分析,得到語音參數(shù),將它與庫(kù)中的參考模板一一比較,并采用判決的方法找出最接近語音特征的模板,得出識(shí)別結(jié)果。

失真測(cè)度(Distortion Measures):在進(jìn)行比較時(shí)要有個(gè)標(biāo)準(zhǔn),這就是計(jì)量語音特征參數(shù)矢量之間的“失真測(cè)度”。

主要識(shí)別框架:基于模式匹配的動(dòng)態(tài)時(shí)間規(guī)整法(DTW:Dynamic Time Warping)和基于統(tǒng)計(jì)模型的隱馬爾柯夫模型法(HMM:Hidden Markov Model)。(詳細(xì))

簡(jiǎn)單地說,語音識(shí)別主要包括3個(gè)步驟:
1、對(duì)輸入的語音進(jìn)行特征提取
2、將提取的語音信號(hào)與計(jì)算機(jī)內(nèi)的語音模型進(jìn)行匹配
3、將匹配結(jié)果進(jìn)行輸出或轉(zhuǎn)化為特定的指令

模板匹配的方法發(fā)展比較成熟,目前已達(dá)到了實(shí)用階段。在模板匹配方法中,要經(jīng)過四個(gè)步驟:特征提取、模板訓(xùn)練、模板分類、判決。常用的技術(shù)有三種:動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。

1、動(dòng)態(tài)時(shí)間規(guī)整(DTW)

語音信號(hào)的端點(diǎn)檢測(cè)是進(jìn)行語音識(shí)別中的一個(gè)基本步驟,它是特征訓(xùn)練和識(shí)別的基礎(chǔ)。所謂端點(diǎn)檢測(cè)就是在語音信號(hào)中的各種段落(如音素、音節(jié)、詞素)的始點(diǎn)和終點(diǎn)的位置,從語音信號(hào)中排除無聲段。在早期,進(jìn)行端點(diǎn)檢測(cè)的主要依據(jù)是能量、振幅和過零率。但效果往往不明顯。60年代日本學(xué)者Itakura提出了動(dòng)態(tài)時(shí)間規(guī)整算法(DTW:DynamicTimeWarping)。算法的思想就是把未知量均勻的升長(zhǎng)或縮短,直到與參考模式的長(zhǎng)度一致。在這一過程中,未知單詞的時(shí)間軸要不均勻地扭曲或彎折,以使其特征與模型特征對(duì)正。

2、隱馬爾可夫法(HMM)

隱馬爾可夫法(HMM)是70年代引入語音識(shí)別理論的,它的出現(xiàn)使得自然語音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。HMM方法現(xiàn)已成為語音識(shí)別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識(shí)別系統(tǒng)都是基于HMM模型的。HMM是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程:一個(gè)是用具有有限狀態(tài)數(shù)的Markov鏈來模擬語音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個(gè)是與Markov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測(cè)的。人的言語過程實(shí)際上就是一個(gè)雙重隨機(jī)過程,語音信號(hào)本身是一個(gè)可觀測(cè)的時(shí)變序列,是由大腦根據(jù)語法知識(shí)和言語需要(不可觀測(cè)的狀態(tài))發(fā)出的音素的參數(shù)流?梢奌MM合理地模仿了這一過程,很好地描述了語音信號(hào)的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。

3、矢量量化(VQ)

矢量量化(VectorQuantization)是一種重要的信號(hào)壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識(shí)別中。其過程是:將語音信號(hào)波形的k個(gè)樣點(diǎn)的每一幀,或有k個(gè)參數(shù)的每一參數(shù)幀,構(gòu)成k維空間中的一個(gè)矢量,然后對(duì)矢量進(jìn)行量化。量化時(shí),將k維無限空間劃分為M個(gè)區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。矢量量化器的設(shè)計(jì)就是從大量信號(hào)樣本中訓(xùn)練出好的碼書,從實(shí)際效果出發(fā)尋找到好的失真測(cè)度定義公式,設(shè)計(jì)出最佳的矢量量化系統(tǒng),用最少的搜索和計(jì)算失真的運(yùn)算量,實(shí)現(xiàn)最大可能的平均信噪比。