VC++和Matlab混合編程的語音識別研究

時間：2018-06-01 15:20:10

關(guān)鍵字： matlab vc 語音識別

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]摘要：采用VC++和Matlab混合編程搭建了一個高效的基于HMM的語音識別實(shí)驗驗證平臺。結(jié)合FPGA的特點(diǎn),直接使用加法器、乘法器、比較器等建立一個Viterbi算法結(jié)構(gòu),采用改進(jìn)方法計算Viterbi得分,實(shí)現(xiàn)一種簡單的基于HMM的語

摘要：采用VC++和Matlab混合編程搭建了一個高效的基于HMM的語音識別實(shí)驗驗證平臺。結(jié)合FPGA的特點(diǎn),直接使用加法器、乘法器、比較器等建立一個Viterbi算法結(jié)構(gòu),采用改進(jìn)方法計算Viterbi得分,實(shí)現(xiàn)一種簡單的基于HMM的語音模板匹配。

1 引言

Matlab 是一款高性能的數(shù)值計算和可視化軟件，集成數(shù)值分析、矩陣計算、信號運(yùn)算、信號處理和圖形顯示于一體，構(gòu)成了一個方便的、界面友好的用戶環(huán)境。目前，基于Matlab 的語音識別開發(fā)平臺雖然在可讀性、可移植性和可擴(kuò)充性上優(yōu)于其它編程語言，且調(diào)試功能強(qiáng)大、數(shù)據(jù)庫函數(shù)豐富，可使研究人員“站在巨人的肩上”更加直觀、方便地進(jìn)行分析、計算與設(shè)計工作，從而大大地節(jié)省了時間[1]。但考慮到其執(zhí)行代碼速度低下，不能直接與硬件底層直接接觸等缺點(diǎn)，因此提出了采用Matlab 和VC++混合編程來搭建語音識別實(shí)驗平臺，并對傳統(tǒng)Viterbi 算法進(jìn)行變形，直接使用FPGA 的加法器、比較器和邏輯操作來計算觀察值序列，以實(shí)現(xiàn)一種簡單的嵌入式語音模板匹配。

2 基于HMM 的語音識別

2.1 語音識別系統(tǒng)

語音識別系統(tǒng)（Speech Recognition System，SRS）基本上是一個模式分類的任務(wù)，即通過訓(xùn)練，系統(tǒng)能夠把輸入的語音按一定模式進(jìn)行分類[2]。實(shí)驗在Matlab 7.0 系統(tǒng)上建立了一個簡單的基于隱馬爾可夫模型（Hidden Markov Model，HMM）的語音識別過程，如圖1。

（1）語音輸入：在一般實(shí)驗室環(huán)境下進(jìn)行語音信號采樣，采樣格式為PCM，采樣頻率 16 KHZ，A/D 的量化精度8 Bit。然后經(jīng)過去噪、預(yù)加重、分幀、加窗等處理過程，去掉語音信號中包含的大量冗余信息，加強(qiáng)語音信號的高頻共振峰，便于進(jìn)行頻譜分析。

（2）端點(diǎn)檢測：考慮到語音信號的錄制是在較為安靜的實(shí)驗室環(huán)境下進(jìn)行，利用過零率Z 來檢測清音，用短時能量E 來檢測濁音，兩者配合實(shí)現(xiàn)可靠的端點(diǎn)檢測[3]。

（3）特征提取和量化：對有效語音段進(jìn)行特征提取，即提取基于Mel 刻度的倒頻譜矢量（Mel Frequency Cepstrum Coefficients，MFCC），它是識別過程中的輸入特征值。特征值經(jīng)矢量量化Vector Quantization，VQ），輸出VQ 碼本類別號，即HMM 訓(xùn)練與識別階段使用的觀察值序列o。

（4）模型訓(xùn)練與語音識別：訓(xùn)練階段，系統(tǒng)采用一系列訓(xùn)練觀察值估計HMM 參數(shù)，

2.2 Viterbi 算法

由于計算復(fù)雜度的限制，對于基于HMM 的實(shí)時語音識別來說，需要設(shè)計一個高效的硬件結(jié)構(gòu)來執(zhí)行Viterbi 譯碼過程，以加速HMM 的識別過程?？紤]了FPGA 的特點(diǎn)，分別采用對數(shù)概率和狀態(tài)概率的最小路徑對傳統(tǒng)的Viterbi 算法進(jìn)行變形，其計算P( o |λ ) v 的過程如下[5]：

通過上面的變形，不僅可以使傳統(tǒng) Viterbi 算法中的乘法轉(zhuǎn)成加法，降低時間消化，有效地避免數(shù)據(jù)下溢的問題。而且隨著Viterbi 計算過程的進(jìn)行，已計算的狀態(tài)概率值隨之增加，改原來找結(jié)束概率的最大值為最小值[6]。因此，只需要計算T 時刻的概率T δ( i) ，它是大于前參考單詞模型的最小值Pv 的。

實(shí)驗將直接使用 FPGA 的加法器、比較器和邏輯操作來實(shí)現(xiàn)上述公式（2）和公式（3），可以顯著提高系統(tǒng)效率，系統(tǒng)結(jié)構(gòu)如下圖2。

在這一方案中，識別過程直接由 FPGA 芯片內(nèi)的邏輯塊從觀察序列中計算概率得分，其中，觀察值序列通過VQ 得出。系統(tǒng)包括了兩個用來存儲轉(zhuǎn)移矩陣A 和輸出概率矩陣B 的存儲器，一個處理單元（Processing Element，PE）陣列，控制器，地址生成和附加比較邏輯。PE 包括有Viterbi 算法的核心模塊加-比-選單元（Add-Compare-Select Unit，ACSU），狀態(tài)累加器，和用來比較( i ) T δ 和極值Pv的附加比較器。PE 從HMM 參數(shù)寄存器中取出參考模型，沿最小路徑計算其概率，然后與極值Pv 進(jìn)行比較。當(dāng)(i) T δ 大于Pv 時，控制器在下一狀態(tài)時使PE 操作無效；同時，控制器控制存儲器緩沖操作，并生成整個計算過程中的控制信號。

3 VC++和Matlab 混合編程

對于在 FPGA 上實(shí)現(xiàn)語音識別的核心模塊——Viterbi 算法時，有許多工作需要在實(shí)驗前完成，如定制硬件源代碼、轉(zhuǎn)換浮點(diǎn)數(shù)據(jù)為定點(diǎn)數(shù)據(jù)和電路仿真等。為減少這部分工作，采用軟硬件協(xié)同設(shè)計的思想，由軟件來執(zhí)行HMM 模型訓(xùn)練和其它識別過程（如MFCC、 VQ 等）。在實(shí)驗時，用軟件來執(zhí)行HMM 模型訓(xùn)練和語音單詞識別。然后，把實(shí)驗數(shù)據(jù)（語音數(shù)據(jù)和HMM 模型參數(shù)）轉(zhuǎn)換成定點(diǎn)數(shù)據(jù)格式，由PCI 設(shè)備驅(qū)動程序?qū)?shí)驗數(shù)據(jù)、源代碼等下載到硬件，用于FPGA 驗證平臺。

根據(jù)上述思想，采用Matlab 和VC + +混合編制PCI 設(shè)備驅(qū)動程序，利用Matlab 系統(tǒng)提供的外部程序調(diào)用接口MEX 文件來實(shí)現(xiàn)其于VC++的混合編程。MEX 文件是一種約定格式編寫的文件，使用C 語言或FOTRAN 語言編寫，是由Matlab 解釋器自動調(diào)用并執(zhí)行的動態(tài) 鏈接函數(shù)（Dynamic Link Library Function），它在Mac 下以.mex 為后綴名，在Windows 下即.dll 文件。基于C 語言的MEX 文件主要由兩部分組成，第一部分稱為入口子程序，其作用是在Matlab 系統(tǒng)與被調(diào)用的外部子程序間建立通信聯(lián)系。第二部分稱為計算功能子程序，它包含所有實(shí)際需要完成的功能的源代碼，由入口子程序調(diào)用[7]。

該方法可以在軟硬件之間達(dá)到一致的識別結(jié)果，其方案描述如圖3 所示。實(shí)驗中，計算由FPGA 硬件完成，該子程序的主要負(fù)責(zé)FPGA 與PCI 的數(shù)據(jù)傳遞，即PCI 設(shè)備驅(qū)動。通過MEX 文件，不僅可在Matlab 系統(tǒng)中像調(diào)用內(nèi)建函數(shù)一樣調(diào)用存在的算法，使資源得到充分利用，避免重復(fù)程序設(shè)計。同時，還可以對硬件直接進(jìn)行編程，彌補(bǔ)Matlab 的不足。

4 實(shí)驗

該語音識別實(shí)驗采用的硬件平臺是包括有Altera Cyclone 系列EP1C12 的FPGA 和 PCI9054 芯片的PCI 開發(fā)板。EP1C 的FPGA 負(fù)責(zé)硬件Viterbi 計算，PCI9054 在驅(qū)動程序的幫助下負(fù)責(zé)PC 和FPGA 間實(shí)驗數(shù)據(jù)和結(jié)果的傳輸。

由于 FPGA 的空間限制，實(shí)驗選擇了4 狀態(tài)的HMM 模型和容量64 的VQ 碼本，占用 FPGA 的LE（邏輯單元）1,125 個，存儲單元占用約132K 位。然后將.sof 目標(biāo)文件下載到 PCI 卡上的FPGA 芯片中運(yùn)行，在Matlab 中調(diào)用VC++編寫的PCI 設(shè)備驅(qū)動程序，將VQ 后的語音數(shù)據(jù)和HMM 模型參數(shù)傳送給FPGA 內(nèi)的Viterbi 譯碼電路，實(shí)驗中，通過驅(qū)動程序輸出模板標(biāo)號與實(shí)際語音的標(biāo)號及仿真實(shí)驗導(dǎo)出的標(biāo)號一致。

在 P4 3.0GHz 的PC 機(jī)和200MHz FPGA 驗證平臺上，對于約100 幀的單個語音文件識別而言，軟/硬件Viterbi 算法的耗時如下表1 所示。

由上述實(shí)驗結(jié)果證明了該Viterbi 算法的VLSI 結(jié)構(gòu)能夠準(zhǔn)確且快速地實(shí)現(xiàn)語音識別的解碼過程，滿足嵌入式計算精度要求，表明該實(shí)現(xiàn)方案是切實(shí)可行的。

5 結(jié)束語

本文的創(chuàng)新點(diǎn)：采用 Matlab、VC + +和FPGA 搭建了一個軟硬件協(xié)同的語音識別實(shí)驗研究平臺，以VC++來彌補(bǔ)Matlab 不能與硬件底層進(jìn)行直接接觸的不足。并在傳統(tǒng)Viterbi 算法基礎(chǔ)上，對其采取一定變形，直接使用FPGA 的加法器、比較器和邏輯操作建立Viterbi 算法的VLSI 結(jié)構(gòu)，來計算觀察值序列，以實(shí)現(xiàn)一種簡單的基于HMM 語音識別的模板匹配。采用這種軟硬件協(xié)同的實(shí)驗研究平臺，可在利用前面Matlab 的實(shí)驗成果基礎(chǔ)上，逐步實(shí)現(xiàn) 語音識別各功能模塊的嵌入式設(shè)計，減少工作量，并易于調(diào)試。

來源:xiaobai2次