基于TMS320VC5507的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)

時(shí)間：2008-04-21 09:57:00

關(guān)鍵字：語(yǔ)音識(shí)別系統(tǒng) TMS320 緩沖區(qū) 內(nèi)存

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]語(yǔ)音識(shí)別片上系統(tǒng)可以實(shí)現(xiàn)簡(jiǎn)單的人機(jī)交互和語(yǔ)音控制，在家電、玩具及各種人機(jī)交互系統(tǒng)中有著廣泛的應(yīng)用前景

摘要：語(yǔ)音識(shí)別片上系統(tǒng)可以實(shí)現(xiàn)簡(jiǎn)單的人機(jī)交互和語(yǔ)音控制，在家電、玩具及各種人機(jī)交互系統(tǒng)中有著廣泛的應(yīng)用前景。本文結(jié)合漢語(yǔ)語(yǔ)音特點(diǎn)，在TMS320VC5507芯片上實(shí)現(xiàn)了高性能特定人與非特定人中小詞匯量孤立詞識(shí)別系統(tǒng)。采用基于循環(huán)緩沖區(qū)的端點(diǎn)檢測(cè)算法，雙緩沖區(qū)的傳輸方式用于語(yǔ)音錄制和回放，分別采用降低特征維數(shù)的DTW算法和基于連續(xù)隱含馬爾可夫模型（CDHMM）的多級(jí)搜索算法作為核心識(shí)別算法，并給出實(shí)驗(yàn)結(jié)果。
關(guān)鍵詞：特定人；非特定人；片上系統(tǒng)；德州儀器；直接存儲(chǔ)訪問(wèn)

1 語(yǔ)音識(shí)別片上系統(tǒng)概述

隨著數(shù)字信號(hào)處理技術(shù)的發(fā)展，語(yǔ)音識(shí)別片上系統(tǒng)已成為人們研究的熱點(diǎn)。然而，復(fù)雜的系統(tǒng)與硬件需求的矛盾，一定程度上限制了它的應(yīng)用和推廣。本文針對(duì)上述問(wèn)題，采用相應(yīng)的識(shí)別策略^[1]，合理安排算法流程，完成了高性能特定人與非特定人識(shí)別系統(tǒng)的片上實(shí)現(xiàn)。

2 硬件平臺(tái)

DSP選型時(shí)需綜合考慮運(yùn)算速度、成本、功耗、硬件資源和程序可移植性等因素。本系統(tǒng)采用美國(guó)德州儀器（TI）生產(chǎn)的TMS320VC5507定點(diǎn)DSP作為核心處理器^[2]，并配合使用PLL時(shí)鐘發(fā)生器、JTEG標(biāo)準(zhǔn)測(cè)試接口、異步通信串口、DMA控制器、通用輸入輸出GPIO端口以及多通道緩沖串口（McBSPs）等主要片內(nèi)外設(shè)。系統(tǒng)硬件平臺(tái)如圖1所示。

VC5507 DSP芯片采用先進(jìn)的多總線結(jié)構(gòu)，內(nèi)含64 K×16 bit的片上RAM和64 KB的ROM；片內(nèi)可屏蔽ROM固化有引導(dǎo)轉(zhuǎn)載程序（Bootloader）和中斷向量表等；采用流水線結(jié)構(gòu)提高指令執(zhí)行的整體速度。與C54x系列DSP不同的是，VC5507DSP的存儲(chǔ)空間包括統(tǒng)一的數(shù)據(jù)、程序空間和I/O空間，尋址空間可達(dá)16 MB；片內(nèi)包含兩個(gè)算術(shù)邏輯單元（ALUs），在最高時(shí)鐘頻率200 MHz下，指令周期可達(dá)5 ns，最高速度可達(dá)400 MIPS。

存儲(chǔ)器采用三菱公司生產(chǎn)的M5M29GB/T320VP系列Flash芯片。全片容量2 MW，分為128個(gè)扇區(qū)，通過(guò)外部存儲(chǔ)器接口（EMIF）方式與讀寫(xiě)時(shí)序接入DSP；采用2.7 V～3.6 V單電源供電。該系列Flash支持塊編程操作^[3]，讀寫(xiě)速度要快得多，有利于實(shí)時(shí)性的改善。

基金項(xiàng)目：國(guó)家自然科學(xué)基金資助項(xiàng)目60572083

圖1 語(yǔ)音識(shí)別系統(tǒng)硬件框圖

A/D、D/A轉(zhuǎn)換器采用英國(guó)Wolfson公司生產(chǎn)的WM8973L芯片。該芯片支持16位A/D、D/A轉(zhuǎn)換，具有可編程輸入輸出增益控制，可通過(guò)軟件設(shè)置8～96 KHz的多種采樣頻率^[4]。

3 軟件結(jié)構(gòu)

3.1 系統(tǒng)概述

特定人識(shí)別系統(tǒng)采用12維MFCC參數(shù)作為識(shí)別引擎的特征參數(shù)，訓(xùn)練與識(shí)別都是在片上實(shí)時(shí)實(shí)現(xiàn)的，系統(tǒng)框架如圖2（a）所示。在訓(xùn)練階段，由片上實(shí)時(shí)提取每個(gè)詞條的特征參數(shù)存放到Flash中作為模板庫(kù)。在識(shí)別階段，將待識(shí)別詞條實(shí)時(shí)提取特征參數(shù)、端點(diǎn)檢測(cè)以后，利用動(dòng)態(tài)時(shí)間規(guī)整（DTW）算法與模板庫(kù)中的所有模板進(jìn)行匹配，選擇失真度最小的模板作為識(shí)別結(jié)果。當(dāng)詞表改變時(shí)，只需調(diào)整Flash存儲(chǔ)方式，算法本身無(wú)需改動(dòng)。

(a) 特定人系統(tǒng)

（b）非特定人系統(tǒng)

圖2 識(shí)別系統(tǒng)框架

非特定人識(shí)別系統(tǒng)的輸入特征矢量為27維，包括12維MFCC、12維MFCC一階差分、一階對(duì)數(shù)能量、一階差分能量以及二階差分能量。系統(tǒng)以基于因素的CDHMM模型為基本識(shí)別框架，采用Viterbi解碼的幀同步搜索算法進(jìn)行識(shí)別。HMM模型訓(xùn)練事先在PC機(jī)上進(jìn)行，而Viterbi搜索則在DSP芯片上實(shí)時(shí)實(shí)現(xiàn)，整個(gè)系統(tǒng)為雙層結(jié)構(gòu)，如圖2（b）所示。

訓(xùn)練階段主要完成如下任務(wù)：給定一個(gè)HMM模型和一組觀察矢量集合，采用迭代算法調(diào)整模型參數(shù)，使得新模型和給定的觀察矢量集合的似然度最大。首先用初始模型估計(jì)觀察矢量由隱含層所有可能的狀態(tài)序列輸出的后驗(yàn)概率，然后根據(jù)前一步的估計(jì)結(jié)果，利用最大似然準(zhǔn)則估計(jì)新的HMM模型，所得到的參數(shù)用作下一次迭代。識(shí)別階段采用Viterbi搜索，所構(gòu)建的識(shí)別網(wǎng)絡(luò)包括狀態(tài)號(hào)和狀態(tài)連接關(guān)系等信息。為了減少網(wǎng)絡(luò)搜索的內(nèi)存占用量，采用每個(gè)詞條單獨(dú)建立網(wǎng)絡(luò)的方法，使得每個(gè)詞條的搜索過(guò)程可在內(nèi)存中獨(dú)立進(jìn)行^[5]。

3.2 語(yǔ)音傳輸與中斷程序設(shè)計(jì)

受硬件條件限制，系統(tǒng)的多任務(wù)調(diào)度是由中斷服務(wù)機(jī)制完成的。除了Reset和非屏蔽中斷（NMI）外，還設(shè)置了兩個(gè)DMA通道中斷。其中DMA通道2負(fù)責(zé)將麥克風(fēng)錄制的語(yǔ)音數(shù)據(jù)送至DSP內(nèi)核進(jìn)行運(yùn)算處理；DMA通道3負(fù)責(zé)將回放語(yǔ)音數(shù)據(jù)傳送至揚(yáng)聲器輸出。

在內(nèi)存中，分別設(shè)有兩個(gè)128 W的接收緩沖區(qū)和發(fā)送緩沖區(qū)。以接收端為例，對(duì)于8 kHz采樣語(yǔ)音，每0.125 ms接收一個(gè)16 bits的采樣數(shù)據(jù)，存入其中一個(gè)接收緩沖區(qū)中。16 ms后，該接收緩沖區(qū)滿(mǎn)，由DMA控制器向CPU發(fā)出中斷請(qǐng)求，進(jìn)行VAD、特征提取等操作。與此同時(shí)，另一個(gè)接收緩沖區(qū)繼續(xù)接收語(yǔ)音數(shù)據(jù)。這種數(shù)據(jù)傳輸方式又稱(chēng)為Ping-Pong傳輸，接收和發(fā)送分別設(shè)置兩個(gè)緩沖區(qū)，利用等待時(shí)隙，當(dāng)其中一個(gè)緩沖區(qū)數(shù)據(jù)傳輸完成，產(chǎn)生中斷時(shí)，另一緩沖區(qū)繼續(xù)工作。這種雙緩沖區(qū)傳輸方式可以明顯改善系統(tǒng)實(shí)時(shí)性能。

3.3 端點(diǎn)檢測(cè)

輸入到硬件平臺(tái)的語(yǔ)音信號(hào)前后經(jīng)常含有大量靜音或噪聲。出于節(jié)省硬件資源的考慮，需要引入端點(diǎn)檢測(cè)算法。為了兼顧實(shí)時(shí)性能和硬件資源占用率，并防止語(yǔ)音切分過(guò)嚴(yán)而影響識(shí)別性能，采用基于循環(huán)緩沖技術(shù)的四階段語(yǔ)音實(shí)時(shí)檢測(cè)方法，將每幀語(yǔ)音能量與閾值相比較，同時(shí)依次存入長(zhǎng)度為的循環(huán)緩沖區(qū)并記錄當(dāng)前位置。算法流程如圖3所示，其中、、、、為事先設(shè)定的閾值，它們是通過(guò)大量測(cè)試得到的。當(dāng)檢測(cè)到連續(xù) 幀語(yǔ)音能量高于閾值時(shí)，將循環(huán)緩沖區(qū)從當(dāng)前位置斷開(kāi)，倒退幀作為語(yǔ)音起始點(diǎn)。

（a）端點(diǎn)檢測(cè)基本流程

（b）循環(huán)緩沖區(qū)設(shè)計(jì)

圖3 基于循環(huán)緩沖區(qū)的端點(diǎn)檢測(cè)流程

3.4 特定人識(shí)別系統(tǒng)的特征提取與DTW模板匹配

實(shí)驗(yàn)表明，采用12維MFCC系數(shù)作為特征參數(shù)，既可以節(jié)省內(nèi)存空間，又不會(huì)對(duì)識(shí)別率造成很大影響。每幀語(yǔ)音特征參數(shù)在內(nèi)存數(shù)據(jù)空間中連續(xù)存放。采取動(dòng)態(tài)時(shí)間規(guī)整（DTW）算法，其本質(zhì)是一種寬度優(yōu)先的模板匹配過(guò)程，即將待識(shí)別詞條的特征矢量序列與每個(gè)模板進(jìn)行比較，找到一條總失真度最小的路徑作為識(shí)別結(jié)果^[6]。DTW算法簡(jiǎn)單，計(jì)算量小，占用內(nèi)存小，可以解決語(yǔ)速不均勻的問(wèn)題，適用于特定人小詞匯量的孤立詞識(shí)別系統(tǒng)。

3.5 非特定人識(shí)別系統(tǒng)的多級(jí)Viterbi搜索與硬件資源消耗分析

非特定人識(shí)別基線系統(tǒng)難于在片上實(shí)現(xiàn)的瓶頸在于識(shí)別時(shí)間過(guò)長(zhǎng)。事實(shí)上，如果聲學(xué)模型構(gòu)造合理，絕大多數(shù)錯(cuò)誤結(jié)果的似然度往往與正確結(jié)果相差較遠(yuǎn)。因此，本系統(tǒng)采用的基于Viterbi解碼的兩階段搜索策略，可以很大程度上緩解識(shí)別時(shí)間過(guò)長(zhǎng)的問(wèn)題。

第一階段為快速匹配階段。利用較為簡(jiǎn)單的208個(gè)狀態(tài)的單音子聲學(xué)模型，給出匹配程度最高的前Nbest個(gè)候選詞條，送入第二階段。第一階段所占用的主要內(nèi)存空間有：詞條的所有特征，在使用27維特征，最大有效語(yǔ)音長(zhǎng)度為128幀情況下，需要6.8 KB；輸出分?jǐn)?shù)矩陣，其大小由最大有效語(yǔ)音長(zhǎng)度和模型數(shù)量決定，是內(nèi)存開(kāi)銷(xiāo)最主要的部分，在這里需要占用約62 KB的內(nèi)存；所有詞條的對(duì)數(shù)似然度，200詞的情況下為0.8 KB。

第二階段為精確匹配階段，采用較復(fù)雜的358狀態(tài)雙音子模型，根據(jù)第一階段候選詞條構(gòu)建新的識(shí)別網(wǎng)絡(luò)，進(jìn)行搜索識(shí)別。為了節(jié)約內(nèi)存占用量，設(shè)定第一階段候選詞條數(shù)量的上限為8，這樣，第二階段可能出現(xiàn)的有效狀態(tài)數(shù)量不會(huì)超過(guò)208個(gè)，從而可以使占用內(nèi)存最大的輸出概率矩陣復(fù)用第一階段輸出概率矩陣所占用的那段內(nèi)存，提高內(nèi)存使用效率^[7]。

4 實(shí)驗(yàn)結(jié)果

錄音環(huán)境為辦公環(huán)境，8 kHz采樣，16 bit量化，每個(gè)詞條最大持續(xù)時(shí)間為2 s，端點(diǎn)檢測(cè)的循環(huán)緩沖區(qū)長(zhǎng)度 =7 W。特定人識(shí)別系統(tǒng)的測(cè)試語(yǔ)音為本實(shí)驗(yàn)室自錄的100個(gè)孤立詞人名詞表，識(shí)別結(jié)果如表1所示。非特定人識(shí)別系統(tǒng)的訓(xùn)練集為863男生連續(xù)語(yǔ)音數(shù)據(jù)，測(cè)試語(yǔ)音為200詞的人名詞表。第一階段多候選識(shí)別結(jié)果如圖4所示?？梢?jiàn)，雖然一候選的識(shí)別率不足94％，但隨著候選詞條數(shù)的增加，正確識(shí)別結(jié)果幾乎都包含在第一階段前幾選的識(shí)別結(jié)果中。本文選用的八候選策略的識(shí)別率可以達(dá)到99.5％。系統(tǒng)最終識(shí)別結(jié)果如表2所示，識(shí)別率僅從基線系統(tǒng)的98.5％下降到97.5％，而識(shí)別時(shí)間僅為基線系統(tǒng)的30％。

表1 特定人系統(tǒng)識(shí)別性能

識(shí)別率	98.00%
識(shí)別時(shí)間（倍實(shí)時(shí)）	0.13
內(nèi)存空間占用	程序空間	39 KB
	數(shù)據(jù)空間	22 KB

表2 非特定人系統(tǒng)識(shí)別性能

基線系統(tǒng)	識(shí)別率	98.50％
基線系統(tǒng)	識(shí)別時(shí)間（倍實(shí)時(shí)）	1.00
本系統(tǒng)識(shí)別率	一階段多候選識(shí)別率	99.50％
	二階段第一選識(shí)別率	97.50％
	識(shí)別時(shí)間（倍實(shí)時(shí)）	0.34
本系統(tǒng)內(nèi)存空間占用	程序空間	29 KB
本系統(tǒng)內(nèi)存空間占用	數(shù)據(jù)空間	94 KB

圖4 非特定人系統(tǒng)第一階段多候選識(shí)別率

5 結(jié)論

本文提出了一種基于定點(diǎn)DSP的特定人與非特定人語(yǔ)音識(shí)別片上系統(tǒng)的實(shí)現(xiàn)方法。通過(guò)降低特征維數(shù)，改進(jìn)語(yǔ)音預(yù)處理與識(shí)別算法等手段，在保證識(shí)別性能的前提下，實(shí)現(xiàn)了硬件資源的高效率利用。在運(yùn)算速度為288 MIPS，工作時(shí)鐘為144 MHz的條件下，特定人與非特定人識(shí)別系統(tǒng)識(shí)別率分別為98%與97.5％，識(shí)別時(shí)間分別為0.13倍實(shí)時(shí)和0.34倍實(shí)時(shí)。

本文的創(chuàng)新點(diǎn)在于：采用基于循環(huán)緩沖技術(shù)的四階段實(shí)時(shí)端點(diǎn)檢測(cè)算法，以及基于雙緩沖區(qū)的語(yǔ)音傳輸方式，在核心識(shí)別算法的處理中，選擇合適的特征維數(shù)，合理優(yōu)化識(shí)別算法流程，在保證識(shí)別性能不受影響的前提下，有效改善了硬件資源占用率與系統(tǒng)實(shí)時(shí)性能。

參考文獻(xiàn)

[1] Zhu Xuan, Chen Yining, Liu Jia, et al. A Novel efficient decoding algorithm for CDHMM-based speech recognizer on chip [A]. Proceeding of ICASSP [C]. Hong Kong: IEEE Press, 2003, 293-296

[2] SPRS244F. TMS320VC5507 Fixed-Point Digital Signal Processor [S]. Texas: Texas Instruments, 2005

[3] MITSUBISHI LSIs M5M29GB/T320VP-80 BLOCK ERASE FLASH MEMORY [S]. 2001

[4] WM8973L Stereo CODEC for Portable Audio Applications [S]. Edinburgh: Wolfson microelectronics, 2004

[5] 朱璇，陳一寧，劉加，劉潤(rùn)生. 語(yǔ)音識(shí)別片上系統(tǒng)中的多級(jí)搜索算法[J]. 電子學(xué)報(bào)，2004，32（1）：150－153.

[6] 陳立萬(wàn). 基于語(yǔ)音識(shí)別系統(tǒng)中DTW算法改進(jìn)技術(shù)研究[J]. 微計(jì)算機(jī)信息，2006，第5期，267-269

[7] 王瑞. 基于子詞模型的嵌入式語(yǔ)音識(shí)別引擎的設(shè)計(jì)和實(shí)現(xiàn)[D]. 北京：清華大學(xué)，2003