當(dāng)前位置:首頁(yè) > 嵌入式 > 嵌入式軟件
[導(dǎo)讀]基于Julius的機(jī)器人語(yǔ)音識(shí)別系統(tǒng)構(gòu)建

摘要:隨著機(jī)器人技術(shù)不斷發(fā)展,本文提出機(jī)器人的語(yǔ)音識(shí)別這一智能人機(jī)交互方式。在研究了基于HMM語(yǔ)音識(shí)別基本原理的情況下,在實(shí)驗(yàn)室的機(jī)器人平臺(tái)上,利用HTK和Julius開(kāi)源平臺(tái),構(gòu)建了一個(gè)孤立詞的語(yǔ)音識(shí)別系統(tǒng)。利用該語(yǔ)音識(shí)別系統(tǒng)可以提取語(yǔ)音命令用于機(jī)器人的控制。
關(guān)鍵詞:機(jī)器人;語(yǔ)音識(shí)別;HMM;HTK;Julius

引言
    隨著現(xiàn)代科技和計(jì)算機(jī)技術(shù)的不斷發(fā)展,人們?cè)谂c機(jī)器的信息交流中,需要一種更加方便、自然的交互方式,實(shí)現(xiàn)人機(jī)之間的語(yǔ)音交互,讓機(jī)器聽(tīng)懂人話是人們夢(mèng)寐以求的事情。語(yǔ)音識(shí)別技術(shù)的發(fā)展,使得這一理想得以實(shí)現(xiàn),把語(yǔ)音識(shí)別技術(shù)與機(jī)器人控制技術(shù)相結(jié)合,正成為目前研究的熱點(diǎn),不但具有較好的理論意義,而且有較大的實(shí)用價(jià)值。
    語(yǔ)音識(shí)別技術(shù)應(yīng)用于機(jī)器人系統(tǒng)大多是針對(duì)特定的環(huán)境,設(shè)計(jì)出語(yǔ)音命令來(lái)進(jìn)行控制的。只需要對(duì)幾十個(gè)字或詞的命令行進(jìn)語(yǔ)音識(shí)別,便可使得原本需要手工操作的工作由語(yǔ)音輕松完成。本文針對(duì)現(xiàn)有機(jī)器人平臺(tái),設(shè)計(jì)一個(gè)非特定人的孤立詞語(yǔ)音識(shí)別系統(tǒng)。

1 語(yǔ)音識(shí)別原理及JuliUS簡(jiǎn)介
1.1 基于HMM的語(yǔ)音識(shí)別原理
    語(yǔ)音識(shí)別系統(tǒng)是一種模式識(shí)別系統(tǒng),系統(tǒng)首先對(duì)語(yǔ)音信號(hào)進(jìn)行分析,得到語(yǔ)音的特征參數(shù),然后對(duì)這些參數(shù)進(jìn)行處理,形成標(biāo)準(zhǔn)的模板。這個(gè)過(guò)程稱為訓(xùn)練或?qū)W習(xí)。當(dāng)有測(cè)試語(yǔ)音進(jìn)入系統(tǒng)時(shí),系統(tǒng)將對(duì)這些語(yǔ)音信號(hào)進(jìn)行處理,然后進(jìn)行參考模板的匹配,得出結(jié)果。此時(shí)便完成了語(yǔ)音識(shí)別的過(guò)程。
    目前,HMM作為語(yǔ)音信號(hào)的一種統(tǒng)計(jì)模型,是語(yǔ)音識(shí)別技術(shù)的主流建模方法,正在語(yǔ)音處理各個(gè)領(lǐng)域中獲得廣泛的應(yīng)用?,F(xiàn)在許多商用語(yǔ)音軟件,以及各種具有優(yōu)良性能的語(yǔ)音識(shí)別系統(tǒng),都是在此模型上開(kāi)發(fā)的,已經(jīng)形成了完整的理論框架。
    基于HMM模式匹配算法的語(yǔ)音識(shí)別系統(tǒng)表現(xiàn)為:在訓(xùn)練階段,采用HMM訓(xùn)練算法為每一個(gè)詞條建立一個(gè)HMM模型。詞條經(jīng)過(guò)反復(fù)訓(xùn)練后,將得到的對(duì)應(yīng)HMM模型加入HMM模型庫(kù)中以數(shù)據(jù)的形式保存。在匹配階段,也就是識(shí)別階段,采用HMM匹配算法將輸入的未知語(yǔ)音信號(hào)與訓(xùn)練階段得到的模型庫(kù)中的模型進(jìn)行匹配,輸出語(yǔ)音識(shí)別的結(jié)果。
1.2 JuliUS簡(jiǎn)介
    Julius是日本京都大學(xué)和日本IPA(Information-tech-nology Promotion Agency)聯(lián)合開(kāi)發(fā)的一個(gè)實(shí)用高效雙通道的大詞匯連續(xù)語(yǔ)音識(shí)別引擎。目前已經(jīng)能較好地應(yīng)用于日語(yǔ)和漢語(yǔ)的大詞匯量連續(xù)的語(yǔ)音識(shí)別系統(tǒng)。Julius由純C語(yǔ)言開(kāi)發(fā),遵循GPL開(kāi)源協(xié)議,能夠運(yùn)行在Lin-ux、Windows、Mac:OS X、Solaris以及其他Unix平臺(tái)。Julius最新的版本采用模塊化的設(shè)計(jì)思想,使得各功能模塊可以通過(guò)參數(shù)配置。
    Julius的運(yùn)行需要一個(gè)語(yǔ)言模型和一個(gè)聲學(xué)模型。利用Julius,通過(guò)結(jié)合語(yǔ)言模型和聲學(xué)模型,可以很方便地建立一個(gè)語(yǔ)音識(shí)別系統(tǒng)。語(yǔ)言模型包括一個(gè)詞的發(fā)音字典和語(yǔ)法約束。Julius支持的語(yǔ)言模型包括:N-gram模型,以規(guī)則為基礎(chǔ)的語(yǔ)法和針對(duì)孤立詞識(shí)別的簡(jiǎn)單單詞列表。聲學(xué)模型必須是以分詞為單位且由HMM定義的。
    應(yīng)用程序可以有兩種方式與Julius交互:一種是基于套接字的服務(wù)器一客戶端通信方式,另一種是基于函數(shù)庫(kù)的嵌入方式。在這兩種情況下,要識(shí)別過(guò)程結(jié)束,識(shí)別結(jié)果就被送入應(yīng)用程序中,應(yīng)用程序就能得到Julius引擎的現(xiàn)有狀態(tài)和統(tǒng)計(jì),并可以操作官。Julius概述如圖1所示。


[!--empirenews.page--]
2 系統(tǒng)框架
2.1 硬件結(jié)構(gòu)
    在語(yǔ)音識(shí)別的機(jī)器狗控制系統(tǒng)中Atom Z510為訓(xùn)練學(xué)習(xí)機(jī)大腦(1.1 GHz主頻的Intel Atom Z510嵌入式控制平臺(tái)),它主要完成語(yǔ)音識(shí)別的功能。PXA270控制器(Intel公司于2003年底推出的性能強(qiáng)勁的PXA27x系列嵌入式處理器,基于ARMv5E的XScale內(nèi)核,最高頻率可達(dá)624MHz)作為機(jī)器狗本體上的核心智能控制器,接收Atom Z510識(shí)別后的結(jié)果,發(fā)出控制命令。ATmega128控制器(Atmel公司的8位系列單片機(jī)中的一種,運(yùn)行頻率16 MHz)完成基于串行總線的數(shù)字舵機(jī)控制,完成對(duì)機(jī)器狗的前后腿以及尾巴等關(guān)節(jié)控制。機(jī)器狗硬件結(jié)構(gòu)平臺(tái)如圖2所示。


2.2 軟件結(jié)構(gòu)
    整個(gè)機(jī)器人系統(tǒng)包括3個(gè)模塊:Julius語(yǔ)音識(shí)別模塊、GUI人機(jī)界面、機(jī)器人控制模塊。Julius將識(shí)別的語(yǔ)音命令提交給GUI模塊,并在GUI上顯示;同時(shí)GUI將語(yǔ)音命令轉(zhuǎn)化為動(dòng)作控制命令并發(fā)給機(jī)器人控制模塊;GUI還可以控制Julius的啟動(dòng)和停止。其中機(jī)器人控制模塊主要在PXA270上,而語(yǔ)音識(shí)別和GUI是在Atom Z510上。系統(tǒng)軟件模型如圖3所示。



3 語(yǔ)音識(shí)別系統(tǒng)構(gòu)建
    一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)一般包括3部分:聲學(xué)模型、語(yǔ)言模型和識(shí)別器。在本系統(tǒng)中只建立基于控制命令(動(dòng)詞)的識(shí)別語(yǔ)法,其他詞忽略,因此沒(méi)有構(gòu)建語(yǔ)言模型;識(shí)別器采用Julius開(kāi)源平臺(tái),此部分只用配置參數(shù)和相關(guān)文件。本文主要工作是聲學(xué)模型訓(xùn)練和語(yǔ)音識(shí)別系統(tǒng)構(gòu)建。
3.1 聲學(xué)模型訓(xùn)練
    聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,是語(yǔ)音識(shí)別系統(tǒng)中最關(guān)鍵的一部分,它是每個(gè)聲學(xué)單元的聲學(xué)模型參數(shù)集合。本系統(tǒng)的聲學(xué)模型是使用HTK對(duì)采集的語(yǔ)音庫(kù)進(jìn)行多次迭代訓(xùn)練后提取的,基于詞的聲學(xué)特征向量集。HTK(HMM Tools Kit)是由英國(guó)劍橋大學(xué)工程系的語(yǔ)音視覺(jué)和機(jī)器人技術(shù)工作組(Speech Vision and Robotics Group)開(kāi)發(fā),專門用于建立和處理HMM的實(shí)驗(yàn)工具包,主要應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域,也可用于語(yǔ)音模型的測(cè)試和分析。其具體訓(xùn)練步驟如下:
    (1)數(shù)據(jù)準(zhǔn)備
    收集漢語(yǔ)標(biāo)準(zhǔn)普通話的語(yǔ)料庫(kù),并將語(yǔ)料庫(kù)中的語(yǔ)音標(biāo)記,創(chuàng)建語(yǔ)音識(shí)別單元元素列表文件。
    (2)特征提取
    本系統(tǒng)采用MFCC進(jìn)行語(yǔ)音的特征參數(shù)提取,訓(xùn)練中將每一個(gè)語(yǔ)音文件用工具HCopy轉(zhuǎn)換成MFCC格式。
    (3)HMM定義
    在訓(xùn)練HMM模型時(shí)要給出模型的初始框架,本系統(tǒng)中的HMM模型選擇同一個(gè)結(jié)構(gòu),如圖4所示。該模型包含4個(gè)活動(dòng)狀態(tài){S2,S3,S4,S5),開(kāi)始和結(jié)束(這里是S1.S6),是非發(fā)散狀態(tài)。觀察函數(shù)bi是帶對(duì)角矩陣的高斯分布,狀態(tài)的可能轉(zhuǎn)換由aij表示。[!--empirenews.page--]


    (4)HMM訓(xùn)練
    本系統(tǒng)先使用HInit工具對(duì)HMM模型進(jìn)行初始化,再用HCompv工具來(lái)對(duì)模型進(jìn)行平坦初始化。HMM模型的每個(gè)狀態(tài)給定相同的平均向量和變化向量,在整個(gè)訓(xùn)練集上全局計(jì)算而得。最后用HRest的多次估計(jì)迭代,估計(jì)出HMM模型參數(shù)的最佳值,經(jīng)多次迭代,將訓(xùn)練得到的單個(gè)HMM模型整合到一個(gè)hmmsdef.mmf文件中。聲學(xué)模型HTK訓(xùn)練流程如圖5所示。


3.2 Julius應(yīng)用
3.2.1 Julius部署
    在本系統(tǒng)中語(yǔ)音識(shí)別部分是部署在Atom Z510上,而Atom Z510上首先需要移植linux操作系統(tǒng)(本系統(tǒng)采用的是ubuntu8.10)以上步驟在此不詳細(xì)介紹,文獻(xiàn)中有詳細(xì)說(shuō)明。語(yǔ)音識(shí)別的核心部分是Julius識(shí)別器,需要將Julius源碼編譯部署到Atom Z510平臺(tái)。其步驟如下:
    ①要確保linux系統(tǒng)中有以下支持庫(kù):Zlib、flex、OSS音頻驅(qū)動(dòng)接口、ESounD和libsndfile。
    ②從Julius官網(wǎng)下載源代碼Julius-4.1.5。
    ③解壓:tar-zxjf julius-4.1.5。
    ④編譯:%./configure,%make,%make install。
3.2.2 Julius配置
    Julius全部采用C語(yǔ)言代碼實(shí)現(xiàn),采用模塊化設(shè)計(jì)方式,而且各功能模塊可配置。在使用前需要將配置參數(shù)寫入jconf文件,此文件作為運(yùn)行參數(shù)載入系統(tǒng),系統(tǒng)掃描參數(shù)配置并啟動(dòng)各功能塊。其中重點(diǎn)介紹以下幾個(gè)配置參數(shù):
    ◆-dfa rtdog.dfa,指定語(yǔ)法文件rtdog.dfa;
    ◆-v rtdog.dict,指定字典文件;
    ◆-h rtdog.binhmm,指定HMM模型文件;
    ◆-lv 8000,設(shè)定音頻的閾值便于濾去噪音;
    ◆-rejectshort 600,設(shè)定最小的語(yǔ)音長(zhǎng)度;
    ◆-input mic,設(shè)定語(yǔ)音的輸入方式為microphone。
3.3 語(yǔ)音識(shí)別系統(tǒng)軟件設(shè)計(jì)
3.3.1 GUI設(shè)計(jì)
    本系統(tǒng)為了方便測(cè)試,采用QT4的圖形庫(kù)來(lái)開(kāi)發(fā)人機(jī)界面(GUI),同時(shí)加入了手動(dòng)控制的按鈕。其總體功能如圖6所示。通信線程是本系統(tǒng)的數(shù)據(jù)傳輸樞紐,十分重要。在QT中通過(guò)對(duì)線程類QThread繼承來(lái)實(shí)現(xiàn)新的線程設(shè)計(jì)。該類提供了創(chuàng)建一個(gè)新線程以及控制線程運(yùn)行的各種方法。線程是通過(guò)QThread::run()重載函數(shù)開(kāi)始執(zhí)行的。在本系統(tǒng)中設(shè)計(jì)了1個(gè)數(shù)據(jù)通信線程,用它來(lái)不斷地讀取共享內(nèi)存中的語(yǔ)音命令,然后將其轉(zhuǎn)化為控制命令傳給機(jī)器人控制模塊。

[!--empirenews.page--]
3.3.2 模塊間通信
    由于系統(tǒng)的3個(gè)模塊不在同一個(gè)平臺(tái)上部署,運(yùn)行過(guò)程中需要進(jìn)行數(shù)據(jù)通信。GUI和Julius都部署在Atom Z510平臺(tái)上,但屬于2個(gè)進(jìn)程,它們之間可以通過(guò)共享內(nèi)存來(lái)交互數(shù)據(jù)。而GUI和機(jī)器人控制模塊就需要通過(guò)網(wǎng)絡(luò)通信來(lái)實(shí)現(xiàn)數(shù)據(jù)交互。這里采用的是基于TCP的socket編程接口來(lái)實(shí)現(xiàn)模塊間的通信,模塊間通信流程如圖7所示。



4 實(shí)驗(yàn)測(cè)試
    演示系統(tǒng)界面如圖8所示。本文使用大量的語(yǔ)音樣本來(lái)完成HTK的訓(xùn)練和模式構(gòu)建,語(yǔ)音樣本采用16 kHz采樣,16位量化。獨(dú)立的語(yǔ)音識(shí)別測(cè)試中,將訓(xùn)練集以及測(cè)試集中語(yǔ)音樣本和識(shí)別結(jié)果進(jìn)行了對(duì)比分析。本文語(yǔ)音樣本的內(nèi)容包括訓(xùn)練集(語(yǔ)料庫(kù)中的語(yǔ)音成分)和測(cè)試集(本實(shí)驗(yàn)中采集的語(yǔ)音)。由于本系統(tǒng)只用提取語(yǔ)音命令,不需要完整句子的識(shí)別,所以沒(méi)有針對(duì)句子做測(cè)試。


    本文對(duì)于訓(xùn)練集基于詞的識(shí)別率為71.7%,測(cè)試集基于詞的識(shí)別率為56.5%,測(cè)試結(jié)果如表1所列。


    表中各符號(hào)所表示的意義如下所示:
    H,正確;S,替代錯(cuò)誤;D,刪除錯(cuò)誤;I,插入錯(cuò)誤;N,標(biāo)記文件中單元總數(shù);SENT,句子,WORD:基本單元。
   

結(jié)語(yǔ)
    本文在給定的實(shí)驗(yàn)室機(jī)器人平臺(tái)上,設(shè)計(jì)了基于語(yǔ)音控制的機(jī)器狗系統(tǒng)。其中,語(yǔ)音識(shí)別子系統(tǒng)通過(guò)HTK和Julius的開(kāi)源平臺(tái)構(gòu)建而成。經(jīng)過(guò)測(cè)試分析,該系統(tǒng)能夠較好地識(shí)別人發(fā)出的語(yǔ)音命令,簡(jiǎn)化了機(jī)器人的操作,使機(jī)器與人的交互更加智能化。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉