當前位置:首頁 > 工業(yè)控制 > 工業(yè)控制
[導讀]摘要:文中闡述的是家庭監(jiān)護機器人項目中語音識別系統(tǒng)設計的部分,通過DSP、DMA和ARM Cortex-A8的并行處理,利用雙緩沖的方法,在嵌入式Linux上實現(xiàn)了基于ATK的實時語音識別系統(tǒng)。文中對該系統(tǒng)的軟硬件進行了設計。在

摘要:文中闡述的是家庭監(jiān)護機器人項目中語音識別系統(tǒng)設計的部分,通過DSP、DMA和ARM Cortex-A8的并行處理,利用雙緩沖的方法,在嵌入式Linux上實現(xiàn)了基于ATK的實時語音識別系統(tǒng)。文中對該系統(tǒng)的軟硬件進行了設計。在硬件方面,給出語音識別系統(tǒng)的硬件組成原理,并提供了關(guān)鍵部分原理圖;在軟件方面,提出實時語音識別的方法,給出應用程序?qū)崿F(xiàn)流程。最后通過真人說話來進行語音識別實驗,實時語音識別率達到了94.67%以上,實驗驗證了系統(tǒng)的軟件硬件設計的正確性。
關(guān)鍵詞:語音處理;家庭機器人;ATK;實時系統(tǒng)

    語音是人類最常用的交流方式,也是人類和計算機交流最渴望的方式。因此用語音同計算機交流也成為了最近研究的熱點,計算機對語音的理解是計算機科學中的一個引人人勝的、富有挑戰(zhàn)性的課題。
    進入90年代,隨著多媒體時代的來臨,迫切要求語音識別系統(tǒng)從實驗室走向?qū)嵱谩TS多發(fā)達國家如美國、日本、韓國以及IBM、Apple、AT&T、NTT等著名公司都為語音識別系統(tǒng)的實用化開發(fā)研究投以巨資。IBM公司于1997年開發(fā)出漢語ViaVoice語音識別系統(tǒng),次年又開發(fā)出可以識別上海話、廣東話和四川話等地方口音的語音識別系統(tǒng)ViaVoice’98。目前市場上已經(jīng)出現(xiàn)了語音識別電話、語音識別記事本等產(chǎn)品,如美國VPTC公司的Voice Organizer和法國的Parrot等。
    我國語音識別研究工作開始的較晚,但近年來發(fā)展得很快,一直緊跟國際水平,國家也很重視,并把大詞匯量語音識別的研究列入“8 63”計劃,由中科院聲學所、自動化所、清華大學電子工程系及北京大學等單位研究開發(fā),取得了高水平的科研成果,如中科院自動化所研制的非特定人、連續(xù)語音聽寫系統(tǒng)和漢語語音人機對話系統(tǒng),其字準確率或系統(tǒng)響應率可達90%以上。鑒于中國未來龐大的市場,國外也非常重視漢語語音識別的研究。美國、新加坡等地聚集了一批來自大陸、臺灣、香港等地的學者,研究成果已達到相當高水平。

1 系統(tǒng)設計
    文中是家庭監(jiān)護機器人項目中的語音識別系統(tǒng)設計部分,設計目的是設計出一種可以識別語音的、協(xié)助監(jiān)護家庭行動不方便人員的機器人。為實現(xiàn)該語音識別系統(tǒng),設計了語音識別系統(tǒng)總體結(jié)構(gòu)框圖,如圖1所示。


1.1 硬件設計
    文中所研究和設計的功能,都是應用在移動機器人上的。因而系統(tǒng)的研究設計需要考慮到體積小、省電、便于移動的特性,并需具有便于家庭用戶操作的友好顯示界面。對于語音識別部分,需要用到用于語音識別算法處理的處理器、語音采集電路和語音輸出電路,如圖2所示。其中語音識別算法運算的處理器主要負責算法的運算處理,相當于機器人的大腦;語音采集電路負責采集外部的聲音信號,相當于機器人的耳朵;語音輸出電路負責輸出話語聲音,相當于機器人的嘴巴。


    1)語音識別算法處理器選擇
    根據(jù)系統(tǒng)設計功能的要求,目前常用的語音識別芯片種類一般有:單片機(MCU)、DSP和SoC(System on Circuit)。考慮到普通單片機(MCU)資源的緊缺及運行速度較慢的缺點,因而在本系統(tǒng)設計將不考慮使用單片機(MCU)作為語音識別的處理器。DSP包含用作數(shù)字信號處理的專用部件,運算能力強、精度高,但目前DSP的價格比較高,同時考慮到本系統(tǒng)的特性,需要選擇一種既有較強的運算能力,合適于語音識別的功能,并且能實現(xiàn)較好的用戶操作界面,并帶有文件系統(tǒng)(用于識別地圖)的功能,因而選擇DSP并不是明智之舉。目前Texas Instruments公司新推出的一款芯片OMAP3530,它具有雙內(nèi)核ARM CortexTM-A8的內(nèi)核和TMS320C64+TM DSP內(nèi)核,屬于高性能的OMAP35x架構(gòu)系列產(chǎn)品,滿足了系統(tǒng)設計的各種功能特性要求。
    2)語音編解碼芯片選擇
    機器人選擇一款合適的語音處理芯片是非常重要的??紤]到系統(tǒng)中用到了各種電源,并需要對電源進行管理,因此選擇TI公司配套的TPS 65930芯片來作為系統(tǒng)語音識別部分的音頻編解碼處理功能的硬件平臺是非常合適的。該芯片是一個集成了電源管理、ADC、嵌入式電源控制(EPC)、全功能的音頻編解碼器于一體的芯片,滿足了系統(tǒng)所有電源管理和音頻編解碼的需要,為設計的PCB板節(jié)省了空間,同時減少了多電源硬件設計的負責布線煩惱。
    3)電路設計
    本文的設計是用在移動機器人上的,因而需要語音的輸入、識別處理及語音輸出的功能。對于語音的輸入采集,本文使用聲音傳感器麥克風及外圍電路來實現(xiàn)。對于語音輸出部分,使用功率放大器結(jié)合喇叭來使用。設計語音部分原理圖如圖3所示。


1.2 軟件設計
    HTK(Hidden Markov Model Toolkit)是一套專門的建立和處理隱馬可夫模型(HMMs)的實驗工具包,由英國劍橋大學工程系(Cambridge University Engineering Department,CUED)開發(fā)的,主要應用于語音識別領域,也可以應用于語音合成、字符識別和DNA排序等研究領域。HTK經(jīng)過劍橋大學、Entropic公司及Microsoft公司的不斷增強和改進,使其在語音識別領域處于世界領先水平。
    基于HTK的語言識別時,識別結(jié)果適用只能顯示在DOS或終端上,而且不利于將結(jié)果保存、移植或者二次開發(fā)利用。在本語音識別系統(tǒng)中使用了HTK接口工具ATK(AnApplication Toolkit for HTK)。ATK是由英國劍橋大學開發(fā)的開源語音識別工具,是對HTK的C++多線程封裝,跟HTK一樣,它支持Linux和Windows,它包括HTK(HTKLib)、AHTK、AGram、ANGram、ADict、AHMMs、AResource、ARMan、ARec、ACode、ASour ce、ATee、AComponent、ABuffer、APacket、Asyn、FLite(SYNLib)、ALog模塊部件。
    基于ATK的語音識別軟件應用系統(tǒng)的由語音信號采集模塊、基于DMA的雙向高速RAM存取模塊、ATK語音識別模塊、系統(tǒng)管理模塊、語音輸出模塊等模塊組成,如圖4所示。


    在軟件設計中,系統(tǒng)管理模塊主要負責系統(tǒng)的總體管理調(diào)度,是應用系統(tǒng)的調(diào)度中心;語音信號采集模塊主要負責控制數(shù)據(jù)采集芯片TPS 65930;基于DMA的雙向RAM存取模塊主要負責實現(xiàn)DMA驅(qū)動及雙向RAM的讀寫存取,使用了通道1來實現(xiàn)高速地把語音信號采集到的數(shù)據(jù)存儲到RAM上,并使用通道2實現(xiàn)高速地把RAM的數(shù)據(jù)取出來,用于語音的識別;語音輸出模塊主要負責把相應的音頻數(shù)據(jù)送到TPS65930,并控制TPS6 5930對接收到的音頻解碼輸出到功放電路,實現(xiàn)語音輸出的功能。軟件的設計流程圖如圖5所示。



2 語音識別系統(tǒng)實驗及結(jié)果
    文中設計的語音識別系統(tǒng)如圖6所示。在實驗中總共進行了3輪話語測試,每輪300句話語測試,其中150句為家庭監(jiān)護機器人需要識別的話語,150句話語為機器人不予置理的無關(guān)話語。本系統(tǒng)只設置10個需要識別的話語,由15名學生分別讀音進行測試。同時對無關(guān)話語也是由該15名學生,每人10句分別隨機讀音測試。從顯示結(jié)果可以看出,第1輪中,先測試的150句無關(guān)話語中,能正確識別出無關(guān)話語數(shù)為150句,識別出無關(guān)話語率為100%,但對需識別的話語中,正確識別出148句,2句識別出錯,識別率為98.67%;在第2輪中,同樣先測試的150句無關(guān)話語中,能正確識別出無關(guān)話語數(shù)為150句,識別出為無關(guān)話語率為100%,但對需識別的話語中,正確識別出142句,8句識別出錯,識別率為94.67%;在第3輪中,同樣先測試的150句無關(guān)話語中,能正確識別出無關(guān)話語數(shù)為150句,識別出無關(guān)話語率為100%,但對需識別的話語中,正確識別出146句,識別率為97.33%。在3輪測試中,系統(tǒng)都能實時響應所有語句,未出現(xiàn)漏句現(xiàn)象。并且在實驗測試的過程中,系統(tǒng)的響應速度都非??欤杏^上沒有時間延遲,與真人交流速度相當。


    從實驗測試結(jié)果可看出,對于識別10個需要識別的話語的識別率高達94.67%以上,具有較高的識別率,因而該語音識別系統(tǒng)較好達到了家庭監(jiān)護機器人使用的要求。

3 結(jié)論
    文中通過DSP、DMA和ARM Cortex-A8的并行處理,利用雙緩沖的方法,在嵌入式Linux上實現(xiàn)了基于ATK的實時語音識別系統(tǒng)。該系統(tǒng)可以實時地實現(xiàn)語音識別,具有較高識別率,較快的響應速度。可以應用在家庭監(jiān)護機器人及其相關(guān)領域中。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉