嵌入式語(yǔ)音識(shí)別系統(tǒng)電路設(shè)計(jì)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
語(yǔ)音交互系統(tǒng)是比較人性化的人機(jī)操作界面,它需要語(yǔ)音識(shí)別系統(tǒng)的支持。而語(yǔ)音識(shí)別技術(shù)在這其中起到中流砥柱的作用,它也被稱為自動(dòng)語(yǔ)音識(shí)別,其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。
特定人語(yǔ)音識(shí)別技術(shù)是基于“關(guān)鍵詞語(yǔ)列表”的識(shí)別技術(shù),它是對(duì)大量的語(yǔ)音數(shù)據(jù)(相當(dāng)于對(duì)數(shù)千人采集的數(shù)萬(wàn)小時(shí)的有效聲音數(shù)據(jù))經(jīng)語(yǔ)言學(xué)家語(yǔ)音模型分析,建立數(shù)學(xué)模型,并經(jīng)過反復(fù)訓(xùn)練提取基元語(yǔ)音的細(xì)節(jié)特征,以及提取各基元間的特征差異,得到在統(tǒng)計(jì)概率最優(yōu)化意義上的各個(gè)基元語(yǔ)音特征,最后才由資深工程師將算法以及語(yǔ)音模型轉(zhuǎn)換成硬件芯片并應(yīng)用在嵌入式系統(tǒng)中。
本文將介紹一款語(yǔ)音識(shí)別芯片——LD3320芯片。LD3320采用的是ASR技術(shù),提供了一種脫離按鍵、鍵盤、鼠標(biāo)、觸摸屏等GUI操作方式且基于語(yǔ)音的用戶界面VUI(Voice User Interface),使得用戶對(duì)該系統(tǒng)的操作更簡(jiǎn)單、快速和自然。隨著高檔MCU的不斷出現(xiàn),以MCU為核心的嵌入式語(yǔ)音交互系統(tǒng)會(huì)有非常好的應(yīng)用前景。
工作原理
圖1 LD3320和單片機(jī)(或嵌入式系統(tǒng))組成的語(yǔ)音識(shí)別系統(tǒng)原理框圖。
在使用過程中,用戶只需要把識(shí)別的關(guān)鍵詞語(yǔ)以字符串的形式傳送進(jìn)芯片,即可以在下次識(shí)別中立即生效。比如,用戶在51等主控MCU的編程中,簡(jiǎn)單地通過設(shè)置芯片的寄存器,把諸如“你好”這樣的識(shí)別關(guān)鍵詞語(yǔ)的內(nèi)容動(dòng)態(tài)地傳入芯片中,芯片就可以識(shí)別所設(shè)定的關(guān)鍵詞語(yǔ)了。每個(gè)關(guān)鍵詞語(yǔ)可以是單字、詞組、短句或者任何的中文發(fā)音的組合。基于LD3320的語(yǔ)音識(shí)別系統(tǒng)可以隨著使用流程,在運(yùn)行時(shí)動(dòng)態(tài)地更改關(guān)鍵詞語(yǔ)列表的內(nèi)容,這樣可以用一個(gè)系統(tǒng)支持多種不同的場(chǎng)景,同時(shí)也不需要用戶作任何的錄音訓(xùn)練。
圖2 STC10L08XE構(gòu)成的主控芯片
圖3 LD3320A構(gòu)成的語(yǔ)音識(shí)別主系統(tǒng)
由圖可知,由LD3320組成的語(yǔ)音識(shí)別系統(tǒng)硬件有單片機(jī)(或嵌入式系統(tǒng))及LD33202.圖2和圖3分別是由單片機(jī)STC10L08XE 構(gòu)成的主控芯片和由LD3320A 構(gòu)成的語(yǔ)音識(shí)別主系統(tǒng)。
LD3320評(píng)估板(其中,控制MCU選用的是STC的51單片機(jī))
編者結(jié)語(yǔ)
編者認(rèn)為這種語(yǔ)音識(shí)別系統(tǒng)主要應(yīng)用于語(yǔ)音控制的點(diǎn)歌系統(tǒng)、語(yǔ)音控制的手機(jī)、音控智能導(dǎo)航儀、音控智能家電產(chǎn)品等。當(dāng)然,這種語(yǔ)音識(shí)別系統(tǒng)不是完美的,它容易引起誤識(shí)別,如當(dāng)用戶說的內(nèi)容不在識(shí)別列表內(nèi)時(shí),必然會(huì)引起誤識(shí)別。
為了克服這些缺點(diǎn),降低誤識(shí)別率,可在設(shè)定好要識(shí)別的關(guān)鍵詞語(yǔ)后,再添加一些與識(shí)別列表內(nèi)的單詞有聯(lián)系的任意其他詞匯,用來吸收錯(cuò)誤識(shí)別,從而達(dá)到降低誤識(shí)別率的目的。