如何運(yùn)用RSC-3x開發(fā)出高性能的語音識別產(chǎn)品
摘要:本文給出了在運(yùn)用RSC-3x設(shè)計(jì)高性能的語音識別產(chǎn)品時(shí)應(yīng)考慮的與硬件有關(guān)的若干問題:噪音降除、電路設(shè)計(jì)、PCB設(shè)計(jì)、麥克風(fēng)的選擇、麥克風(fēng)的安放、電源設(shè)計(jì)。
關(guān)鍵詞: RSC-3x, 識別率,噪音降除,電路設(shè)計(jì),PCB設(shè)計(jì),麥克風(fēng),電源
RSC-3x是美國Sensory公司出品的交互式語音產(chǎn)品。它同RSC其他系列的產(chǎn)品一樣運(yùn)用神經(jīng)元算法實(shí)現(xiàn)了語音識別的功能,在理想環(huán)境下,其識別率可達(dá)97%以上。并具有語音合成、錄音回放、四聲道音樂合成等語音處理功能。由于內(nèi)含一個(gè)8位處理器,RSC-3x還可實(shí)現(xiàn)通用處理器的系統(tǒng)控制功能。RSC-3x的高性能和適中的價(jià)格使得它主要應(yīng)用在消費(fèi)類電子產(chǎn)品和價(jià)格敏感的家電產(chǎn)品上。
但是,如何才能運(yùn)用RSC-3x系列產(chǎn)品開發(fā)出性能良好的語音識別產(chǎn)品呢?本文給出了在設(shè)計(jì)語音識別產(chǎn)品時(shí)應(yīng)在硬件方面考慮的若干問題。
一、噪音降除
語音識別的準(zhǔn)確率(簡稱識別率)會受到諸多因素的干擾而下降。一個(gè)導(dǎo)致識別率下降最常見的因素就是噪音:來自系統(tǒng)內(nèi)部的電子噪音和麥克風(fēng)所拾取的聲頻噪音。RSC-3x的一個(gè)主要革新技術(shù)就是在其片內(nèi)加入了一個(gè)聲頻預(yù)放電路。來自典型的駐極體麥克風(fēng)的電壓信號只是毫伏級的,而能被RSC-3x使用的整個(gè)預(yù)放增益信號卻要放大到200倍以上。通過RSC-3x內(nèi)置的預(yù)放電路,只需外加少許的幾個(gè)被動(dòng)元器件就可以達(dá)到這個(gè)放大作用。良好的接地措施和消除模擬電路中的交叉干擾會進(jìn)一步確保良好的識別率。鼓勵(lì)用戶大聲說話和接近麥克風(fēng)可以輔助獲得良好的信噪比。
二、電路設(shè)計(jì)
圖一是RSC-3x聲頻預(yù)放部分的參考電路。阻值為1.5K的麥克風(fēng)電阻(Rx)對系統(tǒng)增益具有很大的影響,因此應(yīng)根據(jù)麥克風(fēng)的敏感度來決定其值的大小。圖中的1.5K是典型值。
下表所列為Rx和Cx的推薦值:
Rx |
Cx |
1K |
0.01uF |
1.5K |
0.0068uF |
2.2K |
0.0047uF |
2.7K |
0.0033uF |
3.9K |
0.0027uF |
4.7K |
0.0022uF |
三、PCB設(shè)計(jì)
推薦使用帶地平面的雙面印制的PCB板。地平面應(yīng)覆蓋整個(gè)模擬電路區(qū)域而僅在RSC-3x附近接地。為減少交叉干擾,模擬地和數(shù)字地應(yīng)盡可能地從物理上分隔開來。特別要注意的是:將高速時(shí)鐘線(如地址線和數(shù)據(jù)線)遠(yuǎn)離麥克風(fēng)元器件和電路。
每個(gè)數(shù)字IC都要在緊挨著VDD的地方接一個(gè)0.1uF的旁路電容,RSC芯片的每對VDD腳和VSS腳間都要接一個(gè)。該旁路電容應(yīng)該是最大電壓為50V的陶瓷電容。如果使用了3端穩(wěn)壓器(如7805),應(yīng)在其輸入/輸出腳和地之間接近穩(wěn)壓器的地方接上鉭旁路電容。
在使用電池的產(chǎn)品中,串接一個(gè)二極管以避免電池裝反時(shí)損壞電路。
如果產(chǎn)品中除了RSC還有其他需要用到數(shù)字時(shí)鐘的模塊(如開關(guān)電源、LCD驅(qū)動(dòng)器等),特別要注意防止這些信號進(jìn)入到RSC的聲頻電路中去。
四、麥克風(fēng)的選擇
對絕大部分的產(chǎn)品來說,廉價(jià)的多向駐極體電容麥克風(fēng)(最小敏感度為-60dB)就足夠了。在有些應(yīng)用中,信號與音頻噪音來源于不同方向時(shí),定向麥克風(fēng)可能更適合些。由于定向麥克風(fēng)的頻率反應(yīng)取決于麥克風(fēng)與聲源間的距離,這樣的麥克風(fēng)應(yīng)謹(jǐn)慎使用。為得到最佳性能,語音識別產(chǎn)品應(yīng)運(yùn)用于安靜的環(huán)境,說話人的嘴應(yīng)與麥克風(fēng)極為接近。 如果產(chǎn)品是為在嘈雜環(huán)境中使用而設(shè)計(jì)的,設(shè)計(jì)時(shí)要充分考慮周圍環(huán)境的噪音。提高信噪比將有助于產(chǎn)品的成功。
五、 麥克風(fēng)的安放
設(shè)計(jì)恰當(dāng)?shù)柠溈孙L(fēng)嵌入方式和選擇性能一致的麥克風(fēng)是重要的。因?yàn)閷溈孙L(fēng)不當(dāng)?shù)穆晫W(xué)布置會降低RSC-3x的識別率。麥克風(fēng)元件有許多種可能的物理放置方式,但有的就會比別的性能更好效果更佳。為此,Sensory推薦了以下的麥克風(fēng)放置方案:
首先: 產(chǎn)品中,麥克風(fēng)元件應(yīng)盡可能地接近外殼,應(yīng)完全位于塑料外殼內(nèi)。麥克風(fēng)元件和外殼間不應(yīng)有任何空隙。只要有空隙就會產(chǎn)生回音,從而降低識別率。
其次:麥克風(fēng)元件的前部應(yīng)確保干凈無污,以免干擾識別。麥克風(fēng)前面的外殼上要保留直徑至少為5mm的孔。如果一定要在麥克風(fēng)的前面加塑料表面的話,塑料表面要盡可能地薄,最好不要超過0.7mm。
三:如果可能的話,麥克風(fēng)與外殼間應(yīng)聲音隔離??梢詫Ⅺ溈孙L(fēng)用橡皮或泡沫等海綿物質(zhì)包裹起來。這樣做的目的在于防止由搬運(yùn)或震動(dòng)產(chǎn)品時(shí)產(chǎn)生的聽覺噪音被麥克風(fēng)采集。這種外來的噪音會降低識別率。
如果麥克風(fēng)從距離說話人的嘴15cm的地方移到距離為30cm的地方,信號功率就降低了1/4。高音和低音間的差別也大于1/4。RSC-3x提供了一個(gè)AGC(自動(dòng)增益調(diào)節(jié))來補(bǔ)償太大或太小的聲音信號。AGC在麥克風(fēng)的預(yù)放內(nèi)工作。如果超過了AGC的調(diào)節(jié)范圍,軟件會給說話人提供一個(gè)聲音回饋,如提示“請說大聲點(diǎn)”或“請說小聲點(diǎn)”來提醒說話人。
六、電源設(shè)計(jì)
由于 RSC-3x工作時(shí)其語音識別電路要消耗約10mA 的電流,電源的設(shè)計(jì)在這里顯得尤為重要。如果系統(tǒng)連續(xù)聆聽尋找一個(gè)給定的詞匯,那么在幾小時(shí)內(nèi)就能消耗完一個(gè)紐扣電池的電能,幾天內(nèi)消耗掉一個(gè)大容量的堿性電池的電能。因此如果產(chǎn)品需要識別器一直處于工作狀態(tài)的話,系統(tǒng)應(yīng)該采用市電供電。相反的,如果電源采用電池供電的話,那么產(chǎn)品大部分時(shí)間應(yīng)工作于低功耗的“睡眠”狀態(tài),只在需要識別時(shí)被喚醒就行了。RSC-3x的喚醒可以通過按鍵或其他IO口事件或震蕩器二的時(shí)鐘倒計(jì)時(shí)來實(shí)現(xiàn),但無法被麥克風(fēng)采集到的語音信號喚醒。
使用市電供電時(shí),在 VDD和GND間測得的市電電源波紋不應(yīng)超過5mV。因此,需要在電源部分增加直流電源穩(wěn)壓器(如7805)來穩(wěn)定電壓。
綜上所述,只要在硬件設(shè)計(jì)方面多加注意,就可以得到很好的信噪比,開發(fā)出高性能的語音識別產(chǎn)品。