語(yǔ)音識(shí)別系統(tǒng)中增加圖像識(shí)別技術(shù)的設(shè)計(jì)應(yīng)用

時(shí)間：2020-08-05 08:39:02

關(guān)鍵字：圖像識(shí)別語(yǔ)音識(shí)別

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 　　語(yǔ)音識(shí)別是機(jī)器自動(dòng)語(yǔ)音識(shí)別（automaTIc speech recogniTIon by machine）的簡(jiǎn)稱。　　語(yǔ)音識(shí)別技術(shù)關(guān)系到多學(xué)科的研究領(lǐng)域，不同領(lǐng)域中的研究成果都對(duì)

　　語(yǔ)音識(shí)別是機(jī)器自動(dòng)語(yǔ)音識(shí)別（automaTIc speech recogniTIon by machine）的簡(jiǎn)稱。

　　語(yǔ)音識(shí)別技術(shù)關(guān)系到多學(xué)科的研究領(lǐng)域，不同領(lǐng)域中的研究成果都對(duì)語(yǔ)音識(shí)別的發(fā)展作出了貢獻(xiàn)。讓機(jī)器識(shí)別語(yǔ)音的困難在某種程度上就像一個(gè)外語(yǔ)不好的人聽(tīng)外圍人講話一樣，它與說(shuō)話人、說(shuō)話速度、說(shuō)話內(nèi)容、環(huán)境條件有關(guān)。語(yǔ)音信號(hào)本身的特點(diǎn)造成了語(yǔ)音識(shí)別的困難。這些特點(diǎn)包括多變性、動(dòng)態(tài)性、瞬時(shí)性和連續(xù)性等。

　　計(jì)算機(jī)語(yǔ)音識(shí)別的過(guò)程與人對(duì)語(yǔ)音識(shí)別處理過(guò)程基本上是一致的。目前主流的語(yǔ)音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論。一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)可大致分為三部分：

　?。?）語(yǔ)音特征提?。浩淠康氖菑恼Z(yǔ)音波形中提取出隨時(shí)間變化的語(yǔ)音特征序列。

　?。?）聲學(xué)模型與模式匹配（識(shí)別算法）：聲學(xué)模型通常將獲取的語(yǔ)音特征通過(guò)學(xué)習(xí)算法產(chǎn)生。在識(shí)別時(shí)將輸入的語(yǔ)音特征與聲學(xué)模型（模式）進(jìn)行匹配、比較，得到最佳的識(shí)別結(jié)果。

　　（3）語(yǔ)言模型與語(yǔ)言處理：語(yǔ)言模型包括由識(shí)別語(yǔ)音命令構(gòu)成的語(yǔ)法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語(yǔ)言模型，語(yǔ)言處理可以進(jìn)行語(yǔ)法、語(yǔ)義分析。對(duì)小詞表語(yǔ)音識(shí)別系統(tǒng)，通常不需要語(yǔ)言處理部分。

　　聲學(xué)模型是識(shí)別系統(tǒng)的底層模型，并且是語(yǔ)音識(shí)別系統(tǒng)中最關(guān)系的一部分。聲學(xué)模型的目的是提供一種有效的方法，計(jì)算語(yǔ)音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)與語(yǔ)言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音字模型或音素模型）對(duì)語(yǔ)音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率以及靈活性有較大的影響。必須根據(jù)不同的語(yǔ)言的特點(diǎn)、識(shí)別系統(tǒng)詞匯量的大小決定識(shí)別單元的大小。由于有了種種困難，語(yǔ)音識(shí)別技術(shù)通常根據(jù)使用中的限制性要求，構(gòu)建成不同類型的系統(tǒng)，通常包括三類。其一為限制用戶的說(shuō)話方式，這又可以分為孤立詞語(yǔ)音識(shí)別系統(tǒng)（isolate-word speech recogniTIon system）、連接詞語(yǔ)音識(shí)別系統(tǒng)（connected-words speech recogniTIon system）、連續(xù)語(yǔ)音識(shí)別系統(tǒng)（continue speech recopnition system）和即興口語(yǔ)語(yǔ)音識(shí)別系統(tǒng)（spontaneous speech recognition system）。其二為限制用戶的用詞范圍。第三種為限制系統(tǒng)的用戶對(duì)象。采用語(yǔ)速作為系統(tǒng)的第二信息渠道，一旦系統(tǒng)跟蹤到了目標(biāo)的語(yǔ)還，在協(xié)助語(yǔ)音識(shí)別的同時(shí)還能夠有效地排除與語(yǔ)音信息不同步的外界噪聲，因此系統(tǒng)能夠獲得更好的識(shí)別性能。

圖像處理算法設(shè)計(jì)

　　語(yǔ)言模型對(duì)中、大詞匯量的語(yǔ)音識(shí)別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯(cuò)誤時(shí)可以根據(jù)語(yǔ)言學(xué)模型、語(yǔ)法結(jié)構(gòu)、語(yǔ)義學(xué)進(jìn)行判斷糾正，特別是一些同音字則必須通過(guò)上下文結(jié)構(gòu)才能確定詞義。語(yǔ)言學(xué)理論包括語(yǔ)義結(jié)構(gòu)、語(yǔ)法規(guī)則、語(yǔ)言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語(yǔ)言模型通常是采用統(tǒng)計(jì)語(yǔ)法的語(yǔ)言模型與基于規(guī)則語(yǔ)法結(jié)構(gòu)命令的語(yǔ)言模型。語(yǔ)法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系，減少了識(shí)別系統(tǒng)的搜索空間，這有利于提高系統(tǒng)的識(shí)別。

　　語(yǔ)音識(shí)別過(guò)程實(shí)際上是一種認(rèn)識(shí)過(guò)程。就像人們聽(tīng)語(yǔ)音時(shí)，并不把語(yǔ)音和語(yǔ)言的語(yǔ)法結(jié)構(gòu)、語(yǔ)義結(jié)構(gòu)分開(kāi)。因?yàn)楫?dāng)語(yǔ)音發(fā)音模糊時(shí)人們可以用這些和知識(shí)來(lái)指導(dǎo)對(duì)語(yǔ)言的理解過(guò)程，但是對(duì)機(jī)器來(lái)說(shuō)，識(shí)別系統(tǒng)也要利用這些知識(shí)，只是如何有效地描述這些語(yǔ)法和語(yǔ)義還有困難：

　?。?）小詞匯量語(yǔ)音識(shí)別系統(tǒng)：包括幾十個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。

　?。?）中等詞匯量的語(yǔ)音識(shí)別系統(tǒng)：通常包括幾百個(gè)詞至上千個(gè)詞的識(shí)別系統(tǒng)。

　?。?）大詞匯量語(yǔ)音識(shí)別系統(tǒng)：通常包括幾千至幾萬(wàn)個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。

　　這些不同的限制也確定了語(yǔ)音識(shí)別系統(tǒng)的困難度。