語(yǔ)音識(shí)別系統(tǒng)中增加圖像識(shí)別技術(shù)的設(shè)計(jì)應(yīng)用
語(yǔ)音識(shí)別是機(jī)器自動(dòng)語(yǔ)音識(shí)別(automaTIc speech recogniTIon by machine)的簡(jiǎn)稱。
語(yǔ)音識(shí)別技術(shù)關(guān)系到多學(xué)科的研究領(lǐng)域,不同領(lǐng)域中的研究成果都對(duì)語(yǔ)音識(shí)別的發(fā)展作出了貢獻(xiàn)。讓機(jī)器識(shí)別語(yǔ)音的困難在某種程度上就像一個(gè)外語(yǔ)不好的人聽(tīng)外圍人講話一樣,它與說(shuō)話人、說(shuō)話速度、說(shuō)話內(nèi)容、環(huán)境條件有關(guān)。語(yǔ)音信號(hào)本身的特點(diǎn)造成了語(yǔ)音識(shí)別的困難。這些特點(diǎn)包括多變性、動(dòng)態(tài)性、瞬時(shí)性和連續(xù)性等。
計(jì)算機(jī)語(yǔ)音識(shí)別的過(guò)程與人對(duì)語(yǔ)音識(shí)別處理過(guò)程基本上是一致的。目前主流的語(yǔ)音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式識(shí)別的基本理論。一個(gè)完整的語(yǔ)音識(shí)別系統(tǒng)可大致分為三部分:
?。?)語(yǔ)音特征提?。浩淠康氖菑恼Z(yǔ)音波形中提取出隨時(shí)間變化的語(yǔ)音特征序列。
?。?)聲學(xué)模型與模式匹配(識(shí)別算法):聲學(xué)模型通常將獲取的語(yǔ)音特征通過(guò)學(xué)習(xí)算法產(chǎn)生。在識(shí)別時(shí)將輸入的語(yǔ)音特征與聲學(xué)模型(模式)進(jìn)行匹配、比較,得到最佳的識(shí)別結(jié)果。
(3)語(yǔ)言模型與語(yǔ)言處理:語(yǔ)言模型包括由識(shí)別語(yǔ)音命令構(gòu)成的語(yǔ)法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語(yǔ)言模型,語(yǔ)言處理可以進(jìn)行語(yǔ)法、語(yǔ)義分析。對(duì)小詞表語(yǔ)音識(shí)別系統(tǒng),通常不需要語(yǔ)言處理部分。
聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,并且是語(yǔ)音識(shí)別系統(tǒng)中最關(guān)系的一部分。聲學(xué)模型的目的是提供一種有效的方法,計(jì)算語(yǔ)音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)與語(yǔ)言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音字模型或音素模型)對(duì)語(yǔ)音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率以及靈活性有較大的影響。必須根據(jù)不同的語(yǔ)言的特點(diǎn)、識(shí)別系統(tǒng)詞匯量的大小決定識(shí)別單元的大小。 由于有了種種困難,語(yǔ)音識(shí)別技術(shù)通常根據(jù)使用中的限制性要求,構(gòu)建成不同類型的系統(tǒng),通常包括三類。其一為限制用戶的說(shuō)話方式,這又可以分為孤立詞語(yǔ)音識(shí)別系統(tǒng)(isolate-word speech recogniTIon system)、連接詞語(yǔ)音識(shí)別系統(tǒng)(connected-words speech recogniTIon system)、連續(xù)語(yǔ)音識(shí)別系統(tǒng)(continue speech recopnition system)和即興口語(yǔ)語(yǔ)音識(shí)別系統(tǒng)(spontaneous speech recognition system)。其二為限制用戶的用詞范圍。第三種為限制系統(tǒng)的用戶對(duì)象。 采用語(yǔ)速作為系統(tǒng)的第二信息渠道,一旦系統(tǒng)跟蹤到了目標(biāo)的語(yǔ)還,在協(xié)助語(yǔ)音識(shí)別的同時(shí)還能夠有效地排除與語(yǔ)音信息不同步的外界噪聲,因此系統(tǒng)能夠獲得更好的識(shí)別性能。
圖像處理算法設(shè)計(jì)語(yǔ)言模型對(duì)中、大詞匯量的語(yǔ)音識(shí)別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯(cuò)誤時(shí)可以根據(jù)語(yǔ)言學(xué)模型、語(yǔ)法結(jié)構(gòu)、語(yǔ)義學(xué)進(jìn)行判斷糾正,特別是一些同音字則必須通過(guò)上下文結(jié)構(gòu)才能確定詞義。語(yǔ)言學(xué)理論包括語(yǔ)義結(jié)構(gòu)、語(yǔ)法規(guī)則、語(yǔ)言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語(yǔ)言模型通常是采用統(tǒng)計(jì)語(yǔ)法的語(yǔ)言模型與基于規(guī)則語(yǔ)法結(jié)構(gòu)命令的語(yǔ)言模型。語(yǔ)法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系,減少了識(shí)別系統(tǒng)的搜索空間,這有利于提高系統(tǒng)的識(shí)別。
語(yǔ)音識(shí)別過(guò)程實(shí)際上是一種認(rèn)識(shí)過(guò)程。就像人們聽(tīng)語(yǔ)音時(shí),并不把語(yǔ)音和語(yǔ)言的語(yǔ)法結(jié)構(gòu)、語(yǔ)義結(jié)構(gòu)分開(kāi)。因?yàn)楫?dāng)語(yǔ)音發(fā)音模糊時(shí)人們可以用這些和知識(shí)來(lái)指導(dǎo)對(duì)語(yǔ)言的理解過(guò)程,但是對(duì)機(jī)器來(lái)說(shuō),識(shí)別系統(tǒng)也要利用這些知識(shí),只是如何有效地描述這些語(yǔ)法和語(yǔ)義還有困難:
?。?)小詞匯量語(yǔ)音識(shí)別系統(tǒng):包括幾十個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。
?。?)中等詞匯量的語(yǔ)音識(shí)別系統(tǒng):通常包括幾百個(gè)詞至上千個(gè)詞的識(shí)別系統(tǒng)。
?。?)大詞匯量語(yǔ)音識(shí)別系統(tǒng):通常包括幾千至幾萬(wàn)個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。
這些不同的限制也確定了語(yǔ)音識(shí)別系統(tǒng)的困難度。