語(yǔ)音識(shí)別包含哪幾類(lèi)
語(yǔ)音識(shí)別主要可以分為孤立詞識(shí)別、連接詞識(shí)別、連續(xù)語(yǔ)音識(shí)別、特定人語(yǔ)音識(shí)別和非特定人語(yǔ)音識(shí)別等幾類(lèi)。以下是詳細(xì)介紹:12
孤立詞識(shí)別。這種方式是指說(shuō)話人每次只說(shuō)一個(gè)詞或短語(yǔ),每個(gè)詞或短語(yǔ)在詞匯表中都算作一個(gè)詞條,一般用在語(yǔ)音電話撥號(hào)系統(tǒng)中。1
連接詞識(shí)別。這種方式支持一個(gè)小的語(yǔ)法網(wǎng)絡(luò),其內(nèi)部形成一個(gè)狀態(tài)機(jī),可以實(shí)現(xiàn)簡(jiǎn)單的家用電器的控制,而復(fù)雜的連接詞語(yǔ)音識(shí)別系統(tǒng)可以用于電話語(yǔ)音查詢(xún)、航空訂票等系統(tǒng)。
連續(xù)語(yǔ)音識(shí)別。這種方式是指對(duì)說(shuō)話人以日常自然的方式發(fā)音,通常特指用于語(yǔ)音錄入的聽(tīng)寫(xiě)機(jī)。
特定人語(yǔ)音識(shí)別。這種方式是指只針對(duì)一個(gè)用戶(hù)的語(yǔ)音識(shí)別。
非特定人語(yǔ)音識(shí)別。這種方式是指可用于不同的用戶(hù)。
此外,還可以從識(shí)別對(duì)象的類(lèi)型、識(shí)別的詞匯量大小等方面進(jìn)行分類(lèi)。
語(yǔ)音識(shí)別系統(tǒng)可分為哪幾類(lèi)?現(xiàn)在的手機(jī)基本都有智能語(yǔ)音功能,通過(guò)語(yǔ)音可以直接和手機(jī)對(duì)話,有些軟件還可以將語(yǔ)音轉(zhuǎn)換為文字,這都需要使用語(yǔ)音識(shí)別技術(shù)。那語(yǔ)音識(shí)別系統(tǒng)可分為哪幾類(lèi)?
語(yǔ)音識(shí)別系統(tǒng)可分為哪幾類(lèi)
答:語(yǔ)音識(shí)別系統(tǒng)根據(jù)對(duì)輸入語(yǔ)音的限制,可分為特定人語(yǔ)音識(shí)別系統(tǒng)、非特定人語(yǔ)音系統(tǒng)和多人的識(shí)別系統(tǒng)三類(lèi);
根據(jù)說(shuō)話的方式可分為孤立詞語(yǔ)音識(shí)別系統(tǒng)、連接詞語(yǔ)音識(shí)別系統(tǒng)和連續(xù)語(yǔ)音識(shí)別系統(tǒng);根據(jù)詞匯量大小可分為小詞匯量語(yǔ)音識(shí)別系統(tǒng)、中等詞匯量語(yǔ)音識(shí)別系統(tǒng)和大詞匯量語(yǔ)音識(shí)別系統(tǒng)。
語(yǔ)音識(shí)別系統(tǒng)根據(jù)對(duì)輸入語(yǔ)音的限制加以分類(lèi):
可以將識(shí)別系統(tǒng)分為3類(lèi):
(1)特定人語(yǔ)音識(shí)別系統(tǒng):僅考慮對(duì)于專(zhuān)人的話音進(jìn)行識(shí)別;
(2)非特定人語(yǔ)音系統(tǒng):識(shí)別的語(yǔ)音與人無(wú)關(guān),通常要用大量不同人的語(yǔ)音數(shù)據(jù)庫(kù)對(duì)識(shí)別系統(tǒng)進(jìn)行學(xué)習(xí);
(3)多人的識(shí)別系統(tǒng):通常能識(shí)別一組人的語(yǔ)音,或者成為特定組語(yǔ)音識(shí)別系統(tǒng),該系統(tǒng)僅要求對(duì)要識(shí)別的那組人的語(yǔ)音進(jìn)行訓(xùn)練。
從說(shuō)話的方式考慮:
也可以將識(shí)別系統(tǒng)分為3類(lèi):
(1)孤立詞語(yǔ)音識(shí)別系統(tǒng):孤立詞識(shí)別系統(tǒng)要求輸入每個(gè)詞后要停頓;
(2)連接詞語(yǔ)音識(shí)別系統(tǒng):連接詞輸入系統(tǒng)要求對(duì)每個(gè)詞都清楚發(fā)音,一些連音現(xiàn)象開(kāi)始出現(xiàn);
(3)連續(xù)語(yǔ)音識(shí)別系統(tǒng):連續(xù)語(yǔ)音輸入是自然流利的連續(xù)語(yǔ)音輸入,大量連音和變音會(huì)出現(xiàn)。
從識(shí)別系統(tǒng)的詞匯量大小考慮:
也可以將識(shí)別系統(tǒng)分為3類(lèi):
(1)小詞匯量語(yǔ)音識(shí)別系統(tǒng)。通常包括幾十個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。
(2)中等詞匯量的語(yǔ)音識(shí)別系統(tǒng)。通常包括幾百個(gè)詞到上千個(gè)詞的識(shí)別系統(tǒng)。
(3)大詞匯量語(yǔ)音識(shí)別系統(tǒng)。通常包括幾千到幾萬(wàn)個(gè)詞的語(yǔ)音識(shí)別系統(tǒng)。隨著計(jì)算機(jī)與數(shù)字信號(hào)處理器運(yùn)算能力以及識(shí)別系統(tǒng)精度的提高,識(shí)別系統(tǒng)根據(jù)詞匯量大小進(jìn)行分類(lèi)也不斷進(jìn)行變化。目前是中等詞匯量的識(shí)別系統(tǒng)到將來(lái)可能就是小詞匯量的語(yǔ)音識(shí)別系統(tǒng)。這些不同的限制也確定了語(yǔ)音識(shí)別系統(tǒng)的困難度。
語(yǔ)音識(shí)別技術(shù)應(yīng)用 編輯語(yǔ)音識(shí)別技術(shù)的應(yīng)用包括語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音文檔檢索、簡(jiǎn)單的聽(tīng)寫(xiě)數(shù)據(jù)錄入等。語(yǔ)音識(shí)別技術(shù)與其他自然語(yǔ)言處理技術(shù)如機(jī)器翻譯及語(yǔ)音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語(yǔ)音到語(yǔ)音的翻譯。
語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。
歷史發(fā)展 編輯早在計(jì)算機(jī)發(fā)明之前,自動(dòng)語(yǔ)音識(shí)別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語(yǔ)音識(shí)別及合成的雛形。而19XX產(chǎn)的Radio Rex玩具狗可能是最早的語(yǔ)音識(shí)別器,當(dāng)這只狗的名字被呼喚的時(shí)候,它能夠從底座上彈出來(lái)。最早的基于電子計(jì)算機(jī)的語(yǔ)音識(shí)別系統(tǒng)是由ATT貝爾實(shí)驗(yàn)室開(kāi)發(fā)的Audrey語(yǔ)音識(shí)別系統(tǒng),它能夠識(shí)別10個(gè)英文數(shù)字。其識(shí)別方法是跟蹤語(yǔ)音中的共振峰。該系統(tǒng)得到了98%的正確率。到1950年代末,倫敦學(xué)院(Colledge of London)的Denes已經(jīng)將語(yǔ)法概率加入語(yǔ)音識(shí)別中。
1960年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語(yǔ)音識(shí)別。這一時(shí)代的兩大突破是線性預(yù)測(cè)編碼Linear Predictive Coding (LPC), 及動(dòng)態(tài)時(shí)間規(guī)整Dynamic Time Warp技術(shù)。
語(yǔ)音識(shí)別技術(shù)的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理,經(jīng)過(guò)Rabiner等人的研究,卡內(nèi)基梅隆大學(xué)的李開(kāi)復(fù)最終實(shí)現(xiàn)了X個(gè)基于隱馬爾科夫模型的大詞匯量語(yǔ)音識(shí)別系統(tǒng)Sphinx[4]。此后嚴(yán)格來(lái)說(shuō)語(yǔ)音識(shí)別技術(shù)并沒(méi)有脫離HMM框架。
盡管多年來(lái)研究人員一直嘗試將“聽(tīng)寫(xiě)機(jī)”推廣,語(yǔ)音識(shí)別技術(shù)在目前還無(wú)法支持無(wú)限領(lǐng)域,無(wú)限說(shuō)話人的聽(tīng)寫(xiě)機(jī)應(yīng)用。
模型 編輯目前,主流的大詞匯量語(yǔ)音識(shí)別系統(tǒng)多采用統(tǒng)計(jì)模式識(shí)別技術(shù)。典型的基于統(tǒng)計(jì)模式識(shí)別方法的語(yǔ)音識(shí)別系統(tǒng)由以下幾個(gè)基本模塊所構(gòu)成:
信號(hào)處理及特征提取模塊。該模塊的主要任務(wù)是從輸入信號(hào)中提取特征,供聲學(xué)模型處理。同時(shí),它一般也包括了一些信號(hào)處理技術(shù),以盡可能降低環(huán)境噪聲、信道、說(shuō)話人等因素對(duì)特征造成的影響。 聲學(xué)模型。典型系統(tǒng)多采用基于一階隱馬爾科夫模型進(jìn)行建模。 發(fā)音詞典。發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實(shí)際提供了聲學(xué)模型建模單元與語(yǔ)言模型建模單元間的映射。 語(yǔ)言模型。語(yǔ)言模型對(duì)系統(tǒng)所針對(duì)的語(yǔ)言進(jìn)行建模。理論上,包括正則語(yǔ)言,上下文無(wú)關(guān)文法在內(nèi)的各種語(yǔ)言模型都可以作為語(yǔ)言模型,但目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計(jì)的N元文法及其變體。 。是語(yǔ)音識(shí)別系統(tǒng)的核心之一,其任務(wù)是對(duì)輸入的信號(hào),根據(jù)聲學(xué)、語(yǔ)言模型及詞典,尋找能夠以最大概率輸出該信號(hào)的詞串。
系統(tǒng)構(gòu)成 編輯聲學(xué)特征
聲學(xué)特征的提取與選擇是語(yǔ)音識(shí)別的一個(gè)重要環(huán)節(jié)。聲學(xué)特征的提取既是一個(gè)信息大幅度壓縮的過(guò)程,也是一個(gè)信號(hào)解卷過(guò)程,目的是使模式劃分器能更好地劃分。
由于語(yǔ)音信號(hào)的時(shí)變特性,特征提取必須在一小段語(yǔ)音信號(hào)上進(jìn)行,也即進(jìn)行短時(shí)分析。這一段被認(rèn)為是平穩(wěn)的分析區(qū)間稱(chēng)之為幀,幀與幀之間的偏移通常取幀長(zhǎng)的1/2或1/3。通常要對(duì)信號(hào)進(jìn)行預(yù)加重以提升高頻,對(duì)信號(hào)加窗以避免短時(shí)語(yǔ)音段邊緣的影響。
常用的一些聲學(xué)特征 線性預(yù)測(cè)系數(shù)(Linear Predictive Coefficient,LPC):線性預(yù)測(cè)分析從人的發(fā)聲機(jī)理入手,通過(guò)對(duì)聲道的短管級(jí)聯(lián)模型的研究,認(rèn)為系統(tǒng)的傳遞函數(shù)符合全極點(diǎn)數(shù)字濾波器的形式,從而n時(shí)刻的信號(hào)可以用前若干時(shí)刻的信號(hào)的線性組合來(lái)估計(jì)。通過(guò)使實(shí)際語(yǔ)音的采樣值和線性預(yù)測(cè)采樣值之間達(dá)到均方差最小LMS,即可得到線性預(yù)測(cè)系數(shù)LPC。對(duì)LPC的計(jì)算方法有自相關(guān)法(德賓Durbin法)、協(xié)方差法、格型法等等。計(jì)算上的快速有效保證了這一聲學(xué)特征的廣泛使用。與LPC這種預(yù)測(cè)參數(shù)模型類(lèi)似的聲學(xué)特征還有線譜對(duì)LSP、反射系數(shù)等等。 倒譜系數(shù):利用同態(tài)處理方法,對(duì)語(yǔ)音信號(hào)求離散傅立葉變換DFT后取對(duì)數(shù),再求反變換iDFT就可得到倒譜系數(shù)。對(duì)LPC倒譜(LPCCEP),在獲得濾波器的線性預(yù)測(cè)系數(shù)后,可以用一個(gè)遞推公式計(jì)算得出。實(shí)驗(yàn)表明,使用倒譜可以提高特征參數(shù)的穩(wěn)定性。 梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCCs)和感知線性預(yù)測(cè)(Perceptual Linear Predictive,PLP):不同于LPC等通過(guò)對(duì)人的發(fā)聲機(jī)理的研究而得到的聲學(xué)特征,Mel倒譜系數(shù)MFCC和感知線性預(yù)測(cè)PLP是受人的聽(tīng)覺(jué)系統(tǒng)研究成果推動(dòng)而導(dǎo)出的聲學(xué)特征。對(duì)人的聽(tīng)覺(jué)機(jī)理的研究發(fā)現(xiàn),當(dāng)兩個(gè)頻率相近的音調(diào)同時(shí)發(fā)出時(shí),人只能聽(tīng)到一個(gè)音調(diào)。臨界帶寬指的就是這樣一種令人的主觀感覺(jué)發(fā)生突變的帶寬邊界,當(dāng)兩個(gè)音調(diào)的頻率差小于臨界帶寬時(shí),人就會(huì)把兩個(gè)音調(diào)聽(tīng)成一個(gè),這稱(chēng)之為屏蔽效應(yīng)。Mel刻度是對(duì)這一臨界帶寬的度量方法之一。
MFCC的計(jì)算首先用FFT將時(shí)域信號(hào)轉(zhuǎn)化成頻域,之后對(duì)其對(duì)數(shù)能量譜用依照Mel刻度分布的三角濾波器組進(jìn)行卷積,最后對(duì)各個(gè)濾波器的輸出構(gòu)成的向量進(jìn)行離散余弦變換DCT,取前N個(gè)系數(shù)。PLP仍用德賓法去計(jì)算LPC參數(shù),但在計(jì)算自相關(guān)參數(shù)時(shí)用的也是對(duì)聽(tīng)覺(jué)激勵(lì)的對(duì)數(shù)能量譜進(jìn)行DCT的方法。
中文聲學(xué)特征
以普通話發(fā)音為例,我們會(huì)將一個(gè)字的發(fā)音切割成兩個(gè)部分,分別是聲母(initials)與韻母(finals)。而在發(fā)音的過(guò)程之中,聲母轉(zhuǎn)變至韻母是一個(gè)漸進(jìn)而非瞬間的改變,因此我使用右文相關(guān)聲韻母模式(Right-Context-Dependent Initial Final, RCDIF)作為分析方法,可以更X的辨識(shí)出正確的音節(jié)(syllable)。
聲學(xué)模型
語(yǔ)音識(shí)別系統(tǒng)的模型通常由聲學(xué)模型和語(yǔ)言模型兩部分組成,分別對(duì)應(yīng)于語(yǔ)音到音節(jié)概率的計(jì)算和音節(jié)到字概率的計(jì)算。本節(jié)和下一節(jié)分別介紹聲學(xué)模型和語(yǔ)言模型方面的技術(shù)。
HMM聲學(xué)建模:馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī),隱馬爾可夫模型HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見(jiàn),外界只能看到各個(gè)時(shí)刻的輸出值。對(duì)語(yǔ)音識(shí)別系統(tǒng),輸出值通常就是從各個(gè)幀計(jì)算而得的聲學(xué)特征。用HMM刻畫(huà)語(yǔ)音信號(hào)需作出兩個(gè)假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值只與當(dāng)前狀態(tài)(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個(gè)假設(shè)大大降低了模型的復(fù)雜度。HMM的評(píng)估、解碼和訓(xùn)練相應(yīng)的算法是前向算法、Viterbi算法和前向后向算法。
語(yǔ)音識(shí)別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓?fù)浣Y(jié)構(gòu)來(lái)對(duì)識(shí)別基元建模,一個(gè)音素就是一個(gè)三至五狀態(tài)的HMM,一個(gè)詞就是構(gòu)成詞的多個(gè)音素的HMM串行起來(lái)構(gòu)成的HMM,而連續(xù)語(yǔ)音識(shí)別的整個(gè)模型就是詞和靜音組合起來(lái)的HMM。 上下文相關(guān)建模:協(xié)同發(fā)音,指的是一個(gè)音受前后相鄰音的影響而發(fā)生變化,從發(fā)聲機(jī)理上看就是人的發(fā)聲器官在一個(gè)音轉(zhuǎn)向另一個(gè)音時(shí)其特性只能漸變,從而使得后一個(gè)音的頻譜與其他條件下的頻譜產(chǎn)生差異。上下文相關(guān)建模方法在建模時(shí)考慮了這一影響,從而使模型能更準(zhǔn)確地描述語(yǔ)音,只考慮前一音的影響的稱(chēng)為Bi-Phone,考慮前一音和后一音的影響的稱(chēng)為T(mén)ri-Phone。
英語(yǔ)的上下文相關(guān)建模通常以音素為基元,由于有些音素對(duì)其后音素的影響是相似的,因而可以通過(guò)音素解碼狀態(tài)的聚類(lèi)進(jìn)行模型參數(shù)的共享。聚類(lèi)的結(jié)果稱(chēng)為senone。決策樹(shù)用來(lái)實(shí)現(xiàn)高效的triphone對(duì)senone的對(duì)應(yīng),通過(guò)回答一系列前后音所屬類(lèi)別(元/輔音、清/濁音等等)的問(wèn)題,最終確定其HMM狀態(tài)應(yīng)使用哪個(gè)senone。分類(lèi)回歸樹(shù)CART模型用以進(jìn)行詞到音素的發(fā)音標(biāo)注。