關(guān)于多語言及跨語言的語音識(shí)別技術(shù)敘述
在大多數(shù)傳統(tǒng)的自動(dòng)語音識(shí)別(automaTIc speech recogniTIon,ASR)系統(tǒng)中,不同的語言(方言)是被獨(dú)立考慮的,一般會(huì)對(duì)每種語言從零開始訓(xùn)練一個(gè)聲學(xué)模型(acousTIc model,AM)。這引入了幾個(gè)問題。第一,從零開始為一種語言訓(xùn)練一個(gè)聲學(xué)模型需要大量人工標(biāo)注的數(shù)據(jù),這些數(shù)據(jù)不僅代價(jià)高昂,而且需要很多時(shí)間來獲得。這還導(dǎo)致了資料豐富和資料匱乏的語言之間聲學(xué)模型質(zhì)量間的可觀差異。這是因?yàn)閷?duì)于資料匱乏的語言來說,只有低復(fù)雜度的小模型能夠被估計(jì)出來。大量標(biāo)注的訓(xùn)練數(shù)據(jù)對(duì)那些低流量和新發(fā)布的難以獲得大量有代表性的語料的語言來說也是不可避免的瓶頸。第二,為每種語言獨(dú)立訓(xùn)練一個(gè) AM 增加了累計(jì)訓(xùn)練時(shí)間。這在基于 DNN 的 ASR 系統(tǒng)中尤為明顯,因?yàn)榫拖裨诘?章中所描述的那樣,由于 DNN 的參數(shù)量以及所使用的反向傳播(backpropagaTIon,BP)算法,訓(xùn)練DNN要顯著慢于訓(xùn)練混合高斯模型(Gaussian mixture models,GMM)。第三,為每種語言構(gòu)建分開的語言模型阻礙了平滑的識(shí)別,并且增加了識(shí)別混合語言語音的代價(jià)。為了有效且快速地為大量語言訓(xùn)練精確的聲學(xué)模型,減少聲學(xué)模型的訓(xùn)練代價(jià),以及支持混合語言的語音識(shí)別(這是至關(guān)重要的新的應(yīng)用場(chǎng)景,例如,在香港,英語詞匯經(jīng)常會(huì)插入中文短語中),研究界對(duì)構(gòu)建多語言 ASR 系統(tǒng)以及重用多語言資源的興趣正在不斷增加。
盡管資源限制(有標(biāo)注的數(shù)據(jù)和計(jì)算能力兩方面)是研究多語言 ASR 問題的一個(gè)實(shí)踐上的原因,但這并不是唯一原因。通過對(duì)這些技術(shù)進(jìn)行研究和工程化,我們同樣可以增強(qiáng)對(duì)所使用的算法的理解以及對(duì)不同語言間關(guān)系的理解。目前已經(jīng)有很多研究多語言和跨語言 ASR 的工作(例如 [265, 431])。在本章中,我們只集中討論那些使用了神經(jīng)網(wǎng)絡(luò)的工作。
我們將在下面幾節(jié)中討論多種不同結(jié)構(gòu)的基于DNN的多語言ASR(multilingualASR)系統(tǒng)。這些系統(tǒng)都有同一個(gè)核心思想:一個(gè)DNN的隱藏層可以被視為特征提取器的層疊,而只有輸出層直接對(duì)應(yīng)我們感興趣的類別,就像第9章所闡述的那樣。這些特征提取器可以跨多種語言享,采用來自多種語言的數(shù)據(jù)聯(lián)合訓(xùn)練,并遷移到新的(并且通常是資源匱乏的)語言。通過把共享的隱藏層遷移到一個(gè)新的語言,我們可以降低數(shù)據(jù)量的需求,而不必從零訓(xùn)練整個(gè)巨大的DNN,因?yàn)橹挥刑囟ㄕZ言的輸出層的權(quán)重需要被重新訓(xùn)練。
12.2.1 基于Tandem或瓶頸特征的跨語言語音識(shí)別
大多數(shù)使用神經(jīng)網(wǎng)絡(luò)進(jìn)行多語言和跨語言聲學(xué)建模(multilingual and crosslingual acoustic modeling)的早期研究工作都集中在 Tandem 和瓶頸特征方法上[318, 326, 356, 383, 384]。直到文獻(xiàn) [73, 359] 問世以后,DNN-HMM 混合系統(tǒng)才成為大詞匯連續(xù)語音識(shí)別(large vocabulary continuous speech recognition,LVCSR)聲學(xué)模型的一個(gè)重要選項(xiàng)。如第10章中所述的,在 Tandem 或瓶頸特征方法中,神經(jīng)網(wǎng)絡(luò)可以用來進(jìn)行單音素狀態(tài)或三音素狀態(tài)的分類,而這些神經(jīng)網(wǎng)絡(luò)的輸出或隱藏層激勵(lì)可以用作 GMM-HMM 聲學(xué)模型的鑒別性特征。
由于神經(jīng)網(wǎng)絡(luò)的隱藏層和輸出層都包含有對(duì)某個(gè)語言中音素狀態(tài)進(jìn)行分類的信息,并且不同的語言存在共享相似音素的現(xiàn)象,我們就有可能使用為一種語言(稱為源語言)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)中提取的Tandem或瓶頸特征來識(shí)別另一種語言(稱為目標(biāo)語言)。實(shí)驗(yàn)顯示出當(dāng)目標(biāo)語言的有標(biāo)注的數(shù)據(jù)很少時(shí),這些遷移的特征能夠獲得一個(gè)更具有競(jìng)爭(zhēng)力的目標(biāo)語言的基線。用于提取Tandem或瓶頸特征的神經(jīng)網(wǎng)路可以由多種語言訓(xùn)練[384],在訓(xùn)練中為每種語言使用一個(gè)不同的輸出層(對(duì)應(yīng)于上下文無關(guān)的音素),類似于圖12.2所示。另外,多個(gè)神經(jīng)網(wǎng)絡(luò)可分別由不同的特征訓(xùn)練,例如,一個(gè)使用感知線性預(yù)測(cè)特征(PLP)[184],而其他的使用頻域線性預(yù)測(cè)特征(frequency domain linear prediction or FDLP[15])。 提取自這些神經(jīng)網(wǎng)絡(luò)的特征可被合并來進(jìn)一步提高識(shí)別正確率。
圖 12.2 共享隱層的多語言深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)(Huang 等[204] 中有相似的圖)
基于 Tandem 或瓶頸特征的方法主要用于跨語言 ASR 來提升數(shù)據(jù)資源匱乏的語言的ASR 性能。它們很少用于多語言 ASR。這是因?yàn)?,即使使用同一個(gè)神經(jīng)網(wǎng)絡(luò)提取Tandem 或瓶頸特征,仍然常常需要為每種語言準(zhǔn)備一個(gè)完全不同的 GMM-HMM 系 統(tǒng)。然而這個(gè)限制在多種語言共享相同的音素集(或者上下文相關(guān)的音素狀態(tài))以及決策樹的情況下,就可能被移除,就像 [265] 中所做的那樣。共享的音素集可以由領(lǐng)域知識(shí)確定,比如使用國際音素字母表(international phonetic alphabet,IPA)[14],或者通過數(shù)據(jù)驅(qū)動(dòng)的方法,比如計(jì)算不同語言單音素和三音素狀態(tài)間的距離[431]。
12.2.2 共享隱層的多語言深度神經(jīng)網(wǎng)絡(luò)
多語言和跨語言的自動(dòng)語音識(shí)別可以通過 CD-DNN-HMM 框架輕松實(shí)現(xiàn)。圖12.2描述了用于多語言 ASR 的結(jié)構(gòu)。在文獻(xiàn) [204] 中,這種結(jié)構(gòu)被稱為共享隱層的多語言深度神經(jīng)網(wǎng)絡(luò)(SHL-MDNN)。因?yàn)檩斎雽雍碗[層被所有的語言所共享,所以 SHL- MDNN 可以用這種結(jié)構(gòu)進(jìn)行識(shí)別。但是輸出層并不被共享,而是每種語言有自己的 softmax 層來估計(jì)聚類后狀態(tài)(綁定的三音素狀態(tài))的后驗(yàn)概率。相同的結(jié)構(gòu)也在文獻(xiàn) [153, 180] 中獨(dú)立地提出。
注意,這種結(jié)構(gòu)中的共享隱層可以被認(rèn)為是一種通用的特征變換或一種特殊的通用前端。就像在單語言的 CD-DNN-HMM 系統(tǒng)中一樣,SHL-MDNN 的輸入是一個(gè)較長的上下文相關(guān)的聲學(xué)特征窗。但是,因?yàn)楣蚕黼[層被很多語言共用,所以一些語言相關(guān)的特征變換(如HLDA)是無法使用的。幸運(yùn)的是,這種限制并不影響 SHL-MDNN 的性能,因?yàn)槿绲?章中所述,任何線性變換都可以被 DNN 所包含。
圖 12.2中描述的 SHL-MDNN 是一種特殊的多任務(wù)學(xué)習(xí)方式[55],它等價(jià)于采用共享的特征表示來進(jìn)行并行的多任務(wù)學(xué)習(xí)。有幾個(gè)原因使得多任務(wù)學(xué)習(xí)比 DNN 學(xué)習(xí)更有利。第一,通過找尋被所有任務(wù)支持的局部最優(yōu)點(diǎn),多任務(wù)學(xué)習(xí)在特征表達(dá)上更具有通用性。第二,它可以緩解過擬合的問題,因?yàn)椴捎枚鄠€(gè)語言的數(shù)據(jù)可以更可靠地估計(jì)共享隱層(特征變換),這一點(diǎn)對(duì)資源匱乏的任務(wù)尤其有幫助。第三,它有助于并行地學(xué)習(xí)特征。第四,它有助于提升模型的泛化能力,因?yàn)楝F(xiàn)在的模型訓(xùn)練是包含了來自多個(gè)數(shù)據(jù)集的噪聲。
雖然 SHL-MDNN 有這些好處,但如果我們不能正確訓(xùn)練 SHL-MDNN,也不能得到這些好處。成功訓(xùn)練 SHL-MDNN 的關(guān)鍵是同時(shí)訓(xùn)練所有語言的模型。當(dāng)使用整批數(shù)據(jù)訓(xùn)練,如 L-BFGS 或 Hessian free[280] 算法時(shí),這是很容易做到的,因?yàn)樵诿看文P透轮兴械臄?shù)據(jù)都能被用到。但是,如果使用基于小批量數(shù)據(jù)的隨機(jī)梯度下降
(SGD)訓(xùn)練算法時(shí),最好是在每個(gè)小批量塊中都包含所有語言的訓(xùn)練數(shù)據(jù)。這可以通過在將數(shù)據(jù)提供給 DNN 訓(xùn)練工具前進(jìn)行隨機(jī)化,使其包含所有語言的訓(xùn)練音頻樣本列表的方式高效地實(shí)現(xiàn)。
在文獻(xiàn) [153] 中提出了另一種訓(xùn)練方法。在這種方法中,所有的隱層首先用第5章提到的無監(jiān)督的 DBN 預(yù)訓(xùn)練方式訓(xùn)練得到。然后一種語言被選中,隨機(jī)初始化這種語言對(duì)應(yīng)的 softmax 層,并將其添加到網(wǎng)絡(luò)中。這個(gè) softmax 層和整個(gè) SHL-MDNN 使用這種語言的數(shù)據(jù)進(jìn)行調(diào)整。調(diào)整之后,softmax層被下一種語言對(duì)應(yīng)的隨機(jī)初始化的 softmax 代替,并且用那種語言的數(shù)據(jù)調(diào)整網(wǎng)絡(luò)。這個(gè)過程對(duì)所有的語言不斷重復(fù)。這種語言序列訓(xùn)練方式的一個(gè)可能的問題是它會(huì)導(dǎo)致有偏差的估計(jì),并且與同時(shí)訓(xùn)練相比,性能會(huì)下降。
SHL-MDNN 可以用第5章介紹的生成或鑒別性的預(yù)訓(xùn)練技術(shù)進(jìn)行預(yù)訓(xùn)練。SHL-MDNN的調(diào)整可以使用傳統(tǒng)的反向傳播(BP)算法。但是,因?yàn)槊糠N語言使用了不同的softmax層,算法需要一些微調(diào)。但一個(gè)訓(xùn)練樣本給到SHL-MDNN訓(xùn)練器時(shí),只有共享的隱層和指定語言的 softmax 層被更新。其他 softmax 層保持不變。
訓(xùn)練之后,SHL-MDNN 可以用來識(shí)別任何訓(xùn)練中用到的語言。因?yàn)樵谶@種統(tǒng)一的結(jié)構(gòu)下多種語言可以同時(shí)解碼,所以SHL-MDNN 令大詞匯連續(xù)語言識(shí)別任務(wù)變得輕松和高效。如圖12.3所示,在 SHL-MDNN 中增加一種新語言很容易。這只需要在已經(jīng)存在的SHL-MDNN 中增加一個(gè)新的 softmax 層,并且用新語言訓(xùn)練這個(gè)新加的softmax 層。
圖 12.3 用四種語言訓(xùn)練的 SHL-MDNN 支持第五種語言
在 SHL-MDNN 中通過共享隱層和聯(lián)合訓(xùn)練策略,相比只使用單一語言訓(xùn)練得到的單語言 DNN,SHL-MDNN 可以提高所有可解碼語言的識(shí)別準(zhǔn)確率。微軟內(nèi)部對(duì) SHL-MDNN 進(jìn)行了實(shí)驗(yàn)評(píng)估[204]。實(shí)驗(yàn)中的 SHL-MDNN 有5個(gè)隱層,每層有2048個(gè)神經(jīng)元。DNN的輸入是11(5-1-5)幀帶一階和二階差分的13維MFCC特征。使用138小時(shí)的法語(FRA)、195小時(shí)的德語(DEU)、63小時(shí)的西班牙語(ESP)和63小時(shí)的意大利語(ITA)數(shù)據(jù)進(jìn)行訓(xùn)練。對(duì)一種語言,輸出層包含1800個(gè)三音素的聚類狀態(tài)(即輸出類別),它們是由用相同訓(xùn)練集和最大似然估(MLE)訓(xùn)練得到的GMM-HMM系統(tǒng)確定的。SHL-MDNN使用無監(jiān)督的DBN預(yù)訓(xùn)練方法初始化,然后用由MLE模型對(duì)齊的聚類后的狀態(tài)進(jìn)行BP算法調(diào)整模型。訓(xùn)練得到的DNN之后被用到第6章介紹的CD-DNN-HMM框架中。
表 12.1比較了單語言 DNN 和共享隱層的多語言 DNN 的詞錯(cuò)誤率(WER),單 語言 DNN 只使用指定語言的數(shù)據(jù)訓(xùn)練,并用這種語言的測(cè)試集測(cè)試,SHL-MDNN 的隱層由所有的四種語言的數(shù)據(jù)訓(xùn)練得到。從表 12.1中可以觀察到,在所有的語言 中,SHL-MDNN 比單語言 DNN 有 3% ~ 5% 相對(duì) WER 減少。我們認(rèn)為來自 SHL- MDNN 的提升是因?yàn)榭缯Z言知識(shí)。即使是有超過 100 小時(shí)訓(xùn)練數(shù)據(jù)的 FRA 和 DEU, SHL-MDNN 仍然有提升。
表 12.1 比較單語言 DNN 和共享隱層的多語言 DNN 的詞錯(cuò)誤率(WER);括號(hào)中的是 WER 的相對(duì)減少。
12.2.3 跨語言模型遷移
從多語言 DNN 中提取的共享隱層可以被看作一種由多個(gè)源語言聯(lián)合訓(xùn)練得到的 特征提取模塊。因此,它們富有識(shí)別多種語言的語音類別的信息,并且可以識(shí)別新語 言的音素。
跨語言模型遷移的過程很簡單。我們僅提取 SHL-MDNN 的共享隱層,并在其上 添加一個(gè)新的 softmax 層,如圖 12.4所示。softmax 層的輸出節(jié)點(diǎn)對(duì)應(yīng)目標(biāo)語言聚類后 的狀態(tài)。然后我們固定隱層,用目標(biāo)語言的訓(xùn)練數(shù)據(jù)來訓(xùn)練 softmax 層。如果有足夠 的訓(xùn)練數(shù)據(jù)可用,還可以通過進(jìn)一步調(diào)整整個(gè)網(wǎng)絡(luò)得到額外的性能提升。
圖 12.4 跨語言遷移。隱層從多語言 DNN 中借來,而 softmax 層需要用目標(biāo)語言的數(shù) 據(jù)訓(xùn)練。
為了評(píng)估跨語言模型遷移的效果,文獻(xiàn) [204] 中做了一系列實(shí)驗(yàn)。這些實(shí)驗(yàn)中,兩 種不同的語言被用作目標(biāo)語言:與12.2.2節(jié)中訓(xùn)練 SHL-MDNN 的歐洲語言相近的美式英語(ENU)和與歐洲語言相差較遠(yuǎn)的中文普通話(CHN)。ENU 測(cè)試集包括 2286
句話(或 18000 個(gè)詞),CHN 測(cè)試集包括 10510 句話(或 40000 個(gè)字符)。
隱層的可遷移性
第一個(gè)問題是隱層是否可以被遷移到其他語言上。為了回答這個(gè)問題,我們假設(shè) 9 小時(shí)美式英文訓(xùn)練數(shù)據(jù)(55737 句話)可以構(gòu)建一個(gè) ENU 的 ASR 系統(tǒng)。表 12.2總 結(jié)了實(shí)驗(yàn)結(jié)果?;€ DNN 只用 9 小時(shí) ENU 訓(xùn)練集,這種方式達(dá)到了 ENU 測(cè)試集上 30.9% 的 WER。另一種方式是借用從其他語言中學(xué)到的隱層(特征變換)。在這個(gè)實(shí) 驗(yàn)中,一個(gè)單語言的 DNN 由 138 小時(shí)的法語數(shù)據(jù)訓(xùn)練得到。這個(gè) DNN 的隱層隨后被 提取并在美式英語 DNN 中復(fù)用。如果隱層固定,只用 9 小時(shí)美式英語數(shù)據(jù)訓(xùn)練 ENU 對(duì)應(yīng)的 softmax 層,可以獲得相對(duì)基線 DNN 的 2.6% 的 WER 減少(30.9%→27.3%)。 如果整個(gè)法語 DNN 用 9 小時(shí)美式英語數(shù)據(jù)重新訓(xùn)練,可以獲得 30.6% 的 WER,這比 30.9% 的基線 WER 還要略微好一點(diǎn)。這些結(jié)果說明法語 DNN 的隱層所表示的特征變 換可以被有效地遷移以識(shí)別美式英語語音。
表 12.2 比較使用和不使用遷移自法語 DNN 的隱層網(wǎng)絡(luò)在 ENU 測(cè)試集上的詞錯(cuò)誤率
另外,如果在12.2.2節(jié)中描述的 SHL-MDNN 的共享隱層被提取并用在美式英語 DNN 中,可以得到額外 2.0% 的 WER 減少(27.3%→25.3%)。這說明在構(gòu)造美式英語 DNN 時(shí),提取自 SHL-MDNN 的隱層比提取自單獨(dú)的法語 DNN 的隱層更有效??傊?, 相對(duì)基線 DNN,通過使用跨語言模型遷移可以獲得 4.6%(或相對(duì)的 18.1%)的 WER 減少。
目標(biāo)語言訓(xùn)練集的大小
第二個(gè)問題是目標(biāo)語言的訓(xùn)練集大小如何影響多語言 DNN 跨語言模型遷移的性 能。為了回答這個(gè)問題,Huang 等人做了一些實(shí)驗(yàn),假設(shè) 3、9 和 36 小時(shí)的英語(目標(biāo)語言)訓(xùn)練數(shù)據(jù)可用。文獻(xiàn) [204] 中的表 12.3總結(jié)了實(shí)驗(yàn)結(jié)果。從表中可以觀察到, 利用遷移隱層的 DNN 始終好于不使用跨語言模型遷移的基線 DNN。我們也可以觀察 到,當(dāng)不同大小的目標(biāo)語言數(shù)據(jù)可用時(shí),最優(yōu)策略會(huì)有所不同。當(dāng)目標(biāo)語言的訓(xùn)練數(shù) 據(jù)少于 10 小時(shí),最好的策略是只訓(xùn)練新的 softmax 層。當(dāng)數(shù)據(jù)分別為 3 小時(shí)和 9 小時(shí) 的時(shí)候,這么做可以看到 28.0% 和 18.1% 的 WER 相對(duì)減少。但是,當(dāng)訓(xùn)練數(shù)據(jù)足夠 多時(shí),進(jìn)一步訓(xùn)練整個(gè) DNN 可以得到額外的錯(cuò)誤減少。例如,當(dāng) 36 小時(shí)的美式英語 語音數(shù)據(jù)可用時(shí),我們觀察到通過訓(xùn)練所有的層,可以獲得額外的 0.8% 的 WER 減少(22.4%→21.6%)。
表 12.3 比較當(dāng)隱層遷移自 SHL-MDNN 時(shí),目標(biāo)語言訓(xùn)練集大小對(duì)詞錯(cuò)誤率(WER) 的影響效果。
從歐洲語言到中文普通話的遷移是有效的
第三個(gè)問題是跨語言模型遷移方式的效果是否對(duì)源語言和目標(biāo)語言之間的相似 性敏感。為了回答這個(gè)問題,Huang 等人[204] 使用了與訓(xùn)練 SHL-MDNN 的歐洲語言極 其不同的中文普通話(CHN)作為目標(biāo)語言。文獻(xiàn) [204] 中的表 12.4列出了不同中文 訓(xùn)練集大小的情況下,使用基線 DNN 和經(jīng)過多語言增強(qiáng)的 DNN 的字錯(cuò)誤率(CER)。 當(dāng)數(shù)據(jù)少于 9 小時(shí)的時(shí)候,只有 softmax 層被訓(xùn)練;當(dāng)中文數(shù)據(jù)多于 10 小時(shí)的時(shí)候,所 有的層都被進(jìn)一步調(diào)整。我們可以看到通過使用遷移隱層的方法,所有的 CER 都減少 了。即使有 139 小時(shí)的 CHN 訓(xùn)練數(shù)據(jù)可用,我們?nèi)匀豢梢詮?SHL-MDNN 中獲得 8.3% 的 CER 相對(duì)減少。另外,只用 36 小時(shí)的中文數(shù)據(jù),我們可以通過遷移 SHL-MDNN 的共享隱層的方式在測(cè)試集上得到 28.4% 的 CER。這比使用 139 小時(shí)中文訓(xùn)練數(shù)據(jù)的 基線 DNN 得到 29% 的 CER 還好,節(jié)省了超過 100 小時(shí)的中文標(biāo)注。
表 12.4 CHN 的跨語言模型遷移效果,由字錯(cuò)誤率(CER)減少衡量;括號(hào)中是 CER 相 對(duì)減少。
使用標(biāo)注信息的必要性
第四個(gè)問題是通過無監(jiān)督學(xué)習(xí)提取的特征是否可以在分類任務(wù)上表現(xiàn)得和有監(jiān) 督學(xué)習(xí)一樣好。如果回答是可以,這種方法會(huì)有顯著的優(yōu)勢(shì),因?yàn)楂@取未標(biāo)注的語音 數(shù)據(jù)比標(biāo)注過的語音數(shù)據(jù)要容易很多。本節(jié)揭示出標(biāo)注信息對(duì)于高效地學(xué)習(xí)多語言 數(shù)據(jù)的共享表示還是很重要的?;谖墨I(xiàn) [204] 中的結(jié)果,表 12.5比較了在訓(xùn)練共享 隱層的時(shí)候,使用和不使用標(biāo)注信息的兩種系統(tǒng)。從表 12.5中可以發(fā)現(xiàn),只使用預(yù)訓(xùn) 練過的多語言深度神經(jīng)網(wǎng)絡(luò),然后使用 ENU 數(shù)據(jù)適應(yīng)學(xué)習(xí)整個(gè)網(wǎng)絡(luò)的方法,只得到 了很小的性能提升(30.9%→30.2%)。這個(gè)提升顯著小于使用標(biāo)注信息時(shí)得到的提升
(30.9%→25.3%)。這些結(jié)果清晰地表明,標(biāo)注數(shù)據(jù)比未標(biāo)注數(shù)據(jù)更有價(jià)值,同時(shí),在 從多語言數(shù)據(jù)中學(xué)習(xí)高效特征時(shí)標(biāo)注信息的使用非常重要。
表 12.5 對(duì)比在 ENU 數(shù)據(jù)上使用和不使用標(biāo)注信息時(shí)從多語言數(shù)據(jù)上學(xué)習(xí)到的特 征。