深度學(xué)習(xí)進(jìn)行語音識別的方法如何建立自己的語音識別系統(tǒng)

時間：2020-07-18 21:42:01

關(guān)鍵字：機(jī)器學(xué)習(xí) 深度學(xué)習(xí) 語音識別

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] 語音識別正在「入侵」我們的生活。我們的手機(jī)、游戲主機(jī)和智能手表都內(nèi)置了語音識別。他甚至在自動化我們的房子。只需50美元，你就可以買到一個Amazon Echo Dot，這是一個可以讓你訂外賣、收

語音識別正在「入侵」我們的生活。我們的手機(jī)、游戲主機(jī)和智能手表都內(nèi)置了語音識別。他甚至在自動化我們的房子。只需50美元，你就可以買到一個Amazon Echo Dot，這是一個可以讓你訂外賣、收聽天氣預(yù)報、甚至是買垃圾袋的魔術(shù)盒，而這一切你只需要大聲說出：

Aleax，給我訂一個pizza！

Echo Dot 在2015年的圣誕假期一經(jīng)推出就大受歡迎，在亞馬遜上面立刻售罄。

但其實語音識別已經(jīng)存在很多年了，那為什么現(xiàn)在才成為主流呢？因為深度識別終于將語音識別在非受控環(huán)境下的準(zhǔn)確度提高到了一個足以投入實用的高度。

吳恩達(dá)教授曾經(jīng)預(yù)言過，當(dāng)語音識別的準(zhǔn)確度從95%提升到99%的時候，它將成為與電腦交互的首要方式。

下面就讓我們來學(xué)習(xí)與深度學(xué)習(xí)進(jìn)行語音室識別吧！

機(jī)器學(xué)習(xí)并不總是一個黑盒

如果你想知道神經(jīng)機(jī)器翻譯是如何工作的，你應(yīng)該猜到了我們可以簡單地將一些聲音送入神經(jīng)網(wǎng)絡(luò)，然后訓(xùn)練它使之生成文本：

這是使用深度學(xué)習(xí)進(jìn)行語音識別的最高追求，但是很遺憾我們現(xiàn)在還沒有完全做到這一點（至少在筆者寫下這一篇文章的時候還沒有–我敢打賭，再過幾年我們可以做到）

一個大問題是語速不同。一個人可能會很快的說出”Hello！”，而另一個人可能非常緩慢的說”heeeelllllllllllllooooo’！’，產(chǎn)生了一個擁有更多數(shù)據(jù)也更長的聲音文件。這兩個文件都應(yīng)該被識別為同一個文本–“Hello！”。而事實證明，把各種長度的音頻文件自動對齊到一個固定長度的文本是很難的一件事情。

為了解決這個問題，我們必須使用一些特殊的技巧，并進(jìn)行一些深度神經(jīng)網(wǎng)絡(luò)以外的特殊處理。讓我們看看它是如何工作的吧！

將聲音轉(zhuǎn)換為比特（Bit）

顯然，語音識別的第一步是–我們需要將聲波輸入到電腦中。

我們應(yīng)該怎么將聲波轉(zhuǎn)換為數(shù)字呢？讓我們使用我說的「hello」這個聲音片段舉個例子：

聲波是一維的，它在每個時刻都有一個基于其高度的值。讓我們把聲波的一小部分放大看看：

為了將這個聲波轉(zhuǎn)換成數(shù)字，我們只記錄聲波在等距點的高度：

這被稱為采樣（sampling）。我們每秒讀取數(shù)千次，并把聲波在該時間點的高度用一個數(shù)字記錄下來。這基本上就是一個未壓縮的 .wav 音頻文件。

“CD 音質(zhì)”的音頻是以 44.1khz（每秒 44100 個讀數(shù)）進(jìn)行采樣的。但對于語音識別，16khz（每秒 16000 個采樣）的采樣率就足以覆蓋人類語音的頻率范圍了。

讓我們把“Hello”的聲波每秒采樣 16000 次。這是前 100 個采樣：

每個數(shù)字代表聲波在一秒鐘的16000分之一處的振幅。

數(shù)字采樣小助手

因為聲波采樣只是間歇性的讀取，你可能認(rèn)為它只是對原始聲波進(jìn)行粗略的近似估計。我們的讀數(shù)之間有間距，所以我們必然會丟失數(shù)據(jù)，對吧？

但是，由于采樣定理（Nyquist theorem），我們知道我們可以利用數(shù)學(xué)，從間隔的采樣中完美重建原始聲波——只要我們的采樣頻率比期望得到的最高頻率快至少兩倍就行。

我提這一點，是因為幾乎每個人都會犯這個錯誤，并誤認(rèn)為使用更高的采樣率總是會獲得更好的音頻質(zhì)量。其實并不是。

預(yù)處理我們的采樣聲音數(shù)據(jù)

我們現(xiàn)在有一個數(shù)列，其中每個數(shù)字代表 1/16000 秒的聲波振幅。

我們可以把這些數(shù)字輸入到神經(jīng)網(wǎng)絡(luò)中，但是試圖直接分析這些采樣來進(jìn)行語音識別仍然很困難。相反，我們可以通過對音頻數(shù)據(jù)進(jìn)行一些預(yù)處理來使問題變得更容易。

讓我們開始吧，首先將我們的采樣音頻分成每份 20 毫秒長的音頻塊。這是我們第一個 20 毫秒的音頻（即我們的前 320 個采樣）：

將這些數(shù)字繪制為簡單的折線圖，我們就得到了這 20 毫秒內(nèi)原始聲波的大致形狀：

雖然這段錄音只有 1/50 秒的長度，但即使是這樣短暫的錄音，也是由不同頻率的聲音復(fù)雜地組合在一起的。其中有一些低音，一些中音，甚至有幾處高音。但總的來說，就是這些不同頻率的聲音混合在一起，才組成了人類的語音。

為了使這個數(shù)據(jù)更容易被神經(jīng)網(wǎng)絡(luò)處理，我們將把這個復(fù)雜的聲波分解成一個個組成部分。我們將分離低音部分，再分離下一個最低音的部分，以此類推。然后將（從低到高）每個頻段（frequency band）中的能量相加，我們就為各個類別的音頻片段創(chuàng)建了一個指紋（fingerprint）。

想象你有一段某人在鋼琴上演奏 C 大調(diào)和弦的錄音。這個聲音是由三個音符組合而成的：C、E 和 G。它們混合在一起組成了一個復(fù)雜的聲音。我們想把這個復(fù)雜的聲音分解成單獨(dú)的音符，以此來分辨 C、E 和 G。這和語音識別是一樣的道理。

我們需要傅里葉變換（Fourier Transform）來做到這一點。它將復(fù)雜的聲波分解為簡單的聲波。一旦我們有了這些單獨(dú)的聲波，我們就將每一份頻段所包含的能量加在一起。

最終得到的結(jié)果便是從低音（即低音音符）到高音，每個頻率范圍的重要程度。以每 50hz 為一個頻段的話，我們這 20 毫秒的音頻所含有的能量從低頻到高頻就可以表示為下面的列表：

但是把它們畫成圖表時會更容易理解：

你可以看到，在我們的 20 毫秒聲音片段中有很多低頻能量，然而在更高的頻率中并沒有太多的能量。這是典型「男性」的聲音。

如果我們對每個20毫秒的音頻塊都重復(fù)這個過程，我們最后會得到一個頻譜圖（從左到右每一列都是一個29毫秒的音頻塊）

頻譜圖很酷，因為你可以在音頻數(shù)據(jù)中實實在在地看到音符和其他音高模式。對于神經(jīng)網(wǎng)絡(luò)來說，相比于原始聲波，從這種數(shù)據(jù)中尋找規(guī)律要容易得多。因此，這就是我們將要實際輸入到神經(jīng)網(wǎng)絡(luò)中去的數(shù)據(jù)表示方式。

從短音頻中識別字符

現(xiàn)在我們已經(jīng)讓音頻轉(zhuǎn)變?yōu)橐粋€易于處理的格式了，現(xiàn)在我們將要把它輸入深度神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的輸入將會是 20 毫秒的音頻塊。對于每個小的音頻切片（audio slice），神經(jīng)網(wǎng)絡(luò)都將嘗試找出當(dāng)前正在說的聲音所對應(yīng)的字母。

我們將使用一個循環(huán)神經(jīng)網(wǎng)絡(luò)——即一個擁有記憶，能影響未來預(yù)測的神經(jīng)網(wǎng)絡(luò)。這是因為它預(yù)測的每個字母都應(yīng)該能夠影響它對下一個字母的預(yù)測。例如，如果我們到目前為止已經(jīng)說了「HEL」，那么很有可能我們接下來會說「LO」來完成「Hello」。我們不太可能會說「XYZ」之類根本讀不出來的東西。因此，具有先前預(yù)測的記憶有助于神經(jīng)網(wǎng)絡(luò)對未來進(jìn)行更準(zhǔn)確的預(yù)測。

當(dāng)通過神經(jīng)網(wǎng)絡(luò)跑完我們的整個音頻剪輯（一次一塊）之后，我們將最終得到一份映射（mapping），其中標(biāo)明了每個音頻塊和其最有可能對應(yīng)的字母。這是我說那句「Hello」所對應(yīng)的映射的大致圖案：

我們的神經(jīng)網(wǎng)絡(luò)正在預(yù)測我說的那個詞很有可能是「HHHEE_LL_LLLOOO」。但它同時認(rèn)為我說的也可能是「HHHUU_LL_LLLOOO」，或者甚至是「AAAUU_LL_LLLOOO」。

我們可以遵循一些步驟來整理這個輸出。首先，我們將用單個字符替換任何重復(fù)的字符：

HHHEE_LL_LLLOOO 變?yōu)?HE_L_LO

HHHUU_LL_LLLOOO 變?yōu)?HU_L_LO

AAAUU_LL_LLLOOO 變?yōu)?AU_L_LO

然后，我們將刪除所有空白：

HE_L_LO 變?yōu)?HELLO

HU_L_LO 變?yōu)?HULLO

AU_L_LO 變?yōu)?AULLO

這讓我們得到三種可能的轉(zhuǎn)寫——「Hello」、「Hullo」和「Aullo」。如果你大聲說出這些詞，所有這些聲音都類似于「Hello」。因為神經(jīng)網(wǎng)絡(luò)每次只預(yù)測一個字符，所以它會得出一些純粹表示發(fā)音的轉(zhuǎn)寫。例如，如果你說「He would not go」，它可能會給出一個「He wud net go」的轉(zhuǎn)寫。

解決問題的訣竅是將這些基于發(fā)音的預(yù)測與基于書面文本（書籍、新聞文章等）大數(shù)據(jù)庫的可能性得分相結(jié)合。扔掉最不可能的結(jié)果，留下最實際的結(jié)果。

在我們可能的轉(zhuǎn)寫「Hello」、「Hullo」和「Aullo」中，顯然「Hello」將更頻繁地出現(xiàn)在文本數(shù)據(jù)庫中（更不用說在我們原始的基于音頻的訓(xùn)練數(shù)據(jù)中了），因此它可能就是正解。所以我們會選擇「Hello」作為我們的最終結(jié)果，而不是其他的轉(zhuǎn)寫。搞定！

稍等一下！

你可能會想「但是如果有人說Hullo」怎么辦？這個詞的確存在。也許「Hello」是錯誤的轉(zhuǎn)寫！

當(dāng)然可能有人實際上說的是「Hullo」而不是「Hello」。但是這樣的語音識別系統(tǒng)（基于美國英語訓(xùn)練）基本上不會產(chǎn)生「Hullo」這樣的轉(zhuǎn)寫結(jié)果。用戶說「Hullo」，它總是會認(rèn)為你在說「Hello」，無論你發(fā)「U」的聲音有多重。

試試看！如果你的手機(jī)被設(shè)置為美式英語，嘗試讓你的手機(jī)助手識別單詞「Hullo」。這不行！它掀桌子不干了，它總是會理解為「Hello」。

不識別「Hullo」是一個合理的行為，但有時你會碰到令人討厭的情況：你的手機(jī)就是不能理解你說的有效的語句。這就是為什么這些語音識別模型總是處于再訓(xùn)練狀態(tài)的原因，它們需要更多的數(shù)據(jù)來修復(fù)這些少數(shù)情況。

我能建立自己的語音識別系統(tǒng)嗎？

機(jī)器學(xué)習(xí)最酷炫的事情之一就是它有時看起來十分簡單。你得到一堆數(shù)據(jù)，把它輸入到機(jī)器學(xué)習(xí)算法當(dāng)中去，然后就能神奇地得到一個運(yùn)行在你游戲本顯卡上的世界級 AI 系統(tǒng)…對吧？

這在某些情況下是真實的，但對于語音識別并不成立。語音識別是一個困難的問題。你得克服幾乎無窮無盡的挑戰(zhàn)：劣質(zhì)麥克風(fēng)、背景噪音、混響和回聲、口音差異等等。你的訓(xùn)練數(shù)據(jù)需要囊括這所有的一切，才能確保神經(jīng)網(wǎng)絡(luò)可以應(yīng)對它們。

這里有另外一個例子：你知不知道，當(dāng)你在一個嘈雜的房間里說話時，你會不自覺地提高你的音調(diào)，來蓋過噪音。人類在什么情況下都可以理解你，但神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練才能處理這種特殊情況。所以你需要人們在噪音中大聲講話的訓(xùn)練數(shù)據(jù)！

要構(gòu)建一個能在 Siri、Google Now！或 Alexa 等平臺上運(yùn)行的語音識別系統(tǒng)，你將需要大量的訓(xùn)練數(shù)據(jù) 。如果你不雇上數(shù)百人為你錄制的話，它需要的訓(xùn)練數(shù)據(jù)比你自己能夠獲得的數(shù)據(jù)要多得多。由于用戶對低質(zhì)量語音識別系統(tǒng)的容忍度很低，因此你不能吝嗇。沒有人想要一個只有八成時間有效的語音識別系統(tǒng)。

對于像谷歌或亞馬遜這樣的公司，在現(xiàn)實生活中記錄的成千上萬小時的人聲語音就是黃金。這就是將他們世界級語音識別系統(tǒng)與你自己的系統(tǒng)拉開差距的地方。讓你免費(fèi)使用 Google Now！或 Siri，或是只要 50 美元購買 Alexa 而沒有訂閱費(fèi)的意義就是：讓你盡可能多地使用它們。你對這些系統(tǒng)所說的每一句話都會被永遠(yuǎn)記錄下來，并用作未來版本語音識別算法的訓(xùn)練數(shù)據(jù)。這才是他們的真實目的！

不相信我？如果你有一部安裝了 Google Now！的 Android 手機(jī)，請點擊這里收聽你自己對它說過的每一句話：

你可以通過 Alexa 在 Amazon 上找到相同的東西。然而，不幸的是，蘋果并不讓你訪問你的 Siri 語音數(shù)據(jù)。

因此，如果你正在尋找一個創(chuàng)業(yè)的想法，我不建議你嘗試建立自己的語音識別系統(tǒng)來與 Google 競爭。相反，你應(yīng)該想個辦法，讓人們把自己講了幾個小時的錄音交給你。這種數(shù)據(jù)可以是你的產(chǎn)品。