據 Loup Ventures 不久前發(fā)布的2019年語音助理智商測試的結果,通過對每個人工智能系統的800個相同問題的測試,谷歌助手再次引領了這一潮流,與去年一樣,100%完全理解了被問到的問題,并正確回答了其中的92.9%,比去年的85.5%的正確率要高。
相比之下,蘋果的Siri在理解水平和正確回答水平這兩方面的能力也都有提升,從去年的99%理解水平上升到今年的99.8%,同時在正確回答水平方面,從78.5%上升到2019年的83.1%。盡管亞馬遜的Alexa再次位居第三,但今年也算是取得了重大進展,理解了99.9%的問題,并正確回答了79.8%的問題,比去年的Siri表現要好。近日,據外媒報道,亞馬遜通過人工智能將實時語音識別錯誤率降低了6.2%,可以算是一個不小的進步。
據了解,自動語音識別系統是將語音轉換為文本,如Alexa的核心系統,其中一個組件是一個模型,它預測哪個單詞將出現在一系列單詞之后。它們通常是基于n-gram語言模型,這意味著它們可以算出給定過去n-1個單詞的下一個單詞出現的概率。
N-Gram是基于一個假設:第n個詞出現與前n-1個詞相關,而與其他任何詞不相關。(這也是隱馬爾可夫當中的假設)整個句子出現的概率就等于各個詞出現的概率乘積,各個詞的概率可以通過語料中統計計算得到。但是,像遞歸神經網絡這樣的體系結構就比較難以融入實時系統,由于其學習長期依賴關系的能力,通常被用于語音識別,并且常常難以從多個語料庫中獲取數據。
這就是為什么亞馬遜Alexa科研人員要研究能使得這種人工智能模型在語音識別中更實用的技術的原因。在奧地利格拉茨舉行的2019年Interspeech會議上,計劃發(fā)表的一篇博客和論文《ASR的可伸縮多語料庫神經語言模型》中,聲稱他們可以將單詞識別錯誤率比基線降低6.2%。
神經語言模型(NLM)在自動語音識別(ASR)和其他任務中的表現優(yōu)于傳統的N-gram語言模型。然而,要在實際的大規(guī)模ASR系統中使用NLM,還需要解決一些挑戰(zhàn)。在一些解決方案中,從異源語料庫中訓練NLM,限制潛伏期影響和處理二次通過重測器中的個性化偏差。
研究人員通過建立領域內和領域外訓練數據集的傳統模型來解決數據稀缺的問題,這些模型是線性組合的,他們給每個語料庫分配了一個分數來衡量其與域內數據的相關性,這決定了為補充數據集選擇樣本的可能性。
然后他們應用了遷移學習transfer learning,即機器學習的一種,就是把為任務 A 開發(fā)的模型作為初始點,重新使用在為任務 B 開發(fā)模型的過程中。遷移學習是通過從已學習的相關任務中轉移知識來改進學習的新任務,雖然大多數機器學習算法都是為了解決單個任務而設計的,但是促進遷移學習的算法的開發(fā)是機器學習人員持續(xù)關注的話題。遷移學習對人類來說很常見,例如,我們可能會發(fā)現學習識別蘋果可能有助于識別梨,或者學習彈奏電子琴可能有助于學習鋼琴。
接下來,研究人員將數據通過一個帶有n-gram語言模型的語音識別器傳遞,以使用人工智能模型來改進其預測。為了將傳統模型拒絕人工智能模型考慮的假設的風險降到最低,他們使用人工智能模型生成合成數據,為一次通過模型提供訓練數據。
訓練數據中的樣本是成對的詞匯,而不是單個詞匯,這是一個稱為噪聲對比估計的方案的一部分,其中一個成對詞匯是真正的目標,而另一個詞匯是隨機選擇的。該模型的任務是通過直接估計目標詞匯的概率來學習區(qū)分。
最后,研究人員量化了人工智能模型的權重,以進一步提高其效率。量化考慮特定變量可以接受的全部值范圍,并將其拆分為固定數量的間隔,這樣一個間隔內的所有值都近似于一個數字。據研究人員透露,由于量化,人工智能模型在50%的情況下使得語音處理時間增加不超過65毫秒,在90%的情況下增加不超過285毫秒。