目前的語音識別和NLP技術(shù)仍然不夠成熟

時間：2020-05-19 21:42:01

關(guān)鍵字：語音識別語音合成人機交互噪音

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] （文章來源：中國安防展覽網(wǎng)）智能語音語義包含語音合成、語音識別和自然語言處理（NLP）叁項主要技術(shù)。語音合成技術(shù)發(fā)展早，應用已較為普遍，除了合成音仍偏機械之外，基本不存在太大

（文章來源：中國安防展覽網(wǎng)）

智能語音語義包含語音合成、語音識別和自然語言處理（NLP）叁項主要技術(shù)。

語音合成技術(shù)發(fā)展早，應用已較為普遍，除了合成音仍偏機械之外，基本不存在太大技術(shù)問題；語音識別在2012年卷積神經(jīng)網(wǎng)絡（CNN）應用之后，準確率大幅提升，已經(jīng)在C端、B端得到了廣泛應用，但效果和體驗還不夠理想；NLP技術(shù)雖然在搜索引擎中早有應用，但在人機交互領(lǐng)域仍屬于淺層處理。

在生物學中，有個術(shù)語叫做“魯棒性”，是指系統(tǒng)在擾動或不確定的情況下，仍能保持它的特征行為。這一問題在語音識別領(lǐng)域也存在。

語音識別整個過程包含語音信號處理、靜音切除、聲學特征提取、模式匹配等多個環(huán)節(jié)。由于語音信號的多樣性和復雜性，系統(tǒng)只能在一定限制條件下才能獲得滿意效果。在真實使用場景中，考慮到遠場、方言、噪音、斷句等問題，準確率會大打折扣。目前業(yè)內(nèi)普遍宣稱的97%識別準確率，更多的是人工測評結(jié)果，只在安靜室內(nèi)的進場識別中才能實現(xiàn)。

要解決語音識別魯棒性問題，需要在技術(shù)和產(chǎn)品兩方面進行優(yōu)化。一方面，在語音增強、麥克風陣列以及說話人分離等多項技術(shù)領(lǐng)域持續(xù)投入，并結(jié)合后端語義，促進對上下文的理解，從而提升識別效果；另一方面，需要從產(chǎn)品設計上進行優(yōu)化，比如通過進一步交互，使語音識別變得更為準確。

NLP技術(shù)大致包含叁個層面：詞法分析、句法分析、語義分析，叁者之間既遞進又相互包含。

詞義消歧是NLP技術(shù)的大瓶頸。機器在切詞、標注詞性、并識別完后，需要對各個詞語進行理解。由于語言中往往一詞多義，人在理解時會基于已有知識儲備和上下文環(huán)境，但機器很難做到。雖然系統(tǒng)會對句子做句法分析，可以在一定程度上幫助機器理解詞義和語義，但實際情況并不理想。

目前，機器對句子的理解還只能做到語義角色標注層面，即標出句中的句子成分和主被動關(guān)系等，它屬于比較成熟的淺層語義分析技術(shù)。未來要讓機器更好地理解人類語言，并實現(xiàn)自然交互，還是需要依賴深度學習技術(shù)，通過大規(guī)模的數(shù)據(jù)訓練，讓機器不斷學習。當然，在實際應用領(lǐng)域中，也可以通過產(chǎn)品設計來減少較為模煳的問答內(nèi)容，以提升用戶體驗。

由于人工智能技術(shù)對數(shù)據(jù)依賴性極高，因此，這一領(lǐng)域的技術(shù)進步和產(chǎn)業(yè)化推進是一種協(xié)同關(guān)系——通過工程化的方法提升技術(shù)效果和體驗，從而促進產(chǎn)業(yè)化應用，再根據(jù)實際應用中的數(shù)據(jù)和反饋，反過來推動技術(shù)實現(xiàn)突破。