(文章來源:中國安防展覽網(wǎng))
智能語音語義包含語音合成、語音識別和自然語言處理(NLP)叁項主要技術(shù)。
語音合成技術(shù)發(fā)展早,應用已較為普遍,除了合成音仍偏機械之外,基本不存在太大技術(shù)問題;語音識別在2012年卷積神經(jīng)網(wǎng)絡(CNN)應用之后,準確率大幅提升,已經(jīng)在C端、B端得到了廣泛應用,但效果和體驗還不夠理想;NLP技術(shù)雖然在搜索引擎中早有應用,但在人機交互領(lǐng)域仍屬于淺層處理。
在生物學中,有個術(shù)語叫做“魯棒性”,是指系統(tǒng)在擾動或不確定的情況下,仍能保持它的特征行為。這一問題在語音識別領(lǐng)域也存在。
語音識別整個過程包含語音信號處理、靜音切除、聲學特征提取、模式匹配等多個環(huán)節(jié)。由于語音信號的多樣性和復雜性,系統(tǒng)只能在一定限制條件下才能獲得滿意效果。在真實使用場景中,考慮到遠場、方言、噪音、斷句等問題,準確率會大打折扣。目前業(yè)內(nèi)普遍宣稱的97%識別準確率,更多的是人工測評結(jié)果,只在安靜室內(nèi)的進場識別中才能實現(xiàn)。
要解決語音識別魯棒性問題,需要在技術(shù)和產(chǎn)品兩方面進行優(yōu)化。一方面,在語音增強、麥克風陣列以及說話人分離等多項技術(shù)領(lǐng)域持續(xù)投入,并結(jié)合后端語義,促進對上下文的理解,從而提升識別效果;另一方面,需要從產(chǎn)品設計上進行優(yōu)化,比如通過進一步交互,使語音識別變得更為準確。
NLP技術(shù)大致包含叁個層面:詞法分析、句法分析、語義分析,叁者之間既遞進又相互包含。
詞義消歧是NLP技術(shù)的大瓶頸。機器在切詞、標注詞性、并識別完后,需要對各個詞語進行理解。由于語言中往往一詞多義,人在理解時會基于已有知識儲備和上下文環(huán)境,但機器很難做到。雖然系統(tǒng)會對句子做句法分析,可以在一定程度上幫助機器理解詞義和語義,但實際情況并不理想。
目前,機器對句子的理解還只能做到語義角色標注層面,即標出句中的句子成分和主被動關(guān)系等,它屬于比較成熟的淺層語義分析技術(shù)。未來要讓機器更好地理解人類語言,并實現(xiàn)自然交互,還是需要依賴深度學習技術(shù),通過大規(guī)模的數(shù)據(jù)訓練,讓機器不斷學習。當然,在實際應用領(lǐng)域中,也可以通過產(chǎn)品設計來減少較為模煳的問答內(nèi)容,以提升用戶體驗。
由于人工智能技術(shù)對數(shù)據(jù)依賴性極高,因此,這一領(lǐng)域的技術(shù)進步和產(chǎn)業(yè)化推進是一種協(xié)同關(guān)系——通過工程化的方法提升技術(shù)效果和體驗,從而促進產(chǎn)業(yè)化應用,再根據(jù)實際應用中的數(shù)據(jù)和反饋,反過來推動技術(shù)實現(xiàn)突破。