語(yǔ)音識(shí)別技術(shù)將使得人與機(jī)器的溝通成為可能
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來(lái)源:OFweek)
語(yǔ)音識(shí)別已成為人與機(jī)器通過(guò)自然語(yǔ)言交互重要方式之一,本文將從語(yǔ)音識(shí)別的原理以及語(yǔ)音識(shí)別算法的角度出發(fā)為大家介紹語(yǔ)音識(shí)別的方案及詳細(xì)設(shè)計(jì)過(guò)程。
語(yǔ)言作為人類的一種基本交流方式,在數(shù)千年歷史中得到持續(xù)傳承。近年來(lái),語(yǔ)音識(shí)別技術(shù)的不斷成熟,已廣泛應(yīng)用于我們的生活當(dāng)中。語(yǔ)音識(shí)別技術(shù)是如何讓機(jī)器“聽(tīng)懂”人類語(yǔ)言?本文將為大家從語(yǔ)音前端處理、基于統(tǒng)計(jì)學(xué)語(yǔ)音識(shí)別和基于深度學(xué)習(xí)語(yǔ)音識(shí)別等方面闡述語(yǔ)音識(shí)別的原理。
隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,人們對(duì)機(jī)器的依賴已經(jīng)達(dá)到一個(gè)極高的程度。語(yǔ)音識(shí)別技術(shù)使得人與機(jī)器通過(guò)自然語(yǔ)言交互成為可能。最常見(jiàn)的情形是通過(guò)語(yǔ)音控制房間燈光、空調(diào)溫度和電視的相關(guān)操作等。并且,移動(dòng)互聯(lián)網(wǎng)、智能家居、汽車、醫(yī)療和教育等領(lǐng)域的應(yīng)用帶動(dòng)智能語(yǔ)音產(chǎn)業(yè)規(guī)模持續(xù)快速增長(zhǎng),2018年全球智能語(yǔ)音市場(chǎng)規(guī)模將達(dá)到141.1億美元。
目前,在全球智能語(yǔ)音市場(chǎng)占比情況中,各巨頭市場(chǎng)占有率由大到小依次為:Nuance、谷歌、蘋(píng)果、微軟和科大訊飛等。
接下來(lái)對(duì)語(yǔ)音識(shí)別相關(guān)技術(shù)進(jìn)行介紹,為了便于整體理解,首先,介紹語(yǔ)音前端信號(hào)處理的相關(guān)技術(shù),然后,解釋語(yǔ)音識(shí)別基本原理,并展開(kāi)到聲學(xué)模型和語(yǔ)言模型的敘述,最后,展示我司當(dāng)前研發(fā)的離線語(yǔ)音識(shí)別demo。前端的信號(hào)處理是對(duì)原始語(yǔ)音信號(hào)進(jìn)行的相關(guān)處理,使得處理后的信號(hào)更能代表語(yǔ)音的本質(zhì)特征。
語(yǔ)音活動(dòng)檢測(cè)(Voice Activity DetecTIon, VAD)用于檢測(cè)出語(yǔ)音信號(hào)的起始位置,分離出語(yǔ)音段和非語(yǔ)音(靜音或噪聲)段。VAD算法大致分為三類:基于閾值的VAD、基于分類器的VAD和基于模型的VAD。
基于閾值的VAD是通過(guò)提取時(shí)域(短時(shí)能量、短時(shí)過(guò)零率等)或頻域(MFCC、譜熵等)特征,通過(guò)合理的設(shè)置門(mén)限,達(dá)到區(qū)分語(yǔ)音和非語(yǔ)音的目的;基于分類的VAD是將語(yǔ)音活動(dòng)檢測(cè)作為(語(yǔ)音和非語(yǔ)音)二分類,可以通過(guò)機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器,達(dá)到語(yǔ)音活動(dòng)檢測(cè)的目的;基于模型的VAD是構(gòu)建一套完整的語(yǔ)音識(shí)別模型用于區(qū)分語(yǔ)音段和非語(yǔ)音段,考慮到實(shí)時(shí)性的要求,并未得到實(shí)際的應(yīng)用。
在生活環(huán)境中通常會(huì)存在例如空調(diào)、風(fēng)扇等各種噪聲,降噪算法目的在于降低環(huán)境中存在的噪聲,提高信噪比,進(jìn)一步提升識(shí)別效果。