對于語音識別技術(shù)你了解多少呢
語音識別技術(shù)(Automatic Speech RecogniTIon,ASR)的功能是將人類語音中的詞匯內(nèi)容以按鍵、二進制編碼或字符序列轉(zhuǎn)換為計算機可讀的輸入信息。長久以來,人類夢寐以求的事情是與機器進行語音交流,讓機器明白自己在說什么。作為一種伴隨信息革命誕生的新興交叉技術(shù),語音識別旨在引導(dǎo)機器通過識別和理解過程,把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。
20世紀(jì)50年代,人類開始了對語音識別系統(tǒng)的研究,倫敦學(xué)院(College of London)的Denes率先將 語法概率應(yīng)用于語音識別,隨后卡內(nèi)基·梅隆大學(xué)的李開復(fù)博士率先提出了第一個基于隱馬爾可夫模型(Hidden Markov Mod-el)的大詞匯量語音識別系統(tǒng)Sphinx,這一系統(tǒng)的發(fā)明幫助他獲得了1988年“美國商業(yè)周刊最重要發(fā)明獎”,也奠定了后來語音識別技術(shù)的研究框架。
進入21世紀(jì)以來,全球范圍內(nèi)語音識別技術(shù)的發(fā)展風(fēng)生水起、方興未艾,逐漸從實驗室邁向大眾消費市場,在手機、家電、醫(yī)療、工業(yè)、通信、汽車電子、家庭服務(wù)等諸多領(lǐng)域應(yīng)用廣泛。在未來的智能網(wǎng)聯(lián)汽車應(yīng)用場景中,很多研究者和創(chuàng)業(yè)公司都希望將語音識別技術(shù)應(yīng)用進來,他們會經(jīng)常描繪一個場景:用戶只要對著手機說話,汽車就會自動從車庫開到你的面前來接你上班。
語音識別領(lǐng)域的創(chuàng)業(yè)項目非常容易受到投資機構(gòu)的青睞,不論是在一級股權(quán)投資市場還是在二級證券市場,科大訊飛、思必馳、云知聲、得意音通等公司先后完成了多輪融資,它們代表了國內(nèi)目前在智能語音技術(shù)研究、軟件及芯片產(chǎn)品開發(fā)、聲紋識別和語音信息服務(wù)以及電子政務(wù)等領(lǐng)域的最高水平,并且在教育、醫(yī)療、家電和金融等領(lǐng)域獲得越來越多的應(yīng)用機會。由于汽車車廂內(nèi)處于噪聲環(huán)境,因此對語音識別的降噪要求會更高,這也是目前語音識別技術(shù)還需進一步提高的地方。