當(dāng)前位置:首頁(yè) > 消費(fèi)電子 > 音頻技術(shù)
[導(dǎo)讀] 語(yǔ)音識(shí)別技術(shù)的發(fā)展 與機(jī)器進(jìn)行語(yǔ)音交流,讓它聽明白你在說什么。語(yǔ)音識(shí)別技術(shù)將人類這一曾經(jīng)的夢(mèng)想變成了現(xiàn)實(shí)。語(yǔ)音識(shí)別就好比“機(jī)器的聽覺系統(tǒng)”,該技術(shù)讓機(jī)器通過識(shí)別和

語(yǔ)音識(shí)別技術(shù)的發(fā)展

與機(jī)器進(jìn)行語(yǔ)音交流,讓它聽明白你在說什么。語(yǔ)音識(shí)別技術(shù)將人類這一曾經(jīng)的夢(mèng)想變成了現(xiàn)實(shí)。語(yǔ)音識(shí)別就好比“機(jī)器的聽覺系統(tǒng)”,該技術(shù)讓機(jī)器通過識(shí)別和理解,把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。

在1952年的貝爾研究所,Davis等人研制了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年英國(guó)的Denes等人研制了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。

大規(guī)模的語(yǔ)音識(shí)別研究始于上世紀(jì)70年代以后,并在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。上世紀(jì)80年代以后,語(yǔ)音識(shí)別研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別。

同時(shí),語(yǔ)音識(shí)別在研究思路上也發(fā)生了重大變化,由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開始轉(zhuǎn)向基于統(tǒng)計(jì)模型的技術(shù)思路。此外,業(yè)內(nèi)有專家再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語(yǔ)音識(shí)別問題的技術(shù)思路。

上世紀(jì)90年代以后,在語(yǔ)音識(shí)別的系統(tǒng)框架方面并沒有什么重大突破。但是,在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。比如,DARPA是在上世界70年代由美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)計(jì)劃,旨在支持語(yǔ)言理解系統(tǒng)的研究開發(fā)工作。進(jìn)入上世紀(jì)90年代,DARPA計(jì)劃仍在持續(xù)進(jìn)行中,其研究重點(diǎn)已轉(zhuǎn)向識(shí)別裝置中的自然語(yǔ)言處理部分,識(shí)別任務(wù)設(shè)定為“航空旅行信息檢索”。

我國(guó)的語(yǔ)音識(shí)別研究起始于1958年,由中國(guó)科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音。由于當(dāng)時(shí)條件的限制,中國(guó)的語(yǔ)音識(shí)別研究工作一直處于緩慢發(fā)展的階段。直至1973年,中國(guó)科學(xué)院聲學(xué)所開始了計(jì)算機(jī)語(yǔ)音識(shí)別。

進(jìn)入上世紀(jì)80年代以來,隨著計(jì)算機(jī)應(yīng)用技術(shù)在我國(guó)逐漸普及和應(yīng)用以及數(shù)字信號(hào)技術(shù)的進(jìn)一步發(fā)展,國(guó)內(nèi)許多單位具備了研究語(yǔ)音技術(shù)的基本條件。與此同時(shí),國(guó)際上語(yǔ)音識(shí)別技術(shù)在經(jīng)過了多年的沉寂之后重又成為研究的熱點(diǎn)。在這種形式下,國(guó)內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。

1986年,語(yǔ)音識(shí)別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分而被專門列為研究課題。在“863”計(jì)劃的支持下,中國(guó)開始組織語(yǔ)音識(shí)別技術(shù)的研究,并決定了每隔兩年召開一次語(yǔ)音識(shí)別的專題會(huì)議。自此,我國(guó)語(yǔ)音識(shí)別技術(shù)進(jìn)入了一個(gè)新的發(fā)展階段。

自2009年以來,借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展以及大數(shù)據(jù)語(yǔ)料的積累,語(yǔ)音識(shí)別技術(shù)得到突飛猛進(jìn)的發(fā)展。

將機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究引入到語(yǔ)音識(shí)別聲學(xué)模型訓(xùn)練,使用帶RBM預(yù)訓(xùn)練的多層神經(jīng)網(wǎng)絡(luò),提高了聲學(xué)模型的準(zhǔn)確率。在此方面,微軟公司的研究人員率先取得了突破性進(jìn)展,他們使用深層神經(jīng)網(wǎng)絡(luò)模型(DNN)后,語(yǔ)音識(shí)別錯(cuò)誤率降低了30%,是近20年來語(yǔ)音識(shí)別技術(shù)方面最快的進(jìn)步。

2009年前后,大多主流的語(yǔ)音識(shí)別解碼器已經(jīng)采用基于有限狀態(tài)機(jī)(WFST)的解碼網(wǎng)絡(luò),該解碼網(wǎng)絡(luò)可以把語(yǔ)言模型、詞典和聲學(xué)共享音字集統(tǒng)一集成為一個(gè)大的解碼網(wǎng)絡(luò),提高了解碼的速度,為語(yǔ)音識(shí)別的實(shí)時(shí)應(yīng)用提供了基礎(chǔ)。

隨著互聯(lián)網(wǎng)的快速發(fā)展,以及手機(jī)等移動(dòng)終端的普及應(yīng)用,可以從多個(gè)渠道獲取大量文本或語(yǔ)音方面的語(yǔ)料,這為語(yǔ)音識(shí)別中的語(yǔ)言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得構(gòu)建通用大規(guī)模語(yǔ)言模型和聲學(xué)模型成為可能。

在語(yǔ)音識(shí)別中,訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動(dòng)系統(tǒng)性能提升的最重要因素之一,但是語(yǔ)料的標(biāo)注和分析需要長(zhǎng)期的積累和沉淀,隨著大數(shù)據(jù)時(shí)代的來臨,大規(guī)模語(yǔ)料資源的積累將提到戰(zhàn)略高度。

現(xiàn)如今,語(yǔ)音識(shí)別在移動(dòng)終端上的應(yīng)用最為火熱,語(yǔ)音對(duì)話機(jī)器人、語(yǔ)音助手、互動(dòng)工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財(cái)力展開此方面的研究和應(yīng)用,目的是通過語(yǔ)音交互的新穎和便利模式迅速占領(lǐng)客戶群。(雨田整理) 相關(guān)產(chǎn)品 siri

Siri技術(shù)來源于美國(guó)國(guó)防部高級(jí)研究規(guī)劃局所公布的CALO計(jì)劃:一個(gè)讓軍方簡(jiǎn)化處理一些繁復(fù)庶務(wù),并具學(xué)習(xí)、組織以及認(rèn)知能力的數(shù)字助理,其所衍生出來的民用版軟件Siri虛擬個(gè)人助理。

Siri成立于2007年,最初是以文字聊天服務(wù)為主,隨后通過與語(yǔ)音識(shí)別廠商N(yùn)uance合作,Siri實(shí)現(xiàn)了語(yǔ)音識(shí)別功能。2010年,Siri被蘋果以2億美金收購(gòu)。

Siri成為蘋果公司在其產(chǎn)品iPhone和iPad Air上應(yīng)用的一項(xiàng)語(yǔ)音控制功能。Siri可以令iPhone和iPad Air變身為一臺(tái)智能化機(jī)器人。Siri支持自然語(yǔ)言輸入,并且可以調(diào)用系統(tǒng)自帶的天氣預(yù)報(bào)、日程安排、搜索資料等應(yīng)用,還能夠不斷學(xué)習(xí)新的聲音和語(yǔ)調(diào),提供對(duì)話式的應(yīng)答。

Google Now

Google Now是谷歌隨安卓4.1系統(tǒng)同時(shí)推出的一款應(yīng)用,它可以了解用戶的各種習(xí)慣和正在進(jìn)行的動(dòng)作,并利用所了解的資料來為用戶提供相關(guān)信息。

今年3月24日,谷歌宣布Google Now語(yǔ)音服務(wù)正式登陸Windows和Mac桌面版Chrome瀏覽器。

Google Now的應(yīng)用會(huì)更加方便用戶收取電子郵件,當(dāng)你接收到新郵件時(shí),它就會(huì)自動(dòng)彈出以便你查看。Google Now還推出了步行和行車?yán)锍逃涗浌δ埽@個(gè)計(jì)步器功能可通過Android設(shè)備的傳感器來統(tǒng)計(jì)用戶每月行駛的里程,包括步行和騎自行車的路程。

此外,Google Now增加了一些旅游和娛樂特色功能,包括:汽車租賃、演唱會(huì)門票和通勤共享方面的卡片;公共交通和電視節(jié)目的卡片進(jìn)行改善,這些卡片現(xiàn)在可以聽音識(shí)別音樂和節(jié)目信息;用戶可以為新媒體節(jié)目的開播設(shè)定搜索提醒,同時(shí)還可以接收實(shí)時(shí)NCAA(美國(guó)大學(xué)體育協(xié)會(huì))橄欖球比分。

百度語(yǔ)音

百度語(yǔ)音一般指百度語(yǔ)音搜索,是百度公司為廣大互聯(lián)網(wǎng)用戶提供的一種基于語(yǔ)音的搜索服務(wù),用戶可以使用多種客戶端發(fā)起語(yǔ)音搜索,服務(wù)器端根據(jù)用戶的發(fā)出的語(yǔ)音請(qǐng)求,進(jìn)行語(yǔ)音識(shí)別然后將檢索結(jié)果反饋給用戶。

百度語(yǔ)音搜索不僅提供一般的通用語(yǔ)音搜索服務(wù),還有針對(duì)地圖用戶制定的特色搜索服務(wù),后續(xù)還會(huì)有更多的個(gè)性化搜索和識(shí)別服務(wù)出現(xiàn)。

目前百度語(yǔ)音搜索以移動(dòng)客戶端為主要平臺(tái),內(nèi)嵌于百度的其他產(chǎn)品中,比如掌上百度,百度手機(jī)地圖等,用戶可以在使用這些客戶端產(chǎn)品的同時(shí)體驗(yàn)語(yǔ)音搜索,支持全部主流的手機(jī)操作系統(tǒng)。

微軟Cortana

Cortana是Windows Phone平臺(tái)下的虛擬語(yǔ)音助手,由游戲《光暈》中Cortana的聲優(yōu)Jen Taylor配音,Cortana中文版又名“微軟小娜”。

微軟對(duì)Cortana的描述為“你手機(jī)上的私人助手,為你提供設(shè)置日歷項(xiàng)、建議、進(jìn)程等更多幫助”,它能夠和你之間進(jìn)行交互,并且盡可能的模擬人的說話語(yǔ)氣和思考方式跟你進(jìn)行交流。此外圓形的圖標(biāo)按鈕會(huì)隨著你手機(jī)的主題進(jìn)行調(diào)整,如果說你設(shè)置了綠色的主題,那么Cortana就是綠色的圖標(biāo)。

此外,你能夠通過開始屏幕或者設(shè)備上的搜索按鈕來呼出Cortana,Cortana采用一問一答的方式,它只有在你咨詢它的時(shí)候才會(huì)顯示足夠多的信息。

語(yǔ)音識(shí)別技術(shù)難點(diǎn)

語(yǔ)音識(shí)別成為爭(zhēng)奪焦點(diǎn)

據(jù)悉,全球范圍人工智能公司多專攻深度學(xué)習(xí)方向,而我國(guó)人工智能方向的200家左右的創(chuàng)業(yè)公司有超過70%的公司主攻圖像或語(yǔ)音識(shí)別這兩個(gè)分類。全球都有哪些公司在布局語(yǔ)音識(shí)別?他們的發(fā)展情況又如何?

其實(shí),早在計(jì)算機(jī)發(fā)明之前,自動(dòng)語(yǔ)音識(shí)別的設(shè)想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語(yǔ)音識(shí)別及合成的雛形。最早的基于電子計(jì)算機(jī)的語(yǔ)音識(shí)別系統(tǒng)是由AT&T貝爾實(shí)驗(yàn)室開發(fā)的Audrey語(yǔ)音識(shí)別系統(tǒng),它能夠識(shí)別10個(gè)英文數(shù)字。到1950年代末,倫敦學(xué)院(Colledge of London)的Denes已經(jīng)將語(yǔ)法概率加入語(yǔ)音識(shí)別中。

1960年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語(yǔ)音識(shí)別。這一時(shí)代的兩大突破是線性預(yù)測(cè)編碼Linear PredicTIve Coding(LPC),及動(dòng)態(tài)時(shí)間規(guī)整Dynamic TIme Warp技術(shù)。語(yǔ)音識(shí)別技術(shù)最重大的突破是隱含馬爾科夫模型Hidden Markov Model的應(yīng)用。從Baum提出相關(guān)數(shù)學(xué)推理,經(jīng)過Rabiner等人的研究,卡內(nèi)基梅隆大學(xué)的李開復(fù)最終實(shí)現(xiàn)了第一個(gè)基于隱馬爾科夫模型的大詞匯量語(yǔ)音識(shí)別系統(tǒng)Sphinx。

蘋果Siri

許多人認(rèn)識(shí)語(yǔ)音識(shí)別可能還得歸功于蘋果鼎鼎大名的語(yǔ)音助手Siri。2011年蘋果將語(yǔ)音識(shí)別技術(shù)融入到iPhone 4S中并發(fā)布了Siri語(yǔ)音助理,不過Siri并不是蘋果研發(fā)的技術(shù),而是收購(gòu)成立于2007年的Siri Inc.這家公司獲得的技術(shù)。在iPhone4s發(fā)布以后,Siri的體驗(yàn)并不理想,遭到了吐槽。因此,2013年蘋果又收購(gòu)了Novauris Technologies。Novauris是一種可識(shí)別整個(gè)短語(yǔ)的語(yǔ)音識(shí)別技術(shù),這種技術(shù)并非簡(jiǎn)單識(shí)別單個(gè)詞句,而是試圖利用超過2.45億個(gè)短語(yǔ)的識(shí)別輔助理解上下文,這讓Siri的功能進(jìn)一步完善。

不過Siri并沒有因?yàn)槭召?gòu)Novauris變得完美,2016年蘋果又收購(gòu)了開發(fā)的人工智能軟件,能夠幫助計(jì)算機(jī)與用戶進(jìn)行更為自然的對(duì)話英國(guó)語(yǔ)音技術(shù)初創(chuàng)公司VocalIQ。隨后,蘋果還收購(gòu)了美國(guó)圣地牙哥AI技術(shù)公司EmoTIent,接收其臉部表情分析與情緒辨別技術(shù)。據(jù)悉,EmoTIent開發(fā)的情緒引擎可讀取人們的面部表情并且預(yù)測(cè)其情緒狀態(tài)。

谷歌Google Now

與蘋果Siri類似,谷歌的Google Now知名度也比較高。不過相比蘋果谷歌在語(yǔ)音識(shí)別領(lǐng)域的動(dòng)作稍顯遲緩。2011年谷歌才出手收購(gòu)語(yǔ)音通信公司SayNow和語(yǔ)音合成公司Phonetic Arts。SayNow可以把語(yǔ)音通信、點(diǎn)對(duì)點(diǎn)對(duì)話、以及群組通話和Facebook、Twitter、MySpace、Android和iPhone等等應(yīng)用等整合在一起,而Phonetic Arts可以把錄制的語(yǔ)音對(duì)話轉(zhuǎn)化成語(yǔ)音庫(kù),然后把這些聲音結(jié)合到一起,從而生成聽上去非常逼真的人聲對(duì)話。

2012年的Google I/O開發(fā)者大會(huì)上,Google Now第一次亮相。

2013年谷歌又以超過3000萬美元收購(gòu)了新聞閱讀應(yīng)用開發(fā)商Wavii。Wavii擅長(zhǎng)“自然語(yǔ)言處理”技術(shù),可以通過掃描互聯(lián)網(wǎng)發(fā)現(xiàn)新聞,并直接給出一句話摘要及鏈接。之后,谷歌又收購(gòu)了SR Tech Group的多項(xiàng)語(yǔ)音識(shí)別相關(guān)的專利,這些技術(shù)和專利谷歌也很快應(yīng)用到市場(chǎng),比如YouTube已提供標(biāo)題自動(dòng)語(yǔ)音轉(zhuǎn)錄支持,Google Glass使用了語(yǔ)音控制技術(shù),Android也整合了語(yǔ)音識(shí)別技術(shù)等等,Google Now更是擁有了完整的語(yǔ)音識(shí)別引擎。

谷歌可能出于戰(zhàn)略布局方面的考慮,2015年入資了中國(guó)的出門問問,這是一款以語(yǔ)音導(dǎo)航為主的公司,最近也發(fā)布了智能手表,出門問問也有國(guó)內(nèi)著名聲學(xué)器件廠商歌爾聲學(xué)的背景。

微軟Cortana小冰

微軟語(yǔ)音識(shí)別最吸引眼球的就是Cortana和小冰。Cortana是微軟在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域方面的嘗試,Cortana可以記錄用戶的行為和使用習(xí)慣,利用云計(jì)算、搜索引擎和“非結(jié)構(gòu)化數(shù)據(jù)”分析,讀取和學(xué)習(xí)包括手機(jī)中的圖片、視頻、電子郵件等數(shù)據(jù)理解用戶的語(yǔ)義和語(yǔ)境,從而實(shí)現(xiàn)人機(jī)交互。

微軟小冰是微軟亞洲研究院2014年發(fā)布的人工智能機(jī)器人,微軟小冰除了智能對(duì)話之外,還兼具群提醒、百科、天氣、星座、笑話、交通指南、餐飲點(diǎn)評(píng)等實(shí)用技能。

除了Cortana和微軟小冰,Skype Translator,可以為英語(yǔ)、西班牙語(yǔ)、漢語(yǔ)、意大利語(yǔ)用戶提供實(shí)時(shí)翻譯服務(wù)。

亞馬遜

Amazon的語(yǔ)音技術(shù)起步于2011年收購(gòu)語(yǔ)音識(shí)別公司Yap,Yap成立于2006年,主要提供語(yǔ)音轉(zhuǎn)換文本的服務(wù)。2012年Amazon又收購(gòu)了語(yǔ)音技術(shù)公司Evi,繼續(xù)加強(qiáng)語(yǔ)音識(shí)別在商品搜索方面的應(yīng)用,Evi也曾經(jīng)應(yīng)用過Nuance的語(yǔ)音識(shí)別技術(shù)。2013年,Amazon繼續(xù)收購(gòu)Ivona Software,Ivona是一家波蘭公司,主要做文本語(yǔ)音轉(zhuǎn)換,其技術(shù)已被應(yīng)用在Kindle Fire的文本至語(yǔ)音轉(zhuǎn)換功能、語(yǔ)音命令和Explore by Touch應(yīng)用之中,Amazon智能音箱Echo也是利用了這項(xiàng)技術(shù)。

Facebook

Facebook在2013年收購(gòu)了創(chuàng)業(yè)型語(yǔ)音識(shí)別公司Mobile Technologies,其產(chǎn)品Jibbigo允許用戶在25種語(yǔ)言中進(jìn)行選擇,使用其中一種語(yǔ)言進(jìn)行語(yǔ)音片段錄制或文本輸入,然后將翻譯顯示在屏幕上,同時(shí)根據(jù)選擇的語(yǔ)言大聲朗讀出來。這一技術(shù)使得Jibbigo成為出國(guó)旅游的常用工具,很好地代替了常用語(yǔ)手冊(cè)。

之后,F(xiàn)acebook繼續(xù)收購(gòu)了語(yǔ)音交互解決方案服務(wù)商Wit.ai。Wit.ai的解決方案允許用戶直接通過語(yǔ)音來控制移動(dòng)應(yīng)用程序、穿戴設(shè)備和機(jī)器人,以及幾乎任何智能設(shè)備。Facebook的希望將這種技術(shù)應(yīng)用到定向廣告之中,將技術(shù)和自己的商業(yè)模式緊密結(jié)合在一起。

傳統(tǒng)語(yǔ)音識(shí)別行業(yè)貴族Nuance

除了以上介紹的大家熟知的科技巨頭的語(yǔ)音識(shí)別發(fā)展情況,傳統(tǒng)語(yǔ)音識(shí)別行業(yè)貴族Nuance也值得了解。Nuance曾經(jīng)在語(yǔ)音領(lǐng)域一統(tǒng)江湖,世界上有超過80%的語(yǔ)音識(shí)別都用過Nuance識(shí)別引擎技術(shù),其語(yǔ)音產(chǎn)品可以支持超過50種語(yǔ)言,在全球擁有超過20億用戶,幾乎壟斷了金融和電信行業(yè)?,F(xiàn)在,Nuance依舊是全球最大的語(yǔ)音技術(shù)公司,掌握著全球最多的語(yǔ)音技術(shù)專利。蘋果語(yǔ)音助手Siri、三星語(yǔ)音助手S-Voice、各大航空公司和頂級(jí)銀行的自動(dòng)呼叫中心,剛開始都是采用他們的語(yǔ)音識(shí)別引擎技術(shù)。

不過由于Nuance有點(diǎn)過于自大,現(xiàn)在的Nuance已經(jīng)不如當(dāng)年了。

國(guó)外其他語(yǔ)音識(shí)別公司

2013年英特爾收購(gòu)了西班牙的語(yǔ)音識(shí)別技術(shù)公司Indisys,同年雅虎收購(gòu)了自然語(yǔ)言處理技術(shù)初創(chuàng)公司SkyPhrase。而美國(guó)最大的有線電視公司Comcast也開始推出自己的語(yǔ)音識(shí)別交互系統(tǒng)。Comcast希望利用語(yǔ)音識(shí)別技術(shù)讓用戶通過語(yǔ)音就可以更自由控制電視,并完成一些遙控器無法完成的事情。

國(guó)內(nèi)語(yǔ)音識(shí)別廠商

科大訊飛

科大訊飛成立于1999年底,依靠中科大的語(yǔ)音處理技術(shù)以及國(guó)家的大力扶持,很快就走上了正軌??拼笥嶏w2008年掛牌上市,目前市值接近500億,根據(jù)2014年語(yǔ)音產(chǎn)業(yè)聯(lián)盟的數(shù)據(jù)調(diào)查顯示,科大訊飛占據(jù)了超過60%的市場(chǎng)份額,絕對(duì)是語(yǔ)音技術(shù)的國(guó)內(nèi)龍頭企業(yè)。

提到科大訊飛,大家可能想到的都是語(yǔ)音識(shí)別,但其實(shí)它最大的收益來源是教育,特別是在2013年左右,收購(gòu)了很多家語(yǔ)音評(píng)測(cè)公司,包括啟明科技等,對(duì)教育市場(chǎng)形成了壟斷,經(jīng)過一系列的收購(gòu)后,目前所有省份的口語(yǔ)評(píng)測(cè)用的都是科大訊飛的引擎,由于其占據(jù)了考試的制高點(diǎn),所有的學(xué)校及家長(zhǎng)都愿意為其買單。

百度語(yǔ)音

百度語(yǔ)音很早就被確立為戰(zhàn)略方向,2010年與中科院聲學(xué)所合作研發(fā)語(yǔ)音識(shí)別技術(shù),但是市場(chǎng)發(fā)展相對(duì)緩慢。直到2014年,百度重新梳理了戰(zhàn)略,請(qǐng)來了人工智能領(lǐng)域的泰斗級(jí)大師吳恩達(dá),正式組建了語(yǔ)音團(tuán)隊(duì),專門研究語(yǔ)音相關(guān)技術(shù),由于有百度強(qiáng)大的資金支持,到目前為止收獲頗豐,斬獲了近13%的市場(chǎng)份額,其技術(shù)實(shí)力已經(jīng)可以和擁有十多年技術(shù)與經(jīng)驗(yàn)積累的科大訊飛相提并論。

捷通和信利

捷通華聲憑借的是清華技術(shù),成立初期力邀中科院聲學(xué)所的呂士楠老先生加入,奠定了語(yǔ)音合成的基礎(chǔ)。中科信利則完全依托于中科院聲學(xué)所,其成立初期技術(shù)實(shí)力極為雄厚,不僅為國(guó)內(nèi)語(yǔ)音識(shí)別行業(yè)培養(yǎng)了大量人才,而且也在行業(yè)領(lǐng)域,特別是軍工領(lǐng)域發(fā)揮著至關(guān)重要的作用。

中科院聲學(xué)所培養(yǎng)的這些人才,對(duì)于國(guó)內(nèi)語(yǔ)音識(shí)別行業(yè)的發(fā)展極為重要,姑且稱之為聲學(xué)系,但是相對(duì)于市場(chǎng)來說,這兩家公司已經(jīng)落后了科大訊飛一大段距離。中科信利由于還有行業(yè)市場(chǎng)背景,目前基本上不再參與市場(chǎng)運(yùn)作,而捷通華聲最近也因?yàn)槟洗箅娮?ldquo;嬌嬌”機(jī)器人的造假事件被推上了風(fēng)口浪尖,著實(shí)是一個(gè)非常負(fù)面的影響。

思必馳

2009年前后,DNN被用于語(yǔ)音識(shí)別領(lǐng)域,語(yǔ)音識(shí)別率得到大幅提升,識(shí)別率突破90%,達(dá)到商用標(biāo)準(zhǔn),這極大的推動(dòng)了語(yǔ)音識(shí)別領(lǐng)域的發(fā)展,這幾年內(nèi)又先后成立許多語(yǔ)音識(shí)別相關(guān)的創(chuàng)業(yè)公司。

思必馳2007年成立,創(chuàng)始人大部分來源于劍橋團(tuán)隊(duì),其技術(shù)有一定的國(guó)外基礎(chǔ),當(dāng)時(shí)公司主要側(cè)重于語(yǔ)音評(píng)測(cè),也就是教育,但經(jīng)過多年的發(fā)展,雖然占有了一些市場(chǎng),但在科大訊飛把持著考試制高點(diǎn)的情況下,也很難得到突破。

于是在2014年的時(shí)候,思必馳痛下決心將負(fù)責(zé)教育行業(yè)的部門剝離,以9000萬賣給了網(wǎng)龍,自己則把精力收縮專注智能硬件和移動(dòng)互聯(lián)網(wǎng),最近更是集中精力聚焦車載語(yǔ)音助手,推出了“蘿卜”,可市場(chǎng)反響非常一般。

云知聲

借著2011年蘋果Siri的宣傳勢(shì)頭,2012年云知聲成立。云知聲團(tuán)隊(duì)主要來源于盛大研究院,湊巧的是CEO和CTO也是中科大畢業(yè),與科大訊飛可以說是師兄弟。但語(yǔ)音識(shí)別技術(shù)則更多的源于中科院自動(dòng)化所,其語(yǔ)音識(shí)別技術(shù)有一定的獨(dú)到之處,有一小段時(shí)期內(nèi)語(yǔ)音識(shí)別率甚至超越科大訊飛。因此也受到了資本的熱捧,B輪融資達(dá)到3億,主要瞄準(zhǔn)智能家居市場(chǎng)。但至今已經(jīng)成立了3年多,聽到的更多是宣傳,市場(chǎng)發(fā)展較為緩慢,B2B市場(chǎng)始終不見起色,B2C市場(chǎng)也很少聽到實(shí)際應(yīng)用,估計(jì)目前還處在燒錢階段。

出門問問

出門問問成立于2012年,其CEO曾經(jīng)在谷歌工作,在拿到紅杉資本和真格基金的天使投資之后,從谷歌辭職創(chuàng)辦了上海羽扇智信息科技有限公司,并立志打造下一代移動(dòng)語(yǔ)音搜索產(chǎn)品————“出門問問”。

出門問問的成功之處便是蘋果APP的榜單排名,但是筆者不知道有那么多內(nèi)置地圖的情況下,為啥還要下載這個(gè)軟件,顯然有時(shí)候比直接查找地圖還要麻煩。出門問問同樣也具有較強(qiáng)的融資能力,2015年拿到了Google的C輪融資,融資額累計(jì)已經(jīng)7500萬美元。出門問問主要瞄準(zhǔn)可穿戴市場(chǎng),最近自己也推出了智能手表等產(chǎn)品,但也是雷聲大,雨點(diǎn)小,沒見得其智能手表的銷量如何。

國(guó)內(nèi)其他的語(yǔ)音識(shí)別公司

語(yǔ)音識(shí)別的門檻并不高,因此國(guó)內(nèi)各大公司也逐漸加入進(jìn)來。搜狗開始采用的是云知聲的語(yǔ)音識(shí)別引擎,但很快就搭建起自己的語(yǔ)音識(shí)別引擎,主要應(yīng)用于搜狗輸入法,效果也還可以。

騰訊當(dāng)然不會(huì)落后,微信也建立了自己語(yǔ)音識(shí)別引擎,用于將語(yǔ)音轉(zhuǎn)換為文字,但這個(gè)做的還是有點(diǎn)差距。

阿里,愛奇藝,360,樂視等等也都在搭建自己的語(yǔ)音識(shí)別引擎,但這些大公司更多的是自研自用,基本上技術(shù)上泛善可陳,業(yè)界也沒有什么影響力。

當(dāng)然,除了以上介紹的產(chǎn)業(yè)界的語(yǔ)音識(shí)別公司,學(xué)術(shù)界Cambridge的HTK工具對(duì)學(xué)術(shù)界研究推動(dòng)巨大,還有CMU、SRI、MIT、RWTH、ATR等同樣推動(dòng)語(yǔ)音識(shí)別技術(shù)的發(fā)展。

語(yǔ)音識(shí)別技術(shù)原理是什么?

對(duì)于語(yǔ)音識(shí)別技術(shù),相信大家或多或少都已經(jīng)有了接觸和應(yīng)用,上面我們也已經(jīng)介紹了國(guó)內(nèi)外主要的語(yǔ)音識(shí)別技術(shù)公司的情況。但你仍然可能想知道,語(yǔ)音識(shí)別技術(shù)的原理是什么?那么接下來就為大家做介紹。

語(yǔ)音識(shí)別技術(shù)

語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解過程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。語(yǔ)音識(shí)別的目的就是讓機(jī)器賦予人的聽覺特性,聽懂人說什么,并作出相應(yīng)的動(dòng)作。目前大多數(shù)語(yǔ)音識(shí)別技術(shù)是基于統(tǒng)計(jì)模式的,從語(yǔ)音產(chǎn)生機(jī)理來看,語(yǔ)音識(shí)別可以分為語(yǔ)音層和語(yǔ)言層兩部分。

語(yǔ)音識(shí)別本質(zhì)上是一種模式識(shí)別的過程,未知語(yǔ)音的模式與已知語(yǔ)音的參考模式逐一進(jìn)行比較,最佳匹配的參考模式被作為識(shí)別結(jié)果。

當(dāng)今語(yǔ)音識(shí)別技術(shù)的主流算法,主要有基于動(dòng)態(tài)時(shí)間規(guī)整(DTW)算法、基于非參數(shù)模型的矢量量化(VQ)方法、基于參數(shù)模型的隱馬爾可夫模型(HMM)的方法、基于人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)等語(yǔ)音識(shí)別方法。

語(yǔ)音識(shí)別基本框圖

語(yǔ)音識(shí)別分類:

根據(jù)對(duì)說話人的依賴程度,分為:

(1)特定人語(yǔ)音識(shí)別(SD):只能辨認(rèn)特定使用者的語(yǔ)音,訓(xùn)練→使用。

(2)非特定人語(yǔ)音識(shí)別(SI):可辨認(rèn)任何人的語(yǔ)音,無須訓(xùn)練。

根據(jù)對(duì)說話方式的要求,分為:

(1)孤立詞識(shí)別:每次只能識(shí)別單個(gè)詞匯。

(2)連續(xù)語(yǔ)音識(shí)別:用者以正常語(yǔ)速說話,即可識(shí)別其中的語(yǔ)句。

語(yǔ)音識(shí)別系統(tǒng)

語(yǔ)音識(shí)別系統(tǒng)的模型通常由聲學(xué)模型和語(yǔ)言模型兩部分組成,分別對(duì)應(yīng)于語(yǔ)音到音節(jié)概率的計(jì)算和音節(jié)到字概率的計(jì)算。

Sphinx是由美國(guó)卡內(nèi)基梅隆大學(xué)開發(fā)的大詞匯量、非特定人、連續(xù)英語(yǔ)語(yǔ)音識(shí)別系統(tǒng)。一個(gè)連續(xù)語(yǔ)音識(shí)別系統(tǒng)大致可分為四個(gè)部分:特征提取,聲學(xué)模型訓(xùn)練,語(yǔ)言模型訓(xùn)練和解碼器。

(1)預(yù)處理模塊

對(duì)輸入的原始語(yǔ)音信號(hào)進(jìn)行處理,濾除掉其中的不重要的信息以及背景噪聲,并進(jìn)行語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)(找出語(yǔ)音信號(hào)的始末)、語(yǔ)音分幀(近似認(rèn)為在10-30ms內(nèi)是語(yǔ)音信號(hào)是短時(shí)平穩(wěn)的,將語(yǔ)音信號(hào)分割為一段一段進(jìn)行分析)以及預(yù)加重(提升高頻部分)等處理。

(2)特征提取

去除語(yǔ)音信號(hào)中對(duì)于語(yǔ)音識(shí)別無用的冗余信息,保留能夠反映語(yǔ)音本質(zhì)特征的信息,并用一定的形式表示出來。也就是提取出反映語(yǔ)音信號(hào)特征的關(guān)鍵特征參數(shù)形成特征矢量序列,以便用于后續(xù)處理。

目前的較常用的提取特征的方法還是比較多的,不過這些提取方法都是由頻譜衍生出來的。

(3)聲學(xué)模型訓(xùn)練

根據(jù)訓(xùn)練語(yǔ)音庫(kù)的特征參數(shù)訓(xùn)練出聲學(xué)模型參數(shù)。在識(shí)別時(shí)可以將待識(shí)別的語(yǔ)音的特征參數(shù)同聲學(xué)模型進(jìn)行匹配,得到識(shí)別結(jié)果。

目前的主流語(yǔ)音識(shí)別系統(tǒng)多采用隱馬爾可夫模型HMM進(jìn)行聲學(xué)模型建模。

(4)語(yǔ)言模型訓(xùn)練

語(yǔ)言模型是用來計(jì)算一個(gè)句子出現(xiàn)概率的概率模型。它主要用于決定哪個(gè)詞序列的可能性更大,或者在出現(xiàn)了幾個(gè)詞的情況下預(yù)測(cè)下一個(gè)即將出現(xiàn)的詞語(yǔ)的內(nèi)容。換一個(gè)說法說,語(yǔ)言模型是用來約束單詞搜索的。它定義了哪些詞能跟在上一個(gè)已經(jīng)識(shí)別的詞的后面(匹配是一個(gè)順序的處理過程),這樣就可以為匹配過程排除一些不可能的單詞。

語(yǔ)言建模能夠有效的結(jié)合漢語(yǔ)語(yǔ)法和語(yǔ)義的知識(shí),描述詞之間的內(nèi)在關(guān)系,從而提高識(shí)別率,減少搜索范圍。語(yǔ)言模型分為三個(gè)層次:字典知識(shí),語(yǔ)法知識(shí),句法知識(shí)。

對(duì)訓(xùn)練文本數(shù)據(jù)庫(kù)進(jìn)行語(yǔ)法、語(yǔ)義分析,經(jīng)過基于統(tǒng)計(jì)模型訓(xùn)練得到語(yǔ)言模型。語(yǔ)言建模方法主要有基于規(guī)則模型和基于統(tǒng)計(jì)模型兩種方法。

(5)語(yǔ)音解碼和搜索算法

解碼器:即指語(yǔ)音技術(shù)中的識(shí)別過程。針對(duì)輸入的語(yǔ)音信號(hào),根據(jù)己經(jīng)訓(xùn)練好的HMM聲學(xué)模型、語(yǔ)言模型及字典建立一個(gè)識(shí)別網(wǎng)絡(luò),根據(jù)搜索算法在該網(wǎng)絡(luò)中尋找最佳的一條路徑,這個(gè)路徑就是能夠以最大概率輸出該語(yǔ)音信號(hào)的詞串,這樣就確定這個(gè)語(yǔ)音樣本所包含的文字了。所以解碼操作即指搜索算法:是指在解碼端通過搜索技術(shù)尋找最優(yōu)詞串的方法。

連續(xù)語(yǔ)音識(shí)別中的搜索,就是尋找一個(gè)詞模型序列以描述輸入語(yǔ)音信號(hào),從而得到詞解碼序列。搜索所依據(jù)的是對(duì)公式中的聲學(xué)模型打分和語(yǔ)言模型打分。在實(shí)際使用中,往往要依據(jù)經(jīng)驗(yàn)給語(yǔ)言模型加上一個(gè)高權(quán)重,并設(shè)置一個(gè)長(zhǎng)詞懲罰分?jǐn)?shù)。當(dāng)今的主流解碼技術(shù)都是基于Viterbi搜索算法的,Sphinx也是。

語(yǔ)音識(shí)別技術(shù)的難點(diǎn)

說話人的差異

不同說話人:發(fā)音器官,口音,說話風(fēng)格

同一說話人:不同時(shí)間,不同狀態(tài)

噪聲影響

背景噪聲

傳輸信道,麥克風(fēng)頻響

魯棒性技術(shù)

區(qū)分性訓(xùn)練

特征補(bǔ)償和模型補(bǔ)償

語(yǔ)音識(shí)別的具體應(yīng)用

命令詞系統(tǒng)

識(shí)別語(yǔ)法網(wǎng)絡(luò)相對(duì)受限,對(duì)用戶要求較嚴(yán)格

菜單導(dǎo)航,語(yǔ)音撥號(hào),車載導(dǎo)航,數(shù)字字母識(shí)別等等

智能交互系統(tǒng)

對(duì)用戶要求較為寬松,需要識(shí)別和其他領(lǐng)域技術(shù)的結(jié)合

呼叫路由,POI語(yǔ)音模糊查詢,關(guān)鍵詞檢出

大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)

海量詞條,覆蓋面廣,保證正確率的同時(shí)實(shí)時(shí)性較差

音頻轉(zhuǎn)寫

結(jié)合互聯(lián)網(wǎng)的語(yǔ)音搜索

實(shí)現(xiàn)語(yǔ)音到文本,語(yǔ)音到語(yǔ)音的搜索

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉