當前位置:首頁 > 消費電子 > 音視頻及家電
[導讀] (文章來源:最極客) ? ? ?? 目前,語音識別技術(shù)基本成型,處于較為成熟的狀態(tài)。例如在語音識別的Switchboard任務方面,最新的IBM已經(jīng)能將錯誤率控制在5.5%之下,有經(jīng)驗的轉(zhuǎn)寫

(文章來源:最極客)
? ? ?? 目前,語音識別技術(shù)基本成型,處于較為成熟的狀態(tài)。例如在語音識別的Switchboard任務方面,最新的IBM已經(jīng)能將錯誤率控制在5.5%之下,有經(jīng)驗的轉(zhuǎn)寫人員在這個任務中可以達到4%之下。因此,這類安靜環(huán)境下的語音識別系統(tǒng)已經(jīng)近似于人類水平。

目前的進展多處于應用層面。語音合成技術(shù)被應用在更多領(lǐng)域,而且從原始的機器聲音已經(jīng)進化到能夠發(fā)出自然人的聲音的程度,甚至現(xiàn)在出現(xiàn)各種明星聲音的語音助手。在語音識別方面,市面上已經(jīng)出現(xiàn)了針對方言口音的語音軟件。在語義理解方面,聊天機器人正處在迅速進化的過程中,甚至能夠講笑話。在語音喚醒方面,智能音箱等產(chǎn)品大量出現(xiàn)。雖然在這些應用中,許多產(chǎn)品并沒有達到高層智能的水平,但也給語音識別技術(shù)指明了方向。

實際上,語音識別技術(shù)在發(fā)音規(guī)范且背景噪音可控的環(huán)境下,在很多年前就能夠進入應用階段。不少尖端系統(tǒng)在工程水平很高的情況下還可以做的更好,如早期的Siri及DARPA項目語音識別評測中的各種參賽系統(tǒng)。但在飛速進步的過程中,語音識別仍無法避免遇到某些瓶頸。

在強噪聲干擾的情況下,目前的語音識別系統(tǒng)還很難達到實用化要求。在自然發(fā)音、噪聲、口音等復雜條件下,語音識別的準確率明顯下降。此外,語音的訓練和測試用數(shù)據(jù)的匹配也并不十分契合。想要解決環(huán)境復雜的問題,除了高超的技術(shù)之外,聲學模型自適應等也是不錯的方式。對于匹配問題則可以更加偏向研究方向,對語音本質(zhì)進行更為深入的理解。

例如在人類的聽覺系統(tǒng)中,存在一種“雞尾酒會效應”:人類在具有背景噪聲干擾的情況下,依然能夠?qū)⒆⒁饬性谀骋粋€人的談話上。可以將人類聽覺系統(tǒng)的這種功能賦予語音識別系統(tǒng),但就目前的技術(shù)而言依然很難實現(xiàn)。同時,遠場識別也依然是個充滿挑戰(zhàn)性的問題。當前,語音識別的遠場錯誤率是近場的兩倍左右。因此,解決遠場及強噪聲干擾情況下的語音識別是當前的一個有待進一步研究的問題。

對于這個問題,目前的主要解決方法是語音識別和麥克風陣列相結(jié)合。通過陣列信號處理技術(shù),增強多通道語音技術(shù),而后利用深度學習的方法進行聲學建模。當然,這種方案有待于進步和優(yōu)化,并且要考慮多方面的問題。如怎樣將陣列信號處理技術(shù)和深度學習方法相結(jié)合,利用陣列信號處理的相關(guān)知識指導深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計,以便直接從多通道語音信號中學習多通道語音增強方法,而后和后端聲學模型聯(lián)合優(yōu)化等。

另外,個體發(fā)音以及用詞習慣都存在差異性,所以如何使得語音識別更加智能化也是一個問題。可以看到,語音識別已經(jīng)走到一個相對成熟的發(fā)展階段,未來也會在應用級市場普及,但在發(fā)展過程中仍然存在許多瓶頸。生物技術(shù)識別方式先進而便捷,但人們不免擔心其中所涉及到的隱私問題。

當然,目前語音識別技術(shù)并未大規(guī)模普及,但在那一天到來之前,人們需要彌補語音識別技術(shù)中存在的瓶頸。其實對于深度學習神經(jīng)網(wǎng)絡(luò)而言,一切都只是時間問題。足夠的語音數(shù)據(jù)加上足夠的訓練,語音識別技術(shù)的發(fā)展還是值得期待的。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉