邊錄音邊自動轉寫成文字的智能錄音筆,支持中文與58種外語互譯的新一代翻譯機、模仿不同人說話的虛擬主播、供開發(fā)者使用的語音開放平臺。在科大訊飛股份有限公司北京總部的人工智能體驗中心,眾多人工智能與語音融合的前沿技術項目令記者大開眼界。
在即將到來的萬物互聯(lián)時代,語音作為人類最自然、最便捷的溝通方式,將會成為所有設備和產(chǎn)品至關重要的入口。業(yè)界普遍認為,未來的人機交互將以語音為主、鍵盤和觸摸為輔。
近年來,隨著智能語音應用場景和手段不斷豐富,國內眾多技術廠商在語音合成、語音識別、自然語言理解等人工智能核心技術領域持續(xù)發(fā)力。有理由相信,智能語音技術將給人們生活帶來更為深刻的改變。
提起科大訊飛,很多人會想到其主打語音輸入特色的“訊飛輸入法”。這款早在2010年就推出的軟件,版本號已經(jīng)到了第9代。語音輸入速度達到1分鐘400字,并支持多種方言,準確率超過98%。在科大訊飛人工智能體驗中心,工作人員安琪向記者演示了包括訊飛輸入法、訊飛聽見、訊飛有聲等在內的多個軟硬件產(chǎn)品。
“現(xiàn)在我們看到的就是一個離線轉寫設備,叫訊飛聽見智能會議系統(tǒng),是全球第一款中文語音實時轉寫和多語種實時翻譯的系統(tǒng)……”安琪說了一段話,系統(tǒng)立即在屏幕上輸出準確的中文和翻譯后的英文。工作人員在演示可用于大型會議翻譯的訊飛聽見智能會議系統(tǒng),說一段話,屏幕上同時顯示出中文和英語譯文。
據(jù)介紹,今年全國兩會期間,代表委員們在小組討論中的發(fā)言被這套系統(tǒng)“滴水不漏”地記錄下來。以前的小組討論,需配兩三名工作人員,會后重聽錄音是常態(tài)。有了“訊飛聽見”,只需配一名工作人員,會后半個小時就能得到準確的會議記錄。
語音識別就好比“機器的聽覺系統(tǒng)”,能夠把語音信號轉變?yōu)橄鄳奈谋净蛎?。安琪介紹,隨著深度學習技術快速發(fā)展,科大訊飛在語音識別任務中率先實現(xiàn)規(guī)模應用。2015年,在公證人員的見證下,科大訊飛機器語音轉寫準確率首次超過速記員。針對于噪聲環(huán)境下語音識別的挑戰(zhàn),科大訊飛在國際最權威的多通道語音分離和英文識別大賽(2016年CHiME-4和2018年CHiME-5)中,連續(xù)兩屆所有場景下均取得了世界第一。
另一款能快速轉寫錄音的小型設備吸引了記者的注意,這是今年5月新推出的訊飛智能錄音筆。
“在研發(fā)之初,我們經(jīng)過調研發(fā)現(xiàn),81%的傳統(tǒng)錄音筆用戶真正需要的不是錄音,而是錄音整理出的文字。像記者采訪、會議記錄這些場景,錄完音后都需要及時將文字內容快速整理出?!卑茬髡f,訊飛智能錄音筆在聯(lián)網(wǎng)狀態(tài)下,1小時的錄音出稿只需5分鐘,中文普通話識別準確率高達98%,真正打通了從錄音到轉寫再到分享以及后端查找編輯的全鏈條服務。
智能音箱是如今語音識別技術的熱門應用。市場研究機構最新數(shù)據(jù)顯示,中國已成為全球最大的智能音箱市場,僅今年第一季度銷量就達到1060萬臺。科大訊飛MORFEI麥克風產(chǎn)品原型,搭載4+4雙環(huán)結構麥克風,可實現(xiàn)遠場空間全方位拾音。
通常情況下,每次對智能音箱下指令前,都需要提關鍵詞來喚醒,顯得“不夠智能”。而科大訊飛推出的MORFEI麥克風,內置了AIUI全雙工語音交互解決方案,可以實現(xiàn)一次喚醒、連續(xù)問答。其遠場語音識別技術,更是能在5米距離下達到95%以上的喚醒率、93%的識別率。
同樣受益的還有汽車領域。通過融合語音、視覺等感知技術,分析駕駛行為數(shù)據(jù),整合優(yōu)質內容資源,科大訊飛推出的飛魚智行智能車載交互系統(tǒng),將語音增強、自然語言理解等技術應用于汽車,并與各場景服務深度結合。