美國著名投資者紅樹林資本合伙人在其2019年的《語音技術報告》中表示,語音將從根本上改變人類與機器與人工智能之間的關系,并將繼續(xù)成為未來十年的決定性主題之一。近年來,搜狗輸入法在語音輸入領域引入了“個性化語音識別”,以實現“更好地理解用戶”。它不僅突破了語音識別技術的瓶頸,而且大大優(yōu)化了個人詞匯輸入的直接準確性。
在日常交流中,個人短語和習語會以很高的頻率干擾雙方的信息傳遞,特別是人機對話已經成為一個災難性的領域。在大多數情況下,當用戶使用語音輸入時,他們只想輸入一個名稱,但輸入結果顯示語音與另一個結果一致。例如,當用戶希望輸入法顯示“遠”的名稱時,普通的語音識別通常不包括用戶的個性化內容,并且通常將“純,產品源”列為公眾常用的候選詞匯。此外,用戶使用的個人詞匯,以及一些復音詞和發(fā)音錯誤,對語音識別結果也有較大的影響。
為此,搜狗輸入法推出了“個性化語音識別”服務,引領了語音識別技術的創(chuàng)新和升級。用戶希望體驗此功能,只需在更新應用程序后登錄個人賬戶即可。打開后,“個性化語音識別”將為每個用戶定制個性化的語音輸入方法,以增強學習用戶的詞匯使用習慣。然后,根據語言環(huán)境和對上、下段句子的智能分析,輸入法可以使用戶在輸入語音時快速輸出符合用戶思想的文本內容,大大降低了頻率。用戶的第二次手動更改。
搜狗的“個性化語音識別”不僅對提高用戶個性化詞句的識別精度非常有效,而且保證了系統(tǒng)的處理和反饋速度,具有全自動詞匯學習的特點,使整個系統(tǒng)能夠學習個性化功能的過程將在“毫秒級”自動完成。
搜狗輸入法引入了先進的深度學習技術來模擬和訓練語音識別,并利用DTSS(基于深變序列模型)端到端聲學模型、神經網絡語言模型和智能標點預測技術來實現語音識別。離子的準確度領先行業(yè),并大大提高。一般場景中語音輸入識別精度高。當用戶輸入語音時,“個性化語音識別”可以根據用戶數據分析對自定義短語進行掃描和記錄,優(yōu)先使用用戶習語進行文本輸出。通過這種技術創(chuàng)新,搜狗輸入法克服了語音識別精度的技術難題。眾所周知,在保證通用識別精度的前提下,用戶常用詞的誤碼率降低了40%。
手語是人類最靈活的兩個部分,是人機交互的主要手段。以前,移動智能設備中的各種觸摸交互都依賴于手的操作。當語音技術和人工智能同時成熟時,可能如“2019年語音技術報告”所述:語音交互已經改變了過去人機交互的現有形式,以及基于VOIC的用戶和設備之間的新關系。電子交互已經開始建立,就像以前從互聯網向移動互聯網的過渡一樣。對底層平臺的新要求也在醞釀之中。
隨著新時代的到來,用戶輸入法的使用逐漸向語音輸入轉變。優(yōu)化語音識別技術,為用戶提供更加自然、方便、高效的語音輸入服務,是智能輸入法的發(fā)展趨勢。與文本輸入相比,語音輸入在人工智能、虛擬現實等不同維度、多場景等方面具有更大的優(yōu)勢。語音輸入注定要成為最重要的人機交互界面。
隨著用戶個性化詞匯的不斷豐富和語音識別技術的成熟,搜狗將匯聚用戶級語音個性化資源,實現“個性化語音輸入法”。在日常生活、醫(yī)療、法律等專業(yè)領域,每個用戶都可以享受到“定制版”和“更好地了解自己”搜狗語音識別的支持。有效提高在線通信和人機通信的效率和準確性,或將成為人工智能時代輸入端的全球控制器。