搜狗的個性化語音識別將顛覆人機交互模式

時間：2020-05-25 22:12:01

關鍵字：人機交互語音識別語音識別技術人工智能

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 美國著名投資者紅樹林資本合伙人在其2019年的《語音技術報告》中表示，語音將從根本上改變人類與機器與人工智能之間的關系，并將繼續(xù)成為未來十年的決定性主題之一。近年來，搜狗輸入法在語音輸入領域引入

美國著名投資者紅樹林資本合伙人在其2019年的《語音技術報告》中表示，語音將從根本上改變人類與機器與人工智能之間的關系，并將繼續(xù)成為未來十年的決定性主題之一。近年來，搜狗輸入法在語音輸入領域引入了“個性化語音識別”，以實現“更好地理解用戶”。它不僅突破了語音識別技術的瓶頸，而且大大優(yōu)化了個人詞匯輸入的直接準確性。

在日常交流中，個人短語和習語會以很高的頻率干擾雙方的信息傳遞，特別是人機對話已經成為一個災難性的領域。在大多數情況下，當用戶使用語音輸入時，他們只想輸入一個名稱，但輸入結果顯示語音與另一個結果一致。例如，當用戶希望輸入法顯示“遠”的名稱時，普通的語音識別通常不包括用戶的個性化內容，并且通常將“純，產品源”列為公眾常用的候選詞匯。此外，用戶使用的個人詞匯，以及一些復音詞和發(fā)音錯誤，對語音識別結果也有較大的影響。

為此，搜狗輸入法推出了“個性化語音識別”服務，引領了語音識別技術的創(chuàng)新和升級。用戶希望體驗此功能，只需在更新應用程序后登錄個人賬戶即可。打開后，“個性化語音識別”將為每個用戶定制個性化的語音輸入方法，以增強學習用戶的詞匯使用習慣。然后，根據語言環(huán)境和對上、下段句子的智能分析，輸入法可以使用戶在輸入語音時快速輸出符合用戶思想的文本內容，大大降低了頻率。用戶的第二次手動更改。

搜狗的“個性化語音識別”不僅對提高用戶個性化詞句的識別精度非常有效，而且保證了系統(tǒng)的處理和反饋速度，具有全自動詞匯學習的特點，使整個系統(tǒng)能夠學習個性化功能的過程將在“毫秒級”自動完成。

搜狗輸入法引入了先進的深度學習技術來模擬和訓練語音識別，并利用DTSS（基于深變序列模型）端到端聲學模型、神經網絡語言模型和智能標點預測技術來實現語音識別。離子的準確度領先行業(yè)，并大大提高。一般場景中語音輸入識別精度高。當用戶輸入語音時，“個性化語音識別”可以根據用戶數據分析對自定義短語進行掃描和記錄，優(yōu)先使用用戶習語進行文本輸出。通過這種技術創(chuàng)新，搜狗輸入法克服了語音識別精度的技術難題。眾所周知，在保證通用識別精度的前提下，用戶常用詞的誤碼率降低了40%。

手語是人類最靈活的兩個部分，是人機交互的主要手段。以前，移動智能設備中的各種觸摸交互都依賴于手的操作。當語音技術和人工智能同時成熟時，可能如“2019年語音技術報告”所述：語音交互已經改變了過去人機交互的現有形式，以及基于VOIC的用戶和設備之間的新關系。電子交互已經開始建立，就像以前從互聯網向移動互聯網的過渡一樣。對底層平臺的新要求也在醞釀之中。

隨著新時代的到來，用戶輸入法的使用逐漸向語音輸入轉變。優(yōu)化語音識別技術，為用戶提供更加自然、方便、高效的語音輸入服務，是智能輸入法的發(fā)展趨勢。與文本輸入相比，語音輸入在人工智能、虛擬現實等不同維度、多場景等方面具有更大的優(yōu)勢。語音輸入注定要成為最重要的人機交互界面。

隨著用戶個性化詞匯的不斷豐富和語音識別技術的成熟，搜狗將匯聚用戶級語音個性化資源，實現“個性化語音輸入法”。在日常生活、醫(yī)療、法律等專業(yè)領域，每個用戶都可以享受到“定制版”和“更好地了解自己”搜狗語音識別的支持。有效提高在線通信和人機通信的效率和準確性，或將成為人工智能時代輸入端的全球控制器。