搜狗機翻團隊獲雙向冠軍，搜狗人工智能布局大解讀

時間：2017-09-18 10:48:09

關鍵字：搜狗機器翻譯語音交互

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]而近期搜狗語音交互中心機器翻譯團隊也取得了優(yōu)異的成績，在國際頂級機器翻譯比賽WMT(Workshop on Machine Translation) 2017種獲得人工評測的中英和英中機器翻譯比賽雙向冠軍。

8月初，搜狗CEO王小川的一封內部郵件講到，搜狗即將赴美IPO，也將搜狗帶到了互聯(lián)網圈議論的焦點。

而近期搜狗語音交互中心機器翻譯團隊也取得了優(yōu)異的成績，在國際頂級機器翻譯比賽WMT(Workshop on Machine Translation) 2017種獲得人工評測的中英和英中機器翻譯比賽雙向冠軍。

(WMT機器翻譯比賽得分表，第一個即為搜狗團隊的機器翻譯系統(tǒng))

WMT是機器翻譯領域的國際頂級評測比賽之一，從2006年開始到現(xiàn)在一共舉辦了12屆機器翻譯比賽。它由國際機器翻譯研討會面向新聞領域，提供統(tǒng)一數(shù)據(jù)集，采取機器測評和人工評分兩種測評方式，并將結果以競賽的形式呈現(xiàn)。作為今年新聞機器翻譯任務的7個語言之一，中譯英、英譯中是今年新增的兩個方向，訓練數(shù)據(jù)為800萬~900萬。共有20支團隊提交了中譯英翻譯系統(tǒng)、15支團隊提交了英譯中翻譯系統(tǒng)，參賽團隊包括美國約翰霍普金斯大學、美國空軍研究實驗室、加拿大國家研究院、(英)愛丁堡大學、中國中科院計算所、廈門大學等。

搜狗機器翻譯團隊的獲獎代表搜狗在人工智能方面的最新進展，而王小川此前也曾提到今年是搜狗人工智能技術從前沿科技到走向實用的重要一年。那么搜狗前沿技術應用到了哪些領域?在語音交互大入口下又有哪些布局?

智東西同搜狗語音交互中心技術總監(jiān)陳偉以及機器翻譯技術負責人王宇光展開對話，看看這家靠輸入法而知名的公司在人工智能中有哪些新進展。

組建機器翻譯團隊實現(xiàn)跨語言交流

搜狗的核心主要包括兩個事業(yè)部，一個是桌面事業(yè)部，一個是搜索事業(yè)部。陳偉和王宇光所在的語音交互中心則在桌面事業(yè)部下面，而搜狗語音交互中心也是搜狗人工智能技術的代表。

恰逢搜狗在2012年成立語音識別團隊，陳偉便加入了搜狗，而其在博士期間主攻的就是語音識別。目前圍繞語音和輸入法的結合，搜狗輸入法一天的語音識別請求已高達3億次，是國內最大的語音單品APP，也顯示了搜狗在語音識別方面的進展。

除了語音識別之外，圍繞搜狗的人工智能戰(zhàn)略，語音交互中心開始做自然交互。語音技術部圍繞自然交互，逐漸轉移到多模態(tài)輸入上(人機交互中讓機器理解人的信息，包括語音、文本、圖像等方式)。除了語音識別外，語音技術部還做了語音合成、聲紋識別、語音分析(語種)等技術研究，隨著從近場的手機向遠場的電視、音箱發(fā)展，該部門也具有了自己的麥克風陣列的硬件能力，形成了較為閉環(huán)的語音能力。

在這個基礎上，作為一款人與人交流、表達信息的輸入法產品，搜狗希望用戶能夠幫用戶實現(xiàn)跨語言交流，因此就做了機器翻譯，以及基于語音識別和機器翻譯做了搜狗機器的同聲傳譯。

此外，圍繞自然交互，語音技術部也在做手寫和圖像方面的研究，語音+圖像+文本的能力都已具備，在加上語義理解團隊，就是一個完整的知音引擎。未來，搜狗知音也將會成為一個開放平臺，輸出一整套軟硬件相結合的語音交互方案，并將逐漸把搜狗知音OS的能力標準化，輸出到最適合的場景。

依托數(shù)據(jù)優(yōu)勢構建機器翻譯技術壁壘

而本次WMT比賽中獲獎的機器翻譯團隊也在語音技術部下。隨著2014年機器翻譯從SMT(統(tǒng)計機器翻譯)往NMT(神經網絡機器翻譯)遷移，搜狗語音技術部門便做基于神經網絡技術的機器翻譯，并在2016年成立機器翻譯團隊。

機器翻譯團隊從一開始就發(fā)力神經機器翻譯技術，用了不到半年的時間把技術打磨好，使用在搜狗輸入法上，輸入法中的語音翻譯和文本翻譯上線以來日均請求量已達200萬次。之后在去年11月份世界互聯(lián)網大會上，語音技術部便將已有的語音技術和機器翻譯技術相結合，推出了機器同傳技術，目前已經在多場重要會議場中使用。

以中英文的機器同傳為例，它大致需要將搜集來的中文語音信息經過語音斷句，獲得小的語音片段，然后會送到語音識別中獲得文本，此時需要對文本進行一些順滑處理，將這個經過語音識別后的處理文本送到端到端的神經網絡(目前機器翻譯的主流方法)，通過翻譯器進行語音翻譯。

在機器翻譯中，各家公司使用的算法類型基本是一樣的，但是同樣的數(shù)據(jù)效果卻相差很多。對于搜狗來講，重要的問題有兩個，一個是怎么用好數(shù)據(jù)(比如單語數(shù)據(jù))，另一個是找到最合適的數(shù)據(jù)(甄選數(shù)據(jù))。此外，搜狗機器翻譯團隊也在針對翻譯里面的實體進行優(yōu)化，包括多翻漏翻、數(shù)字等細節(jié)問題。

那么剛剛成立1年多的機器翻譯團隊，相比其他機器翻譯團隊、或者科大訊飛，搜狗的優(yōu)勢何在?智東西了解到，一方面是人才，搜狗主做機器翻譯的員工經驗大都在5年以上;第二，語音識別中有許多經驗可以借鑒，依托于之前語音團隊的技術優(yōu)勢，對機器翻譯幫助也很大;第三，搜狗在輸入法的場景下面積累大量的用戶數(shù)據(jù)，可以快速把數(shù)據(jù)壁壘做起來，而算法是很難形成壁壘的。

2012年之后，原有統(tǒng)計機器翻譯上的技術框架逐漸被推倒，需要從新布局新的技術框架。再加上搜狗有國內最大的輸入法，在這方面積累的語音數(shù)據(jù)量比科大訊飛還要多。難怪陳偉稱搜狗在機器翻譯方面與科大訊飛是持平的或是有優(yōu)勢的。

就機器同傳而言，目前搜狗的語音識別率已達97%，而機器翻譯的準確率則要略低一些，這也是業(yè)界的難題。機器翻譯最難的部分在于盲傳，翻譯本身是嚴重依賴上下文的，而機器翻譯卻沒有任何背景知識。此外機器同傳也要盡可能的做到低延遲，搜狗在這方面已經把延遲控制在2、3秒以內。

而搜狗機器同傳接下來的發(fā)展，一方面需要保證穩(wěn)定的語音識別率，比如噪音場景下;另一方面是機器翻譯如何能更好的找到一個完整的語譯邊界。同傳系統(tǒng)最核心的就是建立一個連接語音識別和機器翻譯文本的處理系統(tǒng)，這個處理系統(tǒng)可以接收語音識別的結果，去做容錯。此外，就是如何處理更多口語化的表達，如“這個”、“那個”，以及如何斷句問題，確保翻譯出來的是一個完成的語義句子。當這些問題都解決的時候，機器同傳的效果才會提升很多。

結語：搜狗語音交互入口下的布局

機器翻譯是搜狗重點布局的一個方向，也是一個差異化的優(yōu)勢所在。但搜狗的人工智能并未止步于此，圍繞著語音交互入口，搜狗在更多領域，甚至在智能硬件方面都會有進一步的進展。目前搜狗技術落地的產品主要包括搜狗輸入法、搜狗同傳、搜狗聽寫等產品。

在2014年前后，搜狗也做過手機中的語音助手APP，但后來項目被停滯。搜狗也從中獲取經驗，“一個產品做的好不好，要看你的產品邊界定的清不清楚，技術能力能不能達到產品需求”。在這種情況下，搜狗將深耕車載和家居兩個方向的語音交互。

目前搜狗在和四維圖新做車載設備中的人機交互，跟小米電視、創(chuàng)維電視等合作打磨語音交互技術，預計未來將會有更多打造搜狗語音技術的智能硬件產品發(fā)布。