從冷戰(zhàn)到深度學(xué)習(xí)_機(jī)器翻譯歷史不簡單
實現(xiàn)高質(zhì)量機(jī)器翻譯的夢想已經(jīng)存在了很多年,很多科學(xué)家都為這一夢想貢獻(xiàn)了自己的時間和心力。從早期的基于規(guī)則的機(jī)器翻譯到如今廣泛應(yīng)用的神經(jīng)機(jī)器翻譯,機(jī)器翻譯的水平不斷提升,已經(jīng)能滿足很多場景的基本應(yīng)用需求了。近日,Ilya Pestov用俄語寫的機(jī)器翻譯介紹文章經(jīng)Vasily Zubarev翻譯后發(fā)表到了Vas3k.com上。機(jī)器之心又經(jīng)授權(quán)將其轉(zhuǎn)譯成了漢語。希望有一天,機(jī)器自己就能幫助我們完成這樣的任務(wù)。
我打開谷歌翻譯的頻率是打開Facebook的兩倍,價格標(biāo)簽的即時翻譯對我而言再也不是賽博朋克了。這已經(jīng)成為了現(xiàn)實。很難想象這是機(jī)器翻譯算法百年研發(fā)之戰(zhàn)的結(jié)果,而且在那段時間的一半時間里其實都沒什么明顯的成功。
我在本文中討論的確切發(fā)展將立足于所有的現(xiàn)代語言處理系統(tǒng)——從搜索引擎到聲控微波。我將探討的是當(dāng)今的在線翻譯技術(shù)的演化和結(jié)構(gòu)。
P. P. Troyanskii的翻譯機(jī)器(根據(jù)描述繪制的圖片。很遺憾沒有照片留下。)
起初
故事開始于1933年。蘇聯(lián)科學(xué)家Peter Troyanskii向蘇聯(lián)科學(xué)院提交了《用于在將一種語言翻譯成另一種語言時選擇和打印詞的機(jī)器》。這項發(fā)明非常簡單——它有四種語言的卡片、一臺打字機(jī)和一臺舊式膠片相機(jī)。
操作員先取文本的第一個詞,然后找到對應(yīng)的卡片,拍一張照片,再在打字機(jī)上鍵入其形態(tài)特征(名詞、復(fù)數(shù)、性別等)。這臺打字機(jī)的按鍵編碼了其中一項特征。打字帶和相機(jī)膠片是同時使用的,從而得到一組帶有詞及它們的形態(tài)的幀。
盡管看起來很不錯,但和蘇聯(lián)的很多事情都一樣,人們認(rèn)為這項發(fā)明是“沒用的”。Troyanskii用了20年時間試圖完成他的發(fā)明,之后因心絞痛逝世。在1956年兩位蘇聯(lián)科學(xué)家找到他的父母之前,這世上沒人知道這種機(jī)器。
那是冷戰(zhàn)的鐵幕剛剛降下的時候。在1954年1月7日,IBM在紐約的總部啟動了 Georgetown-IBM實驗。IBM 701計算機(jī)有史以來第一次自動將60個俄語句子翻譯成了英語。
“一位不認(rèn)識任何一個蘇聯(lián)語言詞匯的女孩在IBM卡片上敲出了這些俄語消息。這個“大腦”以每秒兩行半的驚人速度在一臺自動打印機(jī)上趕制出了它的英語翻譯。”——IBM的新聞稿
但是,宣告勝利的頭條新聞里卻隱藏了一個小小的細(xì)節(jié)。沒人提到這些翻譯得到的樣本是經(jīng)過精心挑選和測試過的,從而排除了歧義性。對于日常使用而言,該系統(tǒng)并不比口袋里的常用語手冊更好。盡管如此,軍備競賽還是開始了:加拿大、德國、法國以及(特別是)日本全都加入到了機(jī)器翻譯競賽中。
機(jī)器翻譯競賽改進(jìn)機(jī)器翻譯的徒勞工作持續(xù)了四十年之久。1966年,US ALPAC在其著名的報告中稱機(jī)器翻譯是昂貴的、不準(zhǔn)確的和毫無希望的。他們轉(zhuǎn)而建議將重點放在詞典開發(fā)上,這將美國研究者排除在了競賽之外近十年時間。
即便如此,僅憑科學(xué)家和他們的嘗試、研究和開發(fā),現(xiàn)代自然語言處理的基礎(chǔ)還是建立了起來。多虧了這些彼此監(jiān)視的國家,當(dāng)今所有的搜索引擎、垃圾信息過濾器和個人助理都出現(xiàn)了。
基于規(guī)則的機(jī)器翻譯(RBMT)
最早的基于規(guī)則的機(jī)器翻譯思想出現(xiàn)于70年代??茖W(xué)家研究了翻譯員的工作,試圖讓當(dāng)時還極其緩慢的計算機(jī)也能重復(fù)這些行為。這些系統(tǒng)包含:
雙語詞典(比如,俄語->英語)
每種語言一套語言學(xué)規(guī)則(比如,以-heit、-keit、-ung等特定后綴結(jié)尾的名詞都是陰性詞)
這就是這種系統(tǒng)的全部。如有需要,該系統(tǒng)還能得到一些補(bǔ)充,比如增加姓名列表、拼寫糾錯器和音譯功能。
PROMPT和Systran是RBMT系統(tǒng)中最有名的案例。如果你想感受下那個黃金時代的柔和氣息,去試試 liexpress吧。
但即使它們也有一些細(xì)微差別和亞種。