當(dāng)前位置:首頁 > 消費電子 > 便攜設(shè)備
[導(dǎo)讀] 實現(xiàn)高質(zhì)量機(jī)器翻譯的夢想已經(jīng)存在了很多年,很多科學(xué)家都為這一夢想貢獻(xiàn)了自己的時間和心力。從早期的基于規(guī)則的機(jī)器翻譯到如今廣泛應(yīng)用的神經(jīng)機(jī)器翻譯,機(jī)器翻譯的水平不斷提升,已經(jīng)能滿足很多場景的基本應(yīng)

實現(xiàn)高質(zhì)量機(jī)器翻譯的夢想已經(jīng)存在了很多年,很多科學(xué)家都為這一夢想貢獻(xiàn)了自己的時間和心力。從早期的基于規(guī)則的機(jī)器翻譯到如今廣泛應(yīng)用的神經(jīng)機(jī)器翻譯,機(jī)器翻譯的水平不斷提升,已經(jīng)能滿足很多場景的基本應(yīng)用需求了。近日,Ilya Pestov用俄語寫的機(jī)器翻譯介紹文章經(jīng)Vasily Zubarev翻譯后發(fā)表到了Vas3k.com上。機(jī)器之心又經(jīng)授權(quán)將其轉(zhuǎn)譯成了漢語。希望有一天,機(jī)器自己就能幫助我們完成這樣的任務(wù)。

我打開谷歌翻譯的頻率是打開Facebook的兩倍,價格標(biāo)簽的即時翻譯對我而言再也不是賽博朋克了。這已經(jīng)成為了現(xiàn)實。很難想象這是機(jī)器翻譯算法百年研發(fā)之戰(zhàn)的結(jié)果,而且在那段時間的一半時間里其實都沒什么明顯的成功。

我在本文中討論的確切發(fā)展將立足于所有的現(xiàn)代語言處理系統(tǒng)——從搜索引擎到聲控微波。我將探討的是當(dāng)今的在線翻譯技術(shù)的演化和結(jié)構(gòu)。

P. P. Troyanskii的翻譯機(jī)器(根據(jù)描述繪制的圖片。很遺憾沒有照片留下。)

起初

故事開始于1933年。蘇聯(lián)科學(xué)家Peter Troyanskii向蘇聯(lián)科學(xué)院提交了《用于在將一種語言翻譯成另一種語言時選擇和打印詞的機(jī)器》。這項發(fā)明非常簡單——它有四種語言的卡片、一臺打字機(jī)和一臺舊式膠片相機(jī)。

操作員先取文本的第一個詞,然后找到對應(yīng)的卡片,拍一張照片,再在打字機(jī)上鍵入其形態(tài)特征(名詞、復(fù)數(shù)、性別等)。這臺打字機(jī)的按鍵編碼了其中一項特征。打字帶和相機(jī)膠片是同時使用的,從而得到一組帶有詞及它們的形態(tài)的幀。

盡管看起來很不錯,但和蘇聯(lián)的很多事情都一樣,人們認(rèn)為這項發(fā)明是“沒用的”。Troyanskii用了20年時間試圖完成他的發(fā)明,之后因心絞痛逝世。在1956年兩位蘇聯(lián)科學(xué)家找到他的父母之前,這世上沒人知道這種機(jī)器。

那是冷戰(zhàn)的鐵幕剛剛降下的時候。在1954年1月7日,IBM在紐約的總部啟動了 Georgetown-IBM實驗。IBM 701計算機(jī)有史以來第一次自動將60個俄語句子翻譯成了英語。

“一位不認(rèn)識任何一個蘇聯(lián)語言詞匯的女孩在IBM卡片上敲出了這些俄語消息。這個“大腦”以每秒兩行半的驚人速度在一臺自動打印機(jī)上趕制出了它的英語翻譯。”——IBM的新聞稿

但是,宣告勝利的頭條新聞里卻隱藏了一個小小的細(xì)節(jié)。沒人提到這些翻譯得到的樣本是經(jīng)過精心挑選和測試過的,從而排除了歧義性。對于日常使用而言,該系統(tǒng)并不比口袋里的常用語手冊更好。盡管如此,軍備競賽還是開始了:加拿大、德國、法國以及(特別是)日本全都加入到了機(jī)器翻譯競賽中。

機(jī)器翻譯競賽

改進(jìn)機(jī)器翻譯的徒勞工作持續(xù)了四十年之久。1966年,US ALPAC在其著名的報告中稱機(jī)器翻譯是昂貴的、不準(zhǔn)確的和毫無希望的。他們轉(zhuǎn)而建議將重點放在詞典開發(fā)上,這將美國研究者排除在了競賽之外近十年時間。

即便如此,僅憑科學(xué)家和他們的嘗試、研究和開發(fā),現(xiàn)代自然語言處理的基礎(chǔ)還是建立了起來。多虧了這些彼此監(jiān)視的國家,當(dāng)今所有的搜索引擎、垃圾信息過濾器和個人助理都出現(xiàn)了。

基于規(guī)則的機(jī)器翻譯(RBMT)

最早的基于規(guī)則的機(jī)器翻譯思想出現(xiàn)于70年代??茖W(xué)家研究了翻譯員的工作,試圖讓當(dāng)時還極其緩慢的計算機(jī)也能重復(fù)這些行為。這些系統(tǒng)包含:

雙語詞典(比如,俄語->英語)

每種語言一套語言學(xué)規(guī)則(比如,以-heit、-keit、-ung等特定后綴結(jié)尾的名詞都是陰性詞)

這就是這種系統(tǒng)的全部。如有需要,該系統(tǒng)還能得到一些補(bǔ)充,比如增加姓名列表、拼寫糾錯器和音譯功能。

PROMPT和Systran是RBMT系統(tǒng)中最有名的案例。如果你想感受下那個黃金時代的柔和氣息,去試試 liexpress吧。

但即使它們也有一些細(xì)微差別和亞種。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉