當(dāng)前位置:首頁(yè) > 公眾號(hào)精選 > 物聯(lián)傳媒
[導(dǎo)讀]大數(shù)據(jù)文摘  陳勝者,陽(yáng)城人也,字涉。吳廣者,陽(yáng)夏人也,字叔。相信不少人還記得中學(xué)的時(shí)候全文背誦《陳涉世家》的痛苦,當(dāng)然還有考試的時(shí)候讓你翻譯某一句名言,像是“燕雀安知鴻鵠之志哉”,或者“天下苦秦久矣。吾聞二世少子也,不當(dāng)立,當(dāng)立者乃公子扶蘇”。如今,隨著AI...


本文來(lái)源:大數(shù)據(jù)文摘

  
陳勝者,陽(yáng)城人也 ,字涉。吳廣者,陽(yáng)夏人也,字叔。 相信不少人還記得中學(xué)的時(shí)候全文背誦《陳涉世家》的痛苦,當(dāng)然還有考試的時(shí)候讓你翻譯某一句名言,像是“燕雀安知鴻鵠之志哉”,或者“天下苦秦久矣。吾聞二世少子也,不當(dāng)立,當(dāng)立者乃公子扶蘇”。 如今,隨著AI技術(shù)的成熟,機(jī)器也逐漸在學(xué)習(xí)如何以人類(lèi)的方式行動(dòng)和思考。 既然如此,我們?yōu)楹尾豢伎妓?,看看在AI眼中,《陳涉世家》到底是個(gè)什么故事。 最近,B站上一位叫做“鷹目大人”的阿婆主就用谷歌翻譯對(duì)AI進(jìn)行了一次隨堂測(cè)驗(yàn),只不過(guò)它的表現(xiàn)嘛,就見(jiàn)仁見(jiàn)智了。


比如,AI就把這句著名的“茍富貴,勿相忘”就翻譯成了“沒(méi)有錢(qián)的人,總是會(huì)被遺忘”。

 

   “燕雀焉知鴻鵠之志”在AI看來(lái)竟然是,“蝎子給了我一個(gè)熱烈的擁抱”???

  整個(gè)過(guò)程,文摘菌一邊黑人問(wèn)號(hào)臉一邊笑到拍桌子。

有網(wǎng)友就指出,這波反諷竟然“翻譯出了本質(zhì)”。

  還有網(wǎng)友“太喜歡了所以拼了一首詩(shī)”,大家可以猜猜每句話對(duì)應(yīng)到的原文是什么?

 


  然后,再來(lái)對(duì)對(duì)答案,看看整本《陳涉世家》都被AI翻譯成了什么樣子?

機(jī)器翻譯為何如此困難?

其實(shí)不管是語(yǔ)種互譯,還是古文翻譯,都是機(jī)器翻譯的類(lèi)別之一。 但是,如果機(jī)器翻譯翻車(chē)的情況持續(xù)發(fā)生,我們還能相信它嗎? 先別急,我們從NMT(neural machine translation,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯)的誕生開(kāi)始講起,看看機(jī)器翻譯到底是個(gè)什么東西。 2013年,Nal Kalchbrenner和Phil Blunsom提出了一種用于機(jī)器翻譯的新型端到端編碼器-解碼器結(jié)構(gòu)。該模型可以使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)將給定的一段源文本編碼成一個(gè)連續(xù)的向量,然后再使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為解碼器將該狀態(tài)向量轉(zhuǎn)換成目標(biāo)語(yǔ)言。 這一研究成果的發(fā)布可以說(shuō)是標(biāo)志著NMT的誕生,雖然在那之后也有不少研究者進(jìn)行改進(jìn),但是仍然缺乏對(duì)模型的理解。比如,經(jīng)常出現(xiàn)的問(wèn)題包括但不限于訓(xùn)練和解碼過(guò)程緩慢;對(duì)同一個(gè)詞的翻譯風(fēng)格不一致;翻譯結(jié)果存在超出詞匯表(out-of-vocabulary)的問(wèn)題;黑箱的神經(jīng)網(wǎng)絡(luò)機(jī)制的可解釋性很差;訓(xùn)練所用的參數(shù)大多數(shù)是根據(jù)經(jīng)驗(yàn)選擇的。

 


NMT和SMT對(duì)比

總的來(lái)說(shuō):不確定性是翻譯中的一個(gè)核心挑戰(zhàn)。 知己知彼百戰(zhàn)百勝,想要根除這種不確定性,我們還需要知道它的來(lái)源。 在一篇論文中作者指出,在構(gòu)建翻譯的模型的時(shí)候,基本上有兩種不確定性,一種是任務(wù)本身固有的不確定性,另一種是數(shù)據(jù)收集過(guò)程中存在的不確定性。 所謂內(nèi)在的不確定性,是指不確定性的一個(gè)來(lái)源是一句話會(huì)有幾種等價(jià)的翻譯。因?yàn)樵诜g的過(guò)程中或多或少是可以直譯的,即使字面上有很多表達(dá)相同意思的方法。句子的表達(dá)可以是主動(dòng)的,也可以是被動(dòng)的,對(duì)于某些語(yǔ)言來(lái)說(shuō),類(lèi)似于“the”“of”或“their”是可選擇的。 除了一句話可以多種翻譯這種情況外,規(guī)范性不足同樣是翻譯不確定的來(lái)源。另外,如果沒(méi)有背景輸入,模型通常無(wú)法預(yù)測(cè)翻譯語(yǔ)言的時(shí)態(tài)或數(shù)字,因此,簡(jiǎn)化或增加相關(guān)背景也是翻譯不確定性的來(lái)源。 而外在的不確定性,則是因?yàn)橄到y(tǒng),特別是模型,需要大量的訓(xùn)練數(shù)據(jù)才能表現(xiàn)良好。為了節(jié)省時(shí)間和精力,使用低質(zhì)量的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行高質(zhì)量的人工翻譯是常見(jiàn)的。這一過(guò)程容易出錯(cuò),并導(dǎo)致數(shù)據(jù)分配中出現(xiàn)其他的不確定性。目標(biāo)句可能只是源句的部分翻譯,或者目標(biāo)句里面有源句中沒(méi)有的信息。 在一些加了copy機(jī)制的翻譯模型中,對(duì)目標(biāo)語(yǔ)言進(jìn)行翻譯的時(shí)候可能會(huì)完全或部分復(fù)制源句子。論文作者經(jīng)過(guò)研究發(fā)現(xiàn),即使copy機(jī)制很小,也能對(duì)模型預(yù)測(cè)產(chǎn)生較大的影響。 論文下載地址: https://arxiv.org/pdf/1803.00047.pdf

機(jī)器翻譯頻繁翻車(chē),微信谷歌無(wú)一幸免

去年3月,微信翻譯的頻繁翻車(chē)事件得到了人們的關(guān)注,機(jī)器翻譯的不確定性同時(shí)也被更多人所了解。 目前,機(jī)器翻譯領(lǐng)域主要使用的NMT架構(gòu)都差不多,一方面問(wèn)題出在解碼器語(yǔ)言模型,使用的語(yǔ)料讓它學(xué)習(xí)到了這些最大概率出現(xiàn)的詞。微信團(tuán)隊(duì)在處理的過(guò)程中似乎沒(méi)有對(duì)“特殊情況”進(jìn)行處理,于是我們就能看到這樣的翻譯發(fā)生:

  

  如果添加了特殊詞的copy機(jī)制,完全可以把無(wú)法翻譯的單詞不進(jìn)行翻譯,直接copy過(guò)去。也就是說(shuō),一個(gè)聰明的模型應(yīng)該知道哪些應(yīng)該翻譯,哪些不應(yīng)該翻譯。 隨后,微信也針對(duì)這一問(wèn)題進(jìn)行了修復(fù),對(duì)于敏感詞“caixukun”或者句式“you are so……”進(jìn)行原句返回。

  

  除了解碼器語(yǔ)言模型外,問(wèn)題可能更多出現(xiàn)在語(yǔ)料庫(kù)上,現(xiàn)在業(yè)界所做的機(jī)器翻譯很大程度上靠語(yǔ)料“懟”,只要平行語(yǔ)料數(shù)量足夠多,質(zhì)量足夠好, 一般的系統(tǒng)也可以訓(xùn)練出很好的結(jié)果。 不過(guò),如果訓(xùn)練語(yǔ)料多來(lái)自電影字幕、多語(yǔ)言會(huì)議等材料,那么模型最終呈現(xiàn)的翻譯內(nèi)容也會(huì)相對(duì)應(yīng)比較“活潑”和“口語(yǔ)化”。面對(duì)庫(kù)中不存在的詞,比如caixunkun,算法會(huì)自動(dòng)匹配最經(jīng)常出現(xiàn),或者在同語(yǔ)境下最容易匹配的內(nèi)容,比如形容詞“帥哥”或“傻蛋”。 當(dāng)然除了微信,被業(yè)界視為先驅(qū)的谷歌也發(fā)生過(guò)類(lèi)似的翻車(chē)案例。 此前就有Reddit網(wǎng)友指出,谷歌翻譯在學(xué)習(xí)過(guò)程中可能受到了輸入來(lái)源的影響,將一些意味不明的語(yǔ)句翻譯成了如圣經(jīng)一般的語(yǔ)言。比如這個(gè):

  

英文大意為:世界末日時(shí)鐘在12點(diǎn)3分鐘,我們正在經(jīng)歷世界上的人物和戲劇性的發(fā)展,這表明我們?cè)絹?lái)越接近末日和耶穌的回歸。 哈佛大學(xué)助理教授、研究自然語(yǔ)言處理和計(jì)算機(jī)翻譯的Andrew Rush認(rèn)為,這些神秘的翻譯結(jié)果可能和谷歌幾年前采用的“神經(jīng)機(jī)器翻譯”技術(shù)有關(guān)。他表示,在神經(jīng)機(jī)器翻譯中,系統(tǒng)訓(xùn)練用了一種語(yǔ)言的大量文本來(lái)和另一種語(yǔ)言進(jìn)行相應(yīng)翻譯,以在兩者之間創(chuàng)建模型。但當(dāng)輸入的是無(wú)意義內(nèi)容時(shí),系統(tǒng)就會(huì)出現(xiàn)“幻覺(jué)性”的輸出結(jié)果。 在去年AI Time的一次辯論中,中科院自動(dòng)化研究所研究員宗成慶就表示,機(jī)器翻譯近幾年的進(jìn)步確實(shí)很大,但是其需要基于場(chǎng)景和任務(wù)。機(jī)器翻譯在一些場(chǎng)景下確實(shí)能幫助人,比如旅游問(wèn)路,但是在某些領(lǐng)域,比如高層次的翻譯,要對(duì)機(jī)器翻譯寄予太多的希望還為時(shí)過(guò)早。 東北大學(xué)計(jì)算機(jī)學(xué)院教授朱靖波根據(jù)自己的經(jīng)驗(yàn)列舉出好的機(jī)器翻譯系統(tǒng)需要的三個(gè)東西:一是擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模,提高品質(zhì);二是不斷創(chuàng)新技術(shù);三是根據(jù)問(wèn)題不斷打磨,三者缺一不可。 看來(lái),機(jī)器翻譯未來(lái)還有很長(zhǎng)一段路要走啊!



免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場(chǎng),如有問(wèn)題,請(qǐng)聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉