當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀] 前陣子,一位同傳翻譯員聲討科大訊飛“AI同傳造假”,在網(wǎng)上引起了軒然大波。人工智能和同傳翻譯由此成為大家熱議的話題。今天,我們來談一談“人工智能翻譯是否真的可以取代同傳翻譯員”? 同聲傳

前陣子,一位同傳翻譯員聲討科大訊飛“AI同傳造假”,在網(wǎng)上引起了軒然大波。人工智能和同傳翻譯由此成為大家熱議的話題。今天,我們來談一談“人工智能翻譯是否真的可以取代同傳翻譯員”?

同聲傳譯有多難?

同聲傳譯最早出現(xiàn)在一戰(zhàn)后的巴黎和會上,英法兩國代表借助同聲傳譯人員的幫助,完成了緊張的談判。

如今,該技術(shù)依然在國際會議上扮演著極其重要的角色。據(jù)統(tǒng)計,95%的國際會議都有專業(yè)同聲傳譯人員助力。

同傳翻譯員在臺上能夠?qū)⑼瑐髂芰\用自如,需要平時大量的艱苦練習(xí),即使是雙語運用自如的專業(yè)人員,在實戰(zhàn)之前,也要進(jìn)行數(shù)年的鍛煉。他們不僅需要事先學(xué)習(xí)、熟悉會議資料,還需要隨機(jī)應(yīng)變的能力。同聲傳譯的工作方式也比較特殊,因為壓力巨大,一般多人協(xié)同,在一場數(shù)小時的過程中,每人輪流翻譯幾十分鐘。

相較之下,普通的口譯工作則要簡單不少。機(jī)器翻譯如能代替同聲傳譯無疑具有巨大的價值。

人工智能翻譯的水平如何?

那么,人工智能同傳翻譯的能力究竟怎樣?會不會搶走同傳翻譯員的飯碗呢?

今年上半年的博鰲亞洲論壇上,首次出現(xiàn)了AI同傳。然而,現(xiàn)場配備的系統(tǒng)卻掉了鏈子,鬧出詞匯翻譯不準(zhǔn)確、重復(fù)等低級錯誤。

客觀來講,人工智能或機(jī)器翻譯技術(shù)在自然語言處理上,的確有許多突破。這些突破給人希望,讓人暢想未來,但是,短期內(nèi)的價值,更多體現(xiàn)在輔助翻譯等領(lǐng)域。

當(dāng)然,目前機(jī)器翻譯已經(jīng)取得非常大的進(jìn)步,在衣食住行等常用生活用語上的中英翻譯可以達(dá)到大學(xué)六級的水平,能夠幫助人們在一些場景處理語言交流的問題,但距離人工同傳以及高水平翻譯所講究的“信、達(dá)、雅”,還存在很大的差距。

目前的差距是由現(xiàn)有技術(shù)水平的限制決定的,機(jī)器翻譯,又稱為自動翻譯,是利用計算機(jī)將一種語言轉(zhuǎn)換為另一種語言,機(jī)器翻譯技術(shù)的發(fā)展與計算機(jī)技術(shù)、信息論、語言學(xué)等學(xué)科的發(fā)展緊密相關(guān)。從早期的詞典匹配,到結(jié)合語言學(xué)專家梳理的知識規(guī)則,再到基于語料庫的統(tǒng)計學(xué)方法,隨著計算能力的提升和多語言信息的積累,機(jī)器翻譯技術(shù)開始在一些場景中提供便捷的翻譯服務(wù)。

新世紀(jì)以來,隨著互聯(lián)網(wǎng)的普及,互聯(lián)網(wǎng)公司紛紛成立機(jī)器翻譯研究組,研發(fā)了基于互聯(lián)網(wǎng)大數(shù)據(jù)的機(jī)器翻譯系統(tǒng),從而使機(jī)器翻譯真正走向?qū)嵱?,市場上開始出現(xiàn)比較成熟的自動翻譯產(chǎn)品。近年來,隨著深度學(xué)習(xí)的進(jìn)展,機(jī)器翻譯技術(shù)得到了進(jìn)一步的發(fā)展,促進(jìn)了翻譯質(zhì)量的提升,使得翻譯更加地道、流暢。

機(jī)器翻譯的難點在哪里?

這里,簡單介紹一下機(jī)器翻譯的難點。整個機(jī)器翻譯的過程,可以分為語音識別轉(zhuǎn)換、自然語言分析、譯文轉(zhuǎn)換和譯文生成等階段。在此,以比較典型的、基于規(guī)則的機(jī)器同傳翻譯為例(參見下圖),模塊包含了:語音識別(語音轉(zhuǎn)換為文本)、自然語言處理(語法分析、語義分析)、譯文轉(zhuǎn)換、譯文生成和語音生成等模塊。其中的技術(shù)難點主要是:語音識別、自然語言處理和譯文轉(zhuǎn)換等步驟。

第一個技術(shù)難點是語音識別。近二十年來,語音識別技術(shù)取得了顯著進(jìn)步,開始進(jìn)入家電、汽車、醫(yī)療、家庭服務(wù)等各個領(lǐng)域。常見的應(yīng)用系統(tǒng)有:

語音輸入系統(tǒng),相對于鍵盤輸入方法,它更符合人的日常習(xí)慣,也更自然、更高效;

語音控制系統(tǒng),即用語音來控制設(shè)備的運行,相對于手動控制來說更加快捷、方便,可以用在諸如工業(yè)控制、語音撥號系統(tǒng)、智能家電、聲控智能玩具等許多領(lǐng)域;

智能對話查詢系統(tǒng),根據(jù)客戶的語音進(jìn)行操作,為用戶提供自然、友好的數(shù)據(jù)庫檢索服務(wù),例如家庭服務(wù)、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng)、銀行服務(wù)等。

可以說,語音識別技術(shù)與其他自然語言處理技術(shù)相結(jié)合,可以構(gòu)建出很多復(fù)雜的應(yīng)用。

然而,語音識別的主要難點就是對自然語言的識別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位,其次要建立一個理解語義的規(guī)則。由于語音信息量大,語音模式不僅對不同的說話人不同,對不同場景的同一說話人也是有差異的。

例如,一個人在隨意說話和認(rèn)真說話時的語音特征是不同的。另外,說話者在講話時,不同的詞可能聽起來是相似的,這也是常見現(xiàn)象。單個字母或詞、字的語音特性,受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等。最后,環(huán)境噪聲和干擾對語音識別也有較大影響,致使識別率低。

第二個技術(shù)難點是語義解析,這是智能化的機(jī)器翻譯系統(tǒng)的核心部分。目前,機(jī)器翻譯系統(tǒng)可劃分為基于規(guī)則和基于語料庫兩大類。前者以詞典和語言知識規(guī)則庫為基礎(chǔ);后者由經(jīng)過劃分并具有標(biāo)注的語料庫構(gòu)成知識源,以統(tǒng)計學(xué)的算法為主。

機(jī)譯系統(tǒng)是隨著語料庫語言學(xué)的興起而發(fā)展起來的。目前,世界上絕大多數(shù)機(jī)譯系統(tǒng)都采用以規(guī)則庫為基礎(chǔ)的策略,一般分為語法型、語義型、知識型和智能型。不同類型的機(jī)譯系統(tǒng),由不同的成分構(gòu)成。抽象地說,所有機(jī)譯系統(tǒng)的處理過程都包括以下步驟:對源語言的分析或理解,在語言的語法、語義和語用等平面進(jìn)行轉(zhuǎn)換,按目標(biāo)語言結(jié)構(gòu)規(guī)則生成目標(biāo)語言。

當(dāng)前,Google 的在線翻譯已經(jīng)為人熟知,其第一代的技術(shù)即為基于統(tǒng)計的機(jī)器翻譯方法,基本原理是通過收集大量的雙語網(wǎng)頁作為語料庫,然后由計算機(jī)自動選取最為常見的詞與詞的對應(yīng)關(guān)系,最后給出翻譯結(jié)果。

不過,采用該技術(shù)目前仍無法達(dá)到令人滿意的效果,經(jīng)常鬧出各種翻譯笑話。因為,基于統(tǒng)計的方法,需要建立大規(guī)模的雙語語料庫,而翻譯模型、語言模型參數(shù)的準(zhǔn)確性直接依賴于語料的規(guī)模及質(zhì)量,翻譯質(zhì)量直接取決于模型的質(zhì)量和語料庫的覆蓋面。

除了上述傳統(tǒng)的方式,2013年以來,隨著深度學(xué)習(xí)的研究取得較大進(jìn)展,基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯逐漸興起。就當(dāng)前而言,廣泛應(yīng)用于機(jī)器翻譯的是長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)。該模型擅長對自然語言建模,把任意長度的句子轉(zhuǎn)化為特定維度的浮點數(shù)向量,同時“記住”句子中比較重要的單詞,讓“記憶”保存比較長的會話時間。該模型較好地解決了自然語言句子向量化的難題。

其技術(shù)核心是通過多層神經(jīng)網(wǎng)絡(luò),自動從語料庫中學(xué)習(xí)知識。一種語言的句子被向量化之后,在網(wǎng)絡(luò)中層層傳遞,經(jīng)過多層復(fù)雜的傳導(dǎo)運算,生成譯文。這種翻譯方法最大的優(yōu)勢在于譯文流暢,更加符合語法規(guī)范。相比之前的翻譯技術(shù),質(zhì)量有較高的提升。

智能同傳翻譯離我們還有多遠(yuǎn)?

需要說明的是,很多人對機(jī)器翻譯有誤解,認(rèn)為機(jī)器翻譯偏差大。其實,機(jī)器翻譯運用語言學(xué)知識,自動識別語法,模擬語義理解,進(jìn)行對應(yīng)翻譯,因語法、語義、語用的復(fù)雜性,出現(xiàn)錯誤是難免的。就已有的成果來看,全場景通用的機(jī)器翻譯,其翻譯質(zhì)量離終極目標(biāo)仍相差甚遠(yuǎn)。

隨著全球化網(wǎng)絡(luò)時代的到來,語言障礙已經(jīng)成為二十一世紀(jì)社會發(fā)展的重要瓶頸,實現(xiàn)任意時間、任意地點、任意語言的無障礙自由溝通是人類追求的一個夢想。這僅是全球化背景下的一個小縮影。在社會快速發(fā)展的進(jìn)程中,機(jī)器翻譯將扮演越來越重要的角色。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉