新華社AI合成主播引關(guān)注,外媒:你們怕是對AI有什么誤解?
如果有一天,為你播報新聞的不是真人,而是和真人像得不得了的AI合成主播,你覺得怎么樣呢?
日前,新華社聯(lián)合搜狗(Sogou)近日在烏鎮(zhèn)舉辦的第五屆世界互聯(lián)網(wǎng)大會上發(fā)布全球首個合成新聞主播——“AI合成主播” ,無論是臉部表情、聲線都以AI人工智能合成。看過的人不禁驚呼:“主播們要失業(yè)了嗎?”
和過去AI人物多以3D立體動畫出現(xiàn)的方式不同,該技術(shù)采用人臉關(guān)鍵點檢測、人臉特征提取、人臉重構(gòu)、唇語識別、情感遷移等多項尖端技術(shù),并結(jié)合語音、圖像等多模態(tài)信息進行聯(lián)合建模訓練,所生成與真人無異的人工智能分身,和真人主播在某些方面難分軒輊,“看起來不只是一臺冷冰冰的機器人”。
其中,中文AI合成主播是按照新華社當家主播邱浩為原型,只見它戴著紅領(lǐng)帶、穿著條紋西裝,在播報時不只有抑揚頓挫,還會搭配點頭、眨眼和抬高眉毛等小動作來強調(diào)播報內(nèi)容。
新華社指,此技術(shù)可把輸入的中文、英文新聞內(nèi)容,自動生成相關(guān)內(nèi)容的影片,展現(xiàn)出與真人主播無異的信息傳達效果。
新華社形容這個AI合成主播是開了“外掛”,因為真人主播每天工作8小時,而這個“分身”卻能不知疲倦地工作24小時。這個AI新聞主播可提升電視新聞的制作效率、降低制作成本,也可在報道突發(fā)新聞當中快速生成影片,提高報道時效與質(zhì)量。
但 The Verge 觀察表示,目前還不清楚究竟是采用什么技術(shù),但不外乎有機器學習技術(shù)。而看來新華社使用人類主播的連續(xù)鏡頭作為基礎(chǔ),然后使用動畫制作口腔和臉部表情變成虛擬人偶,再與合成語音結(jié)合,新華社可以對數(shù)字主播進行編碼以閱讀新聞,這比使用傳統(tǒng)的計算機生成影像要快得多。
引發(fā)全球媒體關(guān)注
幾天來,全球媒體紛紛予以持續(xù)關(guān)注,路透社、BBC、CNN等數(shù)十家海外權(quán)威媒體以文字、視頻等方式進行了大篇幅報道。
BBC(英國廣播公司)、REUTERS(路透社)的報道頁面
《參考消息》援引外媒報道稱,中國的新聞主播可能面臨一些新的競爭——人工智能機器人在播報新聞時可以模仿人的面部表情和舉止。
除此之外,《泰晤士報》、??怂剐侣?、今日俄羅斯電視臺、法蘭西24電視臺、《新聞周刊》、《洛杉磯時報》、美國國家公共電臺等媒體也進行了報道。
路透社報道稱,這個AI主播是以中國新聞主播邱浩為原型的,它身穿黑西裝打著領(lǐng)帶。這是中國旨在提升其在人工智能技術(shù)方面能力努力的一部分。
CNN(美國有線電視新聞網(wǎng))、英國《衛(wèi)報》的報道頁面
英國《媒體》網(wǎng)站則稱,新華社的AI主播是一位栩栩如生的數(shù)字化播報員,可以通過模仿真人主播的形象和聲音朗讀文本內(nèi)容。
在受到贊許的同時,有些媒體認為“AI合成主播”還需要進一步完善。美國《赫芬頓郵報》網(wǎng)站稱,新華社似乎知道AI主播是需要不斷完善的,正如AI主播在其首次播報中所強調(diào)的那樣。它說:“作為一名正在研發(fā)中的人工智能新聞主播,我知道我需要改進的還有很多。謝謝。”
美國《華盛頓郵報》、美國《赫芬頓郵報》關(guān)于“AI合成主播”的相關(guān)報道
創(chuàng)新驅(qū)動媒體行業(yè)發(fā)展
目前,“AI合成主播”已經(jīng)在新華社正式上崗,已被運用到進博會、世界互聯(lián)網(wǎng)大會等重要新聞事件,以及突發(fā)、科技、社會、文化等各領(lǐng)域的新聞報道。“AI合成主播”視頻在新華社中英文客戶端、新華社微信公眾號、中國新華新聞電視網(wǎng)(CNC)、新華視點微博、新華社中國網(wǎng)事微博、新華社“微悅讀”小程序等平臺上播發(fā)后,引發(fā)網(wǎng)友持續(xù)關(guān)注。
尤其是結(jié)合新華社客戶端“現(xiàn)場新聞”報道,將“AI合成主播”與短視頻一體化生產(chǎn)制作,呈現(xiàn)了令人耳目一新的新聞短視頻。
民眾:有點恐怖,看久了很枯燥
技術(shù)的開發(fā)者搜狗公司表示,這樣的科技還可以因應不同產(chǎn)業(yè)的客戶需求,為它們量身打造產(chǎn)品。搜狗公司CEO王小川提到,他們可以拿著這一套AI系統(tǒng)去和有聲書app“凱叔講故事”談合作,“以前是凱叔去講故事,以后可能就會變成你的爸爸媽媽給你講故事。在我們大的理念下,主播是其中一塊,之后要把它個性化,變成其他的人”。
至于民眾對新華社和搜狗推出的AI合成主播買不買單呢?許多網(wǎng)友不約而同都提到有點可怕。
英國牛津大學計算機科學教授伍爾德里吉(Michael Wooldridge)表示,AI合成主播的出現(xiàn)讓他想到了著名的“恐怖谷理論”(uncanny valley)。
恐怖谷理論是 1970年,由日本機器人專家森政弘(Masahiro Mori)提出的概念,他指出當機器人或動畫的外型跟人類相像到特定程度時,人們在心理上會出現(xiàn)非常不舒服的感受,哪怕它們與人類只有一點點的差別,都會顯得非常刺眼。
伍爾德里吉教授說:“要(讓我)多看AI合成主播幾分鐘很困難,它的播報非常平、非常單一,這之中沒有節(jié)奏、拍子或重點。”
伍爾德里吉教授也提到,主播這個角色在不少人心中算是值得高度信賴的公眾人物,“如果你只看合成影像,那么你會完全失去和主播間的連結(jié)”。
英國謝菲爾德大學AI和機器人學榮譽教授夏基(Noel Sharkey)則說,中國AI合成主播的出現(xiàn)是很好的嘗試,他說:“我們會看著它隨著時間進步,問題在它可能非常枯燥。”
外媒專家:你們怕是對AI有什么誤解?
MIT Technology Review 的高級編輯 Will Knight 表示,在這個情況下使用“人工智能”做描述有點不實,因為報導員本身并不擁有智慧,而只是利用了某種機器學習來捕捉真正報導員的動作和聲音,透過虛擬報導員的影像來表達真人預備的新聞內(nèi)容。
他認為,如果連報導內(nèi)容都是由人工智能編寫,包括數(shù)據(jù)搜集甚至打電話進行采訪等,則會是相當震撼的技術(shù),不過目前仍然在技術(shù)上難以做到。Will 說,人們在使用“人工智能”一詞時應該相當謹慎,例如這次報導員并不是人工智能,只是個相當細致的虛擬形像。
倫敦帝國大學的機器及人工智能研究人員 Ali Shafti 也表示,向大眾介紹人工智能和機器人技術(shù)的時候,要特別小心,因為大眾對于這些科技都有一定的恐懼和負面想法,因此正確地解釋技術(shù)而非夸大其詞相當重要。