今日頭條人工智能自動(dòng)寫稿,可讀性與職業(yè)記者相差無(wú)幾
近日,今日頭條人工智能實(shí)驗(yàn)室與北京大學(xué)聯(lián)合研發(fā)的寫稿機(jī)器人xiaomingbot獲得了吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)。
吳文俊先生是我國(guó)著名數(shù)學(xué)家、中國(guó)科學(xué)院院士。他在純數(shù)學(xué)和應(yīng)用數(shù)學(xué)的多個(gè)領(lǐng)域都作出了杰出貢獻(xiàn)。前半生中,他用30多年時(shí)間,在代數(shù)拓?fù)鋵W(xué)的研究領(lǐng)域取得了一系列奠基性成就,其中最著名的便是“吳公式”的建立;上世紀(jì)50年代初,吳文俊先生放棄了國(guó)外優(yōu)越的研究條件,毅然回國(guó)。他的這份情懷,影響著無(wú)數(shù)后來(lái)者。
花甲之年,吳文俊老先生毅然轉(zhuǎn)身,開(kāi)創(chuàng)與拓?fù)鋵W(xué)毫不相關(guān)的數(shù)學(xué)機(jī)械化研究領(lǐng)域,開(kāi)創(chuàng)了里程碑式的“吳方法”。耄耋之年,他仍在密切關(guān)注新的科研進(jìn)展和新涌現(xiàn)的人才。他曾一再表示:“中國(guó)的人工智能不能走外國(guó)人的老路,要在原創(chuàng)科學(xué)和基礎(chǔ)理論研究方面實(shí)現(xiàn)突破。
今日頭條是今年“吳文俊獎(jiǎng)”獲獎(jiǎng)項(xiàng)目中唯一以企業(yè)載體獲得專業(yè)類獎(jiǎng)項(xiàng)的機(jī)構(gòu),過(guò)去這一通常只授予頂尖高校、重點(diǎn)實(shí)驗(yàn)室和科研機(jī)構(gòu)。
此次獲獎(jiǎng)的寫稿機(jī)器人xiaomingbot早在2016年6月就已經(jīng)在今日頭條上線。里約奧運(yùn)會(huì)期間,通過(guò)對(duì)接奧組委的數(shù)據(jù)庫(kù)信息,xiaomingbot曾寫過(guò)200余篇賽事報(bào)道,包括乒乓球、網(wǎng)球、羽毛球和女足等比賽,累計(jì)獲得200萬(wàn)用戶閱讀。它撰寫的文章可以涵蓋比賽時(shí)間、實(shí)時(shí)比分、運(yùn)動(dòng)員信息等主要新聞要素,可讀性與職業(yè)記者相差無(wú)幾。
奧運(yùn)會(huì)上線時(shí),xiaomingbot與其他機(jī)器人相比就有明顯優(yōu)勢(shì)。根據(jù)人民網(wǎng)研究院的報(bào)道,比起美聯(lián)社的WordSmith、華盛頓郵報(bào)的Heliograf、第一財(cái)經(jīng)的DT稿王等,今日頭條寫稿機(jī)器人xiaomingbot實(shí)現(xiàn)了很多黑科技。比如:
一、寫稿速度更快——2秒內(nèi)完成稿件并上傳至媒體發(fā)布
xiaomingbot的撰寫發(fā)布速度幾乎與電視直播同步,從數(shù)據(jù)庫(kù)對(duì)接、信息搜集、文本生成、潤(rùn)色完成報(bào)道,最后發(fā)布、推送到今日頭條手機(jī)客戶端,只需用時(shí)兩秒。
二、擬人化程度更高——并非千篇一律
根據(jù)比賽選手的排名、賽前預(yù)測(cè)與實(shí)際賽果的差異、比分懸殊程度等情況,xiaomingbot可以自動(dòng)調(diào)整生成新聞的語(yǔ)氣,并使用感情色彩的詞語(yǔ),如“實(shí)力不俗”、“笑到了最后”等。
三、發(fā)布稿件類型多樣——短訊及長(zhǎng)文章
xiaomingbot不僅可以發(fā)布賽事消息的短訊,還可以生成整場(chǎng)比賽的賽事簡(jiǎn)報(bào)類長(zhǎng)文章。
四、圖片識(shí)別篩選——可實(shí)現(xiàn)自動(dòng)上傳圖片功能
xiaomingbot可以通過(guò)語(yǔ)言理解與圖像識(shí)別,在數(shù)據(jù)庫(kù)中自動(dòng)選取并在文章中插入賽事圖片,讓稿件圖文并茂更加生動(dòng)形象。
奧運(yùn)會(huì)后xiaomingbot還在持續(xù)撰寫NBA、CBA、中超、意甲等體育賽事的文章,包括很多場(chǎng)諸如“亞迪拉-席爾瓦4:0赫巴-阿勒吉 不費(fèi)吹灰之力經(jīng)濟(jì)奧運(yùn)會(huì)乒乓球女單下一輪”這樣的冷門比賽,xiaomingbot也均有報(bào)道。根據(jù)今日頭條統(tǒng)計(jì),xiaomingbot文章的閱讀率與人類創(chuàng)作者基本持平。
近期,xiaomingbot已完成最新一輪升級(jí),除體育新聞,xiaomingbot在今日頭條上撰寫的文章現(xiàn)已涵蓋科技、財(cái)經(jīng)、房產(chǎn)等十幾個(gè)分類,并且對(duì)多個(gè)領(lǐng)域的每日熱點(diǎn)做持續(xù)的跟蹤報(bào)道。據(jù)悉,xiaomingbot已與光明網(wǎng)、《財(cái)經(jīng)》雜志、大河報(bào)等主流媒體達(dá)成戰(zhàn)略合作,向其進(jìn)行優(yōu)質(zhì)內(nèi)容輸出。
對(duì)機(jī)器寫稿而言,它的核心技術(shù)是自然語(yǔ)言理解,同時(shí)會(huì)涉及機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、深度學(xué)習(xí)、知識(shí)圖譜等多項(xiàng)技術(shù)。自然語(yǔ)言處理是人工智能領(lǐng)域難度最大的課題之一。相對(duì)于語(yǔ)音和視覺(jué)來(lái)說(shuō),語(yǔ)言是高度抽象化的表現(xiàn)。一方面,人類語(yǔ)言具有復(fù)雜性,同一句話可能代表不同含義。另一方面,正確理解人類語(yǔ)言還要有足夠的背景知識(shí),比如對(duì)成語(yǔ)和歇后語(yǔ)的理解。這些都是自然語(yǔ)言理解進(jìn)一步發(fā)展需要克服的難題。
因此很多人所憂慮的機(jī)器是否會(huì)取代記者,短時(shí)間內(nèi)來(lái)看是很難的。正如今日頭條李磊所言,“我們做新聞機(jī)器人的目的并不是取代新聞?dòng)浾撸菐椭浾邉?chuàng)作出更高質(zhì)量的內(nèi)容?!?/p>