研究者開(kāi)發(fā)奇特程序:可分辨有諷刺意味語(yǔ)言
雖然這個(gè)程序能辨別反諷內(nèi)容,但暫時(shí)還無(wú)法直接給“謝耳朵”提供幫助。資料圖片
在熱門美劇《生活大爆炸》中,最受歡迎的角色“謝耳朵”患有社交障礙癥,特征之一就是分不清“好賴話兒”,常常錯(cuò)把人家的諷刺當(dāng)恭維,因此鬧出了不少笑話。近日,有研究者開(kāi)發(fā)了一種程序,可以分辨出有諷刺意味的語(yǔ)言。未來(lái),或許這種技術(shù)可以幫助“謝耳朵”這樣的人擺脫“不識(shí)反諷”的社交障礙。
研究源于惡作劇
這種程序的開(kāi)發(fā)者是以色列耶路撒冷大學(xué)的計(jì)算機(jī)科學(xué)家蘇爾(Oren Tsur),近日在美國(guó)華盛頓的人工智能進(jìn)步組織大會(huì)上展示了自己的研究成果。
諷刺性的語(yǔ)言其實(shí)是一種否定和攻擊,但它的語(yǔ)氣比直接的攻擊要平緩一些,通常從中看不出任何關(guān)涉到批評(píng)和攻擊的詞,也正因?yàn)槿绱巳藗兺鶗?huì)對(duì)它們聽(tīng)而不聞,視而不見(jiàn),而有社交障礙的人識(shí)別諷刺性的語(yǔ)言就成了一件非常難的事。蘇爾和同事們開(kāi)發(fā)了一種電腦程序,可以從網(wǎng)上社區(qū)里識(shí)別諷刺性的語(yǔ)言。
雖然這個(gè)程序距離理解人類語(yǔ)言所有細(xì)微的幽默成分為時(shí)尚遠(yuǎn),但它可能會(huì)幫助公司了解消費(fèi)者如何看待他們的產(chǎn)品。比如說(shuō),一個(gè)購(gòu)物網(wǎng)站允許消費(fèi)者貼出自己對(duì)產(chǎn)品的看法。一則評(píng)論說(shuō):“這個(gè)鏡頭的大小真合適,我可以把它裝在衣兜里。”而另一則評(píng)論說(shuō):“這個(gè)鏡頭的大小真合適,我需要買個(gè)泡菜壇裝它?!鼻耙粋€(gè)是夸獎(jiǎng),后一個(gè)是諷刺,但如果只從字面上來(lái)看,兩者表達(dá)的意思似乎是類似的。公司會(huì)用一種電腦統(tǒng)計(jì)系統(tǒng)來(lái)統(tǒng)計(jì)用戶的反饋,但是一般的語(yǔ)言統(tǒng)計(jì)系統(tǒng)無(wú)法識(shí)別諷刺性的語(yǔ)言,蘇爾說(shuō):“在上面的例子中,一般的統(tǒng)計(jì)系統(tǒng)會(huì)下結(jié)論說(shuō),所有顧客對(duì)他們的鏡頭大小都很滿意,這顯然是不對(duì)的?!?br /> 有趣的是,蘇爾想要開(kāi)發(fā)這種電腦程序的念頭正是來(lái)自一個(gè)玩笑。當(dāng)蘇爾還是學(xué)校新人的時(shí)候,他曾經(jīng)接到過(guò)一封電子郵件,表示感謝他對(duì)以往會(huì)議的貢獻(xiàn),邀請(qǐng)他當(dāng)今年會(huì)議的主席。
這封信顯然應(yīng)當(dāng)發(fā)給另一個(gè)人,但是蘇爾玩心大發(fā),以諷刺性的語(yǔ)言回了一封信。結(jié)果對(duì)方?jīng)]有看出諷刺性的語(yǔ)氣,以很正式的語(yǔ)氣又回了一封郵件,詢問(wèn)他主要的研究領(lǐng)域是什么。蘇爾回信說(shuō):“我的研究領(lǐng)域就是如何探測(cè)電子郵件中的諷刺性語(yǔ)言?!睆拇?,蘇爾開(kāi)始很認(rèn)真地研究諷刺性的語(yǔ)言。
機(jī)器發(fā)現(xiàn)諷刺特征
蘇爾利用“機(jī)器學(xué)習(xí)”的方式開(kāi)發(fā)了一種電腦程序。在開(kāi)始的時(shí)候,他和同事給電腦輸入80句諷刺性的句子,以及作為對(duì)比的幾百句非諷刺性的句子,這些句子都是他們從“亞馬遜”的讀者評(píng)價(jià)中找到的。這些諷刺性的句子包括:“為了這么本書去砍樹(shù)(造紙)?”“對(duì)于失眠癥患者很有用”“iPod是被故意設(shè)計(jì)得兩年后失效嗎?”“那些缺陷是故意設(shè)計(jì)出來(lái)的”等等。
這個(gè)程序分析了諷刺性和非諷刺性的句子,總結(jié)出諷刺性句子的幾百條特征。其中一個(gè)諷刺性語(yǔ)言的特征就是如果句子的開(kāi)頭是“我猜”,而結(jié)尾是省略號(hào),它通常是諷刺性的。比如:“我猜你們的這個(gè)鏡頭是用來(lái)裝飲用水的……”“我猜穿著你們的衣服可以去約會(huì)鳳姐……”再比如說(shuō)超出必要地運(yùn)用大寫字母。蘇爾在他的學(xué)術(shù)論文中說(shuō):“我們發(fā)現(xiàn)了諷刺的強(qiáng)烈特征,但是更多的細(xì)致的特征的組合可能是識(shí)別諷刺的最好手段?!?br /> 他們還發(fā)現(xiàn)了一些和諷刺有關(guān)的有趣現(xiàn)象,總結(jié)了三大定律。定律1:流行定律,最受歡迎的產(chǎn)品往往遭諷刺最多。比如在亞馬遜網(wǎng)站上,收到諷刺性評(píng)論最多的恰恰是賣得最好的產(chǎn)品,比如小說(shuō)《達(dá)·芬奇密碼》。蘇爾說(shuō):“我們推測(cè)在網(wǎng)上運(yùn)用諷刺性語(yǔ)言的一個(gè)強(qiáng)烈的動(dòng)機(jī)是想要‘拯救’或者‘啟發(fā)’大眾,矯正不應(yīng)得的好評(píng)?!倍?,簡(jiǎn)單性定律。如果產(chǎn)品有缺陷,它的功能越少受到的諷刺越多。定律3,價(jià)格定律,價(jià)格越高的產(chǎn)品越容易受到諷刺。
幫助社交目標(biāo)尚遠(yuǎn)
為了實(shí)驗(yàn)這個(gè)程序是否有效,他們把200個(gè)評(píng)論交給3個(gè)獨(dú)立的受試人,結(jié)果愛(ài)試人的看法和機(jī)器的看法有80%是相同的。研究者認(rèn)為機(jī)器分析數(shù)以百萬(wàn)計(jì)的句子,結(jié)果也會(huì)差不離。蘇爾表示,這個(gè)程序不僅可以幫助統(tǒng)計(jì)產(chǎn)品的網(wǎng)上評(píng)論,而且經(jīng)過(guò)發(fā)展之后可以用來(lái)幫助有社交能力障礙的人。
加利福尼亞大學(xué)心理學(xué)博士蘭金表示,這個(gè)程序的表現(xiàn)還遠(yuǎn)稱不上完美,可能因?yàn)橹S刺是一種非常復(fù)雜的社會(huì)產(chǎn)物。蘭金評(píng)價(jià)說(shuō),機(jī)器的表現(xiàn)只能和社會(huì)交往能力很差的人類相當(dāng)??赡苓@樣的程序可以幫忙統(tǒng)計(jì)評(píng)論的正負(fù)意見(jiàn),但是“如果你的目標(biāo)是幫助社交能力不佳的人士,我不能完全肯定他們真能從中獲益?!?br /> 比如,一個(gè)人說(shuō):“我太愛(ài)愛(ài)愛(ài)愛(ài)愛(ài)在周六工作了!”這句話是不是諷刺呢?如果背景是領(lǐng)導(dǎo)強(qiáng)迫員工在周末加班,這句話就是諷刺,但或許有人喜歡在周末工作,平常休息,這種情況這句話就不是諷刺。說(shuō)這句話的時(shí)候,人的眼神和語(yǔ)氣會(huì)包含很多信息量,但是在網(wǎng)上看不到這些。
蘭金說(shuō):“我們的大腦可以采集復(fù)雜的社交信息,處理很多微妙的事情,電腦距離這步還有很遠(yuǎn)?!?br /> □編譯/本報(bào)記者 劉錚