恐怖谷是我們熟悉的:如果一個人形機器人造型逼真,但又達不到足夠真實,它會讓人感到怪異。
到目前為止,這種說法幾乎完全適用于機器人的面容和身形,但人們往往忽略了機器人語音中的恐怖谷現(xiàn)象。
Kozminski大學(xué)的機器人專家Aleksandra Przegalinska是個例外,他同時也是麻省理工學(xué)院的研究員,關(guān)注于聊天機器人和語音助手的蓬勃發(fā)展。本周WIRED(《連線》雜志)在SXSW與其共同討論“機器人復(fù)制人類語音中所面臨的巨大挑戰(zhàn)”,為什么人形機器人的未來可能不會特別明朗?當你讓學(xué)生教聊天機器人如何說話時,會發(fā)生什么?
WIRED:為什么將研究的關(guān)注點放在機器人語音方面呢?
Przegalinska:恐怖谷現(xiàn)象不僅存在于機器人的仿真形象上,也存在于語音方面,如其說話的方式。音調(diào)本身在這里非常重要。這就是為什么我們對聊天機器人感興趣,所以我們建立了自己的聊天機器人。
我的學(xué)生與聊天機器人交流了整整一年,主要是為了使機器從中學(xué)習(xí),然而,最終收集到一些人類羞辱機器的言語,這可能就是恐怖谷的一部分。為什么學(xué)生會對聊天機器人心生厭惡?可能是因為聊天機器人只是一個聊天機器人,或者學(xué)生因為心中的不安全感而討厭機器人。
WIRED:這種現(xiàn)象也會發(fā)生在物理機器人身上。日本曾進行一項研究,將一個機器人放置于商場中,看看孩子們會對它做什么,最終孩子們踢了它并直呼其名。
Przegalinska:對于孩子來說,他們處在一個受自然本性影響遠大于文化的階段。
WIRED:也許這對他們來說是宣泄,也許就像治療一樣。
Przegalinska:也許這種反應(yīng)與人們試圖處理由恐怖谷現(xiàn)象所產(chǎn)生的情感有關(guān)。你會感到厭惡,因為你不確定自己與之互動的對象是什么。我能感受到人與聊天機器人助理的奇怪關(guān)系——聊天機器人非常有禮貌,而人們只是向他們?nèi)永?,這是是一種怪異的情況,好像他們是一些較低級別的人。
WIRED:聊天機器人可以采取不同的形式,對嗎?基于文本或帶有虛擬化身。
Przegalinska:我們發(fā)現(xiàn)擁有虛擬化身的聊天機器人會使人們感到厭煩。在大多數(shù)情況下,它給出了與文本相同的響應(yīng),但反應(yīng)的差異是巨大的。在基于文本與聊天機器人互動的情況下,參與者發(fā)現(xiàn)機器人非常有能力談?wù)摳鞣N主題。與之對比的是,當聊天機器人帶有虛擬化身時,就情感反應(yīng)而言,人會感到有壓力。人們與基于文本的聊天機器人的對話通常是兩倍長。
WIRED:你的聊天機器人表現(xiàn)如何?它如何以一個交談?wù)叩慕巧嬖?
Przegalinska:無論何時進行對話,聊天機器人都會嘗試反映對方的說法。例如,如果你說你討厭體育,而且談話時間足夠長,聊天機器人會說“我也討厭體育。”
WIRED:所以它可能騙你。
Przegalinska:當然,這經(jīng)常出現(xiàn)。它也會經(jīng)常轉(zhuǎn)變。
WIRED:或者更糟糕的是,它會變得種族主義。
Przegalinska:實際上,這發(fā)生了。我認為我們的聊天機器人在很多方面仍然非常可控,我們很驚訝地看到它的轉(zhuǎn)變頻率。我們確實策劃了它所呈現(xiàn)的一些內(nèi)容,但隨后機器人通過與其他人的互動輕松地與之分道揚鑣。
WIRED:除了語義之外,當談到當前的機器人語音時,究竟是什么讓人們失望?
Przegalinska:即使是一個簡短的句子,機器人也會以長句的方式來處理。這在某種程度上是如此具有決定性,聽起來你期待一個冗長的陳述然后句子結(jié)束。因此,理解你所說的語調(diào)和語境會存在問題。因此,將語義與語調(diào)聯(lián)系起來,這就是出錯的部分。
WIRED:當這種智能體現(xiàn)在索菲亞這樣的機器人身上時,復(fù)雜程度會更高,大多數(shù)人都從她的脫口秀節(jié)目中了解到這一點。
Przegalinska:也許問題是如何將語義與語調(diào)整合在一起。我們知道像這樣的系統(tǒng)是非常模塊化的,因為有一個系統(tǒng)負責移動頭部而另一個系統(tǒng)負責微笑。所有這些模塊有時很難整合。我認為這是恐怖谷,一種響應(yīng)的延遲。它需要非常大的計算能力。但我毫不懷疑這就是未來。除非人形機器人被徹底拋棄。這也是一種選擇。我認為這是可能的。