雙11阿里云人工智能ET魔術(shù)表演解密:“超能力”口譯+語(yǔ)音視頻識(shí)別
掃描二維碼
隨時(shí)隨地手機(jī)看文章
作為雙11背后龐大系統(tǒng)的大腦,忙碌的阿里云人工智能ET還抽空表演了一個(gè)神奇的魔術(shù)。
11月10日晚,“天貓雙11狂歡夜”在深圳大運(yùn)中心拉開巨幕。除了匯聚全球半個(gè)娛樂圈的明星外,還有一位擁有“超能力”的神秘嘉賓登場(chǎng)——阿里云人工智能ET。在全球上億觀眾的見證下,ET隔空計(jì)算出5人手中的撲克牌,震驚全場(chǎng)。
在狂歡夜的壓軸環(huán)節(jié)中,ET一出場(chǎng)便秀出強(qiáng)悍的語(yǔ)音識(shí)別和交互能力,與主持人華少神同步。眾所周知,華少憑借400字/分鐘的語(yǔ)速被譽(yù)為“中國(guó)好舌頭”。ET竟然可以實(shí)時(shí)將華少的現(xiàn)場(chǎng)口播翻譯成文字,投在電視機(jī)屏幕上,達(dá)到極高的準(zhǔn)確率。好玩的是,一旦出現(xiàn)錯(cuò)誤,ET還會(huì)結(jié)合上下文語(yǔ)境進(jìn)行毫秒級(jí)修正。
不但能聽懂華少的問題,ET還能通過現(xiàn)場(chǎng)觀察和思考,模仿人類的聲音回答問題。
華少發(fā)出挑戰(zhàn):從32張撲克牌中抽出5張,ET你能不能猜出是什么?隨后主持人邀請(qǐng)五位現(xiàn)場(chǎng)觀眾上臺(tái),并依次切牌打亂順序后抽出5張。ET能算出他們手中的牌嗎?
ET略略沉思,提了一個(gè)小要求,請(qǐng)抽到黑色牌面的觀眾轉(zhuǎn)身。通過機(jī)器視覺識(shí)別出轉(zhuǎn)身觀眾后,ET瞬間計(jì)算出答案:梅花A……五個(gè)居然全中!ET的神奇表現(xiàn)讓主持人大吃一驚,“實(shí)在是太,不,可,思,議了!”
理論上32張撲克牌分到5人手里要全部猜對(duì)的概率是2400萬分之一。ET究竟是如何做到的呢?
“這是一個(gè)經(jīng)典的魔術(shù),不過這次是由人工智能魔術(shù)師來表演。32張撲克牌以De Bruijn 序列排列,五人洗牌之后,實(shí)際上排列可能減少到32種,ET將轉(zhuǎn)身觀眾(黑牌)記作1紅牌觀眾記為0。進(jìn)一步從32種可能性中算出最終的唯一排列”,阿里云人工智能科學(xué)家初敏說,通常這個(gè)魔術(shù)非常考驗(yàn)?zāi)g(shù)師的記憶和推算能力。對(duì)ET來說,這些都不是難題。
難的是整個(gè)過程中需要ET要具備高精確度、高實(shí)時(shí)性的視頻識(shí)別能力,并用人類的語(yǔ)言和主持人溝通交流。“因直播環(huán)境受到場(chǎng)地、燈光、音效的影響,語(yǔ)音識(shí)別、視頻識(shí)別都會(huì)受到很大考驗(yàn)”,初敏說。
據(jù)了解,無論是語(yǔ)音識(shí)別還是圖像識(shí)別,底層都依賴于深度學(xué)習(xí)算法以及大規(guī)模計(jì)算能力。一套復(fù)雜算法模型的訓(xùn)練往往需要千億級(jí)別的樣本數(shù)據(jù),這就對(duì)背后的計(jì)算能力提出了很高的要求。
ET代表的是阿里云語(yǔ)音識(shí)別、語(yǔ)音合成、自然語(yǔ)言理解、實(shí)時(shí)圖像識(shí)別、機(jī)器學(xué)習(xí)的綜合技術(shù),背后是阿里云飛天操作系統(tǒng)強(qiáng)大的計(jì)算能力。
值得注意的是,這并非ET第一次登上舞臺(tái)。在今年4月份湖南衛(wèi)視《我是歌手》的決賽中,ET在直播現(xiàn)場(chǎng)成功預(yù)測(cè)了李玟奪冠。而在其他領(lǐng)域,ET已經(jīng)開始擔(dān)任法庭書記員、超級(jí)交通警察、影視投資經(jīng)理、客服等角色。