ATEC螞蟻人工智能大賽給我們留下了什么啟發(fā)
“經(jīng)常有人問(wèn)我,AI的未來(lái)是什么?你對(duì)未來(lái)有著怎樣的展望?我通常會(huì)說(shuō),那些金融科技公司所處的生態(tài)領(lǐng)域內(nèi)的發(fā)展,將是未來(lái)AI最有意思的地方。”機(jī)器學(xué)習(xí)領(lǐng)域的泰斗級(jí)學(xué)者、螞蟻金服科學(xué)智囊團(tuán)主席、加州大學(xué)伯克利分校教授Michael I. Jordan說(shuō)。
確實(shí)如此,這些公司所面臨的是真正意義上的行業(yè)難題,而它們就是AI應(yīng)用最為有效的地方。“我們開(kāi)始發(fā)現(xiàn),AI不再是簡(jiǎn)單的想要模仿人類(lèi)的智能,而是成為了一種新的能力。它像水一樣滲透在社會(huì)經(jīng)濟(jì)的每一個(gè)角落,散發(fā)智能、解決問(wèn)題。”螞蟻金服CTO程立解釋道,
“基于這樣的AI所釋放出來(lái)的能力,不僅可以幫助人們更加深刻地洞察社會(huì),在金融領(lǐng)域更好地發(fā)現(xiàn)和控制風(fēng)險(xiǎn),也能夠?yàn)槊恳粋€(gè)普通人打造一個(gè)貼心的生活助理和財(cái)富顧問(wèn),讓每一個(gè)小微企業(yè)擁有最智慧的經(jīng)營(yíng)助手和最優(yōu)秀的CFO。”
4月25日,ATEC螞蟻開(kāi)發(fā)者大賽人工智能大賽啟動(dòng),主辦方螞蟻金服發(fā)起初衷就是要把業(yè)務(wù)體系中最又價(jià)值的問(wèn)題提煉出來(lái),并提供自主可控的AI平臺(tái),分享給開(kāi)發(fā)者用創(chuàng)新技術(shù)方案去解決。
“事實(shí)上,AI是一個(gè)工程學(xué)科,有時(shí)候大家覺(jué)得AI是神奇魔幻的工具,把它引入公司就會(huì)帶來(lái)奇跡,其實(shí)這是不對(duì)的。”Michael I. Jordan說(shuō)道,“AI是由工程師的大腦打造出來(lái)的一種解決問(wèn)題的手段,是一種思考解決問(wèn)題手段的方法。今天我們舉行的大賽就是一個(gè)非常好的例子,大家可以去思考怎么樣用工程師的頭腦解決問(wèn)題,而不是用魔術(shù)的手段帶來(lái)奇跡。”
某種程度上,對(duì)這些參賽選手而言,與其說(shuō)是參與一次比賽,更像是在一家科技金融公司完成一個(gè)個(gè)真實(shí)項(xiàng)目。我們?cè)诂F(xiàn)場(chǎng)深度了解了圍繞具體金融業(yè)務(wù)場(chǎng)景的賽題,并從專(zhuān)家們的介紹中找到了一些解題方向。
一、支付風(fēng)險(xiǎn)識(shí)別第一道賽題是一個(gè)有關(guān)支付風(fēng)險(xiǎn)識(shí)別的問(wèn)題。
基于移動(dòng)互聯(lián)網(wǎng)的新金融業(yè)務(wù)在蓬勃發(fā)展的同時(shí),黑產(chǎn)攻擊的能力也在不斷升級(jí)。信息泄露是導(dǎo)致帳戶安全最為嚴(yán)重的問(wèn)題之一。國(guó)際上多起用戶信息泄露的事件,過(guò)億的敏感數(shù)據(jù)被盜用、利用,給用戶和銀行帶來(lái)了巨大的經(jīng)濟(jì)損失。
保護(hù)消費(fèi)者和風(fēng)險(xiǎn)識(shí)別,也越來(lái)越成為金融行業(yè)和學(xué)術(shù)界關(guān)注的焦點(diǎn)。以這個(gè)研究點(diǎn)出發(fā),螞蟻金服以高度模擬真實(shí)業(yè)務(wù)的數(shù)據(jù)和場(chǎng)景,希望行業(yè)大咖一起對(duì)風(fēng)險(xiǎn)模式、無(wú)標(biāo)簽數(shù)據(jù)的學(xué)習(xí)這兩個(gè)技術(shù)難題做出深入的研究和突破,為金融風(fēng)控行業(yè)帶來(lái)價(jià)值的同時(shí)推動(dòng)人工智能下一步的發(fā)展。
“過(guò)去四十年,這一直都是很大的問(wèn)題,而且現(xiàn)在還沒(méi)有解決。90年代,有一些銀行開(kāi)始用機(jī)器學(xué)習(xí)做檢測(cè),而且結(jié)果不錯(cuò)。亞馬遜在線上使用之后,我們可以看到虛假支付的比例升高,他們用機(jī)器學(xué)習(xí)手段把虛假支付率降低了很多。”Michael I. Jordan說(shuō)道。
在活動(dòng)現(xiàn)場(chǎng),螞蟻金服副總裁、大安全負(fù)責(zé)人芮雄文介紹了這道賽題的背景——
支付寶是螞蟻金服的起源,而移動(dòng)支付之所以在中國(guó)普及的根本原因在于,相較于信用卡,基于二維碼的移動(dòng)支付上根本降低了消費(fèi)者和商戶的支付門(mén)檻,而且與POS機(jī)比起來(lái),成本更低。
在便捷、低成本的基礎(chǔ)上,安全就成為了螞蟻金服要面臨的首要問(wèn)題,這也是所有金融服務(wù)的基石。
在安全科技方面,螞蟻金服擁有三大核心能力,分別為確保線上線下環(huán)境中操作者即賬戶擁有者本人的數(shù)字身份;運(yùn)用大數(shù)據(jù)、機(jī)器學(xué)習(xí)和人工智能實(shí)現(xiàn)精準(zhǔn)識(shí)別和防控風(fēng)險(xiǎn)的智能風(fēng)控大腦;以及免于內(nèi)外遭受攻擊的數(shù)據(jù)保護(hù)及隱私。
芮雄文還特別提到了螞蟻金服在智能風(fēng)控方面的最新探索——AlphaRisk風(fēng)控引擎。
這套引擎擁有四個(gè)核心系統(tǒng),包括風(fēng)險(xiǎn)感知(感知風(fēng)險(xiǎn)形勢(shì)和情境)、風(fēng)險(xiǎn)識(shí)別(毫米級(jí)精準(zhǔn)識(shí)別所有風(fēng)險(xiǎn))、自動(dòng)駕駛(基于風(fēng)險(xiǎn)場(chǎng)景和用戶狀態(tài)完成個(gè)性化智能推薦的管理措施)、以及自我學(xué)習(xí)能力(在黑產(chǎn)不停變化的同時(shí)保證整個(gè)風(fēng)控系統(tǒng)能夠自動(dòng)學(xué)習(xí)、更新)。
在這套風(fēng)控引擎的支持下,目前螞蟻金服的資損率已經(jīng)小于百萬(wàn)分之一,每秒可以在峰值時(shí)處理超過(guò)50萬(wàn)筆的風(fēng)險(xiǎn)交易,還可以在1秒內(nèi)更換整個(gè)策略體系。
不過(guò),智能風(fēng)控領(lǐng)域仍然存在一些難以攻克的挑戰(zhàn)。芮雄文舉了兩個(gè)例子,一是黑產(chǎn)作案手段不斷變化,傳統(tǒng)的攻防模型過(guò)幾天效果就會(huì)下降;二是缺乏黑樣本的情況下讓模型精準(zhǔn)識(shí)別。
對(duì)此,東華大學(xué)校長(zhǎng)、原同濟(jì)大學(xué)副校長(zhǎng)蔣昌俊也分享了他的觀點(diǎn):
“早期使用的規(guī)則系統(tǒng)產(chǎn)品性、針對(duì)性強(qiáng),但適應(yīng)性、演化性弱。但騙子不可能拿著一招騙術(shù)一勞永逸下去,肯定會(huì)更新,這個(gè)時(shí)候規(guī)則系統(tǒng)難以適應(yīng),所以需要模型和算法來(lái)解決這個(gè)問(wèn)題。”
然而,模型和算法是抽取出來(lái)一個(gè)數(shù)學(xué)處理方式,其場(chǎng)景性已經(jīng)沒(méi)有那么強(qiáng)。在這個(gè)過(guò)程中,如何把規(guī)則的、場(chǎng)景性的特征針對(duì)性地融合到模型和算法中,讓模型和算法適應(yīng)整個(gè)場(chǎng)景,才會(huì)提高系統(tǒng)的時(shí)效性和穩(wěn)定性。
“這是需要賽手們發(fā)揮智慧的地方。”蔣昌俊說(shuō)道,
“另外就是黑樣本和正常樣本數(shù)量嚴(yán)重不對(duì)稱(chēng)的問(wèn)題。一般來(lái)說(shuō),兩個(gè)樣本在差不多情況下建立的模型會(huì)比較好,而在嚴(yán)重不對(duì)稱(chēng)的情況下,怎么還能夠達(dá)到這個(gè)效果?這就是這個(gè)風(fēng)控問(wèn)題的第二個(gè)難點(diǎn),做好了也是這個(gè)問(wèn)題的亮點(diǎn)。我覺(jué)得這是關(guān)于智能風(fēng)控的問(wèn)題上需要大家去創(chuàng)新、去創(chuàng)造的地方。”
二、智能金融客服第二道賽題則與智能客服相關(guān)。普惠金融的重要目標(biāo)就是給廣大用戶提供高效和個(gè)性化的客戶服務(wù)體驗(yàn),以人工智能技術(shù)為核心的智能客服在提升用戶體驗(yàn)方面扮演了重要角色。
而智能客服的本質(zhì),就是充分理解用戶的意圖,在知識(shí)庫(kù)中精準(zhǔn)地找到與之相匹配的知識(shí)點(diǎn),從而回答用戶問(wèn)題或提供解決方案。整個(gè)智能客服都是圍繞著用戶問(wèn)題而構(gòu)建,問(wèn)題相似度計(jì)算則是貫穿智能客服知識(shí)庫(kù)建設(shè)、在線問(wèn)題匹配,全鏈路數(shù)據(jù)化運(yùn)營(yíng)等幾乎所有環(huán)節(jié)最核心的技術(shù),這項(xiàng)技術(shù)的發(fā)展及其相關(guān)數(shù)據(jù)的建設(shè),勢(shì)必會(huì)促進(jìn)整個(gè)客服行業(yè)的進(jìn)步。
“在金融領(lǐng)域,挑戰(zhàn)本身是非常廣泛的,來(lái)自很多方面。”螞蟻金服副總裁、首席數(shù)據(jù)科學(xué)家漆遠(yuǎn)說(shuō)道,“為了解決這些問(wèn)題,我們開(kāi)發(fā)了一系列人工智能算法。”
而在開(kāi)發(fā)算法的核心,也就是打造人工智能引擎的過(guò)程中,螞蟻金服也遇到了很多挑戰(zhàn),例如使機(jī)器學(xué)習(xí)引擎能夠快速的再判斷、如何面對(duì)非常小的樣本實(shí)現(xiàn)學(xué)習(xí)和預(yù)測(cè)等。
“我們?cè)谶@里做的第一個(gè)工作就是在智能客服上面,希望通過(guò)多輪對(duì)話的能力使支付寶更加智能,可以理解對(duì)話背后的意義。”漆遠(yuǎn)補(bǔ)充道。
螞蟻金服資深算法專(zhuān)家張家興進(jìn)行賽題闡述時(shí)說(shuō),“這個(gè)賽題說(shuō)起來(lái)它的定義非常簡(jiǎn)單,就是給你兩句話,讓你判斷這兩句話說(shuō)的語(yǔ)義是不是一致的。比如一句話是‘花唄怎么還款’,另外一句話是‘花唄如何還錢(qián)’。這兩個(gè)句子有很多字不一樣,但是有相同的意思。”
這在智能客服中的意義是非常重大,但背后并不簡(jiǎn)單。
首先,客服最重要的一點(diǎn)就是理解用戶的意圖,然后在知識(shí)庫(kù)中匹配相關(guān)的知識(shí)點(diǎn)。目前工業(yè)界最主流的匹配做法就是把用戶的問(wèn)題與知識(shí)庫(kù)中所有的問(wèn)題逐一進(jìn)行相似度計(jì)算,把相似度最高的問(wèn)題作為用戶的意圖,再把它的答案返還給用戶。
除此之外,相似度計(jì)算對(duì)整個(gè)客服的各個(gè)方面也都具有意義。例如,知識(shí)庫(kù)其實(shí)是用是基于文本的自動(dòng)挖掘而來(lái),這個(gè)文本的自動(dòng)挖掘算法也要基于計(jì)算任意兩個(gè)文本之間的相似度,或者高維空間二者之間的距離。
在數(shù)據(jù)化運(yùn)營(yíng)的各個(gè)環(huán)節(jié),還有包括搜索推薦、對(duì)話等其他領(lǐng)域,相似度計(jì)算也都是非常核心、基礎(chǔ)的問(wèn)題。
而眼下,NLP相似度計(jì)算所面臨最大挑戰(zhàn)和問(wèn)題恰恰是在于,智能客服里面存在大量的非常多樣性的問(wèn)題,包括各地的方言、口語(yǔ)以及各種表達(dá)方式等方面的不同,對(duì)問(wèn)題的匹配提出相當(dāng)高的要求。但NLP的進(jìn)展主要集中體現(xiàn)在情感分析和翻譯方面,在這些場(chǎng)景下,大多情況下是在一個(gè)比較固定的數(shù)據(jù)集,可以在比較簡(jiǎn)單干凈的數(shù)據(jù)集上得到很好的結(jié)果。
“這里的挑戰(zhàn)其實(shí)也很簡(jiǎn)單,就是因?yàn)槿说脑谒磉_(dá)相同意思的時(shí)候,可能性太多了,有各種各樣不同的說(shuō)法。”張家興還給出了自己的解題想法:
一是關(guān)注問(wèn)題的表達(dá)以及不同層次的表達(dá)。人們所看到的自然語(yǔ)言本身也是一種表達(dá)形式,在這個(gè)基礎(chǔ)上可以做很多事情。例如,基于深度學(xué)習(xí)模型把句子變成一個(gè)向量,計(jì)算向量之間的距離;也可以通過(guò)依存分析,把句子建立一個(gè)語(yǔ)法樹(shù),在樹(shù)的層次上建立模型匹配;或者可以把句子真正理解到語(yǔ)義層次,這樣一來(lái),把任何兩個(gè)句子的語(yǔ)義做一個(gè)匹配可能會(huì)達(dá)到更好的效果。這都是實(shí)踐中的嘗試,希望大家也可以嘗試出更多的道路。
第二點(diǎn)在于,機(jī)器學(xué)習(xí)依賴(lài)大數(shù)據(jù),這道賽題給的是客服領(lǐng)域的數(shù)據(jù),希望大家可以探索更多領(lǐng)域的數(shù)據(jù),用一些機(jī)器學(xué)習(xí)方法把其他領(lǐng)域?qū)W到的東西結(jié)合客服領(lǐng)域的數(shù)據(jù)上來(lái),最終達(dá)到更好的效果。
事實(shí)上,無(wú)論是黑產(chǎn)的變化多端導(dǎo)致的樣本信息不對(duì)稱(chēng),還是因?yàn)榭头?shù)據(jù)多樣性造成的模型弱適應(yīng)性,這些問(wèn)題都要解決“小數(shù)據(jù)”問(wèn)題。我們理論上常說(shuō)如果有了大數(shù)據(jù)就能怎樣怎樣,但實(shí)際工程化過(guò)程中都很難達(dá)到如此理想的環(huán)境。無(wú)論是遷移學(xué)習(xí),還是無(wú)監(jiān)督學(xué)習(xí),如何用較少的樣本來(lái)達(dá)到更高的精度,更快速的識(shí)別率,提升機(jī)器學(xué)習(xí)泛化能力,都是下一階段極具挑戰(zhàn)性的課題。
這一系列命題,部分構(gòu)成了新金融領(lǐng)域當(dāng)下最需要解決的難題。