人工智能的可學(xué)習(xí)性怎樣來判斷
2019年中國人工智能大會(Chinese Congress on Artificial Intelligence 2019,簡稱“CCAI 2019”)將于9月21日-22日在青島膠州召開。加拿大滑鐵盧大學(xué)教授Shai Ben-David將出席大會并發(fā)表演講。
Shai Ben-David教授的研究興趣涉及計算機科學(xué)及其應(yīng)用基礎(chǔ)理論,特別是在統(tǒng)計和機器學(xué)習(xí)方面有很多的研究。他一直在探索如何為一些十分流行的機器學(xué)習(xí)和數(shù)據(jù)挖掘范式提供理論基礎(chǔ),用數(shù)學(xué)公式加深我們對這個世界的理解。
機器學(xué)習(xí)的可學(xué)習(xí)性如何判定?在業(yè)界,近些年來機器學(xué)習(xí)在人機對弈、語音識別、圖像識別等場景下取得了蓬勃發(fā)展,引發(fā)了人們對人工智能改造未來社會的無限熱情和期待。但在學(xué)界,卻有不少科學(xué)家指出了機器學(xué)習(xí)的發(fā)展局限。而Shai Ben-David探索的就是這樣一個機器學(xué)習(xí)的本質(zhì)問題:我們能不能判定人工智能的可學(xué)習(xí)性?
長久以來,我們一直認(rèn)為只要給定了對學(xué)習(xí)任務(wù)的一個精準(zhǔn)的描述,我們就可以去判定一個機器學(xué)習(xí)算法能否進行學(xué)習(xí)并執(zhí)行這個任務(wù)。但Shai Ben-David通過研究給出一個驚人的答案:不一定!這項成果近期被發(fā)表了Nature Machine Intelligence一刊上。
他指出,如果一個問題只需要“是”或“否”的回答,我們還是可以確切地知道這個問題可否被機器學(xué)習(xí)算法解決。但是,一旦涉及到更一般的設(shè)置時,我們就無法區(qū)分可學(xué)習(xí)和不可學(xué)習(xí)的任務(wù)了。
存在無法用數(shù)學(xué)來證明或反駁的機器學(xué)習(xí)問題
在機器學(xué)習(xí)中,對于面部識別或推薦引擎等非線性可判斷問題,在定義機器學(xué)習(xí)的可學(xué)習(xí)性時,我們通常是要求這個機器學(xué)習(xí)模型是一族函數(shù)中的預(yù)測性能最佳的。于是,我們一般會通過維度分析的方式來解釋一個模型的可學(xué)習(xí)性。而在這項研究中,Shai Ben-David等人設(shè)計了一個機器學(xué)習(xí)問題EMX(EstimaTIng the Maximum)。
舉個實際的例子來說,你希望在網(wǎng)站上投放廣告,并最大限度地讓這些廣告有更大目標(biāo)觀眾數(shù)量。你有向面向不同的年齡段的用戶的不同的宣傳廣告,但你不知道誰會訪問這個網(wǎng)站,也不知道年齡分布。你如何選擇一組廣告,最大限度地增加你的目標(biāo)觀眾數(shù)量?這就是一個現(xiàn)實的EMX問題。
在他的工作中,結(jié)果表明,EMX問題的解等價于連續(xù)統(tǒng)假設(shè),即只有在連續(xù)統(tǒng)假設(shè)成立的情況下,EMX問題才是可解決的。這意味著,“人工智能是否具有可學(xué)習(xí)性?”這個問題的答案和連續(xù)統(tǒng)假設(shè)一樣不可知。
但進一步研究發(fā)現(xiàn),產(chǎn)生這一結(jié)論的根源在于將可學(xué)習(xí)性定義為學(xué)習(xí)函數(shù)的存在性,而不是學(xué)習(xí)算法的存在性。與算法的存在相比,函數(shù)在無限域上的存在是一個微妙的問題。他的工作表明,當(dāng)涉及到更一般的學(xué)習(xí)類型時,這種關(guān)于可學(xué)習(xí)性的集合論觀點代價很高。
結(jié)語對于目前深度學(xué)習(xí)技術(shù)得到廣泛應(yīng)用的狀況,Shai Ben-David教授也提出了自己的看法:“我們必須謹(jǐn)慎行事,現(xiàn)在有一種大趨勢,人們只關(guān)注于應(yīng)用一個成功的工具,但是很少有人去關(guān)注為什么它會成功以及沒有理論保證它們會繼續(xù)取得成功?!?/p>