谷歌工程師淺談Bengio深度學習論文的重要性

時間：2020-08-03 08:51:02

關鍵字：機器學習深度學習

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 　　《理解深度學習需要重新思考泛化》論文引起了人們的深思，也有很多人表示不解。也曾在Quora上討論過。Google Brain工程師Eric Jang認為深度學習的工作機制，能促進深度學習在生

　　《理解深度學習需要重新思考泛化》論文引起了人們的深思，也有很多人表示不解。也曾在Quora上討論過。Google Brain工程師Eric Jang認為深度學習的工作機制，能促進深度學習在生活周圍的應用，Zhang et al.2016可能會成為一個重要的風向標。

　　2017年，很多機器學習研究人員都在試圖解決一個問題：深度神經(jīng)網(wǎng)絡是如何運作的？為什么它們能夠很好地解決實際問題？

　　即使人們不太關心理論分析和代數(shù)，但理解深度學習的工作機制，能夠幫助我們促進深度學習在現(xiàn)實生活中的應用。

　　論文《理解深度學習需要重新思考泛化》（Understanding deep learning requires rethinking generalizaTIon）展現(xiàn)了神經(jīng)網(wǎng)絡的一些有趣特征，特別需要指出的一點是，神經(jīng)網(wǎng)絡有足夠的能力來記憶隨機輸入的數(shù)據(jù)。在SGD優(yōu)化設置中，訓練集誤差完全可以縮小到ImageNet大小的數(shù)據(jù)集。

　　這與以下經(jīng)典敘述背道而馳：“深度學習奇跡般地發(fā)現(xiàn)了低級、中級和高級特征，就像哺乳動物大腦V1系統(tǒng)在學習壓縮數(shù)據(jù)時展現(xiàn)出的行為一樣。”

　　2012-2015年間，很多研究人員使用“歸納偏差”來解釋深度網(wǎng)絡如何減少測試誤差，暗示了某種形式的泛化。

　　但是，如果一個深度網(wǎng)絡能夠記憶隨機數(shù)據(jù)，這表明由于歸納偏差也與記憶兼容，并不能完全解釋泛化能力，（例如卷積／池化架構，Dropout、batchnorm等正則化使用）。

　　這篇論文備受矚目的部分原因在于，它在ICLR評論中獲得了”Perfect score”和ICLR2017最佳論文獎。這引發(fā)了人們的熱議，所以有一點反饋循環(huán)。我認為這是一篇很好的論文，因為這篇論文提出了一個沒人問過的問題，并提供了強有力的實驗證據(jù)來證明一些非常有趣的結果。

　　然而，我認為深度學習界達成一致來判定一篇論文是否重要，還需要1-2年。尤其是對于那些非分析性、通過實證研究得出的結論。

　　Tapabrata Ghosh指出，一些研究人員認為，盡管深度網(wǎng)絡有記憶功能，這可能并不是深度網(wǎng)絡在實踐中做的事。這是因為“記住”有語義意義的數(shù)據(jù)集所需要的時間比記住隨機數(shù)據(jù)需要的時間更短，說明深度網(wǎng)絡可以利用訓練集中已有的語義規(guī)律。

　　我認為Zhang et al.2016在理解深度網(wǎng)絡運作方式上可能會成為一個重要的風向標，但并沒有解決深度網(wǎng)絡泛化的問題。也許馬上就會有人挑戰(zhàn)這篇論文的觀點。這就是實驗科學的本質。

　　簡而言之，這篇論文被認為非常重要，是因為展現(xiàn)了深度學習以記憶的方式學習隨機數(shù)據(jù)庫。然后提出了深度網(wǎng)絡如何學習非隨機數(shù)據(jù)集的問題。

　　以下是我對于泛化問題的意見：

　　具有良好優(yōu)化目標的高容量參數(shù)模型像海綿一樣吸收數(shù)據(jù)。我認為深度網(wǎng)絡優(yōu)化目標非常“懶惰“但功能強大：在提供正確模型偏差并與輸入數(shù)據(jù)兼容的情況下，深度網(wǎng)絡能夠具有語義意義的特征層次結構。但如果不方便優(yōu)化，深度學習網(wǎng)絡將會以只記憶數(shù)據(jù)的方式進行優(yōu)化。

　　現(xiàn)在我們?nèi)鄙俚氖强刂朴洃洺潭葀s泛化程度的方法，還有無法使用像權重正則化和dropout這樣強力的工具。