《理解深度學習需要重新思考泛化》論文引起了人們的深思,也有很多人表示不解。也曾在Quora上討論過。Google Brain工程師Eric Jang認為深度學習的工作機制,能促進深度學習在生活周圍的應用,Zhang et al.2016可能會成為一個重要的風向標。
2017年,很多機器學習研究人員都在試圖解決一個問題:深度神經(jīng)網(wǎng)絡是如何運作的?為什么它們能夠很好地解決實際問題?
即使人們不太關心理論分析和代數(shù),但理解深度學習的工作機制,能夠幫助我們促進深度學習在現(xiàn)實生活中的應用。
論文《理解深度學習需要重新思考泛化》(Understanding deep learning requires rethinking generalizaTIon)展現(xiàn)了神經(jīng)網(wǎng)絡的一些有趣特征,特別需要指出的一點是,神經(jīng)網(wǎng)絡有足夠的能力來記憶隨機輸入的數(shù)據(jù)。在SGD優(yōu)化設置中,訓練集誤差完全可以縮小到ImageNet大小的數(shù)據(jù)集。
這與以下經(jīng)典敘述背道而馳:“深度學習奇跡般地發(fā)現(xiàn)了低級、中級和高級特征,就像哺乳動物大腦V1系統(tǒng)在學習壓縮數(shù)據(jù)時展現(xiàn)出的行為一樣。”
2012-2015年間,很多研究人員使用“歸納偏差”來解釋深度網(wǎng)絡如何減少測試誤差,暗示了某種形式的泛化。
但是,如果一個深度網(wǎng)絡能夠記憶隨機數(shù)據(jù),這表明由于歸納偏差也與記憶兼容,并不能完全解釋泛化能力,(例如卷積/池化架構,Dropout、batchnorm等正則化使用)。
這篇論文備受矚目的部分原因在于,它在ICLR評論中獲得了”Perfect score”和ICLR2017最佳論文獎。這引發(fā)了人們的熱議,所以有一點反饋循環(huán)。我認為這是一篇很好的論文,因為這篇論文提出了一個沒人問過的問題,并提供了強有力的實驗證據(jù)來證明一些非常有趣的結果。
然而,我認為深度學習界達成一致來判定一篇論文是否重要,還需要1-2年。尤其是對于那些非分析性、通過實證研究得出的結論。
Tapabrata Ghosh指出,一些研究人員認為,盡管深度網(wǎng)絡有記憶功能,這可能并不是深度網(wǎng)絡在實踐中做的事。這是因為“記住”有語義意義的數(shù)據(jù)集所需要的時間比記住隨機數(shù)據(jù)需要的時間更短,說明深度網(wǎng)絡可以利用訓練集中已有的語義規(guī)律。
我認為Zhang et al.2016在理解深度網(wǎng)絡運作方式上可能會成為一個重要的風向標,但并沒有解決深度網(wǎng)絡泛化的問題。也許馬上就會有人挑戰(zhàn)這篇論文的觀點。這就是實驗科學的本質。
簡而言之,這篇論文被認為非常重要,是因為展現(xiàn)了深度學習以記憶的方式學習隨機數(shù)據(jù)庫。然后提出了深度網(wǎng)絡如何學習非隨機數(shù)據(jù)集的問題。
以下是我對于泛化問題的意見:
具有良好優(yōu)化目標的高容量參數(shù)模型像海綿一樣吸收數(shù)據(jù)。我認為深度網(wǎng)絡優(yōu)化目標非常“懶惰“但功能強大:在提供正確模型偏差并與輸入數(shù)據(jù)兼容的情況下,深度網(wǎng)絡能夠具有語義意義的特征層次結構。但如果不方便優(yōu)化,深度學習網(wǎng)絡將會以只記憶數(shù)據(jù)的方式進行優(yōu)化。
現(xiàn)在我們?nèi)鄙俚氖强刂朴洃洺潭葀s泛化程度的方法,還有無法使用像權重正則化和dropout這樣強力的工具。