深度學(xué)習(xí)成為人工智能死胡同的原因是什么
在深度學(xué)習(xí)剛剛進入視線時,大多數(shù)AI研究人員嗤之以鼻,但短短幾年后,它的觸角已經(jīng)橫跨醫(yī)療、教育、汽車等眾多領(lǐng)域。
AI 在深度學(xué)習(xí)的加持下,近幾年在人臉識別、圍棋、Dota等任務(wù)上屢屢擊敗人類,這種趨勢似乎也在暗示:深度學(xué)習(xí)就是打開人工智能寶藏的鑰匙。
但也有觀點認(rèn)為當(dāng)前深度學(xué)習(xí)已經(jīng)走到了死胡同,例如全球人工智能計算機視覺領(lǐng)域奠基人之一、約翰霍普金斯大學(xué)教授艾倫·尤爾就曾拋出“深度學(xué)習(xí)在計算機視覺領(lǐng)域的瓶頸已至”的觀點。
本文作者 Randy Laybourne 比較支持尤爾教授觀點,并盤點了20條理由逐一論述深度學(xué)習(xí)的研究當(dāng)前已經(jīng)走到了死胡同。AI科技評論作了有刪改的編輯,請欣賞~
1、反向傳播技術(shù)只適合狹義AI
反向傳播是深度學(xué)習(xí)的基本技術(shù),它能夠讓神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程找到“最優(yōu)解”。但是如果讓訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)執(zhí)行另一項任務(wù)或者使用新數(shù)據(jù)時就會發(fā)生災(zāi)難性遺忘,從而無法完成持續(xù)學(xué)習(xí)的目標(biāo)。
當(dāng)然,你可以減少之前學(xué)習(xí)任務(wù)以及調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)來解決災(zāi)難性遺忘,但是如果有新數(shù)據(jù)涌入,則必須增加神經(jīng)元的數(shù)量。
大腦與我們手工設(shè)計的神經(jīng)網(wǎng)絡(luò)相比有著更多的神經(jīng)元,所以你會認(rèn)為增加人工神經(jīng)網(wǎng)絡(luò)的神經(jīng)元完全沒有問題對吧?
但是你也要明白,大腦具有功能模塊化的特點,它在執(zhí)行任務(wù)的時候,每次只調(diào)用一小部分神經(jīng)元。而反向傳播在迭代的時候調(diào)用的是全部的神經(jīng)元。
另外,大腦模塊化的特點能讓我們?nèi)祟悓W(xué)習(xí)到不同的東西,而且不同模塊之間信息是可以相互交流的。
那么構(gòu)造多個深度神經(jīng)網(wǎng)絡(luò)并讓它們之間互相連接能夠解決問題么?
顯然高級智能的功能遠(yuǎn)不止這些。
2、無監(jiān)督學(xué)習(xí)
大腦在進行學(xué)習(xí)的時候,并不需要大量的示例,也不需要一個監(jiān)督者在旁邊“叮囑”。大腦的學(xué)習(xí)方法更加復(fù)雜,例如,即使一些“數(shù)據(jù)”沒有打標(biāo)簽,大腦也能從其中學(xué)到一些東西。
當(dāng)然,我們也不是在模仿翅膀的動作來制造飛行器,但是鳥類卻證明了當(dāng)克服重力時,比空氣重的物體也能夠飛行,這意味著即使通用人工智能沒有大腦一樣的思考方式,也能夠通過無監(jiān)督的學(xué)習(xí)方式實現(xiàn)智能。
3、認(rèn)知圖與路線
當(dāng)前,深度學(xué)習(xí)想要掌握更多的是一種認(rèn)知路線,即從輸入數(shù)據(jù)到輸出的認(rèn)知途徑,也就是說,深度學(xué)習(xí)是輸入和輸出之間關(guān)聯(lián)記憶的一種形式。
考慮下面一種認(rèn)知路線的情況:
“徑直穿過森林,看到一條河,然后穿過小河,左轉(zhuǎn),在一棵奇怪的樹附近停下來,然后能到山頂上有三塊大石頭的山,最后沿著路上去”
現(xiàn)在的問題是,如果有人砍掉了樹或不知何故搬開了石頭呢?
這就是深度學(xué)習(xí)的缺點:知識的應(yīng)用范圍非常狹窄,只適用于一項任務(wù)。解決方法是創(chuàng)建一個動態(tài)的地圖,即找到從不同起點到無限終點的多條路線。
這就是狹義AI和通用AI的區(qū)別,這種區(qū)別也深深影響著神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。
4、預(yù)測過程
我們的大腦總是嘗試主動預(yù)測接下來幾秒所發(fā)生的事情,并根據(jù)實際情況調(diào)整預(yù)測細(xì)節(jié)。這也是人類具有強烈好奇心的原因。
除此之前我們?nèi)祟愡€有另一個驅(qū)動因素,即當(dāng)我們有著很好的基礎(chǔ)時,我們總想要改善我們關(guān)于心理模型的認(rèn)知地圖-。
人類在面臨未知的時候總是想要找到一個令人滿意的解釋,否則不會停下來。所以說這種預(yù)測過程可以節(jié)省我們的精力,也可以激勵我們變得越來越好,能夠擴大我們的知識面和技能,完善我們的知識和技能認(rèn)知圖。
這也就是說預(yù)測性處理是我們直覺的來源。顯然,深度學(xué)習(xí)缺乏這種預(yù)測。
5、高效利用資源
谷歌的TPU
能源的缺乏性沒有人可以否認(rèn),我們大腦在處理問題的時候,也會對盡可能多的事情說“不”。具體而言,當(dāng)大腦處理一個連續(xù)的數(shù)據(jù)流的時候,會經(jīng)過一層過濾裝置,過濾掉無用信息,將重要的信息發(fā)送到大腦皮層。
當(dāng)在無意識狀態(tài)下處理事情的結(jié)果足夠好的時候,大腦就不會切換這種狀態(tài)。當(dāng)有重要任務(wù)要做的時候,大腦會關(guān)閉一些默認(rèn)狀態(tài)下的大型網(wǎng)絡(luò)神經(jīng)元,然后開啟中央執(zhí)行網(wǎng)絡(luò)。
根據(jù)研究,大腦大概有86~1000億個神經(jīng)元,大多數(shù)被密集的分布在小腦部分,主要負(fù)責(zé)人體的各項活動。前面也提到,大腦會有選擇的關(guān)閉或開啟某些神經(jīng)元,而深度學(xué)習(xí)則在每一次迭代中都會利用所有的神經(jīng)元,這也是為什么我們至今沒有設(shè)計出如此規(guī)模的神經(jīng)元的原因。
另外,深度學(xué)習(xí)的能源效率很低,以至于在即使最強大的處理器加持下,也無法與運行頻率只有10–40Hz的大腦相提并論。
6、多感官數(shù)據(jù)表示
目前,語音是人工智能最難啃的硬骨頭。雖然我們可以利用AI設(shè)計出色的文本生成系統(tǒng),也能夠為人類編撰優(yōu)秀的文本。但這種文本生成系統(tǒng)背后存在“理解”么?還是說只是單詞之間的統(tǒng)計關(guān)系。
在小孩子學(xué)習(xí)語言之前,其實就已經(jīng)受到了許多感官刺激,小孩所接觸的每種含義特征不是某些數(shù)據(jù)集中的相鄰單詞,而是豐富的體驗集,包括視覺,聲音,氣味,味道,觸覺,情感等等。
然后,在這些特征的基礎(chǔ)上,我們貼上正確的標(biāo)簽,教導(dǎo)孩子進餐,去洗手間或其他任何東西。
另外,即使我們不知道某些“東西”確切的名字,也可以根據(jù)未知對象的屬性與已知類的相似性對其進行分類。例如聲音很容易引起情緒反應(yīng),氣味會帶回記憶。
顯然,當(dāng)前的深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)只是具有強大的單獨處理功能,無法匹配類似的連接。
7、經(jīng)驗豐富
如何向AI解釋這個世界,僅僅讓AI通過靜止圖像或文本數(shù)據(jù)集了解所處的世界,不考慮上下文、背景啥的么?
假設(shè)不曾得知“引力”為何物,那么我們該如何教導(dǎo)AI?
如果我們想要具有類人能力的機器,我們必須認(rèn)識到至少我們的身體和大腦是生物機器。
人類的大腦將無色,無聲和無味的原子渲染成世界,并“解釋編碼”傳入信號,同時創(chuàng)建一個可以讓我們理解的現(xiàn)實模型。
只有這樣我們才會知道在地球上扔?xùn)|西時,它就會掉落。但是數(shù)字地圖上向下移動的點不受重力影響。顯然數(shù)字世界和物理世界的規(guī)則非常不同。
深度學(xué)習(xí)能夠教導(dǎo)AI理解這一點么
8、連續(xù)立體聲數(shù)據(jù)流
我們的身體大致具有對稱性,我么擁有雙眼、雙耳、雙手、雙腿,還有兩個大腦半球。這幫助我們以一種新的方式感知世界并與之互動。
立體視覺可以幫助我們測量視覺場景的深度,聲音可以幫助我們定位視覺的來源,大腦的二元性可以幫助我們應(yīng)對不同心理能力。。。。。。
同時,大腦的連續(xù)性功能使我們確信,前一秒還是你的朋友的那個人仍然是原來的那個人,你不需要通過視覺或聲音屬性再次確認(rèn)。
大腦會主動預(yù)測正在發(fā)生的事情,從而節(jié)省精力,增強信心,并實時學(xué)習(xí)。
深度學(xué)習(xí)在目前顯然無法達到。
9、非隨機初始化
人腦的語義空間
人工神經(jīng)網(wǎng)絡(luò)的初始化是隨機的,我們使用基于梯度的方法來訓(xùn)練網(wǎng)絡(luò),并使其在所有值都相同時對網(wǎng)絡(luò)進行分解。
可以對神經(jīng)網(wǎng)絡(luò)進行優(yōu)化,并強制指定其初始化的方法。但要注意的是,這在有監(jiān)督的環(huán)境中是可以實現(xiàn)的,要想在現(xiàn)實世界中大規(guī)模部署自主AI,顯然隨機初始化可能是最好的選擇。在此類情況下,不管時間和位置如何,我們最好的想法是讓AI以類似方式完成適應(yīng)過程。
10、將情緒狀態(tài)作為一個通用評價系統(tǒng)
我們或許認(rèn)為情緒是人類所獨有的,甚至不及硬邏輯。
但是它作為人體中的一個通用評價系統(tǒng),我們能夠很快地通過情緒快速評估自身的狀態(tài):是充滿活力還是歡欣鼓舞,亦或是無比沮喪的低沉狀態(tài)。
無論我們何時要做決定,都要基于我們自身的感受。即便我們要考慮斟酌很久來評估不同的選擇,然而最后,我們還是會選擇我們“感覺起來”最好的那個。
我們已經(jīng)嘗試用強化學(xué)習(xí)來模擬人類的情緒,然而僅僅也才走出了一小步。
情緒能夠被量化,這是因為他們都是由不同層面的神經(jīng)化學(xué)物質(zhì)所組成的,例如血清素、多巴胺、腎上腺素等等。
我們做出想要戰(zhàn)斗或航行的反應(yīng),是因為多巴胺很高,它能夠刺激我們快速執(zhí)行一系列動作。而當(dāng)去甲腎上腺素低時,我們會感受到害怕的情緒從而試圖逃跑;當(dāng)去甲腎上腺素高時,我們會找到勇氣去戰(zhàn)斗,或者在極端高時,我們會感受到憤怒或強烈的瘋狂的情緒。
11、數(shù)字化神經(jīng)調(diào)質(zhì)
數(shù)字化神經(jīng)調(diào)質(zhì)可以讓自主的 AI 以跟神經(jīng)調(diào)質(zhì)同樣的方式,打開和關(guān)閉大規(guī)模的神經(jīng)子網(wǎng)絡(luò)。
在人腦中,高水平的神經(jīng)調(diào)質(zhì)乙酰膽堿會增加與記憶、內(nèi)部定向認(rèn)知、思考和推理相關(guān)的神經(jīng)元活動。
而多巴胺則會增加外部認(rèn)知的重要性,并更快地選擇足夠好的動作。
食欲素調(diào)節(jié)能量,當(dāng)我們處于清晰狀態(tài)時,會增加;當(dāng)我們?nèi)胨虍a(chǎn)生免疫反應(yīng)時,則會降低。在自主機器人等設(shè)備一直無法連接到電源時,數(shù)字化食欲素有助于實現(xiàn)優(yōu)秀的能量消耗。
人體使用化學(xué)物質(zhì)自動進行自我調(diào)節(jié),我認(rèn)為在這方面,人工智能也存在巨大的可能性。
12、人工直覺
深度學(xué)習(xí)自身其實僅是處理數(shù)據(jù)的一種方法,從輸入到輸出的一種非常被動的方法。而人類也賦予深度學(xué)習(xí)一種非常強大的能力,那就是直覺。
在深度學(xué)習(xí)中當(dāng)所有條件都匹配時,網(wǎng)絡(luò)中神經(jīng)單元會被預(yù)先激活,但是最終是否會對現(xiàn)實造成一些影響,我們尚未可知,我們只是感覺到,將會產(chǎn)生一些影響。
人類的意識中也盡是與此相同的機制:腦海中蹦出來的想法不知從何而來,但是大腦會認(rèn)為這些想法將來是有用的。
直覺能夠幫助我們未雨綢繆,也能夠讓數(shù)據(jù)處理變得更加簡單。例如在深度學(xué)習(xí)中,如果上下文都是正確的,則可以降低針對目標(biāo)或聲音識別的閾值,來簡化處理流程。
有時直覺也可能讓我們犯錯,例如我們可能會錯認(rèn)朋友,或者聽到別人實際上并沒有說過的話。
但是大多數(shù)時候,我們利用直覺節(jié)省了大量的能源,甚至由于直覺發(fā)出了對潛在危險的預(yù)警而挽救了數(shù)不盡數(shù)的生命。
13、隱藏的大腦:神經(jīng)膠質(zhì)細(xì)胞
多年來,神經(jīng)膠質(zhì)細(xì)胞一直僅僅被視作大腦的填充物,然而它實際上對大腦的運行有很大的影響作用。人類擁有的神經(jīng)膠質(zhì)細(xì)胞比神經(jīng)元還多,它們支持神經(jīng)元部分、提供營養(yǎng)并通過觸發(fā)免疫反應(yīng)來處理如有毒的代謝衍生物等垃圾和外部危險。
然而當(dāng)前的人工神經(jīng)網(wǎng)絡(luò)完全不把神經(jīng)膠質(zhì)細(xì)胞當(dāng)回事。但是,它們可是實實在在控制著神經(jīng)元的啊。
它們除了對神經(jīng)元起到維持作用外,還影響著神經(jīng)元的尖峰,如果應(yīng)用到深度學(xué)習(xí)中,有可能還能夠計算數(shù)據(jù)預(yù)測的誤差。
星型膠質(zhì)細(xì)胞不受短時期內(nèi)的電刺激,而是受長時期的化學(xué)刺激。它們可以在全局范圍內(nèi)彼此進行交互,并不僅僅為需要更多資源的地方提供資源,還能改進整個系統(tǒng)的運行。
14、皮層下成分
目前的人工神經(jīng)網(wǎng)絡(luò)不僅忽略了星型膠質(zhì)細(xì)胞,而且忽略了皮層下成分。
在處理數(shù)據(jù)時,人腦除了新皮層,還有大量其他的模塊來對其進行支持,如丘腦、海馬體、紋狀體以及杏仁核等等。
它們都在大腦中扮演中非常重要的角色。
沒有海馬體和內(nèi)嗅皮質(zhì),我們就無法記憶,也很難在物理空間進行定位。丘腦過濾數(shù)據(jù),并將數(shù)據(jù)傳輸?shù)酱竽X的正確部位。紋狀體和杏仁核則能夠調(diào)節(jié)對輸入數(shù)據(jù)做出的反應(yīng)。
屏狀體也是大腦中一個非常有意思的部分??茖W(xué)家們發(fā)現(xiàn),當(dāng)受到電刺激時,它會充當(dāng)意識的“開關(guān)”。
相關(guān)閱讀:
https://www.newscientist.com/arTIcle/mg22329762-700-consciousness-on-off-switch-discovered-deep-in-brain/
15、因果推理
人類擁有的強大能力之一,便是因果推理。
我們可以通過做心理模擬——想象或回想整個過程的步驟,在大腦中找到導(dǎo)致某個結(jié)果可能存在的原因。
而關(guān)聯(lián)性并不就是指因果關(guān)系,正如一句名言所說的:僅僅使用統(tǒng)計學(xué)是遠(yuǎn)不夠的,我們還需要用到關(guān)系、豐富的語境信息和多感官體驗。
16、心理模擬器
如文章開頭所提到的,人腦實際上是從無色、無味、無聲音的原子來呈現(xiàn)現(xiàn)實世界的。
這是因為它如此擅長這種呈現(xiàn)方式,并且還能夠模擬未曾發(fā)生過的事情。而這也是我們的想象力之所以存在,并且還會做夢的原因。
它讓我們在現(xiàn)實世界中不受任何損失地體驗和學(xué)習(xí)。這種心理模擬器也是意識型體驗的基礎(chǔ)。
人類創(chuàng)造了很多抽象的事物,這些都僅存在于我們的腦海中。我們在真正動手發(fā)明某些東西前,會先在腦海中進行想象。這也是人類進化擁有比其他生物更好的優(yōu)勢的源泉所在
在未來的通用人工智能框架中,我們需要用到心理模擬器!
17、增量學(xué)習(xí)
增量學(xué)習(xí)的方法,與用固定的數(shù)據(jù)集來訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法完全相反。
這種方法可以讓機器一直學(xué)習(xí)到新的東西,并且不斷更新現(xiàn)有的知識來進行自我提高。
當(dāng)然,我們可以總是用新的數(shù)據(jù)來重新訓(xùn)練模型,但是這種做法會讓資源利用效率低下,而采用更大的神經(jīng)架構(gòu)來訓(xùn)練模型,則一直以來都存在問題。
直觀上,雖然增量學(xué)習(xí)會導(dǎo)致所謂的過擬合,但是現(xiàn)在已經(jīng)有很多技術(shù)能夠解決這一問題。并且,將足夠多的數(shù)據(jù)增量添加到記憶中的增量學(xué)習(xí)方法,要更簡單得多。
人類并非天地萬物的主宰,我們擅長處理自身已有足夠多經(jīng)驗的事情,并且還可以隨時更新心理模型來選擇更好的解決方案。
18、終極算法
我認(rèn)為,我們能夠找到最終算法,開啟推動人工智能發(fā)展的鑰匙。
到那時,數(shù)據(jù)處理將會變得不同,所謂的超參數(shù)在不同情況下也會各不相同,然而,整個人工皮層中的算法可能卻是一樣的,它們決定哪些是高度相關(guān)、哪些的相關(guān)性較低,哪些需要記住、哪些舍棄。以及,哪些要被記成反面案例。
19、硬件:專用處理單元
一般用途的處理單元如CPU,不如專用處理單元的效率高。為了達到復(fù)雜的認(rèn)知結(jié)構(gòu)所需要的效率,處理單元需要足夠的并行性。
由于抽象層諸多,當(dāng)計算機運行某些任務(wù)時,比如圖形用戶界面、框架和開發(fā)庫、操作系統(tǒng)以及給機器代碼編程語言等,處理單元會在這些抽象層之間轉(zhuǎn)換。并且,這樣做非常費時間。
讓它乘以每秒數(shù)十億次運行,你就能夠?qū)μ幚韱卧倪\行情況有一個較為全面的了解。
編程語言有助于原型設(shè)計和實驗,能夠讓解決方法適應(yīng)我們的需求。但是編程語言的重要部分需要在處理單元執(zhí)行,就像每個CPU內(nèi)部都有算術(shù)邏輯單元一樣。
我們需要在硬件中實現(xiàn)關(guān)鍵的算法,現(xiàn)在許多公司都已經(jīng)開始在嘗試實現(xiàn)這一點,但是他們嘗試的方向是否正確呢?
20、自組裝還是人為構(gòu)建?
大腦復(fù)雜非常,人類至今也尚未能完全理解人腦。不僅如此,現(xiàn)在關(guān)于大腦架構(gòu)的很多研究結(jié)果還存在矛盾。我們不能僅僅依靠神經(jīng)科學(xué)來開發(fā)通用人工智能。
但是我們可以理解大腦的高級功能,例如這些功能能做什么以及或多或少能怎么做。
由于大腦就是一個自組裝的處理單元,根據(jù)自身的生理和心理需求和局限性來做各種事情。許多觀察到的行為或?qū)傩远寂c該結(jié)構(gòu)運行和生存所需的實際情況,息息相關(guān),而不是因為它需要實現(xiàn)更高水平的智能。
讓神經(jīng)科學(xué)、計算機科學(xué)和數(shù)學(xué)之間達成正確的平衡,有助于我們最終開發(fā)出擁有與人類一樣的能力的機器。
總結(jié)
尤其是近幾年來,所有這些技術(shù)都取得了巨大的進展。我們很容易忽略,與我們未來人類將取得的成就相比,現(xiàn)在 AI 領(lǐng)域還尚處于“石器時代”。
計算時代才剛剛開始,換個看待當(dāng)下 AI 發(fā)展的視角,將為我們帶來更加廣闊的視野。能將我們帶向未來某處的事物,往往與將再度推動我們向前邁進一大步的不同。
當(dāng)某個人做了一些與其他人稍有不同的事情而擴展了人類的視野時,人類進化往往會實現(xiàn)一次巨大的飛躍。
同樣地,我認(rèn)為,我們通過盡可能尋找不同的方法來做人工智能研究時,最終能夠讓人工智能領(lǐng)域取得巨大的進展。