這篇文章主要面向的是非專業(yè)的讀者,簡單直白地介紹了機器學習的概念、內(nèi)涵、以及機器學習的相關(guān)問題。對于專業(yè)人士而言也可以依據(jù)這篇文章對機器學習的概念做更深入的理解,看看如何向身邊朋友們解釋你所從事的工作。
1. 機器學習意味著從數(shù)據(jù)中學習,而AI呢是一個比較炫酷時髦的詞。
機器學習基于這樣的假設:我們可以通過將正確的數(shù)據(jù)放到正確的算法中去訓練解決一系列復雜的問題。當你需要融資或者發(fā)布產(chǎn)品的時候可以毫不猶豫的稱之為人工智能(AI),但是你心里需要明白現(xiàn)在AI是一個幾乎可以代表一切時髦用詞。
2. 機器學習包括數(shù)據(jù)和算法,但最主要的部分還是數(shù)據(jù)。
機器學習算法特別是深度學習近年來取得了極大的成功,但是你需要明白的是數(shù)據(jù)才是使機器學習成為可能的關(guān)鍵因素。你可以使用簡單的算法實現(xiàn)機器學習,但是沒有好的數(shù)據(jù)你將寸步難行。
3. 如果沒有大量的數(shù)據(jù),那么你還是安心的使用簡單的模型吧。
機器學習的任務是從數(shù)據(jù)中訓練出一種模式,探索由參數(shù)定義的模型空間。如果你的參數(shù)空間太大的話,模型就會在訓練數(shù)據(jù)上出現(xiàn)過擬合,并使得模型失去泛化性。 關(guān)于過擬合的詳細解釋需要很多的數(shù)學推到的,但是你需要記住的是,模型越簡單越好。
4.機器學習的能力只能到達訓練數(shù)據(jù)所能提供的水平。
“無用輸入,無用輸出”很好的反映了機器學習的局限性。機器學習只能在提供的訓練數(shù)據(jù)中發(fā)現(xiàn)模式,不能夠憑空學習出新模式。對于類似分類的監(jiān)督學習任務來說你需要魯棒的收集正確標注的特征豐富的數(shù)據(jù)來作為訓練數(shù)據(jù)。
5.只要訓練數(shù)據(jù)具有代表性的情況下機器學習才會有效。
就像教課書中曾經(jīng)教會我們的一樣“過去的表現(xiàn)并不是未來結(jié)果的保障”,機器學習只能在于訓練數(shù)據(jù)同分布的數(shù)據(jù)上有效。你需要對訓練數(shù)據(jù)和實際數(shù)據(jù)之間統(tǒng)計上的不對稱性保持足夠的警覺,同時需要保持模型不斷地被訓練讓它不落伍。
6.機器學習中最復雜的工作來自于數(shù)據(jù)轉(zhuǎn)換。
在閱讀文獻的時候你會看到很多眼花繚亂算法,你也許認為機器學習最主要的工作便是選擇算法和調(diào)節(jié)參數(shù)。但真實的情況是:機器學習中需要做的最多的工作就是數(shù)據(jù)清洗和特征工程,你需要將數(shù)據(jù)的原始特征轉(zhuǎn)換到能更好的表示其中信息的新特征上去。
7. 深度學習是一項革命性的技術(shù),但卻不是包治百病的靈丹妙藥。
近些年來深度學習被捧上神堂,遠遠超過了其他的機器學習算法。其中的原因之一就是深度學習可以自動完成傳統(tǒng)機器學習算法中需要特征工程才能實現(xiàn)的任務,特別是在圖像和聲音數(shù)據(jù)的處理中更是如此。但是我們需要明白深度學習不是萬金油,你只能在一定的范圍內(nèi)應用這項技術(shù),同時你也需要在數(shù)據(jù)清洗和變換上花上很多的精力才行。
8.機器學習極易受到誤操作的影響。
“機器學習算法不會殺人,而人類卻可能會自掘墳墓”。當機器學習算法失效的時候,很少因為算法本身的的錯誤,而大多數(shù)情況下卻是人為的錯誤造成的。很多情況下你在訓練數(shù)據(jù)中不小心引入了認為錯誤,或者引入了偏差和其他的系統(tǒng)錯誤。你需要時刻保持懷疑的態(tài)度來使用機器學習算法,并在應用的過程中進行嚴格的檢查。
9.機器學習會在不經(jīng)意間實現(xiàn)自我預言。
在很多機器學習的應用中,今天的決策會影響未來收集的訓練數(shù)據(jù)。一旦機器算法模型引入了一定的模型偏差,那么它會持續(xù)的收集新的數(shù)據(jù)不斷強化這一偏差。事實上有些這樣的偏差確實會奪取人寶貴的生命。每一個機器學習從業(yè)者都要在心中銘記:不要創(chuàng)造自我實現(xiàn)的預言!
10. AI不會擁有自我意識,也不會崛起摧毀人類的。
令人驚訝的是,在機器學習如此普遍的今天,好多人卻依舊用科幻小說和電影中的情節(jié)來定義和認識AI。的確,科幻小說可以啟發(fā)人的創(chuàng)造力,但卻不應該如此輕信科幻小說,以致于我們對真實的世界產(chǎn)生誤解。今天的世界已經(jīng)有很多需要我們?nèi)リP(guān)注的危險,從別有用心的邪惡的人到無辜的被濫用的機器。所以請大家不要再去擔心“天網(wǎng)”和超級人工智能的出現(xiàn),而是應該用審慎的心態(tài)去看待機器學習,讓它更加健康的發(fā)展為人類服務。