機(jī)器學(xué)習(xí)的初學(xué)者必看指南
引言
Google的自駕車和機(jī)器人得到了很多新聞,但公司的真正未來是機(jī)器學(xué)習(xí),這種技術(shù)使計(jì)算機(jī)變得更智能,更個(gè)性化。-Eric Schmidt (Google Chairman)
我們可能生活在人類歷史上最具影響力的時(shí)期——計(jì)算從大型主機(jī)到PC移動(dòng)到云計(jì)算的時(shí)期。 但是使這段時(shí)期有意義的不是發(fā)生了什么,而是在未來幾年里我們的方式。
這個(gè)時(shí)期令像我這樣的一個(gè)人興奮的就是,隨著計(jì)算機(jī)的推動(dòng),工具和技術(shù)的民主化。 今天,作為數(shù)據(jù)科學(xué)家,我可以每小時(shí)為幾個(gè)玩偶構(gòu)建具有復(fù)雜算法的數(shù)據(jù)處理機(jī)。 但到達(dá)這里并不容易,我已經(jīng)度過了許多黑暗的日日夜夜。
誰可以從本指南中獲益最多
我今天發(fā)布的可能是我創(chuàng)造的最有價(jià)值的指南。
創(chuàng)建本指南背后的理念是簡化全球有抱負(fù)的數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)愛好者的旅程。 本指南能夠使你在研究機(jī)器學(xué)習(xí)問題的過程中獲取經(jīng)驗(yàn)。 我提供了關(guān)于各種機(jī)器學(xué)習(xí)算法以及R&Python代碼的高級(jí)理解以及運(yùn)行它們,這些應(yīng)該足以使你得心順手。
我故意跳過了這些技術(shù)背后的統(tǒng)計(jì)數(shù)據(jù),因?yàn)槟悴恍枰陂_始時(shí)就了解它們。 所以,如果你正在尋找對(duì)這些算法的統(tǒng)計(jì)學(xué)理解,你應(yīng)該看看別的文章。 但是,如果你正在尋找并開始構(gòu)建機(jī)器學(xué)習(xí)項(xiàng)目,那么這篇文章給你帶來極大好處。
3類機(jī)器學(xué)習(xí)算法(廣義上)
監(jiān)督學(xué)習(xí)
工作原理:該算法由一組目標(biāo)/結(jié)果變量(或因變量)組成,該變量將根據(jù)給定的一組預(yù)測變量(獨(dú)立變量)進(jìn)行預(yù)測。 使用這些變量集,我們生成一個(gè)將輸入映射到所需輸出的函數(shù)。 訓(xùn)練過程繼續(xù)進(jìn)行執(zhí)行,直到模型達(dá)到培訓(xùn)數(shù)據(jù)所需的準(zhǔn)確度水平。 監(jiān)督學(xué)習(xí)的例子:回歸,決策樹,隨機(jī)森林,KNN,邏輯回歸等
無監(jiān)督學(xué)習(xí)
如何工作:在這個(gè)算法中,我們沒有任何目標(biāo)或結(jié)果變量來預(yù)測/估計(jì)。 用于不同群體的群體聚類和用于不同群體的客戶進(jìn)行特定干預(yù)。 無監(jiān)督學(xué)習(xí)的例子:Apriori算法,K-means。
加強(qiáng)學(xué)習(xí):
工作原理:使用這種算法,機(jī)器受到學(xué)習(xí)和訓(xùn)練,作出具體決定。 它以這種方式工作:機(jī)器暴露在一個(gè)環(huán)境中,它連續(xù)不斷地使用試錯(cuò)。 該機(jī)器從過去的經(jīng)驗(yàn)中學(xué)習(xí),并嘗試捕獲最好的知識(shí),以做出準(zhǔn)確的業(yè)務(wù)決策。 加強(qiáng)學(xué)習(xí)示例:馬爾可夫決策過程
以下是常用機(jī)器學(xué)習(xí)算法的列表。 這些算法幾乎可以應(yīng)用于任何數(shù)據(jù)問題:
線性回歸
邏輯回歸
決策樹
SVM
樸素貝葉斯
KNN
K-Means
隨機(jī)森林
降維算法
Gradient Boost&Adaboost
它用于基于連續(xù)變量來估計(jì)實(shí)際價(jià)值(房屋成本,電話數(shù)量,總銷售額等)。在這里,我們通過擬合最佳線來建立獨(dú)立變量和因變量之間的關(guān)系。這個(gè)最佳擬合線被稱為回歸線,由線性方程Y = a * X + b表示。
理解線性回歸的最好方法是回想童年的經(jīng)歷。比如,你要求五年級(jí)的孩子通過體重來從小到大排序班里的學(xué)生,而事先不告訴學(xué)生們的體重!你認(rèn)為孩子會(huì)做什么?他/她很可能在身高和體格上分析人物的體重,并使用這些可視參數(shù)的組合進(jìn)行排列。這是現(xiàn)實(shí)生活中的線性回歸!孩子實(shí)際上已經(jīng)弄清楚,身高和體格將有一個(gè)關(guān)系與體重相關(guān)聯(lián),看起來就像上面的等式。
在這個(gè)方程式中:
Y-因變量
a - 斜率
X - 自變量
b - 截距
這些系數(shù)a和b是基于最小化數(shù)據(jù)點(diǎn)和回歸線之間的距離的平方差之和導(dǎo)出的。
看下面的例子。這里我們確定了線性方程y = 0.2811x + 13.9的最佳擬合線。現(xiàn)在使用這個(gè)方程,我們可以找到一個(gè)人(身高已知)的體重。
線性回歸主要有兩種類型:簡單線性回歸和多元線性回歸。 簡單線性回歸的特征在于一個(gè)自變量。 而且,多元線性回歸(顧名思義)的特征是多個(gè)(多于1個(gè))自變量。 在找到最佳擬合線的同時(shí),可以擬合多項(xiàng)式或曲線回歸線,這些被稱為多項(xiàng)式或曲線回歸。