圖1. 機器學習的基本過程
訓練集(Training Set):為了研究一個變量(x)與另一個變量(y)的關系,而通過觀察、測量等方式獲得的一組數(shù)據(jù)。這組數(shù)據(jù)中收集了x和與之對應的y——一個數(shù)據(jù)對(x, y)。例如我們要研究房屋面積(x)和售價(y)之間的關系,每觀察一套已出售的房屋,就得到一個數(shù)據(jù)對(x, y)。觀察10套已出售的房屋,就可以得到10個這樣的數(shù)據(jù)對,這時就得到了一個用來研究房屋面積和售價之間的關系的訓練集了(雖然樣本量比較小)。這些數(shù)據(jù)集一般采集自現(xiàn)實環(huán)境中,屬于現(xiàn)象(我們的目的是透過現(xiàn)象看本質)。
樣本(Sample):訓練集中采集數(shù)據(jù)的對象就是一個樣本,例如一套已出售的房屋。
模型(Model):由于某些歷史原因,機器學習中的模型也被叫做假設(hypothesis, h),這個h就是我們透過現(xiàn)象想要尋找的“本質”。建立模型的過程通常就是確定一個函數(shù)表達式的過程(是否還記得寒假作業(yè)中的這類題目:觀察一組數(shù),寫出下一個數(shù)是什么?)。最常見的模型是回歸模型(線性回歸或邏輯回歸等),例如我們假設房屋面積與售價之間的關系是一個線性回歸模型,則可以寫成: h(θ)=θ0+θ1x…(1)h(θ)=θ0+θ1x…(1) 其中h是函數(shù)(可能更習慣叫做y,但在機器學習中y一般表示已知的函數(shù)值,即后面的因變量;這里的h相當于預測得到的y),θ是函數(shù)的參數(shù)(也可以看做是每個自變量的權重,權重越大,對y的影響也越大),x是自變量。
訓練模型(Training Model):選定模型(選擇合適的模型需要豐富的經(jīng)驗)后,函數(shù)的一般形式就確定了。通常所說的訓練模型是指利用訓練集求解函數(shù)的待定參數(shù)的過程。上面的(1)式與直線方程的一般形式y(tǒng) = ax + b是相同的,這里不過換了一種寫法。此時我們知道模型是一條直線,為了確定這條直線的確定方程,我們需要求出兩個未知的參數(shù)——θ0(截距)和θ1(斜率),如果訓練集中只有兩個樣本,那就只是求一個二元二次方程組就解決問題了。
特征(Feature):特征就是在一個模型中,所有想研究的自變量(x)的集合。例如我們在研究房屋售價的模型中,所有可能影響售價的因素都可以看成是一個特征,房屋面積、所在城市、房間個數(shù)等。在建立模型的過程中,特征的選擇是一個大學問,甚至有專門的分支來研究特征選擇或特征表示。
2. 訓練集的表示上面提到過,訓練集就是許多的(x, y)數(shù)據(jù)對的集合。其中x是因變量,y是自變量。通常認為x的變化引起了y的改變,即x的值決定了y的值。在預測房屋價格的模型中,假如我們能找到所有影響房屋價格的因素(所有的x),并且確定各個因素準確的參數(shù)(θ),那么理論上可以準確的預測出任何房屋的價格(y)。
2.1 單因素訓練集中自變量的表示方法
單因素相當于方程中只有一個自變量,這個自變量可以用一個小寫字母x來表示;
如果收集了多個樣本,則通過在右上角添加帶括號的角標的方式區(qū)分,表示為x(1), x(2), 。。., x(m),其中m表示樣本的個數(shù);
矩陣的表示:向量一般用小寫字母表示,矩陣用大寫字母表示。所有單因素樣本中的x可以用一個m x 1(m行1列)的列向量x(小寫字母)(只有一列的矩陣就是一個列向量)來表示: ???????x=(x(1)x(2)?x(m))
2.2 多因素訓練集中自變量的表示方法
多因素相當于方程中有多個自變量(多個feature),不同的自變量之間使用右下角添加不帶括號的角標來區(qū)分,表示為x1, x2, 。。., xn,其中n表示feature的個數(shù);
當存在多個樣本時,可以用一個m x n(m行n列)的矩陣X(大寫字母)來表示: ?????????X=[x1(1)x2(1)…xn(1)x1(2)x2(2)…xn(2)????x1(m)x2(m)…xn(m)]
2.3 訓練集中因變量的表示方法
無論是單因素還是多因素,每一個樣本中都只包含一個因變量(y),因此只需要區(qū)分不同樣本間的y,y(1), y(2), 。。., y(m),其中m表示樣本的個數(shù);
用列向量y表示為:
???????y=(y(1)y(2)?y(m))
3. 參數(shù)的表示也許是某種約定,在機器學習中,一般都是用θ來表示參數(shù),參數(shù)是自變量X的參數(shù)(也可以看做是每個自變量的權重,權重越大的自變量對y的影響也越大),理論上,有多少個自變量就有多少個參數(shù),但就像在直線方程y = ax + b中表現(xiàn)出來的那樣,除了x的參數(shù)a,還有一個常數(shù)項b。因此參數(shù)一般比自變量的個數(shù)多一個,當有n個自變量的時候,會有n+1個參數(shù)。
最終的模型是由一個特定的方程來表示的,在訓練模型的過程中,確定了這個方程中的未知參數(shù)。這些參數(shù)對于所有的樣本都是相同的,例如第一個樣本x(1)中的第一個自變量x1的參數(shù)與任意其他樣本x(i)中第一個自變量x1的參數(shù)是相同的。因此不用區(qū)分樣本間的參數(shù),只用區(qū)分不同自變量之間的參數(shù),可以使用一個n+1維的列向量θ來表示所有的參數(shù):
??????θ=(θ0θ1?θn)
4. 模型的表示這里說的模型就是一個特定的函數(shù),上面已經(jīng)提過,模型一般使用h來表示。下面用線性回歸模型來舉例說明模型的符號表示。
4.1 直接表示
直接表示方法是我們在沒有學習線性代數(shù)之前的代數(shù)表示方式。
單變量線性回歸方程: hθ(x)=θ0+θ1xhθ(x)=θ0+θ1x
多變量線性回歸方程: nhθ(x)=θ0+θ1x1+θ2x2+θ3x3+…+θnxn
4.2 矩陣表示
學習了線性代數(shù)后,可以使用矩陣來表示上面的方程,不僅表示起來方便,直接進行矩陣運算效率也更高效。在這里需要特別說明的一點是,為了配合矩陣的表示,在上面的方程中添加了x0,并且x0=1,且將θ0作為x0的參數(shù)。
單變量/多變量線性回歸方程: ??????hθ(x)=Xθ=[x0(1)x1(1)…xn(1)x0(2)x1(2)…xn(2)????x0(m)x1(m)…xn(m)][θ0θ1?θn] ,此時X是一個m x (n+1)的矩陣,每一行表示一個樣本,每一列表示一個特征,結果是一個m x 1的列向量,其中m表示樣本的個數(shù),n表示變量的個數(shù)(X中的每一列具有同樣的參數(shù),一列表示在不同的樣本中同一個特征的取值);
當只有一個樣本多個變量時,還可以表示為: ??????hθ(x)=θTx=[θ0θ1…θn][x0x1?xn] ,此時x是一個(n+1)維的列向量,每一行表示一個變量的值。