人工智能之機(jī)器學(xué)習(xí)Analogizer算法-支持向量機(jī)(SVM)
人工智能之機(jī)器學(xué)習(xí)有5大流派: 1) 符號主義,2) 貝葉斯派,3) 聯(lián)結(jié)主義,4) 進(jìn)化主義,5) Analogizer。今天我們重點(diǎn)探討一下Analogizer中最擅長算法-支持向量機(jī)(SVM)
SVM概述:
支持向量機(jī)(SVM)是由Vapnik領(lǐng)導(dǎo)的AT&T Bell實(shí)驗(yàn)室研究小組在1995年提出的一種新的非常有潛力的分類技術(shù)。剛開始主要針對二值分類問題而提出,成功地應(yīng)用子解函數(shù)回歸及一類分類問題,并推廣到大量應(yīng)用中實(shí)際存在的多值分類問題中。支持向量機(jī)(SVM)是一種與相關(guān)學(xué)習(xí)算法有關(guān)的監(jiān)督學(xué)習(xí)模型。
支持向量機(jī)(SVM)自誕生起便由于它良好的分類性能席卷了機(jī)器學(xué)習(xí)領(lǐng)域,并牢牢壓制了神經(jīng)網(wǎng)絡(luò)領(lǐng)域好多年。如果不考慮集成學(xué)習(xí)的算法,不考慮特定的訓(xùn)練數(shù)據(jù)集,在分類算法中的表現(xiàn)SVM可以說是排第一的。
支持向量機(jī)(SVM)在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。
SVM原理介紹:
支持向量機(jī)(SVM)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,以求獲得最好的推廣能力。支持向量機(jī)(SVM)與神經(jīng)網(wǎng)絡(luò)類似,都是學(xué)習(xí)型的機(jī)制,但與神經(jīng)網(wǎng)絡(luò)不同的是SVM使用的是數(shù)學(xué)方法和優(yōu)化技術(shù)。SVM背后的數(shù)學(xué)理論基礎(chǔ)(概率論與數(shù)理統(tǒng)計(jì)、泛函分析和運(yùn)籌學(xué)等)是近代人類的偉大數(shù)學(xué)成就。由于數(shù)學(xué)上比較艱澀,剛開始SVM研究一直沒有得到充分的重視。直到統(tǒng)計(jì)學(xué)習(xí)理論SLT的實(shí)現(xiàn)和由于神經(jīng)網(wǎng)絡(luò)等較新興的機(jī)器學(xué)習(xí)方法的研究遇到一些重要的困難,才使得SVM迅速發(fā)展和完善。
支持向量機(jī)(SVM)可以分析數(shù)據(jù),識別模式,用于分類和回歸分析。給定一組訓(xùn)練樣本,每個標(biāo)記為屬于兩類,一個SVM訓(xùn)練算法建立了一個模型,分配新的實(shí)例為一類或其他類,使其成為非概率二元線性分類。一個SVM模型的例子,如在空間中的點(diǎn),映射,使得所述不同的類別的例子是由一個明顯的差距是盡可能寬劃分的表示。新的實(shí)施例則映射到相同的空間中,并預(yù)測基于它們落在所述間隙側(cè)上屬于一個類別。
除了進(jìn)行線性分類,支持向量機(jī)可以使用核技巧,它們的輸入隱含映射成高維特征空間中有效地進(jìn)行非線性分類。一個支持向量機(jī)的構(gòu)造一個超平面,或在高或無限維空間,其可以用于分類,回歸,或其它任務(wù)中設(shè)定的超平面的。一個良好的分離通過具有到任何類的最接近的訓(xùn)練數(shù)據(jù)點(diǎn)的最大距離的超平面的一般實(shí)現(xiàn)中,由于較大的裕度下分類器的泛化誤差。而原來的問題可能在一個有限維空間中所述,經(jīng)常發(fā)生以鑒別集是不是在該空間線性可分。出于這個原因,有人建議,在原始有限維空間映射到一個高得多的立體空間,推測使分離在空間比較容易。保持計(jì)算負(fù)荷合理,使用支持向量機(jī)計(jì)劃的映射被設(shè)計(jì)成確保在點(diǎn)積可在原空間中的變量而言容易地計(jì)算,通過定義它們中選擇的核函數(shù)k(x,y)的計(jì)算以適應(yīng)的問題。
在高維空間中的超平面被定義為一組點(diǎn)的點(diǎn)積與該空間中的向量是恒定的。限定的超平面的載體可被選擇為線性組合與參數(shù)alpha_i中發(fā)生的數(shù)據(jù)的基礎(chǔ)上的特征向量的圖像。這種選擇一個超平面,該點(diǎn)中的x的特征空間映射到超平面是由關(guān)系定義:字型sum_ialpha_ik(x_i中,x)=mathrm{常數(shù)}。注意,如果k(x,y)變小為y的增長進(jìn)一步遠(yuǎn)離的x,在求和的每一項(xiàng)測量測試點(diǎn)x的接近程度的相應(yīng)數(shù)據(jù)基點(diǎn)x_i的程度。以這種方式,內(nèi)核上面的總和可以被用于測量各個測試點(diǎn)的對數(shù)據(jù)點(diǎn)始發(fā)于一個或另一個集合中的要被鑒別的相對接近程度。
SVM分類器分類:
1)線性分類器:一個線性函數(shù),可以用于線性分類。一個優(yōu)勢是不需要樣本數(shù)據(jù)。線性分類器公式如下:
--(1)
2)非線性分類器:支持線性分類和非線性分類。需要部分樣本數(shù)據(jù)(支持向量),也就是αi≠0的數(shù)據(jù)。非線性分類器公式如下: