什么是支持向量機(jī) 什么是支持向量
支持向量機(jī),英文為Support Vector Machine,簡(jiǎn)稱SV機(jī)(論文中一般簡(jiǎn)稱SVM)。它是一 種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中。
支持向量機(jī)(Support Vector Machine)是一種十分常見的分類器,曾經(jīng)火爆十余年,分類能力強(qiáng)于NN,整體實(shí)力比肩LR與RF。核心思路是通過(guò)構(gòu)造分割面將數(shù)據(jù)進(jìn)行分離。
支持向量機(jī)屬于一般化線性分類器,他們也可以認(rèn)為是提克洛夫規(guī)范化(Tikhonov RegularizaTIon)方法的一個(gè)特例。這族分類器的特點(diǎn)是:他們能夠同時(shí)最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū),因此支持向量機(jī)也被稱為最大邊緣區(qū)分類器。在統(tǒng)計(jì)計(jì)算中,最大期望(EM) 算法是在概率(probabilisTIc)模型中尋找參數(shù)最大似然估計(jì)的算法,其中概率模型依賴于無(wú) 法觀測(cè)的隱藏變量(Latent Variabl)。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的數(shù)據(jù)集聚 (Data Clustering)領(lǐng)域。
在支持向量機(jī)中,距離超平面最近的且滿足一定條件的幾個(gè)訓(xùn)練樣本點(diǎn)被稱為支持向量。
圖中有紅色和藍(lán)色兩類樣本點(diǎn)。黑色的實(shí)線就是最大間隔超平面。在這個(gè)例子中,A,B,C 三個(gè)點(diǎn)到該超平面的距離相等。
注意,這些點(diǎn)非常特別,這是因?yàn)槌矫娴膮?shù)完全由這三個(gè)點(diǎn)確定。該超平面和任何其他的點(diǎn)無(wú)關(guān)。如果改變其他點(diǎn)的位置,只要其他點(diǎn)不落入虛線上或者虛線內(nèi),那么超平面的參數(shù)都不會(huì)改變。A,B,C 這三個(gè)點(diǎn)被稱為支持向量(support vectors)。
一、應(yīng)用
SVM在各領(lǐng)域的模式識(shí)別問(wèn)題中有廣泛應(yīng)用,包括人像識(shí)別(face recogniTIon) 、文本分類(text categorizaTIon) 、筆跡識(shí)別(handwriting recognition) 、生物信息學(xué) 等。
二、SVM 的優(yōu)點(diǎn)
1、高維度:SVM 可以高效的處理高維度特征空間的分類問(wèn)題。這在實(shí)際應(yīng)用中意義深遠(yuǎn)。比如,在文章分類問(wèn)題中,單詞或是詞組組成了特征空間,特征空間的維度高達(dá) 10 的 6 次方以上。
2、節(jié)省內(nèi)存:盡管訓(xùn)練樣本點(diǎn)可能有很多,但 SVM 做決策時(shí),僅僅依賴有限個(gè)樣本(即支持向量),因此計(jì)算機(jī)內(nèi)存僅僅需要儲(chǔ)存這些支持向量。這大大降低了內(nèi)存占用率。
3、應(yīng)用廣泛:實(shí)際應(yīng)用中的分類問(wèn)題往往需要非線性的決策邊界。通過(guò)靈活運(yùn)用核函數(shù),SVM 可以容易的生成不同的非線性決策邊界,這保證它在不同問(wèn)題上都可以有出色的表現(xiàn)(當(dāng)然,對(duì)于不同的問(wèn)題,如何選擇最適合的核函數(shù)是一個(gè)需要使用者解決的問(wèn)題)。