支持向量機,英文為Support Vector Machine,簡稱SV機(論文中一般簡稱SVM)。它是一 種監(jiān)督式學習的方法,它廣泛的應用于統(tǒng)計分類以及回歸分析中。
支持向量機(Support Vector Machine)是一種十分常見的分類器,曾經火爆十余年,分類能力強于NN,整體實力比肩LR與RF。核心思路是通過構造分割面將數據進行分離。
支持向量機屬于一般化線性分類器,他們也可以認為是提克洛夫規(guī)范化(Tikhonov RegularizaTIon)方法的一個特例。這族分類器的特點是:他們能夠同時最小化經驗誤差與最大化幾何邊緣區(qū),因此支持向量機也被稱為最大邊緣區(qū)分類器。在統(tǒng)計計算中,最大期望(EM) 算法是在概率(probabilisTIc)模型中尋找參數最大似然估計的算法,其中概率模型依賴于無 法觀測的隱藏變量(Latent Variabl)。最大期望經常用在機器學習和計算機視覺的數據集聚 (Data Clustering)領域。
在支持向量機中,距離超平面最近的且滿足一定條件的幾個訓練樣本點被稱為支持向量。
圖中有紅色和藍色兩類樣本點。黑色的實線就是最大間隔超平面。在這個例子中,A,B,C 三個點到該超平面的距離相等。
注意,這些點非常特別,這是因為超平面的參數完全由這三個點確定。該超平面和任何其他的點無關。如果改變其他點的位置,只要其他點不落入虛線上或者虛線內,那么超平面的參數都不會改變。A,B,C 這三個點被稱為支持向量(support vectors)。
一、應用
SVM在各領域的模式識別問題中有廣泛應用,包括人像識別(face recogniTIon) 、文本分類(text categorizaTIon) 、筆跡識別(handwriting recognition) 、生物信息學 等。
二、SVM 的優(yōu)點
1、高維度:SVM 可以高效的處理高維度特征空間的分類問題。這在實際應用中意義深遠。比如,在文章分類問題中,單詞或是詞組組成了特征空間,特征空間的維度高達 10 的 6 次方以上。
2、節(jié)省內存:盡管訓練樣本點可能有很多,但 SVM 做決策時,僅僅依賴有限個樣本(即支持向量),因此計算機內存僅僅需要儲存這些支持向量。這大大降低了內存占用率。
3、應用廣泛:實際應用中的分類問題往往需要非線性的決策邊界。通過靈活運用核函數,SVM 可以容易的生成不同的非線性決策邊界,這保證它在不同問題上都可以有出色的表現(當然,對于不同的問題,如何選擇最適合的核函數是一個需要使用者解決的問題)。