今天,小編將在這篇文章中為大家?guī)?a href="/tags/機器學習" target="_blank">機器學習算法的有關報道,通過閱讀這篇文章,大家可以對機器學習算法具備清晰的認識,主要內(nèi)容如下。
1、主成分分析(PCA)/SVD
PCA 是一種無監(jiān)督方法,用于了解由向量組成的數(shù)據(jù)集的全局屬性。此處分析數(shù)據(jù)點的協(xié)方差矩陣,以了解哪些維度(大多數(shù))/數(shù)據(jù)點(有時)更重要(即它們之間的方差較高,但與其他維度的協(xié)方差較低)??紤]矩陣的頂級 PC 的一種方法是考慮具有最高特征值的特征向量。SVD 本質(zhì)上也是一種計算有序分量的方法,但不需要獲取點的協(xié)方差矩陣即可獲得它。
主成分分析PCA是一種簡化數(shù)據(jù)集的技術。它是一個線性變換。這個變換把數(shù)據(jù)變換到一個新的坐標系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。主成分分析經(jīng)常用于減少數(shù)據(jù)集的維數(shù),同時保持數(shù)據(jù)集的對方差貢獻最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。但是,這也不是一定的,要視具體應用而定。
2、最小二乘法和多項式擬合
大學時學習的數(shù)值分析,曾經(jīng)將直線和曲線擬合到點來得到方程??梢允褂盟鼈儊頂M合機器學習中低維度的小型數(shù)據(jù)集的曲線。(對于大數(shù)據(jù)或具有多個維度的數(shù)據(jù)集,可能最終會嚴重過度擬合,所以不必擔心)。OLS具有封閉式解決方案,因此無需使用復雜的優(yōu)化技術。
3、K表示聚類
他是無監(jiān)督聚類算法。給定一組向量形式的數(shù)據(jù)點,我們可以根據(jù)它們之間的距離來形成點簇。這是一種期望最大化算法,它迭代地移動聚類中心,然后將點與每個聚類中心結合在一起。算法采用的輸入是要生成的簇的數(shù)量以及它將嘗試收斂簇的迭代次數(shù)。
一種動態(tài)聚類方法。在原始圖像集合(N個圖像)中隨機選擇k個原始圖像作為k個類,逐個分析剩余圖像,計算該圖像與k個類之間的距離,將該圖像歸入與之最鄰近的類,重新計算該類的類平均圖,依次類推直至分析完剩余N-k個圖像;之后,再逐個對集合中的N個圖像依次重復上面的計算和歸類,不斷重復此步驟,直到k個類平均圖收斂,由此得到對原始圖像集合的k個分類。其中的參數(shù)k如果選擇不合適就會影響分析效果,因此在改進的快速聚類法中,通過引入最小距離c和最大距離R可以動態(tài)修正參數(shù)k,對距離小于c的兩個類進行歸并,將與所有類的距離都大于R的圖像作為一個新類。
4、邏輯回歸
Logistic回歸是在應用權重后應用非線性(主要使用sigmoid函數(shù),也可以使用tanh)的約束線性回歸,因此將輸出限制為接近+/-類(在sigmoid情況下為1和0)。交叉熵損失函數(shù)使用梯度下降進行優(yōu)化。初學者注意:邏輯回歸用于分類,而不是回歸。還可以將邏輯回歸視為單層神經(jīng)網(wǎng)絡。邏輯回歸使用梯度下降或L-BFGS等優(yōu)化方法進行訓練。NLP人們經(jīng)常將其與最大熵分類器的名稱一起使用。
Logistic回歸實質(zhì):發(fā)生概率除以沒有發(fā)生概率再取對數(shù)。就是這個不太繁瑣的變換改變了取值區(qū)間的矛盾和因變量自變量間的曲線關系。究其原因,是發(fā)生和未發(fā)生的概率成為了比值 ,這個比值就是一個緩沖,將取值范圍擴大,再進行對數(shù)變換,整個因變量改變。不僅如此,這種變換往往使得因變量和自變量之間呈線性關系,這是根據(jù)大量實踐而總結。所以,Logistic回歸從根本上解決因變量要不是連續(xù)變量怎么辦的問題。還有,Logistic應用廣泛的原因是許多現(xiàn)實問題跟它的模型吻合。例如一件事情是否發(fā)生跟其他數(shù)值型自變量的關系。
5、SVM(支持向量機)
SVM是一種常用的監(jiān)督學習算法,是像線性/邏輯回歸一樣的線性模型,不同之處在于它的核心思想是將數(shù)據(jù)映射到高維特征空間,并在該空間中尋找一個最優(yōu)的超平面來進行分類。超平面是一個 n-1 維的線性子空間,其中 n 是特征的維數(shù)。SVM 在特征空間中選擇具有最大間隔(Margin)的超平面作為最優(yōu)分類邊界,以提高分類的魯棒性。
SVM使用鉸鏈損失函數(shù)(hinge loss)計算經(jīng)驗風險(empirical risk)并在求解系統(tǒng)中加入了正則化項以優(yōu)化結構風險(structural risk),是一個具有稀疏性和穩(wěn)健性的分類器。SVM可以通過核方法(kernel method)進行非線性分類,是常見的核學習(kernel learning)方法之一。
6、前饋神經(jīng)網(wǎng)絡
前饋神經(jīng)網(wǎng)絡(feedforward neural network,F(xiàn)NN),簡稱前饋網(wǎng)絡,是人工神經(jīng)網(wǎng)絡的一種。前饋神經(jīng)網(wǎng)絡采用一種單向多層結構。其中每一層包含若干個神經(jīng)元。在此種神經(jīng)網(wǎng)絡中,各神經(jīng)元可以接收前一層神經(jīng)元的信號,并產(chǎn)生輸出到下一層。第0層叫輸入層,最后一層叫輸出層,其他中間層叫做隱含層(或隱藏層、隱層)。隱層可以是一層。也可以是多層。
這些基本上是多層邏輯回歸分類器。由非線性(sigmoid、tanh、relu + softmax 和很酷的新 selu)分隔的許多權重層。它們的另一個流行名稱是多層感知器。FFNN 可作為自動編碼器用于分類和無監(jiān)督特征學習。
7、卷積神經(jīng)網(wǎng)絡(Convnets)
卷積神經(jīng)網(wǎng)絡仿造生物的視知覺(visual perception)機制構建,可以進行監(jiān)督學習和非監(jiān)督學習,其隱含層內(nèi)的卷積核參數(shù)共享和層間連接的稀疏性使得卷積神經(jīng)網(wǎng)絡能夠以較小的計算量對格點化(grid-like topology)特征,例如像素和音頻進行學習、有穩(wěn)定的效果且對數(shù)據(jù)沒有額外的特征工程(feature engineering)要求。
當今世界上幾乎所有最先進的基于視覺的機器學習結果都是使用卷積神經(jīng)網(wǎng)絡實現(xiàn)的。它們可用于圖像分類、對象檢測甚至圖像分割。卷積網(wǎng)絡由 Yann Lecun 在 80 年代末至 90 年代初發(fā)明,其特征是卷積層充當分層特征提取器。也可以在文本(甚至圖表)中使用它們。
8、循環(huán)神經(jīng)網(wǎng)絡(RNN):
RNN通過在時間t的聚合器狀態(tài)和時間t的輸入上遞歸應用同一組權重來對序列進行建模(假設序列在時間0..t..T具有輸入,并且在每個時間t有一個隱藏狀態(tài))這是RNNt-1步驟的輸出)。純RNN現(xiàn)在很少使用,但其對應的LSTM和GRU在大多數(shù)序列建模任務中都是最先進的。
9、條件隨機場(CRF)
CRF 可能是概率圖模型 (PGM) 系列中最常用的模型。它們用于像 RNN 一樣的序列建模,也可以與 RNN 結合使用。在神經(jīng)機器翻譯系統(tǒng)出現(xiàn)之前,條件隨機場是最先進的,在許多小數(shù)據(jù)集的序列標記任務中,它們?nèi)匀槐刃枰罅繑?shù)據(jù)才能泛化的 RNN 學得更好。它們還可以用于其他結構化預測任務,例如圖像分割等。CRF 對序列的每個元素(例如句子)進行建模,以便鄰居影響序列中組件的標簽,而不是所有標簽彼此獨立。
10、決策樹
它是一種基于樹結構的分類和回歸算法。它通過對特征進行分割來構建一個樹形模型,每個內(nèi)部節(jié)點表示一個特征,每個葉節(jié)點表示一個類別或一個數(shù)值。決策樹通過對特征進行逐層的判斷和分割,以最終得到一個預測結果。
最后,小編誠心感謝大家的閱讀。你們的每一次閱讀,對小編來說都是莫大的鼓勵和鼓舞。希望大家對機器學習算法已經(jīng)具備了初步的認識,最后的最后,祝大家有個精彩的一天。