機(jī)器學(xué)習(xí)中樣本比例不平衡應(yīng)該怎樣去應(yīng)付

時(shí)間：2020-04-28 22:54:01

關(guān)鍵字：機(jī)器學(xué)習(xí) SAMPLING 模型 OV

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 在機(jī)器學(xué)習(xí)中，常常會(huì)遇到樣本比例不平衡的問(wèn)題，如對(duì)于一個(gè)二分類問(wèn)題，正負(fù)樣本的比例是 10:1。這種現(xiàn)象往往是由于本身數(shù)據(jù)來(lái)源決定的，如信用卡的征信問(wèn)題中往往就是正樣本居多。樣本比例不

在機(jī)器學(xué)習(xí)中，常常會(huì)遇到樣本比例不平衡的問(wèn)題，如對(duì)于一個(gè)二分類問(wèn)題，正負(fù)樣本的比例是 10:1。

這種現(xiàn)象往往是由于本身數(shù)據(jù)來(lái)源決定的，如信用卡的征信問(wèn)題中往往就是正樣本居多。樣本比例不平衡往往會(huì)帶來(lái)不少問(wèn)題，但是實(shí)際獲取的數(shù)據(jù)又往往是不平衡的，因此本文主要討論面對(duì)樣本不平衡時(shí)的解決方法。

樣本不平衡往往會(huì)導(dǎo)致模型對(duì)樣本數(shù)較多的分類造成過(guò)擬合，即總是將樣本分到了樣本數(shù)較多的分類中；除此之外，一個(gè)典型的問(wèn)題就是 Accuracy Paradox，這個(gè)問(wèn)題指的是模型的對(duì)樣本預(yù)測(cè)的準(zhǔn)確率很高，但是模型的泛化能力差。

其原因是模型將大多數(shù)的樣本都?xì)w類為樣本數(shù)較多的那一類，如下所示

準(zhǔn)確率為

而假如將所有的樣本都?xì)w為預(yù)測(cè)為負(fù)樣本，準(zhǔn)確率會(huì)進(jìn)一步上升，但是這樣的模型顯然是不好的，實(shí)際上，模型已經(jīng)對(duì)這個(gè)不平衡的樣本過(guò)擬合了。

針對(duì)樣本的不平衡問(wèn)題，有以下幾種常見(jiàn)的解決思路

搜集更多的數(shù)據(jù)

改變?cè)u(píng)判指標(biāo)

對(duì)數(shù)據(jù)進(jìn)行采樣

合成樣本

改變樣本權(quán)重

搜集更多的數(shù)據(jù)

搜集更多的數(shù)據(jù)，從而讓正負(fù)樣本的比例平衡，這種方法往往是最被忽視的方法，然而實(shí)際上，當(dāng)搜集數(shù)據(jù)的代價(jià)不大時(shí)，這種方法是最有效的。

但是需要注意，當(dāng)搜集數(shù)據(jù)的場(chǎng)景本來(lái)產(chǎn)生數(shù)據(jù)的比例就是不平衡時(shí)，這種方法并不能解決數(shù)據(jù)比例不平衡問(wèn)題。

改變?cè)u(píng)判指標(biāo)

改變?cè)u(píng)判指標(biāo)，也就是不用準(zhǔn)確率來(lái)評(píng)判和選擇模型，原因就是我們上面提到的 Accuracy Paradox 問(wèn)題。實(shí)際上有一些評(píng)判指標(biāo)就是專門解決樣本不平衡時(shí)的評(píng)判問(wèn)題的，如準(zhǔn)確率，召回率，F(xiàn)1值，ROC（AUC），Kappa 等。

根據(jù)這篇文章，ROC 曲線具有不隨樣本比例而改變的良好性質(zhì)，因此能夠在樣本比例不平衡的情況下較好地反映出分類器的優(yōu)劣。

關(guān)于評(píng)判指標(biāo)更詳細(xì)的內(nèi)容可參考文章： Classification Accuracy is Not Enough： More Performance Measures You Can Use

對(duì)數(shù)據(jù)進(jìn)行采樣

對(duì)數(shù)據(jù)采樣可以有針對(duì)性地改變數(shù)據(jù)中樣本的比例，采樣一般有兩種方式：over-sampling和 under-sampling，前者是增加樣本數(shù)較少的樣本，其方式是直接復(fù)制原來(lái)的樣本，而后者是減少樣本數(shù)較多的樣本，其方式是丟棄這些多余的樣本。

通常來(lái)說(shuō)，當(dāng)總樣本數(shù)目較多的時(shí)候考慮 under-sampling，而樣本數(shù)數(shù)目較少的時(shí)候考慮 over-sampling。

關(guān)于數(shù)據(jù)采樣更詳細(xì)的內(nèi)容可參考 Oversampling and undersampling in data analysis

合成樣本

合成樣本（SyntheTIc Samples）是為了增加樣本數(shù)目較少的那一類的樣本，合成指的是通過(guò)組合已有的樣本的各個(gè) feature 從而產(chǎn)生新的樣本。

一種最簡(jiǎn)單的方法就是從各個(gè) feature 中隨機(jī)選出一個(gè)已有值，然后拼接成一個(gè)新的樣本，這種方法增加了樣本數(shù)目較少的類別的樣本數(shù)，作用與上面提到的 over-sampling方法一樣，不同點(diǎn)在于上面的方法是單純的復(fù)制樣本，而這里則是拼接得到新的樣本。

這類方法中的具有代表性的方法是 SMOTE（SyntheTIc Minority Over-sampling Technique），這個(gè)方法通過(guò)在相似樣本中進(jìn)行 feature 的隨機(jī)選擇并拼接出新的樣本。

關(guān)于 SMOTE 更詳細(xì)的信息可參考論文 SMOTE： SyntheTIc Minority Over-sampling Technique

改變樣本權(quán)重

改變樣本權(quán)重指的是增大樣本數(shù)較少類別的樣本的權(quán)重，當(dāng)這樣的樣本被誤分時(shí)，其損失值要乘上相應(yīng)的權(quán)重，從而讓分類器更加關(guān)注這一類數(shù)目較少的樣本。