魚的概率思考

時間：2019-07-08 11:35:01

關(guān)鍵字：模式識別模式分類

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]研究隨機(jī)現(xiàn)象，什么是隨機(jī)現(xiàn)象呢？在某種特定情況下，或者某個環(huán)境中，不總是出現(xiàn)同一個結(jié)果的現(xiàn)象就是隨機(jī)現(xiàn)象。研究某個隨機(jī)現(xiàn)象的時候，隨機(jī)現(xiàn)象所有可能結(jié)果組成的集合稱為樣本空間。隨機(jī)現(xiàn)象的每種基本結(jié)果

研究隨機(jī)現(xiàn)象，什么是隨機(jī)現(xiàn)象呢？在某種特定情況下，或者某個環(huán)境中，不總是出現(xiàn)同一個結(jié)果的現(xiàn)象就是隨機(jī)現(xiàn)象。研究某個隨機(jī)現(xiàn)象的時候，隨機(jī)現(xiàn)象所有可能結(jié)果組成的集合稱為樣本空間。隨機(jī)現(xiàn)象的每種基本結(jié)果被定義為樣本點。我們可以理解這種隸屬關(guān)系，隨機(jī)現(xiàn)象擁有樣本空間和樣本點這兩個屬性。某些樣本點組成的集合稱為事件。事件本質(zhì)是集合，我們可以研究事件間的關(guān)系、事件間的運算。在事件上定義一個叫做概率的函數(shù)，這就給我們研究某些隨機(jī)現(xiàn)象結(jié)果的可能性提供了數(shù)學(xué)基礎(chǔ)。給出概率的定義，通過事件的相互關(guān)系、運算性質(zhì)，我們可以得到一些事件間的概率性質(zhì)，或者事件本身的概率性質(zhì)。?

研究隨機(jī)現(xiàn)象，首先應(yīng)該明確我們研究的是什么現(xiàn)象！樣本空間是什么！我們對哪些事件感興趣！如何確定這些事件的概率！

在研究過程中，大家會不自然的用到一些符號來表示隨機(jī)現(xiàn)象的結(jié)果，這就是我們內(nèi)心對隨機(jī)變量的訴求。隨機(jī)變量已經(jīng)深入我們的內(nèi)心，很難去分離理解他了。如果能區(qū)分他，明確的理解他，我們有理由相信這會幫助我們解決實際問題。所以我們設(shè)法理解或者說重新理解隨機(jī)變量。我們把隨機(jī)現(xiàn)象結(jié)果用數(shù)量表示，這種數(shù)量表示就是隨機(jī)變量。更理論一點理解就是，隨機(jī)變量是定義在樣本空間上的一個函數(shù)！我沒有見過函數(shù)值是復(fù)數(shù)的，很多書中也是這樣定義的，就是這個函數(shù)是實值函數(shù)！

隨機(jī)變量一般用大寫字母來表示，X，Y，Z等，每一個樣本點對應(yīng)唯一一個隨機(jī)變量值，那么就可以用隨機(jī)變量的條件限制出樣本點的集合，那么這就是事件了。例如，我們研究投擲硬幣這個隨機(jī)現(xiàn)象，出現(xiàn)的結(jié)果有兩種，一種是正面，一種是反面，這兩種結(jié)果組成樣本空間，每一個結(jié)果是一個樣本點，定義一個隨機(jī)變量X，當(dāng)隨機(jī)現(xiàn)象的結(jié)果為正面時，X=1，當(dāng)結(jié)果為反面時，X=0，這些定義都滿足隨機(jī)變量的定義，那么X=0就是一個基本事件了，概率是定義在事件上的，那么P(X=0)便是一個概率，它表示了“投擲硬幣這種隨機(jī)現(xiàn)象出現(xiàn)反面這種結(jié)果組成的事件的概率”。這里我們考慮的是離散的情況，所謂離散，指的是隨機(jī)變量的值是有限的或者可列的，注意可列是無限的特殊形式。還有一種情況，例如生小孩現(xiàn)象，這種現(xiàn)象的結(jié)果又很多種情況，比如新生兒的性別，新生兒的體重，新生兒的身高，新生兒的眼睛間距都可以用來表示這個現(xiàn)象的結(jié)果，比如，某某生了一個小孩，往往我們會說某某生了一個女孩，或者某某生了一個8斤的小家伙，我們已經(jīng)潛移默化的說出了我們關(guān)心的是某個指標(biāo)。生小孩這種隨機(jī)現(xiàn)象的結(jié)果有無窮多個，盡管我們無法確定，但是在我們有生之年，也許人類會永遠(yuǎn)活在地球上，所以新生兒一直會出現(xiàn)，這種現(xiàn)象的樣本點就是每個新生兒，樣本空間就是所有新生兒的全體，新生兒有無限多個。我們在這個樣本空間上定義隨機(jī)變量，新生兒性別為男孩時X=0，新生兒性別為女孩時，X=1，這里不考慮其它情況，盡管還有其它可能；在同一個樣本空間上，在繼續(xù)定義另一個隨機(jī)變量Y，它表示新生兒的體重；隨機(jī)變量Z表示新生兒的身高。如果我們認(rèn)為概率反應(yīng)的是事物內(nèi)部本質(zhì)的話，X=0或者=1應(yīng)該可以用某個穩(wěn)定值來表示他的可能性，我們就說這個是他們的概率了。如何確定這個概率呢？用古典方法，我們認(rèn)為男女有相同的可能；又可以用統(tǒng)計的方法，在某一段時間內(nèi)，統(tǒng)計某個地區(qū)的新生兒性別，可以用相應(yīng)性別出生的頻率來估計為某個性別的概率。對于Y和Z，這顯然是連續(xù)的隨機(jī)變量，我們很難用古典概率方法研究每個值出現(xiàn)的可能性，依然可以使用頻率來表示，在保留誤差的條件下，比如，我們搞一些區(qū)間，(0,1] (1,2] ....等等，如果觀測值（得到的某個樣本點的相應(yīng)隨機(jī)變量值）比較少，我們可以把區(qū)間劃的大一點，如果比較多，相應(yīng)劃多一點，這種劃分沒有嚴(yán)格的規(guī)則，至少我現(xiàn)在沒有想到，只是根據(jù)實際情況設(shè)置就可以了。統(tǒng)計能獲得的樣本點的相應(yīng)觀測值落在對應(yīng)區(qū)間的個數(shù)，這樣就會得到一個區(qū)域的頻率分布了，如果觀測值增多，我們就減小區(qū)間的寬度，當(dāng)觀測值得個數(shù)趨近無窮了，我們區(qū)間的長度相應(yīng)也趨近于無窮了，這樣我們就但是每個觀測值還保留著某個值，這個值不再是概率了，我們可以用密度來理解他。很多情況下，我們研究的隨機(jī)現(xiàn)象的樣本空間上定義的隨機(jī)變量連續(xù)的時候，我們會有一些相應(yīng)的分布來研究它，比如正態(tài)分布！什么是分布呢？離散隨機(jī)變量場合，隨機(jī)變量的取值概率都知道，這就是分布了。連續(xù)場合，隨機(jī)變量的概率密度知道，他的分布就曉得了。?

問題想多了，我們會發(fā)現(xiàn)，實際上，很容易知道隨機(jī)變量后面的問題，不好去拿出我們研究的到底是什么現(xiàn)象，這個現(xiàn)象是隨機(jī)現(xiàn)象，他的樣本點是什么?。?/p>

知道了這些之后，我們還會研究相同樣本空間上不同隨機(jī)變量的關(guān)系問題！將問題再提升一個等級了。就是我們前面描述過的問題，新生兒的性別，體重，身高等隨機(jī)變量是同一個樣本空間上的不同隨機(jī)變量啊。?

回到魚的問題上來先，我們逮了好多魚，很湊巧，這些魚只有兩種，假設(shè)為鱸魚和鮭魚，我們考慮任意在這些魚里面拿出一條，它是什么魚。顯然樣本空間有限，某種魚也是有限的，如果我拿到每一條魚的條件相等，拿出一條魚，他是鱸魚的概率就是鱸魚的數(shù)量除以所有魚的數(shù)量。用隨機(jī)變量X=0，表示鱸魚，X=1表示鮭魚。我們再引入一個隨機(jī)變量Y表示魚的長度。研究有限的魚，Y這個隨機(jī)變量我們只能用落在某個區(qū)間的魚的頻率來表示Y的分布列。如果我們把研究對象擴(kuò)大，自然界中我們認(rèn)為兩種魚的數(shù)量是穩(wěn)定的，如果我們捕到的魚作為自然界中魚的一個隨機(jī)樣本，我們完全可以認(rèn)為Y是連續(xù)分布的，而且與自然界中這兩種魚的長度分布一致，事實上我們補到的魚很難作為自然界的一個隨機(jī)樣本。也就是說這個樣本不一定能很好的反應(yīng)自然界的真是情況。但是很多情況下，我們認(rèn)為自然界中的某些隨機(jī)變量符合正太分布，盡管某個樣本不一定服從這個分布，我們還是估計他的期望和方差，并把它作為正太分布研究。

?我們不考慮擴(kuò)大的情況繼續(xù)思考這個問題，在我們捕到魚中繼續(xù)考慮呀，假設(shè)我們捕到的魚足夠多，我們暫且用連續(xù)的密度函數(shù)來描述Y的分布情況。p(X,y)表示的是什么意思呢？先假設(shè)有限樣本點，那么每個樣本點對應(yīng)X和Y都有一個值，這兩個值為在二維歐式空間中是一個點，我們在Y上用區(qū)間劃分，這樣出現(xiàn)在X=x，Y屬于某個區(qū)間的魚的個數(shù)除以所補到魚的總數(shù)就是這個區(qū)間的頻率，如果魚足夠多，那么我們就認(rèn)為p(X,y)是關(guān)于y的連續(xù)函數(shù)了。p(X,y)就是X,Y的聯(lián)合密度函數(shù)了。再加個條件的問題來思考下，p(y|X)，這個是X某個值時，Y的概率密度，條件概率也是概率呀，不要跟聯(lián)合概率密度弄混了。例如，p(y|X=0)表示所捕的魚中所有鱸魚構(gòu)成的集合中，Y的分布情況。實際上條件概率是縮小了研究的范圍。

我們想找一個比較好的t值，使得我們誤判的概率最小化，所以要考慮誤判的情況。假設(shè)我們將Y=t判成X=1 。分析這樣導(dǎo)致的結(jié)果是

p(X=1, Y=t) 就構(gòu)成了這種判別的錯誤概率密度，錯誤概率就是:

我們想要這個錯誤概率最小化，那么我們會得到一個優(yōu)化問題，順便求出目標(biāo)函數(shù)的導(dǎo)數(shù)。

令導(dǎo)數(shù)等于0，便可以求出最佳的t的位置了。?

接下來，再繼續(xù)考慮幾個問題，首先即使給出一個最優(yōu)的t，目標(biāo)函數(shù)的值仍然很大，比如0.5，這個值可以理解為，我們的分類錯誤率是50%，確實有些大了。我們可以怎么改進(jìn)呢？我們可以引入更多的特征，從概率上就是說我們再繼續(xù)尋找同一些樣本空間上的函數(shù)，使得總體上誤差函數(shù)的最優(yōu)值盡量的小。?

另外一個問題就是，我們?nèi)绾未_定針對某一中魚的某個特征的分布情況，一般情況下，我們會用統(tǒng)計的方法進(jìn)行估計，這個需要分布已知，往往我們會假設(shè)他為某個分布，然后再根據(jù)有限樣本容量的樣本進(jìn)行參數(shù)估計，這樣會帶來兩部分誤差，1、他是否真的滿足我們給定的分布，這一步的錯誤直接導(dǎo)致所有錯誤。2、我們的樣本是否可以很好的描述總體分布情況，這部分表示的參數(shù)估計的誤差。這兩個問題帶來的是，如何明確某個隨機(jī)變量的分布，以及如何找到一個可以估計總體分布的樣本。

這篇文章我沒有嚴(yán)格的分章節(jié)敘述，只是在順序，基于我自己的思考邏輯慢慢展開的，不管怎樣，我相信，并不會有很多人會認(rèn)真讀完這篇文章，所以我也就不用不好意思了。哈哈。