研究隨機(jī)現(xiàn)象, 什么是隨機(jī)現(xiàn)象呢?在某種特定情況下,或者某個環(huán)境中,不總是出現(xiàn)同一個結(jié)果的現(xiàn)象就是隨機(jī)現(xiàn)象。研究某個隨機(jī)現(xiàn)象的時候,隨機(jī)現(xiàn)象所有可能結(jié)果組成的集合稱為樣本空間。 隨機(jī)現(xiàn)象的每種基本結(jié)果被定義為樣本點。我們可以理解這種隸屬關(guān)系,隨機(jī)現(xiàn)象擁有樣本空間和樣本點這兩個屬性。 某些樣本點組成的集合稱為事件。事件本質(zhì)是集合,我們可以研究事件間的關(guān)系、事件間的運算。在事件上定義一個叫做概率的函數(shù),這就給我們 研究某些隨機(jī)現(xiàn)象結(jié)果的可能性 提供了數(shù)學(xué)基礎(chǔ)。給出概率的定義,通過事件的相互關(guān)系、運算性質(zhì),我們可以得到一些事件間的概率性質(zhì),或者事件本身的概率性質(zhì)。?
研究隨機(jī)現(xiàn)象,首先應(yīng)該明確我們研究的是什么現(xiàn)象!樣本空間是什么!我們對哪些事件感興趣!如何確定這些事件的概率!
在研究過程中,大家會不自然的用到一些符號來表示隨機(jī)現(xiàn)象的結(jié)果,這就是我們內(nèi)心對隨機(jī)變量的訴求。隨機(jī)變量已經(jīng)深入我們的內(nèi)心,很難去分離理解他了。 如果能區(qū)分他,明確的理解他,我們有理由相信這會幫助我們解決實際問題。 所以我們設(shè)法理解或者說重新理解隨機(jī)變量。 我們把隨機(jī)現(xiàn)象結(jié)果用數(shù)量表示,這種數(shù)量表示就是隨機(jī)變量。更理論一點理解就是,隨機(jī)變量是定義在樣本空間上的一個函數(shù)!我沒有見過函數(shù)值是復(fù)數(shù)的,很多書中也是這樣定義的,就是這個函數(shù)是實值函數(shù)!
隨機(jī)變量一般用大寫字母來表示,X,Y,Z等, 每一個樣本點對應(yīng)唯一一個隨機(jī)變量值,那么就可以用隨機(jī)變量的條件限制出樣本點的集合,那么這就是事件了。 例如,我們研究投擲硬幣這個隨機(jī)現(xiàn)象,出現(xiàn)的結(jié)果有兩種,一種是正面,一種是反面,這兩種結(jié)果組成樣本空間,每一個結(jié)果是一個樣本點,定義一個隨機(jī)變量X,當(dāng)隨機(jī)現(xiàn)象的結(jié)果為正面時,X=1,當(dāng)結(jié)果為反面時,X=0,這些定義都滿足 隨機(jī)變量的定義,那么X=0就是一個基本事件了,概率是定義在事件上的,那么P(X=0)便是一個概率,它表示了“投擲硬幣這種隨機(jī)現(xiàn)象出現(xiàn)反面這種結(jié)果組成的事件的概率”。 這里我們考慮的是離散的情況,所謂離散,指的是 隨機(jī)變量的值是有限的或者可列的,注意可列是無限的特殊形式。還有一種情況,例如生小孩現(xiàn)象,這種現(xiàn)象的結(jié)果又很多種情況,比如新生兒的性別,新生兒的體重,新生兒的身高,新生兒的眼睛間距都可以用來表示這個現(xiàn)象的結(jié)果,比如,某某生了一個小孩,往往我們會說某某生了一個女孩,或者某某生了一個8斤的小家伙,我們已經(jīng)潛移默化的說出了我們關(guān)心的是某個指標(biāo)。生小孩這種隨機(jī)現(xiàn)象的結(jié)果有無窮多個,盡管我們無法確定,但是在我們有生之年,也許人類會永遠(yuǎn)活在地球上,所以新生兒一直會出現(xiàn),這種現(xiàn)象的樣本點就是每個新生兒,樣本空間就是所有新生兒的全體,新生兒有無限多個。 我們在這個樣本空間上定義隨機(jī)變量,新生兒性別為男孩時X=0,新生兒性別為女孩時,X=1,這里不考慮其它情況,盡管還有其它可能;在同一個樣本空間上,在繼續(xù)定義另一個隨機(jī)變量Y,它表示新生兒的體重;隨機(jī)變量Z表示新生兒的身高。如果我們認(rèn)為概率反應(yīng)的是事物內(nèi)部本質(zhì)的話,X=0或者=1應(yīng)該可以用某個穩(wěn)定值來表示他的可能性,我們就說這個是他們的概率了。如何確定這個概率呢?用古典方法,我們認(rèn)為男女有相同的可能;又可以用統(tǒng)計的方法,在某一段時間內(nèi),統(tǒng)計某個地區(qū)的新生兒性別,可以用相應(yīng)性別出生的頻率來估計為某個性別的概率。對于Y和Z,這顯然是連續(xù)的隨機(jī)變量,我們很難用古典概率方法研究每個值出現(xiàn)的可能性,依然可以使用頻率來表示,在保留誤差的條件下,比如,我們搞一些區(qū)間,(0,1] (1,2] ....等等,如果觀測值(得到的某個樣本點的相應(yīng)隨機(jī)變量值)比較少,我們可以把區(qū)間劃的大一點,如果比較多,相應(yīng)劃多一點,這種劃分沒有嚴(yán)格的規(guī)則,至少我現(xiàn)在沒有想到,只是根據(jù)實際情況設(shè)置就可以了。統(tǒng)計能獲得的樣本點的相應(yīng)觀測值落在對應(yīng)區(qū)間的個數(shù),這樣就會得到一個區(qū)域的頻率分布了,如果觀測值增多,我們就減小區(qū)間的寬度,當(dāng)觀測值得個數(shù)趨近無窮了,我們區(qū)間的長度相應(yīng)也趨近于無窮了,這樣我們就但是每個觀測值還保留著某個值,這個值不再是概率了,我們可以用密度來理解他。很多情況下,我們研究的隨機(jī)現(xiàn)象的樣本空間上定義的隨機(jī)變量連續(xù)的時候,我們會有一些相應(yīng)的分布來研究它,比如正態(tài)分布!什么是分布呢? 離散隨機(jī)變量場合,隨機(jī)變量的取值概率都知道,這就是分布了。 連續(xù)場合,隨機(jī)變量的概率密度知道,他的分布就曉得了。?
問題想多了,我們會發(fā)現(xiàn),實際上,很容易知道隨機(jī)變量后面的問題,不好去拿出我們研究的到底是什么現(xiàn)象,這個現(xiàn)象是隨機(jī)現(xiàn)象,他的樣本點是什么?。?/p>
知道了這些之后,我們還會研究相同樣本空間上不同隨機(jī)變量的關(guān)系問題! 將問題再提升一個等級了。 就是我們前面描述過的問題,新生兒的性別,體重,身高等隨機(jī)變量是同一個樣本空間上的不同隨機(jī)變量啊。?
回到魚的問題上來先,我們逮了好多魚,很湊巧,這些魚只有兩種,假設(shè)為鱸魚和鮭魚,我們考慮任意在這些魚里面拿出一條,它是什么魚。 顯然樣本空間有限,某種魚也是有限的,如果我拿到每一條魚的條件相等,拿出一條魚,他是鱸魚的概率就是鱸魚的數(shù)量除以所有魚的數(shù)量。用隨機(jī)變量X=0,表示鱸魚,X=1表示鮭魚。我們再引入一個隨機(jī)變量Y表示魚的長度。研究有限的魚,Y這個隨機(jī)變量我們只能用落在某個區(qū)間的魚的頻率來表示Y的分布列。如果我們把研究對象擴(kuò)大,自然界中我們認(rèn)為兩種魚的數(shù)量是穩(wěn)定的,如果我們捕到的魚作為自然界中魚的一個隨機(jī)樣本,我們完全可以認(rèn)為Y是連續(xù)分布的,而且與自然界中這兩種魚的長度分布一致,事實上我們補到的魚很難作為自然界的一個隨機(jī)樣本。也就是說這個樣本不一定能很好的反應(yīng)自然界的真是情況。但是很多情況下,我們認(rèn)為自然界中的某些隨機(jī)變量符合正太分布,盡管某個樣本不一定服從這個分布,我們還是估計他的期望和方差,并把它作為正太分布研究。
?我們不考慮擴(kuò)大的情況繼續(xù)思考這個問題,在我們捕到魚中繼續(xù)考慮呀,假設(shè)我們捕到的魚足夠多,我們暫且用連續(xù)的密度函數(shù)來描述Y的分布情況。p(X,y)表示的是什么意思呢?先假設(shè)有限樣本點,那么每個樣本點對應(yīng)X和Y都有一個值,這兩個值為在二維歐式空間中是一個點,我們在Y上用區(qū)間劃分,這樣出現(xiàn)在X=x,Y屬于某個區(qū)間的魚的個數(shù)除以所補到魚的總數(shù)就是這個區(qū)間的頻率,如果魚足夠多,那么我們就認(rèn)為p(X,y)是關(guān)于y的連續(xù)函數(shù)了。p(X,y)就是X,Y的聯(lián)合密度函數(shù)了。 再加個條件的問題來思考下,p(y|X),這個是X某個值時,Y的概率密度,條件概率也是概率呀,不要跟聯(lián)合概率密度弄混了。例如,p(y|X=0)表示所捕的魚中所有鱸魚構(gòu)成的集合中,Y的分布情況。實際上條件概率是縮小了研究的范圍。
思考了這么多,我們在提出一個問題。當(dāng)拿到了一個魚,我們不能計算它的種類,我們可以計算它的長度,那么長度一定,這條魚它屬于鱸魚或者鮭魚的概率有多大呢? P(X|y)就可以來解決這個問題了。我們可以使用貝葉斯公式來求解這個問題,P(X|y) = p(X,y) /p(y) = p(y|X)P(X) / p(y), p(y) = P(X=0)p(y|X=0) + P(X=1)p(y|X=1) 。
我們想找一個比較好的t值,使得我們誤判的概率最小化,所以要考慮誤判的情況。 假設(shè)我們將Y
p(X=1, Y
我們想要這個錯誤概率最小化,那么我們會得到一個優(yōu)化問題,順便求出目標(biāo)函數(shù)的導(dǎo)數(shù)。
令導(dǎo)數(shù)等于0,便可以求出最佳的t的位置了。?
接下來,再繼續(xù)考慮幾個問題,首先即使給出一個最優(yōu)的t,目標(biāo)函數(shù)的值仍然很大,比如0.5,這個值可以理解為,我們的分類錯誤率是50%,確實有些大了。我們可以怎么改進(jìn)呢? 我們可以引入更多的特征,從概率上就是說我們再繼續(xù)尋找同一些樣本空間上的函數(shù),使得總體上誤差函數(shù)的最優(yōu)值盡量的小。?
另外一個問題就是,我們?nèi)绾未_定針對某一中魚的某個特征的分布情況,一般情況下,我們會用統(tǒng)計的方法進(jìn)行估計,這個需要分布已知,往往我們會假設(shè)他為某個分布,然后再根據(jù)有限樣本容量的樣本進(jìn)行參數(shù)估計,這樣會帶來兩部分誤差,1、他是否真的滿足我們給定的分布,這一步的錯誤直接導(dǎo)致所有錯誤。2、我們的樣本是否可以很好的描述總體分布情況,這部分表示的參數(shù)估計的誤差。 這兩個問題帶來的是,如何明確某個隨機(jī)變量的分布,以及如何找到一個可以估計總體分布的樣本。
?
這篇文章我沒有嚴(yán)格的分章節(jié)敘述,只是在順序,基于我自己的思考邏輯慢慢展開的,不管怎樣,我相信,并不會有很多人會認(rèn)真讀完這篇文章,所以我也就不用不好意思了。哈哈。