揭開統(tǒng)計(jì)學(xué)性感的面紗
21ic訊 《哈佛商業(yè)評論》宣布“數(shù)據(jù)科學(xué)家”是21世紀(jì)最性感的職業(yè),所謂性感,既代表著難以名狀的誘惑,又說明了大家都不太懂這個(gè)職業(yè)做的是什么。
看到這個(gè)評價(jià),小編就想,這說的不也是統(tǒng)計(jì)學(xué)么!現(xiàn)在大數(shù)據(jù)和工業(yè)4.0的口號響徹祖國大地,統(tǒng)計(jì)學(xué)在大學(xué)里可謂炙手可熱;而一個(gè)學(xué)期的統(tǒng)計(jì)課程上下來,同學(xué)們個(gè)個(gè)都是云中望月,霧里看花;考完試之后更是哀嚎遍野。如何讓這“性感”變得美好起來,不再可望而不可及呢?
SASRPython等軟件工具都可以幫您將課堂上學(xué)到的數(shù)據(jù)分析方法進(jìn)行重新演繹和輸出,但估計(jì)您想到那密密麻麻的code就開始搖頭了,“要花大把的時(shí)間學(xué)代碼,還要看晦澀的輸出結(jié)果,只能讓性感變得更加只可遠(yuǎn)觀啊!” 小編在這里要給您強(qiáng)烈推薦SAS旗下的JMP軟件,這款軟件相當(dāng)于SAS的窗口化應(yīng)用,界面超級友好,主打interactive analysis & visualization,也就是說那些晦澀的統(tǒng)計(jì)參數(shù)以及輸出結(jié)果都可以動態(tài)交互可視化了,真正的做到了SAS的總裁Jim Goodnight先生說的“Give everyone the power to know”。如此一來,揭開統(tǒng)計(jì)學(xué)“性感”的面紗就指日可待了。下面我們就來看一下JMP的特色之處吧。
動態(tài)輔助教學(xué)
有不少同學(xué)一學(xué)期讀下來往往連置信區(qū)間等基本的統(tǒng)計(jì)學(xué)概念都不甚清楚,就更別提什么大數(shù)據(jù)分析必須要具備的統(tǒng)計(jì)思維了。其實(shí)一旦搞清楚這些基本概念,就相當(dāng)于一只腳邁進(jìn)了統(tǒng)計(jì)學(xué)的大門,后面再接觸其他的深層次的數(shù)據(jù)分析方法自然就會豁然開朗。
下面我們就舉一個(gè)正態(tài)總體均值區(qū)間估計(jì)的例子。為了了解統(tǒng)計(jì)學(xué)專業(yè)學(xué)生畢業(yè)后一年內(nèi)的平均工資水平,我們有代表性的選取了100個(gè)該專業(yè)的畢業(yè)生做了調(diào)查,調(diào)查結(jié)果為年平均工資水平為19.91w,誤差是±0.35w,置信度為95%。這里我們該如何解讀這些數(shù)字呢?
Ÿ 樣本均值為19.91w--即為抽取的100個(gè)畢業(yè)生的年工資水平均值,可以作為對總體統(tǒng)計(jì)學(xué)專業(yè)畢業(yè)生工作一年內(nèi)的年工資水平的估計(jì)。
Ÿ 95%的置信水平下,估計(jì)的置信區(qū)間為19.91w±0.35w(19.56w,20.26w)
Ÿ 如果用類似的方式,抽取N多個(gè)類似的樣本,每個(gè)樣本都可以計(jì)算構(gòu)造出一個(gè)置信區(qū)間,這N多個(gè)置信區(qū)間中大概會有95%會包含真正的工資水平。
上面給出的是對于置信區(qū)間在文字上的解釋,借助于JMP,您可以自行進(jìn)行模擬以了解置信區(qū)間的構(gòu)造和原理。如下圖所示,您可以在左側(cè)設(shè)定總體的分布,抽取的樣本大小,樣本的數(shù)量以及置信水平;右側(cè)就會相應(yīng)的給出對總體均值的估計(jì)。圖中展示的結(jié)果來自于均值為20w,標(biāo)準(zhǔn)差為2的總體,在其中抽取大小為100的樣本,共抽取10000次,相應(yīng)的置信水平為95%;我們可以看到
Ÿ 右邊最上側(cè)列出的是第10000次抽取的樣本數(shù)據(jù)的直方圖;
Ÿ 緊跟在直方圖下面的是第10000次抽取的樣本數(shù)據(jù)計(jì)算的均值估計(jì)和置信區(qū)間;
Ÿ 中間部分的圖表告訴我們所有10000次抽取的樣本構(gòu)造的置信區(qū)間對真實(shí)的均值的覆蓋情況(真實(shí)的均值為20,不是所有的置信區(qū)間都覆蓋真實(shí)值);
Ÿ 置信區(qū)間圖下面是抽取的1000次樣本的樣本均值平均以及樣本均值的標(biāo)準(zhǔn)差,他衡量的是樣本均值與總體均值的接近程度,每次抽取的樣本數(shù)越多,樣本均值與總體均值越接近,該值越小。均值的標(biāo)準(zhǔn)誤公式σ/sqrt(n)就是對該值的估計(jì),估計(jì)值為2/sqrt(100)=0.2.
Ÿ 最后一部分告訴我們構(gòu)造的所有的置信區(qū)間中覆蓋真實(shí)的均值水平的比例為95.03%,這95.03%即為置信水平的真正意義所在。
當(dāng)然你可以改變樣本的大小,抽取次數(shù)以及總體分布來觀察不同分布不同抽樣對均值區(qū)間估計(jì)的影響。怎么樣,看到這里,是不是覺得柳暗花明又一村了。
交互分析
說到交互分析,這可以算作JMP的獨(dú)門武器了。無論是你剛剛拿到數(shù)據(jù)要做探索性數(shù)據(jù)分析,還是建立復(fù)雜的統(tǒng)計(jì)模型,JMP都可以提供交互分析幫助您更好的解讀數(shù)據(jù)。小編在這里只舉一個(gè)模型刻畫器的例子。模型刻畫器通過可視化的方式把構(gòu)建好的模型(包括各種形式的模型)動態(tài)交互的展現(xiàn)出來,相較于枯燥的數(shù)字,這種方式更加直接,更容易理解變量之間的關(guān)系以及相互作用機(jī)制。
模型刻畫器
豐富的統(tǒng)計(jì)分析方法
作為SAS家族的系列產(chǎn)品,JMP自然也少不了各種經(jīng)典的、前沿的統(tǒng)計(jì)分析方法,既包括決策樹神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘算法,又涵蓋了Lasso,Elastic Net等處理多重共線性問題的懲罰算法,還有模型比較幫助你進(jìn)行模型的篩選,都可以通過一鍵式菜單完成分析,您可以處理多種形式的復(fù)雜數(shù)據(jù)及問題。
靈活定制
對于愛鉆研愛創(chuàng)新愛搞怪的好學(xué)生們,JMP還提供了靈活的腳本程序,以滿足你們的創(chuàng)作需求??纯聪旅孢@個(gè)歪歪扭扭的時(shí)鐘是不是可以放在你的桌面上,或者情人節(jié)的時(shí)候,你也可以為你心儀的女同學(xué)制作一顆愛心來給她一個(gè)驚喜,只需要盡情地發(fā)揮你們的想象力和創(chuàng)造力哦!
其實(shí),JMP的可視化和交互性探索分析特色就是為了培養(yǎng)你對數(shù)據(jù)的好奇心,讓你在數(shù)據(jù)中遨游的同時(shí),運(yùn)用探索性數(shù)據(jù)分析發(fā)現(xiàn)規(guī)律,然后通過統(tǒng)計(jì)建模進(jìn)行深入的業(yè)務(wù)洞察,驗(yàn)證想法并升華得到新的結(jié)論。這樣的過程又何嘗不是一種更讓人著迷的“性感”呢!
點(diǎn)擊下方鏈接,去看看JMP都還有哪些精彩的可視化動態(tài)分析結(jié)果吧!小編還要告訴你一個(gè)好消息,這樣的HTML5結(jié)果,你自己也可以通過JMP來實(shí)現(xiàn)哦!
HTML5輸出示例
JMP試用版下載
--"We support education because it is an investment in the future, not just for our company, but for the world."