當(dāng)前位置:首頁 > 工業(yè)控制 > 電子設(shè)計(jì)自動化

  所謂探索性數(shù)據(jù)分析(EDA),是指對已有的數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。特別是當(dāng)我們對這些數(shù)據(jù)中的信息沒有足夠的經(jīng)驗(yàn),不知道該用何種傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行分析時,探索性數(shù)據(jù)分析就會非常有效。探索性數(shù)據(jù)分析在上世紀(jì)六十年代被提出,其方法由美國著名統(tǒng)計(jì)學(xué)家約翰·圖基(John Tukey)命名。

  EDA的出現(xiàn)主要是在對數(shù)據(jù)進(jìn)行初步分析時,往往還無法進(jìn)行常規(guī)的統(tǒng)計(jì)分析。這時候,如果分析者先對數(shù)據(jù)進(jìn)行探索性分析,辨析數(shù)據(jù)的模式與特點(diǎn),并把它們有序地發(fā)掘出來,就能夠靈活地選擇和調(diào)整合適的分析模型,并揭示數(shù)據(jù)相對于常見模型的種種偏離。在此基礎(chǔ)上再采用以顯著性檢驗(yàn)和置信區(qū)間估計(jì)為主的統(tǒng)計(jì)分析技術(shù),就可以科學(xué)地評估所觀察到的模式或效應(yīng)的具體情況。

  所以概括起來說,分析數(shù)據(jù)可以分為探索和驗(yàn)證兩個階段。探索階段強(qiáng)調(diào)靈活探求線索和證據(jù),發(fā)現(xiàn)數(shù)據(jù)中隱藏的有價值的信息,而驗(yàn)證階段則著重評估這些證據(jù),相對精確地研究一些具體情況。在驗(yàn)證階段,常用的主要方法是傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,在探索階段,主要的方法就是EDA,下面我們重點(diǎn)對EDA做進(jìn)一步的說明。

  EDA的特點(diǎn)有三個:一是在分析思路上讓數(shù)據(jù)說話,不強(qiáng)調(diào)對數(shù)據(jù)的整理。傳統(tǒng)統(tǒng)計(jì)方法通常是先假定一個模型,例如數(shù)據(jù)服從某個分布(特別常見的是正態(tài)分布),然后使用適合此模型的方法進(jìn)行擬合、分析及預(yù)測。但實(shí)際上,多數(shù)數(shù)據(jù)(尤其是實(shí)驗(yàn)數(shù)據(jù))并不能保證滿足假定的理論分布。因此,傳統(tǒng)方法的統(tǒng)計(jì)結(jié)果常常并不令人滿意,使用上受到很大的局限。EDA則可以從原始數(shù)據(jù)出發(fā),深入探索數(shù)據(jù)的內(nèi)在規(guī)律,而不是從某種假定出發(fā),套用理論結(jié)論,拘泥于模型的假設(shè)。

  二是EDA分析方法靈活,而不是拘泥于傳統(tǒng)的統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)方法以概率論為基礎(chǔ),使用有嚴(yán)格理論依據(jù)的假設(shè)檢驗(yàn)、置信區(qū)間等處理工具。EDA處理數(shù)據(jù)的方式則靈活多樣,分析方法的選擇完全從數(shù)據(jù)出發(fā),靈活對待,靈活處理,什么方法可以達(dá)到探索和發(fā)現(xiàn)的目的就使用什么方法。這里特別強(qiáng)調(diào)的是EDA更看重的是方法的穩(wěn)健性、耐抗性,而不刻意追求概率意義上的精確性。

  三是EDA分析工具簡單直觀,更易于普及。傳統(tǒng)的統(tǒng)計(jì)方法都比較抽象和深奧,一般人難于掌握,EDA則更強(qiáng)調(diào)直觀及數(shù)據(jù)可視化,更強(qiáng)調(diào)方法的多樣性及靈活性,使分析者能一目了然地看出數(shù)據(jù)中隱含的有價值的信息,顯示出其遵循的普遍規(guī)律及與眾不同的突出特點(diǎn),促進(jìn)發(fā)現(xiàn)規(guī)律,得到啟迪,滿足分析者的多方面要求,這也是EDA對于數(shù)據(jù)分析的的主要貢獻(xiàn)。

  值得一提的是,正因?yàn)镋DA更強(qiáng)調(diào)直觀及圖形顯示,所以它采用了很多創(chuàng)新的可視化技術(shù),目前這些可視化技術(shù)已經(jīng)有了很好的實(shí)現(xiàn)載體,目前最為主流的探索性數(shù)據(jù)分析軟件是以圖形效果好、交互性強(qiáng)、易學(xué)易用著稱的統(tǒng)計(jì)發(fā)現(xiàn)軟件JMP。即使不具備統(tǒng)計(jì)學(xué)基礎(chǔ)的分析者也能在JMP的幫助下,輕松地發(fā)現(xiàn)數(shù)據(jù)、擬合以及殘差的規(guī)律,獲得意想不到的發(fā)現(xiàn),為后續(xù)的分析啟發(fā)思路、指明方向。

  下面,用一個典型的小案例來說明EDA的實(shí)際應(yīng)用。

  我們?yōu)榱藢θ蚪?jīng)濟(jì)的發(fā)展趨勢和世界頂級公司的經(jīng)營狀況做一些研究,可以從公共網(wǎng)站上下載數(shù)據(jù)(如http://www.forbes.com/lists中的福布斯2000強(qiáng)名單),用JMP略作整理之后可以得到如表一所示的數(shù)據(jù)表,其中包含了上榜公司的名稱、所屬行業(yè)、所屬國家、上榜年份、上榜排名、市場價值、資產(chǎn)額、銷售額、利潤額等9個變量,總計(jì)14000條記錄(每年2000條,從2004年至2010年共7個年度)?,F(xiàn)在的問題是:數(shù)據(jù)有了,其中到底隱藏著怎樣的有價值的信息呢?我們又如何發(fā)現(xiàn)這些信息呢?

  有人說:既然是連續(xù)型數(shù)據(jù),又包含時間變量,應(yīng)該用時間序列方法進(jìn)行分析!的確,時間序列可以告訴我們變量隨時間的變化,然而實(shí)際中我們所希望和可以得到的有價值的信息,往往遠(yuǎn)不止“隨時間變化”這么簡單,更何況,需要分析這些商業(yè)數(shù)據(jù)的用戶常常并不清楚什么是“時間序列分析”方法。

  還有人說:用一些傳統(tǒng)的圖形工具,比如折線圖、柱狀圖、餅圖等等來分析,不就可以進(jìn)行數(shù)據(jù)探索了嗎?這種方法似乎是可行的,但這些數(shù)據(jù)中有不少類別變量,他們的分類水平很多(例如年份跨越7年,行業(yè)分為30個,國家有75個之多,公司名稱更是多達(dá)3505個),這樣一來,光作圖可能就讓我們筋疲力盡了,“數(shù)據(jù)探索”又從何談起?

  表一 經(jīng)JMP軟件整理的福布斯2000強(qiáng)排行數(shù)據(jù)

  

  什么方法才能很好地探索這些數(shù)據(jù),從中發(fā)現(xiàn)我們所期望的、甚至意想不到的重要信息呢?我們應(yīng)該從哪里著手分析才能找到這些信息呢?我們來嘗試運(yùn)用現(xiàn)代EDA中的可視 化技術(shù)“泡泡圖”來邊看邊想。在JMP軟件的幫助下,我們可以很快得到類似圖一的圖形,其中的橫軸代表公司的市值,縱軸代表公司的銷售額,泡泡的大小代表公司的利潤額,泡泡的顏色代表公司所屬的行業(yè)。最有意義的是,所有的泡泡并不是靜止不動的,它們的位置、大小等都會隨著年度的變化而動態(tài)變化。與此同時,整個變化的歷史軌跡線也會在圖中顯示出來。

  這樣一來,我們就可以直觀地發(fā)現(xiàn)一些明顯的數(shù)據(jù)特征。就拿圖中標(biāo)識出來的兩家知名公司來說。我們會發(fā)現(xiàn)通用電氣General Electric的經(jīng)營業(yè)績比較穩(wěn)定,而??松梨贓xxon Mobil就相對顯得大起大落一些。雖然兩者有明顯不同,但自2008年起,市場價值均有顯著的回落,這應(yīng)當(dāng)與當(dāng)時席卷全球的經(jīng)濟(jì)危機(jī)有關(guān)。

圖一 基于JMP軟件生成的動態(tài)泡泡圖

  有人在發(fā)現(xiàn)這些特征后會迸出一些新的想法:通用電氣、埃克森美孚都是美國的企業(yè),中國企業(yè)的表現(xiàn)又如何的呢?我們可以在使用“泡泡圖”的同時,在JMP中調(diào)用“數(shù)據(jù)篩選”功能就可以得到類似圖三的界面。

  從中可以清晰地觀察到,自2004年以來的7年間,共有392個次的中國企業(yè)登上了福布斯排行榜。雖然在數(shù)量上、市值、銷售額等經(jīng)營指標(biāo)上與世界頂級企業(yè)有一定差距,但以中石油Petro China、中石化Sinopec China Petroleum等位代表的一批國有大型企業(yè)發(fā)展速度很快,令世界矚目。

圖二 JMP軟件中動態(tài)泡泡圖與數(shù)據(jù)篩選的配合使用

  實(shí)際上,探索性數(shù)據(jù)分析還遠(yuǎn)遠(yuǎn)不止這些。分析人士完全可以在數(shù)據(jù)分析的初期不受太多理論條件的束縛,充分展開想象的翅膀,多角度、多層面地對現(xiàn)有數(shù)據(jù)的規(guī)律進(jìn)行可視化的探索,新的線索往往就會自然而然地出現(xiàn)了,為下一步的統(tǒng)計(jì)建模與預(yù)測等精細(xì)化分析奠定良好的基礎(chǔ)。

總之,探索性數(shù)據(jù)分析強(qiáng)調(diào)靈活地探求線索和證據(jù),重在發(fā)現(xiàn)數(shù)據(jù)中可能隱藏著的有價值的信息,比如數(shù)據(jù)的分布模式、變化趨勢,可能的交互影響,異常變化等等,而傳統(tǒng)的統(tǒng)計(jì)方法則側(cè)重于評估已經(jīng)發(fā)現(xiàn)的證據(jù),通常要求分析人員具備一定的統(tǒng)計(jì)學(xué)基礎(chǔ)。根據(jù)不同的業(yè)務(wù)目的和數(shù)據(jù)資源選用不同的技術(shù),或者綜合使用這兩類技術(shù),將會使我們更快地獲得更多的發(fā)現(xiàn)。對于大都不具備統(tǒng)計(jì)學(xué)功底但數(shù)據(jù)分析任務(wù)卻越來越多的企業(yè)人員(如市場分析人員、質(zhì)量管理人員等)來說,重視、學(xué)習(xí)并用好探索性數(shù)據(jù)分析往往能事半功倍。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉