大數(shù)據(jù)技術(shù)是什么_大數(shù)據(jù)技術(shù)有哪些
大數(shù)據(jù)(big data),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》 中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的5V特點(diǎn)(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。
對(duì)于“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
毫無疑問,世界上所有關(guān)注開發(fā)技術(shù)的人都意識(shí)到“大數(shù)據(jù)”對(duì)企業(yè)商務(wù)所蘊(yùn)含的潛在價(jià)值,其目的都在于解決在企業(yè)發(fā)展過程中各種業(yè)務(wù)數(shù)據(jù)增長(zhǎng)所帶來的痛苦。
現(xiàn)實(shí)是,許多問題阻礙了大數(shù)據(jù)技術(shù)的發(fā)展和實(shí)際應(yīng)用。
因?yàn)橐环N成功的技術(shù),需要一些衡量的標(biāo)準(zhǔn)?,F(xiàn)在我們可以通過幾個(gè)基本要素來衡量一下大數(shù)據(jù)技術(shù),這就是——流處理、并行性、摘要索引和可視化。
大數(shù)據(jù)技術(shù)涵蓋哪些內(nèi)容?
1、流處理
伴隨著業(yè)務(wù)發(fā)展的步調(diào),以及業(yè)務(wù)流程的復(fù)雜化,我們的注意力越來越集中在“數(shù)據(jù)流”而非“數(shù)據(jù)集”上面。
決策者感興趣的是緊扣其組織機(jī)構(gòu)的命脈,并獲取實(shí)時(shí)的結(jié)果。他們需要的是能夠處理隨時(shí)發(fā)生的數(shù)據(jù)流的架構(gòu),當(dāng)前的數(shù)據(jù)庫(kù)技術(shù)并不適合數(shù)據(jù)流處理。
例如,計(jì)算一組數(shù)據(jù)的平均值,可以使用一個(gè)傳統(tǒng)的腳本實(shí)現(xiàn)。但對(duì)于移動(dòng)數(shù)據(jù)平均值的計(jì)算,不論是到達(dá)、增長(zhǎng)還是一個(gè)又一個(gè)的單元,有更高效的算法。如果你想構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),并執(zhí)行任意的數(shù)據(jù)分析、統(tǒng)計(jì),開源的產(chǎn)品R或者類似于SAS的商業(yè)產(chǎn)品就可以實(shí)現(xiàn)。但是你想創(chuàng)建的是一個(gè)數(shù)據(jù)流統(tǒng)計(jì)集,對(duì)此逐步添加或移除數(shù)據(jù)塊,進(jìn)行移動(dòng)平均計(jì)算,而且數(shù)據(jù)庫(kù)不存在或者尚不成熟。
數(shù)據(jù)流周邊的生態(tài)系統(tǒng)有欠發(fā)達(dá)。換言之,如果你正在與一家供應(yīng)商洽談一個(gè)大數(shù)據(jù)項(xiàng)目,那么你必須知道數(shù)據(jù)流處理對(duì)你的項(xiàng)目而言是否重要,并且供應(yīng)商是否有能力提供。
2、并行化
大數(shù)據(jù)的定義有許多種,以下這種相對(duì)有用。“小數(shù)據(jù)”的情形類似于桌面環(huán)境,磁盤存儲(chǔ)能力在1GB到10GB之間,“中數(shù)據(jù)”的數(shù)據(jù)量在100GB到1TB之間,“大數(shù)據(jù)”分布式的存儲(chǔ)在多臺(tái)機(jī)器上,包含1TB到多個(gè)PB的數(shù)據(jù)。
如果你在分布式數(shù)據(jù)環(huán)境中工作,并且想在很短的時(shí)間內(nèi)處理數(shù)據(jù),這就需要分布式處理。
并行處理在分布式數(shù)據(jù)中脫穎而出,Hadoop是一個(gè)分布式/并行處理領(lǐng)域廣為人知的例子。Hadoop包含一個(gè)大型分布式的文件系統(tǒng),支持分布式/并行查詢。
3、摘要索引
摘要索引是一個(gè)對(duì)數(shù)據(jù)創(chuàng)建預(yù)計(jì)算摘要,以加速查詢運(yùn)行的過程。摘要索引的問題是,你必須為要執(zhí)行的查詢做好計(jì)劃,因此它有所限制。
數(shù)據(jù)增長(zhǎng)飛速,對(duì)摘要索引的要求遠(yuǎn)不會(huì)停止,不論是長(zhǎng)期考慮還是短期,供應(yīng)商必須對(duì)摘要索引的制定有一個(gè)確定的策略。
4、數(shù)據(jù)可視化
可視化工具有兩大類。
探索性可視化描述工具可以幫助決策者和分析師挖掘不同數(shù)據(jù)之間的聯(lián)系,這是一種可視化的洞察力。類似的工具有Tableau、TIBCO和QlikView,這是一類。
敘事可視化工具被設(shè)計(jì)成以獨(dú)特的方式探索數(shù)據(jù)。例如,如果你想以可視化的方式在一個(gè)時(shí)間序列中按照地域查看一個(gè)企業(yè)的銷售業(yè)績(jī),可視化格式會(huì)被預(yù)先創(chuàng)建。數(shù)據(jù)會(huì)按照地域逐月展示,并根據(jù)預(yù)定義的公式排序。供應(yīng)商PercepTIve Pixel就屬于這一類。
大數(shù)據(jù)技術(shù)有哪些1、跨粒度計(jì)算(In-DatabaseCompuTIng)
Z-Suite支持各種常見的匯總,還支持幾乎全部的專業(yè)統(tǒng)計(jì)函數(shù)。得益于跨粒度計(jì)算技術(shù),Z-Suite數(shù)據(jù)分析引擎將找尋出最優(yōu)化的計(jì)算方案,繼而把所有開銷較大的、昂貴的計(jì)算都移動(dòng)到數(shù)據(jù)存儲(chǔ)的地方直接計(jì)算,我們稱之為庫(kù)內(nèi)計(jì)算(In-Database)。這一技術(shù)大大減少了數(shù)據(jù)移動(dòng),降低了通訊負(fù)擔(dān),保證了高性能數(shù)據(jù)分析。
2、并行計(jì)算(MPP CompuTIng)
Z-Suite是基于MPP架構(gòu)的商業(yè)智能平臺(tái),她能夠把計(jì)算分布到多個(gè)計(jì)算節(jié)點(diǎn),再在指定節(jié)點(diǎn)將計(jì)算結(jié)果匯總輸出。Z-Suite能夠充分利用各種計(jì)算和存儲(chǔ)資源,不管是服務(wù)器還是普通的PC,她對(duì)網(wǎng)絡(luò)條件也沒有嚴(yán)苛的要求。作為橫向擴(kuò)展的大數(shù)據(jù)平臺(tái),Z-Suite能夠充分發(fā)揮各個(gè)節(jié)點(diǎn)的計(jì)算能力,輕松實(shí)現(xiàn)針對(duì)TB/PB級(jí)數(shù)據(jù)分析的秒級(jí)響應(yīng)。
3、列存儲(chǔ) (Column-Based)
Z-Suite是列存儲(chǔ)的?;诹写鎯?chǔ)的數(shù)據(jù)集市,不讀取無關(guān)數(shù)據(jù),能降低讀寫開銷,同時(shí)提高I/O 的效率,從而大大提高查詢性能。另外,列存儲(chǔ)能夠更好地壓縮數(shù)據(jù),一般壓縮比在5 -10倍之間,這樣一來,數(shù)據(jù)占有空間降低到傳統(tǒng)存儲(chǔ)的1/5到1/10 。良好的數(shù)據(jù)壓縮技術(shù),節(jié)省了存儲(chǔ)設(shè)備和內(nèi)存的開銷,卻大大了提升計(jì)算性能。
4、內(nèi)存計(jì)算
得益于列存儲(chǔ)技術(shù)和并行計(jì)算技術(shù),Z-Suite能夠大大壓縮數(shù)據(jù),并同時(shí)利用多個(gè)節(jié)點(diǎn)的計(jì)算能力和內(nèi)存容量。一般地,內(nèi)存訪問速度比磁盤訪問速度要快幾百倍甚至上千倍。通過內(nèi)存計(jì)算,CPU直接從內(nèi)存而非磁盤上讀取數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行計(jì)算。內(nèi)存計(jì)算是對(duì)傳統(tǒng)數(shù)據(jù)處理方式的一種加速,是實(shí)現(xiàn)大數(shù)據(jù)分析的關(guān)鍵應(yīng)用技術(shù)。
注意事項(xiàng)
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。