我國(guó)大數(shù)據(jù)產(chǎn)業(yè)現(xiàn)在處于什么階段
掃描二維碼
隨時(shí)隨地手機(jī)看文章
隨著大數(shù)據(jù)基礎(chǔ)技術(shù)的逐漸完善,大數(shù)據(jù)發(fā)展進(jìn)入應(yīng)用階段,但是由于發(fā)展時(shí)間晚以及數(shù)字化基礎(chǔ)相對(duì)薄弱,我國(guó)大數(shù)據(jù)產(chǎn)業(yè)尚處于初級(jí)階段。面對(duì)如此龐大激增的數(shù)據(jù)量,常規(guī)軟件無(wú)法在一定時(shí)間內(nèi)實(shí)現(xiàn)數(shù)據(jù)的捕捉、管理與處理,需要新的數(shù)據(jù)處理模式,大數(shù)據(jù)正是基于以上背景應(yīng)運(yùn)而生。
大數(shù)據(jù)的概念與特征
大數(shù)據(jù)簡(jiǎn)單來(lái)講就是海量數(shù)據(jù)的集合,通過(guò)綜合數(shù)據(jù)之間的相互關(guān)聯(lián)性,大數(shù)據(jù)分析擁有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力,能夠應(yīng)對(duì)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。相比于傳統(tǒng)的數(shù)據(jù)處理模式,在容量方面,大數(shù)據(jù)達(dá)到了PB(相當(dāng)于1024TB、1048576GB)以上級(jí)別,這是傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)和單部計(jì)算機(jī)幾乎無(wú)法存儲(chǔ)處理的;在數(shù)據(jù)處理結(jié)果方面,大數(shù)據(jù)能夠通過(guò)將不同類(lèi)別的數(shù)據(jù)匯總,做出更加系統(tǒng)合理的決策;在價(jià)值挖掘方面,大數(shù)據(jù)覆蓋面廣闊,實(shí)現(xiàn)了各個(gè)領(lǐng)域的數(shù)據(jù)一體化,因而能夠通過(guò)相互關(guān)聯(lián)的多樣化數(shù)據(jù)及時(shí)發(fā)現(xiàn)潛在價(jià)值信息;在流程優(yōu)化能力方面,大數(shù)據(jù)能夠打包聯(lián)合流程所需的各種數(shù)據(jù),極大地提高了辦事效率。
大數(shù)據(jù)具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類(lèi)型、價(jià)值密度低和數(shù)據(jù)在線五大特征。數(shù)據(jù)量方面,大數(shù)據(jù)的采集、存儲(chǔ)以及計(jì)算量都十分巨大,起始計(jì)量單位至少是PB(1000個(gè)TB)、EB(100萬(wàn)個(gè)TB)或ZB(10億個(gè)TB);數(shù)據(jù)流轉(zhuǎn)速度方面,相比于傳統(tǒng)數(shù)據(jù)處理模式,大數(shù)據(jù)在數(shù)據(jù)處理速度上有了跨越式的提升,從而能夠極大提升數(shù)據(jù)流傳速度;數(shù)據(jù)類(lèi)型方面,大數(shù)據(jù)包括數(shù)字、網(wǎng)絡(luò)日志、視頻、音頻等結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)來(lái)源廣闊,數(shù)據(jù)類(lèi)型十分豐富;價(jià)值密度方面,由于大數(shù)據(jù)采集以全面為主,不設(shè)采集門(mén)檻,因此采集的大量數(shù)據(jù)是重復(fù)的,無(wú)效的,低價(jià)值的,必須通過(guò)特定的模型及算法挖掘有價(jià)值的信息;數(shù)據(jù)在線方面,區(qū)別于磁盤(pán)中的離線數(shù)據(jù),大數(shù)據(jù)是永遠(yuǎn)在線的,能夠隨時(shí)調(diào)用和計(jì)算。
數(shù)據(jù)加工成為大數(shù)據(jù)產(chǎn)業(yè)的附加值大數(shù)據(jù)產(chǎn)業(yè)的價(jià)值點(diǎn)體現(xiàn)在數(shù)據(jù)的處理加工方面。區(qū)別于其他產(chǎn)業(yè),大數(shù)據(jù)產(chǎn)業(yè)的“產(chǎn)品”并非以實(shí)體方式存在,而是以虛擬的數(shù)據(jù)結(jié)果呈現(xiàn),更多的是為分析決策提供有力的科學(xué)依據(jù),起到關(guān)鍵性的輔助作用。大數(shù)據(jù)產(chǎn)業(yè)的基本要素是海量的數(shù)據(jù),雖然數(shù)據(jù)本身價(jià)值量比較固定,但是大數(shù)據(jù)企業(yè)可以根據(jù)數(shù)據(jù)之間的關(guān)聯(lián)性,通過(guò)特定的模型及算法,對(duì)數(shù)據(jù)進(jìn)行二次“加工”,即處理分析之后,便能夠發(fā)掘隱藏在數(shù)據(jù)中的價(jià)值信息,從而實(shí)現(xiàn)數(shù)據(jù)的“增值”。
信息化時(shí)代,大數(shù)據(jù)挖掘信息潛在價(jià)值的能力至關(guān)重要。各個(gè)產(chǎn)業(yè)信息化的發(fā)展給大數(shù)據(jù)產(chǎn)業(yè)奠定了大量的數(shù)據(jù)基礎(chǔ),使得大數(shù)據(jù)企業(yè)能夠依據(jù)海量的數(shù)據(jù)資源挖掘數(shù)據(jù)潛在價(jià)值,實(shí)現(xiàn)對(duì)目標(biāo)信息的獲取。比如,Target超市以20多種懷孕期間孕婦可能會(huì)購(gòu)買(mǎi)的商品為基礎(chǔ),將所有用戶的購(gòu)買(mǎi)記錄作為數(shù)據(jù)來(lái)源,通過(guò)構(gòu)建模型分析購(gòu)買(mǎi)者的行為相關(guān)性,進(jìn)而準(zhǔn)確地推斷出孕婦的具體臨盆時(shí)間,這樣Target的銷(xiāo)售部門(mén)就可以有針對(duì)的在每個(gè)懷孕顧客的不同階段寄送相應(yīng)的產(chǎn)品優(yōu)惠卷。
大數(shù)據(jù)發(fā)展進(jìn)入應(yīng)用階段,而我國(guó)大數(shù)據(jù)產(chǎn)業(yè)成熟度較低縱觀全球大數(shù)據(jù)的發(fā)展歷程,一共經(jīng)歷了四個(gè)發(fā)展階段。
1990-2002年屬于大數(shù)據(jù)的萌芽階段,隨著數(shù)據(jù)庫(kù)技術(shù)以及數(shù)據(jù)挖掘技術(shù)的推廣,大量商業(yè)智能工具以及數(shù)據(jù)管理系統(tǒng)被開(kāi)發(fā)出來(lái),比如圖書(shū)館數(shù)據(jù)管理系統(tǒng)、倉(cāng)庫(kù)數(shù)據(jù)管理系統(tǒng)、知識(shí)管理系統(tǒng)。
2003-2006年屬于大數(shù)據(jù)發(fā)展的突破階段,隨著手機(jī)以及個(gè)人電腦的迅速普及,大量的Web信息、圖像、音頻及視頻等非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生,傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)不便實(shí)現(xiàn)對(duì)這些非結(jié)構(gòu)數(shù)據(jù)的管理,從而帶動(dòng)了大數(shù)據(jù)技術(shù)的快速突破,標(biāo)志性的事件是2005年雅虎實(shí)行的Hadoop項(xiàng)目,為結(jié)構(gòu)化與復(fù)雜數(shù)據(jù)的快速、可靠分析奠定了基礎(chǔ)。
2006-2009期間屬于大數(shù)據(jù)發(fā)展的成熟階段,大數(shù)據(jù)解決方案逐漸走向成熟,形成了并行計(jì)算與分布式系統(tǒng)兩大核心技術(shù),谷歌的GFS和MapReduce等大數(shù)據(jù)技術(shù)得到廣泛應(yīng)用。
2009年至今屬于大數(shù)據(jù)發(fā)展的應(yīng)用階段,隨著大數(shù)據(jù)基礎(chǔ)理論發(fā)展的不斷成熟,人們開(kāi)始轉(zhuǎn)向大數(shù)據(jù)的應(yīng)用研究,大數(shù)據(jù)開(kāi)始向商業(yè)、教育、工業(yè)、醫(yī)療、交通等領(lǐng)域滲透。
據(jù)統(tǒng)計(jì),我國(guó)每年的新增數(shù)據(jù)量?jī)H為美國(guó)的7%,歐洲的12%,并且我國(guó)數(shù)據(jù)資源存在著標(biāo)準(zhǔn)化、準(zhǔn)確性、完整性低,利用價(jià)值不高的特點(diǎn)。薄弱的產(chǎn)業(yè)數(shù)據(jù)基礎(chǔ)嚴(yán)重制約了我國(guó)大數(shù)據(jù)的發(fā)展,并且這一現(xiàn)狀短期難以改善,只能隨著產(chǎn)業(yè)信息化發(fā)展的不斷深入,逐步積累數(shù)據(jù)資源,強(qiáng)化基礎(chǔ)。政策推動(dòng)方面,我國(guó)在2014年的《政府工作報(bào)告中》首次出現(xiàn)了大數(shù)據(jù)一詞,2015年的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》標(biāo)志我國(guó)大數(shù)據(jù)上升到國(guó)家戰(zhàn)略層次,由此可見(jiàn),我國(guó)大數(shù)據(jù)發(fā)展歷程較短,還未形成相關(guān)人才、技術(shù)積累。
由于數(shù)字化基礎(chǔ)相對(duì)薄弱以及發(fā)展時(shí)間較晚,我國(guó)大數(shù)據(jù)產(chǎn)業(yè)成熟度較低。大數(shù)據(jù)發(fā)展的基礎(chǔ)是海量的數(shù)字化信息資源,而與美國(guó)、歐洲等發(fā)達(dá)國(guó)家相比,我國(guó)產(chǎn)業(yè)信息化發(fā)展起步較晚,產(chǎn)業(yè)數(shù)字化基礎(chǔ)還比較薄弱,數(shù)據(jù)資源相對(duì)匱乏,特別是在農(nóng)業(yè)領(lǐng)域。隨著人類(lèi)步入信息化社會(huì),數(shù)據(jù)信息變得尤為重要,大數(shù)據(jù)的發(fā)展不僅具有積極的社會(huì)意義、巨大的商業(yè)價(jià)值,于國(guó)家層面還擁有巨大的戰(zhàn)略意義,而目前我國(guó)大數(shù)據(jù)發(fā)展歷程較短,尚處于初級(jí)階段,核心技術(shù)還有待提高。