我國大數(shù)據(jù)產業(yè)尚處于初級階段
隨著互聯(lián)網的普及,人類社會進入到信息化發(fā)展的時代,數(shù)字化管理是信息時代的重要特征,因此各個行業(yè)每時每刻都會產生海量的數(shù)據(jù)。大數(shù)據(jù)是信息化社會急速發(fā)展的產物,具有數(shù)據(jù)規(guī)模大、流傳速度快、多樣化、價值密度低以及數(shù)據(jù)在線五大特點,并且大數(shù)據(jù)產業(yè)的附加值主要來源于數(shù)據(jù)加工。
隨著大數(shù)據(jù)基礎技術的逐漸完善,大數(shù)據(jù)發(fā)展進入應用階段,但是由于發(fā)展時間晚以及數(shù)字化基礎相對薄弱,我國大數(shù)據(jù)產業(yè)尚處于初級階段。面對如此龐大激增的數(shù)據(jù)量,常規(guī)軟件無法在一定時間內實現(xiàn)數(shù)據(jù)的捕捉、管理與處理,需要新的數(shù)據(jù)處理模式,大數(shù)據(jù)正是基于以上背景應運而生。
大數(shù)據(jù)的概念與特征
大數(shù)據(jù)簡單來講就是海量數(shù)據(jù)的集合,通過綜合數(shù)據(jù)之間的相互關聯(lián)性,大數(shù)據(jù)分析擁有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力,能夠應對海量、高增長率和多樣化的信息資產。相比于傳統(tǒng)的數(shù)據(jù)處理模式,在容量方面,大數(shù)據(jù)達到了PB(相當于1024TB、1048576GB)以上級別,這是傳統(tǒng)的數(shù)據(jù)庫技術和單部計算機幾乎無法存儲處理的;在數(shù)據(jù)處理結果方面,大數(shù)據(jù)能夠通過將不同類別的數(shù)據(jù)匯總,做出更加系統(tǒng)合理的決策;在價值挖掘方面,大數(shù)據(jù)覆蓋面廣闊,實現(xiàn)了各個領域的數(shù)據(jù)一體化,因而能夠通過相互關聯(lián)的多樣化數(shù)據(jù)及時發(fā)現(xiàn)潛在價值信息;在流程優(yōu)化能力方面,大數(shù)據(jù)能夠打包聯(lián)合流程所需的各種數(shù)據(jù),極大地提高了辦事效率。
大數(shù)據(jù)具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉、多樣的數(shù)據(jù)類型、價值密度低和數(shù)據(jù)在線五大特征。數(shù)據(jù)量方面,大數(shù)據(jù)的采集、存儲以及計算量都十分巨大,起始計量單位至少是PB(1000個TB)、EB(100萬個TB)或ZB(10億個TB);數(shù)據(jù)流轉速度方面,相比于傳統(tǒng)數(shù)據(jù)處理模式,大數(shù)據(jù)在數(shù)據(jù)處理速度上有了跨越式的提升,從而能夠極大提升數(shù)據(jù)流傳速度;數(shù)據(jù)類型方面,大數(shù)據(jù)包括數(shù)字、網絡日志、視頻、音頻等結構化、半結構化以及非結構化數(shù)據(jù),數(shù)據(jù)來源廣闊,數(shù)據(jù)類型十分豐富;價值密度方面,由于大數(shù)據(jù)采集以全面為主,不設采集門檻,因此采集的大量數(shù)據(jù)是重復的,無效的,低價值的,必須通過特定的模型及算法挖掘有價值的信息;數(shù)據(jù)在線方面,區(qū)別于磁盤中的離線數(shù)據(jù),大數(shù)據(jù)是永遠在線的,能夠隨時調用和計算。
數(shù)據(jù)加工成為大數(shù)據(jù)產業(yè)的附加值
大數(shù)據(jù)產業(yè)的價值點體現(xiàn)在數(shù)據(jù)的處理加工方面。區(qū)別于其他產業(yè),大數(shù)據(jù)產業(yè)的“產品”并非以實體方式存在,而是以虛擬的數(shù)據(jù)結果呈現(xiàn),更多的是為分析決策提供有力的科學依據(jù),起到關鍵性的輔助作用。大數(shù)據(jù)產業(yè)的基本要素是海量的數(shù)據(jù),雖然數(shù)據(jù)本身價值量比較固定,但是大數(shù)據(jù)企業(yè)可以根據(jù)數(shù)據(jù)之間的關聯(lián)性,通過特定的模型及算法,對數(shù)據(jù)進行二次“加工”,即處理分析之后,便能夠發(fā)掘隱藏在數(shù)據(jù)中的價值信息,從而實現(xiàn)數(shù)據(jù)的“增值”。
信息化時代,大數(shù)據(jù)挖掘信息潛在價值的能力至關重要。各個產業(yè)信息化的發(fā)展給大數(shù)據(jù)產業(yè)奠定了大量的數(shù)據(jù)基礎,使得大數(shù)據(jù)企業(yè)能夠依據(jù)海量的數(shù)據(jù)資源挖掘數(shù)據(jù)潛在價值,實現(xiàn)對目標信息的獲取。比如,Target超市以20多種懷孕期間孕婦可能會購買的商品為基礎,將所有用戶的購買記錄作為數(shù)據(jù)來源,通過構建模型分析購買者的行為相關性,進而準確地推斷出孕婦的具體臨盆時間,這樣Target的銷售部門就可以有針對的在每個懷孕顧客的不同階段寄送相應的產品優(yōu)惠卷。
大數(shù)據(jù)發(fā)展進入應用階段,而我國大數(shù)據(jù)產業(yè)成熟度較低
縱觀全球大數(shù)據(jù)的發(fā)展歷程,一共經歷了四個發(fā)展階段。
1990-2002年屬于大數(shù)據(jù)的萌芽階段,隨著數(shù)據(jù)庫技術以及數(shù)據(jù)挖掘技術的推廣,大量商業(yè)智能工具以及數(shù)據(jù)管理系統(tǒng)被開發(fā)出來,比如圖書館數(shù)據(jù)管理系統(tǒng)、倉庫數(shù)據(jù)管理系統(tǒng)、知識管理系統(tǒng)。
2003-2006年屬于大數(shù)據(jù)發(fā)展的突破階段,隨著手機以及個人電腦的迅速普及,大量的Web信息、圖像、音頻及視頻等非結構化數(shù)據(jù)產生,傳統(tǒng)的數(shù)據(jù)庫技術不便實現(xiàn)對這些非結構數(shù)據(jù)的管理,從而帶動了大數(shù)據(jù)技術的快速突破,標志性的事件是2005年雅虎實行的Hadoop項目,為結構化與復雜數(shù)據(jù)的快速、可靠分析奠定了基礎。
2006-2009期間屬于大數(shù)據(jù)發(fā)展的成熟階段,大數(shù)據(jù)解決方案逐漸走向成熟,形成了并行計算與分布式系統(tǒng)兩大核心技術,谷歌的GFS和MapReduce等大數(shù)據(jù)技術得到廣泛應用。
2009年至今屬于大數(shù)據(jù)發(fā)展的應用階段,隨著大數(shù)據(jù)基礎理論發(fā)展的不斷成熟,人們開始轉向大數(shù)據(jù)的應用研究,大數(shù)據(jù)開始向商業(yè)、教育、工業(yè)、醫(yī)療、交通等領域滲透。
據(jù)統(tǒng)計,我國每年的新增數(shù)據(jù)量僅為美國的7%,歐洲的12%,并且我國數(shù)據(jù)資源存在著標準化、準確性、完整性低,利用價值不高的特點。薄弱的產業(yè)數(shù)據(jù)基礎嚴重制約了我國大數(shù)據(jù)的發(fā)展,并且這一現(xiàn)狀短期難以改善,只能隨著產業(yè)信息化發(fā)展的不斷深入,逐步積累數(shù)據(jù)資源,強化基礎。政策推動方面,我國在2014年的《政府工作報告中》首次出現(xiàn)了大數(shù)據(jù)一詞,2015年的《促進大數(shù)據(jù)發(fā)展行動綱要》標志我國大數(shù)據(jù)上升到國家戰(zhàn)略層次,由此可見,我國大數(shù)據(jù)發(fā)展歷程較短,還未形成相關人才、技術積累。
由于數(shù)字化基礎相對薄弱以及發(fā)展時間較晚,我國大數(shù)據(jù)產業(yè)成熟度較低。大數(shù)據(jù)發(fā)展的基礎是海量的數(shù)字化信息資源,而與美國、歐洲等發(fā)達國家相比,我國產業(yè)信息化發(fā)展起步較晚,產業(yè)數(shù)字化基礎還比較薄弱,數(shù)據(jù)資源相對匱乏,特別是在農業(yè)領域。隨著人類步入信息化社會,數(shù)據(jù)信息變得尤為重要,大數(shù)據(jù)的發(fā)展不僅具有積極的社會意義、巨大的商業(yè)價值,于國家層面還擁有巨大的戰(zhàn)略意義,而目前我國大數(shù)據(jù)發(fā)展歷程較短,尚處于初級階段,核心技術還有待提高。