數(shù)據(jù)與大數(shù)據(jù)的區(qū)分
大數(shù)據(jù)(big data)是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)本身是基于數(shù)據(jù)價值化而構(gòu)建出來的新概念,雖然概念比較新,但是數(shù)據(jù)卻一直都在,所以大數(shù)據(jù)的核心并不在“大”上,而是基于大數(shù)據(jù)所構(gòu)建出的一個新的價值空間。
在理解大數(shù)據(jù)概念的時候,通常都有幾個較為明顯的誤區(qū),其一是只有足夠大的數(shù)據(jù)才能算是大數(shù)據(jù)范疇;其二是大數(shù)據(jù)和互聯(lián)網(wǎng)是隔離的;其三是大數(shù)據(jù)就是統(tǒng)計學;其四是大數(shù)據(jù)會“殺熟”,應該盡量遠離大數(shù)據(jù)等等。
在大數(shù)據(jù)時代,任何體量的數(shù)據(jù)都可以采用大數(shù)據(jù)技術(shù)進行處理,傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)處理方式也已經(jīng)并入到了大數(shù)據(jù)的技術(shù)體系,所以大數(shù)據(jù)技術(shù)本身對于數(shù)據(jù)量的大小并沒有絕對的要求,并不是說數(shù)據(jù)量小就不能采用大數(shù)據(jù)技術(shù)。
目前大數(shù)據(jù)人才的培養(yǎng)既包括研究生教育(培養(yǎng)創(chuàng)新型人才),也包括??平逃捅究平逃?,隨著大數(shù)據(jù)技術(shù)體系的逐漸成熟,學習大數(shù)據(jù)的過程也會更為順利。
大數(shù)據(jù)本身是互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和傳統(tǒng)信息系統(tǒng)共同發(fā)展所導致的結(jié)果,所以大數(shù)據(jù)與互聯(lián)網(wǎng)存在緊密的聯(lián)系,事實上目前互聯(lián)網(wǎng)領(lǐng)域是推動大數(shù)據(jù)發(fā)展的重要力量,所以大數(shù)據(jù)與互聯(lián)網(wǎng)本身就密不可分。從互聯(lián)網(wǎng)發(fā)展的前景來看,大數(shù)據(jù)是互聯(lián)網(wǎng)價值的重要體現(xiàn),所以未來大數(shù)據(jù)的價值必然會不斷得到提升。目前大數(shù)據(jù)分析技術(shù)往往會采用統(tǒng)計學的方式,這導致不少人認為大數(shù)據(jù)就是統(tǒng)計學,實際上大數(shù)據(jù)在進行數(shù)據(jù)分析的過程中,不僅需要統(tǒng)計學技術(shù),也需要機器學習相關(guān)技術(shù)。當然,統(tǒng)計學作為大數(shù)據(jù)的三大基礎(chǔ)學科,在大數(shù)據(jù)技術(shù)體系中占有重要的地位。