解析大數(shù)據(jù)的定義與特征
掃描二維碼
隨時(shí)隨地手機(jī)看文章
大數(shù)據(jù)研究專家維克托·邁爾-舍恩伯格曾經(jīng)說過:世界的本質(zhì)是數(shù)據(jù)。在他看來,認(rèn)識(shí)大數(shù)據(jù)之前,世界原本就是一個(gè)數(shù)據(jù)時(shí)代;認(rèn)識(shí)大數(shù)據(jù)之后,世界不可避免地分為大數(shù)據(jù)時(shí)代、小數(shù)據(jù)時(shí)代。
隨著社會(huì)不斷發(fā)展的腳步,各類數(shù)據(jù)不斷累積,如果說小數(shù)據(jù)時(shí)代的各類分析調(diào)研更多的是靠樣本采集,那么現(xiàn)在,不管從數(shù)據(jù)的維度還是層次來看,數(shù)據(jù)體量的累積已經(jīng)到了一個(gè)非常夯實(shí)的階段。
在這兩個(gè)時(shí)代的過渡中,人們也自然而然的從先前的樣本思維轉(zhuǎn)變成大數(shù)據(jù)時(shí)代需要具備的整體思維,以更好的運(yùn)用大數(shù)據(jù),或者說,抽樣調(diào)查將成為過去時(shí),對(duì)所有數(shù)據(jù)進(jìn)行分析處理才是大數(shù)據(jù)時(shí)代應(yīng)有的思維方式。
大數(shù)據(jù)的多種定義
對(duì)于大數(shù)據(jù)的具體定義和價(jià)值,大多數(shù)人都停留在知其然而不知其所以然的階段。
但這也并不妨礙大數(shù)據(jù)這一詞匯在大眾心中的高度,它代表著先進(jìn),代表著高科技,代表著不可預(yù)知但可以預(yù)見的未來世界。
麥肯錫最早提出了大數(shù)據(jù)時(shí)代的到來:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來?!?/p>
對(duì)于大數(shù)據(jù)的定義,權(quán)威機(jī)構(gòu)們給出了不同的表述:
世界知名咨詢企業(yè)Gartner給出的定義是:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。
還有一些是這樣表述的,大數(shù)據(jù)是指“無(wú)法用現(xiàn)有的軟件工具提取、存儲(chǔ)、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合?!?/p>
不管是信息資產(chǎn)還是數(shù)據(jù)集合,這些定義無(wú)不在昭示著大數(shù)據(jù)對(duì)于人們未來社會(huì)的價(jià)值。
大數(shù)據(jù)的特征
大數(shù)據(jù)(BigData)是指「無(wú)法用現(xiàn)有的軟件工具提取、存儲(chǔ)、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合。」業(yè)界通常用4個(gè)V(即Volume、Variety、Value、Velocity)來概括大數(shù)據(jù)的特征。
Volume,數(shù)據(jù)體量巨大。如果單單從存儲(chǔ)量方面來考量的話,從最小的數(shù)據(jù)存儲(chǔ)單位bit開始,按順序往上Byte、KB、MB、GB、TB、PB、EB……那么截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量可達(dá)數(shù)百PB,而歷史上有記載開始人類說過的所有的話的數(shù)據(jù)量大約要以EB來衡量。截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=210PB)。
Variety,數(shù)據(jù)類型繁多。類型的多樣性讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對(duì)于以往便于存儲(chǔ)的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高要求。
Value,價(jià)值密度低。價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。數(shù)據(jù)總量越大,無(wú)效冗余的數(shù)據(jù)則越多,如何通過強(qiáng)大的機(jī)器算法迅速地完成數(shù)據(jù)的價(jià)值“提純”是目前大數(shù)據(jù)背景下亟待解決的難題。
Velocity,處理速度快。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征,根據(jù)IDC“數(shù)字宇宙”的報(bào)告,預(yù)計(jì)到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。
大數(shù)據(jù)的類型大致可分為三類:
傳統(tǒng)企業(yè)數(shù)據(jù)(Traditional enterprise data):包括 CRM systems的消費(fèi)者數(shù)據(jù),傳統(tǒng)的ERP數(shù)據(jù),庫(kù)存數(shù)據(jù)以及賬目數(shù)據(jù)等。
機(jī)器和傳感器數(shù)據(jù)(Machine-generated /sensor data):包括呼叫記錄(Call Detail Records),智能儀表,工業(yè)設(shè)備傳感器,設(shè)備日志(通常是Digital exhaust),交易數(shù)據(jù)等。
社交數(shù)據(jù)(Social data):包括用戶行為記錄,反饋數(shù)據(jù)等。如Twitter,F(xiàn)acebook這樣的社交媒體平臺(tái)。