解析大數(shù)據(jù)的定義與特征

時(shí)間：2020-06-29 07:15:02

關(guān)鍵字： crm 傳感器數(shù)據(jù) 大數(shù)據(jù)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 大數(shù)據(jù)研究專家維克托·邁爾-舍恩伯格曾經(jīng)說(shuō)過(guò)：世界的本質(zhì)是數(shù)據(jù)。在他看來(lái)，認(rèn)識(shí)大數(shù)據(jù)之前，世界原本就是一個(gè)數(shù)據(jù)時(shí)代；認(rèn)識(shí)大數(shù)據(jù)之后，世界不可避免地分為大數(shù)據(jù)時(shí)代、小數(shù)據(jù)時(shí)代。隨著社會(huì)不

大數(shù)據(jù)研究專家維克托·邁爾-舍恩伯格曾經(jīng)說(shuō)過(guò)：世界的本質(zhì)是數(shù)據(jù)。在他看來(lái)，認(rèn)識(shí)大數(shù)據(jù)之前，世界原本就是一個(gè)數(shù)據(jù)時(shí)代；認(rèn)識(shí)大數(shù)據(jù)之后，世界不可避免地分為大數(shù)據(jù)時(shí)代、小數(shù)據(jù)時(shí)代。

隨著社會(huì)不斷發(fā)展的腳步，各類數(shù)據(jù)不斷累積，如果說(shuō)小數(shù)據(jù)時(shí)代的各類分析調(diào)研更多的是靠樣本采集，那么現(xiàn)在，不管從數(shù)據(jù)的維度還是層次來(lái)看，數(shù)據(jù)體量的累積已經(jīng)到了一個(gè)非常夯實(shí)的階段。

在這兩個(gè)時(shí)代的過(guò)渡中，人們也自然而然的從先前的樣本思維轉(zhuǎn)變成大數(shù)據(jù)時(shí)代需要具備的整體思維，以更好的運(yùn)用大數(shù)據(jù)，或者說(shuō)，抽樣調(diào)查將成為過(guò)去時(shí)，對(duì)所有數(shù)據(jù)進(jìn)行分析處理才是大數(shù)據(jù)時(shí)代應(yīng)有的思維方式。

大數(shù)據(jù)的多種定義

對(duì)于大數(shù)據(jù)的具體定義和價(jià)值，大多數(shù)人都停留在知其然而不知其所以然的階段。

但這也并不妨礙大數(shù)據(jù)這一詞匯在大眾心中的高度，它代表著先進(jìn)，代表著高科技，代表著不可預(yù)知但可以預(yù)見(jiàn)的未來(lái)世界。

麥肯錫最早提出了大數(shù)據(jù)時(shí)代的到來(lái)：“數(shù)據(jù)，已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域，成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用，預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。”

對(duì)于大數(shù)據(jù)的定義，權(quán)威機(jī)構(gòu)們給出了不同的表述：

世界知名咨詢企業(yè)Gartner給出的定義是：“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來(lái)適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。

麥肯錫全球研究所給出的定義是：一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合，具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。

還有一些是這樣表述的，大數(shù)據(jù)是指“無(wú)法用現(xiàn)有的軟件工具提取、存儲(chǔ)、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合?！?/p>

不管是信息資產(chǎn)還是數(shù)據(jù)集合，這些定義無(wú)不在昭示著大數(shù)據(jù)對(duì)于人們未來(lái)社會(huì)的價(jià)值。

大數(shù)據(jù)的特征

大數(shù)據(jù)（BigData）是指「無(wú)法用現(xiàn)有的軟件工具提取、存儲(chǔ)、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合。」業(yè)界通常用4個(gè)V（即Volume、Variety、Value、Velocity）來(lái)概括大數(shù)據(jù)的特征。

Volume，數(shù)據(jù)體量巨大。如果單單從存儲(chǔ)量方面來(lái)考量的話，從最小的數(shù)據(jù)存儲(chǔ)單位bit開(kāi)始，按順序往上Byte、KB、MB、GB、TB、PB、EB……那么截至目前，人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量可達(dá)數(shù)百PB，而歷史上有記載開(kāi)始人類說(shuō)過(guò)的所有的話的數(shù)據(jù)量大約要以EB來(lái)衡量。截至目前，人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB，而歷史上全人類說(shuō)過(guò)的所有的話的數(shù)據(jù)量大約是5EB（1EB=210PB）。

Variety，數(shù)據(jù)類型繁多。類型的多樣性讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對(duì)于以往便于存儲(chǔ)的以文本為主的結(jié)構(gòu)化數(shù)據(jù)，非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越多，包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等，這些多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高要求。

Value，價(jià)值密度低。價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。數(shù)據(jù)總量越大，無(wú)效冗余的數(shù)據(jù)則越多，如何通過(guò)強(qiáng)大的機(jī)器算法迅速地完成數(shù)據(jù)的價(jià)值“提純”是目前大數(shù)據(jù)背景下亟待解決的難題。

Velocity，處理速度快。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征，根據(jù)IDC“數(shù)字宇宙”的報(bào)告，預(yù)計(jì)到2020年，全球數(shù)據(jù)使用量將達(dá)到35.2ZB。在如此海量的數(shù)據(jù)面前，處理數(shù)據(jù)的效率就是企業(yè)的生命。

大數(shù)據(jù)的類型大致可分為三類：

傳統(tǒng)企業(yè)數(shù)據(jù)（Traditional enterprise data）：包括 CRM systems的消費(fèi)者數(shù)據(jù)，傳統(tǒng)的ERP數(shù)據(jù)，庫(kù)存數(shù)據(jù)以及賬目數(shù)據(jù)等。

機(jī)器和傳感器數(shù)據(jù)（Machine-generated /sensor data）：包括呼叫記錄（Call Detail Records），智能儀表，工業(yè)設(shè)備傳感器，設(shè)備日志（通常是Digital exhaust），交易數(shù)據(jù)等。

社交數(shù)據(jù)（Social data）：包括用戶行為記錄，反饋數(shù)據(jù)等。如Twitter，F(xiàn)acebook這樣的社交媒體平臺(tái)。