大數(shù)據(jù):改變游戲規(guī)則的技術(shù)
掃描二維碼
隨時隨地手機看文章
不管你怎么看,大數(shù)據(jù)既讓人頭疼,又是一大機遇。從 一大堆結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中實時展現(xiàn)有用事實的能力, 也許能幫助政府機構(gòu)更好地決策,簡化流程,細化服務(wù)。
定義
盡管關(guān)于大數(shù)據(jù)沒有一個統(tǒng)一的定義,但大數(shù)據(jù)主要指 的是規(guī)模超過一般數(shù)據(jù)庫軟件工具能力(捕獲能力、存儲能力、管理能力和分析能力)的數(shù)據(jù)集。關(guān)于大數(shù)據(jù)的定義,每個 行業(yè)不盡相同,主要看使用的軟件工具以及數(shù)據(jù)集的規(guī)模。
系統(tǒng)地認識大數(shù)據(jù)
大數(shù)據(jù)的發(fā)展主要由網(wǎng)絡(luò)的爆炸性發(fā)展而推動。行業(yè)觀 察員估計,2008年,網(wǎng)絡(luò)接入數(shù)量首次超過了全球人口 ;到 2020年,預(yù)計網(wǎng)絡(luò)接入數(shù)量將超過500億。
麥肯錫對大數(shù)據(jù)進行大量研究后表示,2010年,全球所 有機構(gòu)硬盤上儲存的新數(shù)據(jù)數(shù)量超過了 7艾字節(jié),而消費者 在個人電腦和筆記本電腦上儲存的新數(shù)據(jù)也達到6艾字節(jié)。1 艾字節(jié)的數(shù)據(jù)量是美國國會圖書館數(shù)據(jù)量的四倍。市場研究 公司IDC說,在美國聯(lián)邦政府,數(shù)據(jù)量每兩年就翻一番,且 近期沒有速度放緩的趨勢。
公私行業(yè)的很多機構(gòu)都面臨著大數(shù)據(jù)處理的挑戰(zhàn)。例如,如何從這些數(shù)據(jù)中獲得運營價值。大數(shù)據(jù)“大”在何處是個 不容易回答的問題。NIST信息技術(shù)實驗室信息存取處負責人 Ashit Talukder表示,大數(shù)據(jù)很難捕獲、存儲、捜索、分享和 分析,而且增長很快。Talukder說:“大數(shù)據(jù)可能包含了百億 甚至萬億條記錄,它們結(jié)構(gòu)松散,甚至沒有結(jié)構(gòu)?!?
Talukder表示,這些記錄大部分都是混雜的,且模式多樣, 分布在多個網(wǎng)絡(luò)或云環(huán)境中。這些記錄還彼此聯(lián)系,數(shù)據(jù)來 源多樣。
同時,AIIM近期的一份調(diào)查顯示,60%的IT執(zhí)行官認 為把結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)集聯(lián)系起來“非常有用”。調(diào)查 中,超過半數(shù)的被調(diào)查者表示,他們認為對非機構(gòu)性數(shù)據(jù)展 開深入分析“很有價值”(56%)或“非常有價值”(18%)。
大數(shù)據(jù)的主要特點
大數(shù)據(jù)主要有如下特點(3V):
-容量(Volume) ——超大數(shù)據(jù)規(guī)模;
-速度(Velocity)——數(shù)據(jù)流速快;
?種類(Variety)—涉及各種數(shù)據(jù)、網(wǎng)絡(luò)和節(jié)點等。
此外,當提到方法時,大數(shù)據(jù)通常指的是數(shù)據(jù)分析的發(fā) 現(xiàn)方法,即可用數(shù)據(jù)或使用數(shù)據(jù)的能力以獨特的方式結(jié)合后產(chǎn) 生了其他方法不可能產(chǎn)生的發(fā)現(xiàn)。當前,政府機構(gòu)收集的數(shù) 據(jù)中只有一小部分進行了處理和分析。Talukder表示,大數(shù)據(jù) 的容量和復(fù)雜性引發(fā)了很多挑戰(zhàn)。然而,大數(shù)據(jù)也為“知識型” 分析和發(fā)現(xiàn)(而非“假設(shè)性”發(fā)現(xiàn))提供了巨大潛能?!八?望解決以前無法解決的問題,并從以前未處理的數(shù)據(jù)中獲得新 的發(fā)現(xiàn)?!?
云中的大數(shù)據(jù)
云計算為大數(shù)據(jù)提供了一個優(yōu)化儲存、計算、存取和虛 擬的環(huán)境。根據(jù)NIST,云的互通性可以讓不同云中的數(shù)據(jù)集 彼此協(xié)作,增強了共享、協(xié)作和分析多個大型數(shù)據(jù)集的能力。
云計算創(chuàng)造了一個獨一無二的作為主機、存儲、處理和 存取大數(shù)據(jù)的機會,這種靈活的方式可隨時隨地按需存取數(shù) 據(jù)。政府機構(gòu)很快有望利用云計算應(yīng)對大數(shù)據(jù)的挑戰(zhàn):
?為上百萬研究人員提供強大的研究工具;
-極大地縮短費時研究的周期;
-利用規(guī)模經(jīng)濟極大減少IT研究開支。
除了云計算能幫助政府機構(gòu)分析大數(shù)據(jù)流這一潛在優(yōu)勢 外,Talukder堅持認為,要讓大數(shù)據(jù)分析的承諾變?yōu)楝F(xiàn)實, 還有很多地方需要改善。例如,我們需要大數(shù)據(jù)軟件、運算法則、硬件和基礎(chǔ)設(shè)施方面更好的標準,量度和互通性?;A(chǔ)數(shù)學(xué) 和統(tǒng)計學(xué)需要發(fā)展,包括大數(shù)據(jù)的機器學(xué)習(xí),大數(shù)據(jù)的分析 和類型認知,以及二次抽樣和不確定性的量度標準。
Talukder還對大量復(fù)雜數(shù)據(jù)的運算法則提出了更高要求, 同時還應(yīng)增強大數(shù)據(jù)的虛擬化和實用性,更好的集群、分類 和安全以及隱私保護。另外,大數(shù)據(jù)存儲、計算和顯示/虛擬 化方面的網(wǎng)絡(luò)、硬件和軟件基礎(chǔ)設(shè)施技術(shù)的技術(shù)改進也很有 必要。事實上,云計算和大數(shù)據(jù)配合默契(見表1)。
表1云計算和大數(shù)據(jù)的配合意義
云計算和大數(shù)據(jù)配合默契 |
|
云供應(yīng)商 按需自助服務(wù) 無處不在的網(wǎng)絡(luò)接入 資源共享 快速適應(yīng)性 限制接入的(公私)混合云 |
大數(shù)據(jù)需求 故障容差 多種協(xié)議 靈活性(存儲、內(nèi)存、網(wǎng)絡(luò)等) 靈活性(節(jié)點分配/拆卸) 安全數(shù)據(jù)接入 |
大數(shù)據(jù)分析的興起
大數(shù)據(jù)分析可以在多個領(lǐng)域部署,通過數(shù)據(jù)使用得出的 實驗證據(jù)解決運行流程中的主要問題,挖掘新的發(fā)現(xiàn),而不 是利用傳統(tǒng)的分析方法。以下一些主要行業(yè)和領(lǐng)域,還能從 大數(shù)據(jù)分析中獲益:
-環(huán)境和地球科學(xué);
-醫(yī)療科學(xué);
?天文學(xué);
-網(wǎng)絡(luò)安全;
?辯論學(xué)(物理和電腦/網(wǎng)絡(luò)的辯論學(xué));
?檢測;
?社會媒體分析;
?復(fù)雜網(wǎng)絡(luò)系統(tǒng)的設(shè)計和運營;
?交通物流優(yōu)化;
?知識產(chǎn)權(quán)管理;
?天氣預(yù)報;
?自然資源的開采和保護;
?災(zāi)后預(yù)測性評估。
Gartner的研究中強調(diào)應(yīng)向更加“情景感知化”的安全模 式轉(zhuǎn)變。例如,網(wǎng)絡(luò)上來自傳感器和其他設(shè)備的數(shù)據(jù)可用于 抵御網(wǎng)絡(luò)威脅,即使其他已授權(quán)的安全工具都認為是安全的。Gartner預(yù)測,大數(shù)據(jù)分析將有助于增強監(jiān)管力度,協(xié)助各種 機構(gòu)在提供云服務(wù)時更好地管理數(shù)據(jù)和系統(tǒng)。
大數(shù)據(jù)要求大思路
據(jù)預(yù)測,未來兩年,美國政府機構(gòu)將再增加1艾字節(jié)的 數(shù)據(jù)量,這相當于6 200萬個16 GB iPad的數(shù)據(jù)量!
當數(shù)據(jù)的增長速度與轉(zhuǎn)移這些數(shù)據(jù)(很大一部分是視頻、音頻、社會媒體等方式生成的非機構(gòu)性數(shù)據(jù))所需的帶寬和 網(wǎng)速相關(guān)聯(lián)時,問題就變得非常清晰:大數(shù)據(jù)的規(guī)模和復(fù)雜 性超過了標準工具在一定時間內(nèi)能捕獲、存儲、管理和分析的 能力。
NetApp公司美國公共行業(yè)首席技術(shù)官員Dale Wickizer 說:“在數(shù)據(jù)處理方面,各機構(gòu)都處在轉(zhuǎn)折點上,開展業(yè)務(wù)也 變得困難。如果不加以改變,數(shù)據(jù)會把你淹沒,成為基礎(chǔ)設(shè) 施的沉重開支和風險負擔。但如果你知道如何利用它,它就 會變成一個資本?!?
最近,MeriTalk的調(diào)查也證實了這個說法??偟膩碚f,政府機構(gòu)的負責人都希望能有更好的方式來利用數(shù)據(jù)提高效 率,加速決策并改善預(yù)測能力。各機構(gòu)預(yù)計,當前,他們只存 取了49%的數(shù)據(jù),利用了 46%的計算能力,只有44%的人需 要利用大數(shù)據(jù)來開展工作。
隨著大數(shù)據(jù)越來越成為存儲方面的挑戰(zhàn),非常有必要讓 既懂存儲又了解聯(lián)邦政府的專家介入。
20211020_616eebdd13fba__大數(shù)據(jù)