當(dāng)前位置:首頁 > 物聯(lián)網(wǎng) > 《物聯(lián)網(wǎng)技術(shù)》雜志
[導(dǎo)讀]摘要:當(dāng)大數(shù)據(jù)分析逐漸成為主流時,它將會變得和其他早期的技術(shù)一樣普遍,大數(shù)據(jù)分析也會逐步成為一種日常工具。文中分析了大數(shù)據(jù)分析面臨的主要挑戰(zhàn),以及數(shù)據(jù)從累積到分析的分析學(xué)體系,同時分析了大數(shù)據(jù)分析市場的未來趨勢,給出了大數(shù)據(jù)分析的關(guān)鍵還在于人為操作的結(jié)論。

大數(shù)據(jù)分析面臨的主要挑戰(zhàn)

大數(shù)據(jù)是一項(xiàng)艱巨的挑戰(zhàn)。眾所周知,當(dāng)今時代,數(shù)據(jù)正以爆炸式的速度增長,世界上總共有多少數(shù)據(jù),沒人能給出確切的答案。

谷歌前首席執(zhí)行官埃里克?施密特稱,“我們現(xiàn)在創(chuàng)造出來的信息量相當(dāng)于過去整個人類歷史創(chuàng)造出來的文明。從數(shù)字時代開始到2003年,我們只創(chuàng)造出5艾字節(jié)的信息。但是,我們現(xiàn)在每兩天就能創(chuàng)造出5艾字節(jié)的信息,而且信息增長的速度還在不斷加快?!?

這個數(shù)據(jù)似乎有些言過其實(shí)。RJMetrics首席執(zhí)行官RobertJ.Moore,在最近的TEDx演講欄目中提到,2002年,只有23艾字節(jié)的信息被記錄和復(fù)制,但我們現(xiàn)在每七天就能更新和轉(zhuǎn)移這么多數(shù)據(jù)。

Gartner稱,企業(yè)數(shù)據(jù)在未來5年內(nèi)將增長650%。IDC的說法是,全世界的信息在一年半內(nèi)即可翻一倍。IDC稱,2011年,我們創(chuàng)造了1.8澤字節(jié)(1.8兆GBs)的信息,若要將這些信息儲存在電子設(shè)備中,則需要575億臺規(guī)格為32G的iPad,將如此多的iPad連接起來,長度是萬里長城的兩倍。

數(shù)據(jù)的創(chuàng)造腳步勢必加快,尤其是當(dāng)今機(jī)器對機(jī)器通訊技術(shù)的成本降低,人們獲取技術(shù)更為便捷。試想一下,所有傳感器網(wǎng)絡(luò)、防盜警報(bào)器、車輛遠(yuǎn)程通訊系統(tǒng)等加在一起,將會創(chuàng)造出多么龐大的數(shù)據(jù)。

IBM稱,我們每一天都能創(chuàng)造出2.519字節(jié)的信息。數(shù)據(jù)正在指數(shù)式增長,并且,當(dāng)今世界上90%的數(shù)據(jù)都是在過去兩年內(nèi)創(chuàng)造出來的。這些數(shù)據(jù)來自各個地方,比如傳感器收集氣象信息上傳到社交網(wǎng)站,數(shù)字圖像和數(shù)字視頻,電子商務(wù)交易記錄,GPS坐標(biāo)等等。

當(dāng)然,在早期人類歷史上,像推特之類的簡短信息并沒有記錄下來,所以對比只能到此為止。實(shí)際生活中,每一天我們都在創(chuàng)造如下數(shù)據(jù):

?超過2.04億封電子郵件消息;

?超過200萬的谷歌查詢;

48小時更新的YouTube視頻;

68.4萬條分享在Facebook上的內(nèi)容;

?10萬余條推特;

?27.2萬美元的電子商務(wù)投資;

3600張分享在Instagram新照片;

?將近350篇新發(fā)布的WordPress博客。

圖1所示是人們每天所創(chuàng)造的數(shù)據(jù)示意圖。

大數(shù)據(jù)分析概要

圖1每天所創(chuàng)造的數(shù)據(jù)示意圖(圖片來源于:DOMO)

大數(shù)據(jù)面臨的挑戰(zhàn)在于,不同系統(tǒng)中到處都能儲存數(shù)據(jù)。打破相互獨(dú)立的數(shù)據(jù)系統(tǒng),標(biāo)準(zhǔn)化操作是當(dāng)今面臨的主要任務(wù)。另外一個主要任務(wù)是創(chuàng)建大數(shù)據(jù)平臺,可以存儲結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

當(dāng)你進(jìn)入大數(shù)據(jù)這塊領(lǐng)域時,你會發(fā)現(xiàn)更多神秘的挑戰(zhàn)。比如,傳統(tǒng)數(shù)據(jù)庫最初并沒有用到多核處理器。因此,它們在

處理數(shù)據(jù)的時候速度較慢。這導(dǎo)致“快速數(shù)據(jù)”概念的出現(xiàn),像ParStream之類的小型公司正試圖克服數(shù)據(jù)庫遺留的問題。

從累積到分析

我們需要處理許多數(shù)據(jù)。積累數(shù)據(jù)是一回事,而處理數(shù)據(jù)則是另外一回事。收集報(bào)紙、吞拿魚空罐子和小野貓的人,不會被人們視作為一個有辨別力的收集者。想象一下,你也不會到廢物囤積者家中學(xué)習(xí)歷史,因?yàn)槟莾嚎捎玫男畔⒉欢?。相反,我們一般會去從古董收藏家那獲得知識。

盡管有了數(shù)據(jù),這個世界上還是有很多囤積者。當(dāng)今數(shù)字儲存價格低廉,因此人們把所有數(shù)據(jù)都儲存起來。確切地說,他們從不會自找麻煩,刪除數(shù)據(jù)。網(wǎng)絡(luò)存儲方面也是一樣,在開始低收費(fèi)之前,在線存儲供應(yīng)商甚至還會定期免費(fèi)放出幾個GB的數(shù)據(jù),供客戶使用。

當(dāng)今,許多企業(yè)正在努力處理無止境擴(kuò)張的數(shù)據(jù),因?yàn)槿绻贿@么做的話,企業(yè)將失去競爭力。

IBM稱,數(shù)據(jù)的指數(shù)化增長將給許多企業(yè)留下嚴(yán)重的盲點(diǎn)。IBM研究發(fā)現(xiàn),企業(yè)領(lǐng)導(dǎo)經(jīng)常許可一些無數(shù)據(jù)支撐的決策,或者他們的決策是基于置信度不高的信息之上。更令人驚訝的是,半數(shù)企業(yè)領(lǐng)導(dǎo)者表示,他們尚未找到可以讓工作效率變高的信息途徑。

雖然大多數(shù)企業(yè)領(lǐng)導(dǎo)者和有關(guān)人員知道,與工作相關(guān)的數(shù)據(jù)確實(shí)存在,但不知道哪里可以獲得這些數(shù)據(jù)。即使他們已經(jīng)有一個大致的想法,他們還不清楚如何將想法提煉,應(yīng)用到實(shí)際生活中。他們試圖尋找這些相關(guān)數(shù)據(jù),但始終沒法確定數(shù)據(jù)的實(shí)時性和準(zhǔn)確性。

大數(shù)據(jù)分析旨在處理上述問題。我們追求的不只是原始數(shù)據(jù),而是分析這些數(shù)據(jù)的技術(shù)。

大數(shù)據(jù)分析體系

當(dāng)技術(shù)達(dá)到能將數(shù)據(jù)獨(dú)立性打破、數(shù)據(jù)分析能力提高時,商業(yè)即可轉(zhuǎn)換成各種形式。分析大數(shù)據(jù)技術(shù)的進(jìn)步能讓研究人員在數(shù)分鐘之內(nèi)解碼人體DNA,這項(xiàng)技術(shù)讓基因公司(如23andme公司)成功運(yùn)轉(zhuǎn)。

同時,研究人員能夠預(yù)測預(yù)謀的襲擊地點(diǎn),特定的疾病是由哪種基因引起,分析你在Facebook上最有可能回復(fù)的廣告內(nèi)容。

事實(shí)上,由PNAS發(fā)布的最新研究顯示,你在Facebook上點(diǎn)擊“贊”的內(nèi)容表明了自己的性格特征,比如你的智力、性別、性取向、政治傾向或者其他個人信息。

然而,部分商業(yè)觀察并沒有令人驚訝,比如喜歡"小商業(yè)星期六”的人可能比典型Facebook用戶的年齡要大;有些商業(yè)觀察讓人困惑,比如喜歡油條與智商高有關(guān)。當(dāng)然,關(guān)聯(lián)并不等于因果關(guān)系,這有可能是隨機(jī)的統(tǒng)計(jì)噪聲。但是,大數(shù)據(jù)分析能識別統(tǒng)計(jì)噪聲。

經(jīng)營大數(shù)據(jù)的商業(yè)案例比喜歡油條更有說服力。例如,為提高最近熱門劇集《紙牌屋》的收視率,網(wǎng)飛公司(Netflix)挖掘用戶數(shù)據(jù),從中加入一些必要的因素。運(yùn)用用戶數(shù)據(jù),同樣促使他們的情景喜劇《發(fā)展受阻》起死回生。

另外一個例子是來自世界上最大的移動運(yùn)營商之

法國電信,該運(yùn)營商發(fā)布了DataforDevelopment項(xiàng)目,為象牙海岸的客戶提供用戶數(shù)據(jù)。數(shù)據(jù)有共計(jì)25億條匿名記錄,包括500萬人之間的通話記錄和互通短信。

許多研究人員訪問數(shù)據(jù)集,給法國電信發(fā)出建議,認(rèn)為這些數(shù)據(jù)可以成為公司發(fā)展項(xiàng)目的基礎(chǔ)。在所提議的項(xiàng)目中,有一項(xiàng)是通過追蹤手機(jī)數(shù)據(jù),了解人們在緊急情況下的去向,以此來提高公共安全的。另一個項(xiàng)目是怎樣用手機(jī)數(shù)據(jù)來了解疾病的傳播。事實(shí)上,推特已在海地霍亂爆發(fā)時成功運(yùn)用了該項(xiàng)功能。

美國國家安全局的Prism項(xiàng)目就是依賴大數(shù)據(jù)分析而運(yùn)行的。這個項(xiàng)目將手機(jī)通話記錄、電子郵件來往、即時通訊聊天、社交媒體等數(shù)據(jù)元導(dǎo)出,并進(jìn)行處理。

政府官員支持這個項(xiàng)目,因?yàn)樗麄冋J(rèn)為大數(shù)據(jù)分析是關(guān)鍵的防御措施。如果某人被認(rèn)定為恐怖組織的嫌疑人,他的通話記錄可以顯示出其他的行蹤,幫助國土安全部的官員鎖定最有可能即將被襲擊的目標(biāo)。

大數(shù)據(jù)分析市場


當(dāng)今,大數(shù)據(jù)分析市場仍處于起步階段。SoftwareAG、Oracle、IBM、Microsoft,SAP、EMC、HP等大型軟件公司互相爭搶充滿生機(jī)的新企業(yè),如Datameer、AlpineDataLabs、SiSense、Cloudmeter。

大型公司花費(fèi)數(shù)十億美元,收購數(shù)據(jù)管理和分析的軟件公司,如Apema、Jacada、MoreITResources、Vertica、Vivisimo等,這些新公司都是依靠風(fēng)險(xiǎn)投資基金得以運(yùn)行的。

更為復(fù)雜的是,一些老公司在市場中也有一席之位,其中包括Pentaho、Splunk、Jaspersoft公司。

許多研究大數(shù)據(jù)分析的新型企業(yè)也有其市場定位,如分別定位于社會營銷(DataSift)、電視廣告購物(RocketFuel),應(yīng)用性能(Cloudmeter)、求職招聘(Bright.com)等領(lǐng)域。

根據(jù)Wikibon的調(diào)查,2012年大數(shù)據(jù)市場總額將達(dá)到114億美元。2013年則將達(dá)到181億美元,比2012年增長61%。到2017年,總額將達(dá)470億美元。以上數(shù)字意味著,在2012-2017年,大數(shù)據(jù)市場總額在以年均31%的速度增長。

顯然,投資商們還有很大空間,因?yàn)槭袌鲱I(lǐng)域仍是商家搶占的地盤。他們希望,在不久的將來,有更多數(shù)據(jù)能被整合。

這就是大數(shù)據(jù)的目標(biāo),我們追求的不只是初始數(shù)據(jù),而是分析數(shù)據(jù)的技術(shù)。圖2所示是大數(shù)據(jù)分析的主要分布。

大數(shù)據(jù)分析概要

圖2大數(shù)據(jù)分析的企業(yè)分布(圖片來源于:DataLanscape.com)

展望未來一一大數(shù)據(jù)的趨勢

(1)開放源代碼

大數(shù)據(jù)獲得動力,關(guān)鍵在于開放源代碼,幫助分解和分析數(shù)據(jù)。Hadoop和NoSQL數(shù)據(jù)庫便是其中的贏家,他們讓其他技術(shù)商望而卻步、處境很被動。

畢竟,我們需要清楚怎樣創(chuàng)建一個平臺,既能解開所有的數(shù)據(jù),克服數(shù)據(jù)相互獨(dú)立的障礙,又能將數(shù)據(jù)重新上鎖。

(2)市場細(xì)分

當(dāng)今,許多通用的大數(shù)據(jù)分析平臺已投入市場,人們同時期望更多平臺的出現(xiàn),可以運(yùn)用在特殊領(lǐng)域,如藥物創(chuàng)新、客戶關(guān)系管理、應(yīng)用性能的監(jiān)控和使用。若市場逐步成熟,在通用分析平臺之上,開發(fā)特定的垂直應(yīng)用將會實(shí)現(xiàn)。但現(xiàn)在的技術(shù)有限,除非考慮利用潛在的數(shù)據(jù)庫技術(shù)作為通用平臺(如Hadoop、NoSQL)。

人們期望更多特定的垂直應(yīng)用出現(xiàn),把目標(biāo)定為特定領(lǐng)域的數(shù)據(jù)分析,這些特定領(lǐng)域包括航運(yùn)業(yè)、銷售業(yè)、網(wǎng)上購物、社交媒體用戶的情緒分析等。

同時,其他公司正在研發(fā)小規(guī)模分析引擎的軟件套件。比如,社交媒體管理工具,這些工具以數(shù)據(jù)分析做為基礎(chǔ)。

(3)預(yù)測分析

建模、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析和大數(shù)據(jù)經(jīng)常被聯(lián)系起來,用以預(yù)測即將發(fā)生的事情和行為。有些事情是很容易被預(yù)測的,比如壞天氣可以影響選民的投票率,但是有些卻很難被準(zhǔn)確預(yù)測。例如,中間選民改變投票決定的決定性因素。

但是,當(dāng)數(shù)據(jù)累加時,我們基本上有能力可以大規(guī)模嘗試一個連續(xù)的基礎(chǔ)。網(wǎng)上零售商重新設(shè)計(jì)購物車,來探索何種設(shè)計(jì)方式能使銷售利潤最大化。根據(jù)病人的飲食、家族史和每天的運(yùn)動量,醫(yī)生有能力預(yù)測未來疾病的風(fēng)險(xiǎn)。

當(dāng)然,在人類歷史的開端,我們就已經(jīng)有各種預(yù)測。但是,在過去,許多預(yù)測都是基于直覺,沒有依靠完整的數(shù)據(jù)集,或者單單靠的是常識。

當(dāng)然,即便有大量數(shù)據(jù)支撐你的預(yù)測,也不表明那些預(yù)測都是準(zhǔn)確的。2007年和2008年,許多對沖基金經(jīng)理和華爾街買賣商分析市場數(shù)據(jù),認(rèn)為房地產(chǎn)泡沫將不會破滅。根據(jù)歷史的數(shù)據(jù),可以預(yù)測出房地產(chǎn)泡沫即將破裂,但是許多分析家堅(jiān)持原有的觀點(diǎn)。

另一方面,預(yù)測分析在許多領(lǐng)域流行起來,例如欺詐發(fā)現(xiàn)(比如在外省使用信用卡時會接到的電話),保險(xiǎn)公司和顧客維系的風(fēng)險(xiǎn)管理。

重新聚焦于人為決策?

機(jī)器學(xué)習(xí)能力不斷提升,逐步成為分析套件里的必要工具。此時,不要驚訝,人類因素正漸漸淡化。

企業(yè)主經(jīng)常嘗試限制人為誤差。任何網(wǎng)絡(luò)安全專家,通過詳細(xì)討論后指出,安全漏洞是由人為誤差而引起的,比如過度依賴弱口令,不慎進(jìn)入釣魚網(wǎng)站或其他安全系數(shù)低的網(wǎng)站。

然而,即使機(jī)器學(xué)習(xí)能力不斷提升,機(jī)器也只能提問我們事先設(shè)定的問題。這會給我們帶來很大限制:若依賴于機(jī)器,我們究竟可以得到多少。

人為因素對大數(shù)據(jù)的出現(xiàn)十分關(guān)鍵。大數(shù)據(jù)領(lǐng)域最有名的兩位預(yù)言家和先驅(qū)者是BillyBeane和NateSilver。Beane曾推廣一個想法:將各種各樣的數(shù)據(jù)聯(lián)系起來,這些數(shù)據(jù)都是關(guān)于被低估的運(yùn)動員的特質(zhì)。接著把這些運(yùn)動員召集起來,組成一支棒球隊(duì)上場比賽。這支較為經(jīng)濟(jì)的團(tuán)隊(duì)竟能與實(shí)力雄厚的隊(duì)伍(比如洋基隊(duì))進(jìn)行抗衡。

有部分人不相信NateSilver的預(yù)測,開發(fā)出不依賴于數(shù)據(jù)分析的軟件,比如UnskewedPolls(中文譯為非傾斜民意調(diào)查,但其實(shí)不然)。因?yàn)樵S多人認(rèn)為Silver只是數(shù)據(jù)庫輪詢方面的專家,但實(shí)際上他在大數(shù)據(jù)分析領(lǐng)域也十分在行。

在不同情況下,最重要的不是機(jī)器搜集數(shù)據(jù)、得到初始數(shù)據(jù),而是人為頂端分析,只有人為因素才使這些數(shù)據(jù)有意義。人們可以將民意調(diào)查的數(shù)據(jù)視為羅夏墨跡測驗(yàn)的結(jié)果。

Silver則不然,他輸入大量數(shù)據(jù),觀察各種民意調(diào)查在不同階段的情況,并參考影響差誤范圍的因素,最后他能做出驚人的準(zhǔn)確預(yù)測。

相似地,每個棒球隊(duì)經(jīng)理十分看重占壘率和其他得分統(tǒng)計(jì),但是很少能像Beane領(lǐng)導(dǎo)的As隊(duì)伍一樣,他用如此少的資金就能抗衡實(shí)力雄厚的球隊(duì)。尋找被低估的運(yùn)動員比尋找天才球員更需要投入精力。你需要知道怎樣合理地和其他球隊(duì)經(jīng)紀(jì)人協(xié)商、交易,你還需要思考,究竟哪一位球員能適應(yīng)新創(chuàng)建的隊(duì)伍。

當(dāng)大數(shù)據(jù)分析逐漸成為主流,它將會變得和其他早期的技術(shù)一樣普遍。大數(shù)據(jù)分析也會逐步成為一種日常工具,但關(guān)鍵還在于人為操作。

20211023_6172f069d13ee__大數(shù)據(jù)分析概要

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉