大數(shù)據(jù)發(fā)展困難重重 未來之路何去何從?
大數(shù)據(jù)發(fā)展困難重重 未來之路何去何從?
一些積極迎接變革的企業(yè)發(fā)現(xiàn),他們的數(shù)據(jù)實際上可能正是其掌握的最大資產。除了數(shù)據(jù)本身之外,精明的企業(yè)還能夠通過分析數(shù)據(jù)內容以了解并更好地服務于自身客戶,甚至能夠將其中一些關鍵性數(shù)據(jù)出售給合作伙伴及下游廠商以賺取額外利潤。舉例來說,優(yōu)步與Lyft等服務就能夠非常準確地把握與客戶出行習慣相關的數(shù)據(jù),并將其交付至Airbnb、VRBO等其它網站。與此同時,F(xiàn)itbit及其它廠商提供的健身追蹤器亦能夠利用用戶的健康活動數(shù)據(jù)實現(xiàn)巨大價值。即使是與醫(yī)療衛(wèi)生業(yè)務毫不沾邊的蘋果公司,也能夠以前所未有的洞察能力審視其原生健康應用數(shù)據(jù)。
在理論層面講,如此龐大的數(shù)據(jù)寶庫將能夠為B2B及B2C企業(yè)帶來集中且立足實踐行為的洞察結論,進而以前所未有的方式開啟新的機遇大門。然而,面對著一系列重大的技術性與財務性障礙,很多企業(yè)實際上并不清楚自己的下一步大數(shù)據(jù)戰(zhàn)略該走向何處。其已經開始在數(shù)據(jù)挖掘領域試水,但尚未制定出一套能夠順利邁進的堅實戰(zhàn)略思路。
為何存在挑戰(zhàn)
截至目前,實現(xiàn)大數(shù)據(jù)技術承諾的最大障礙之一在于龐大的資金投入要求。從當下的情況來看,最為成功的項目往往需要耗資數(shù)百萬美元,例如沃爾瑪?shù)膶S脭?shù)據(jù)創(chuàng)新實驗室WalmartLabs。然而,這種項目只適用于那些世界上最為龐大的企業(yè),其具備極為雄厚的財力與幾乎無窮無盡的資源。很明顯,這樣的標準對于其它公司而言并不適用,或者說毫無實現(xiàn)的可能。
為何利用大數(shù)據(jù)技術會呈現(xiàn)出如此明確的資源密集型傾向?答案主要分為以下三個方面:
數(shù)據(jù)的輸入速度極快,且數(shù)據(jù)來源數(shù)量亦急劇增加:移動、云應用、物聯(lián)網——從用于追蹤庫存與設備的RF標簽到一切接入網絡的家用電器——當然,社交媒體亦是一大不容忽視的實時數(shù)據(jù)來源。
此類新型來源幾乎全部在以非結構化或者半結構化格式交付數(shù)據(jù),這使得傳統(tǒng)的關系型數(shù)據(jù)庫管理方案——即SQL以及幾乎一切現(xiàn)代數(shù)據(jù)庫系統(tǒng)的實現(xiàn)基礎——毫無用武之地。除了收集及存儲方面的挑戰(zhàn)之外,合規(guī)性要求中的隱私與監(jiān)管要求亦會帶來新的復雜性層。不斷發(fā)展的標準要求需要完整團隊配合先進的技術、管理與維護手段方可實現(xiàn)。
隨著在數(shù)據(jù)復雜度的日益提高,用于管理數(shù)據(jù)的具體技術方案亦變得更難于使用。Hadoop、Kafka、Hive、Drill、Storm、MongoDB以及Cassandra等開源工具外加一系列專有方案共同構成了獨立且相互競爭的方案生態(tài)系統(tǒng),只有具備深厚的技術操作知識方可將其真正應用在商業(yè)環(huán)境當中。事實上,此類人才資源非常稀缺,大多數(shù)非財富五百強企業(yè)都無力承擔由此帶來的高昂開支。
缺失之處何在
可以看到,絕大多數(shù)企業(yè)僅僅是在努力管理并挖掘自己的存儲數(shù)據(jù)集,而很難實際利用數(shù)據(jù)中的信息建立自身競爭優(yōu)勢。在實踐性、實用性及可行性方面,企業(yè)還無法充分運用現(xiàn)有工具發(fā)揮數(shù)據(jù)中的可觀潛能。需要明確的是,目前我們并不缺乏良好的大數(shù)據(jù)工具,事實上我們缺乏的是真正具備效率與有效性的解決方案,這種能夠解決數(shù)據(jù)孤島及高度依賴性難題的手段既匱乏又難于維護。
為什么?因為截至目前,我們的重點一直放在整合應用程序并建立各類獨立工具與平臺之間的連接機制,缺少這種橋梁它們將根本無法協(xié)作。舉例來說,我們需要想辦法對接CROM與ERP,或者將銷售工具與市場營銷自動化機制相整合。
這種應用到應用型方案的問題在于,其完全忽略了數(shù)據(jù)本身——這意味著數(shù)據(jù)仍然可能以分裂化、孤立化或者碎片化形式存在。即使應用程序能夠彼此連接,如果其各自擁有自己的數(shù)據(jù)存儲形式,那么數(shù)據(jù)亦無法實現(xiàn)通用。這意味著我們將面對大量不完整或者重復的數(shù)據(jù)記錄,即通常所謂的“臟”數(shù)據(jù)。任何分析方法都無法利用這樣的數(shù)據(jù)素材提供可靠的結論——因為數(shù)據(jù)本身就不夠可靠。