大數據無處不在 企業(yè)實踐指南有哪些?
數據無處不在
到2020年,全世界將有上百萬大數據相關的就業(yè)機會產生。這些龐大的數據蘊藏了寶貴財富,企業(yè)可以使用最先進的分析技術,利用這些數據更好地了解客戶的行為,識別商業(yè)機會,制定運營戰(zhàn)略。讓我們舉幾個例子,金融機構每天通過信用評分模型,了解他們的客戶在未來12個月內每種信貸產品(抵押貸款、信用卡、分期貸款)上的信用。他們以該信用評分為基礎來進行壞帳準備,計算巴塞爾協(xié)議II/III規(guī)定所需資本金數量,或是制定營銷方案(例如根據信用評分調整信用卡額度)。
電信運營商使用最近通話行為數據建立流失模型,估計客戶在未來一到三個月流失的可能性。運營商會根據模型得分來制定營銷活動,避免有價值的客戶流失。Facebook和Twitter會使用社交媒體分析技術進行內容分析和情感語義分析,以便更好地了解品牌認知度,進一步調整產品服務設計。
亞馬遜和Netflix等在線零售商不斷地分析顧客的購買行為,以決定產品捆綁銷售策略,并利用推薦系統(tǒng)為客戶下一次購買推薦產品。信用卡公司使用欺詐檢測模型,檢測付款是否具有欺騙性,是否發(fā)生了信用卡盜刷。政府采用數據分析技術來預測逃稅行為,優(yōu)化公共預算分配,分析交通數據提高公共交通效率,分析預測恐怖襲擊保障國家安全。
化數據為價值
數據是任何分析模型成功的基礎。當啟動分析項目時,有必要詳細列出企業(yè)內所有可用于分析的數據。這里的原則就是數據越多越好!因為很多分析模型都能自動決定哪些數據對當前分析很重要,哪些數據可以排除在下一步分析之外。
我們的研究不斷印證了這樣一個觀點:改善分析模型最好的辦法,就是投資于你的數據!這可以通過數量和質量兩個維度的提升來完成。對于前者,一個關鍵點是如何整合結構化數據(例如關系數據庫)和非結構化數據(如文本),提供全方位綜合視角進行客戶行為分析,另一個關鍵點則是在線數據和離線數據的整合,很多企業(yè)為這個問題所困擾。
此外企業(yè)還可以超越其內部邊界,考慮從外部數據供應商那里購買外部數據,以彌補其內部數據的不足。大量的研究表明采用外部數據,對比較和完善分析模型非常有用。雖然數據常常體量巨大,但是數據質量經常是一個痛點。GIGO(garbage in garbage out)的原則在這里非常適用,爛數據只會生成爛模型。
聽起來顯而易見,然而實踐中數據質量往往成為許多分析項目的“阿喀琉斯之踵”。數據質量可以分解成很多維度:準確性、完整性、新近度、一致性等。在大數據分析中,企業(yè)必須專門制定數據質量管理方案,設立數據審核員、數據管家或數據質量經理等職位,持續(xù)監(jiān)測數據質量。