數(shù)據(jù)的未來:規(guī)模更大、速度更快、無處不在
時至今日企業(yè)要處理的數(shù)據(jù)與日俱增。由于他們既要快速地處理數(shù)據(jù)又要傳遞更多具體可用的信息,處理過程還要接近實時,這都是不小的挑戰(zhàn)。具備創(chuàng)新頭腦的企業(yè)總是對數(shù)據(jù)沉迷,渴望能理清它們,并從中獲取有用的訊息。這是持續(xù)的挑戰(zhàn)。當人類掌控數(shù)據(jù)的能力變強,探索并分析數(shù)據(jù)的欲望也會越來越濃。
大規(guī)模數(shù)據(jù)分析正邁入越來越多的新商業(yè)領(lǐng)域。不論是高管、銷售、市場營銷、客戶關(guān)系、財務(wù)、運營乃至物流,幾乎是現(xiàn)代企業(yè)的商業(yè)范疇都可以取得越來越多的數(shù)據(jù)并從中轉(zhuǎn)化成競爭優(yōu)勢,改善現(xiàn)有的業(yè)務(wù)流程,建立新的應(yīng)用。數(shù)據(jù)分析也不再是數(shù)據(jù)學家的專利。它成了現(xiàn)今一般的日常商業(yè)工具,且無處不在。數(shù)據(jù)分析工具和軟件的開發(fā)工作也構(gòu)成了新挑戰(zhàn),當技術(shù)普及,開發(fā)者的一大任務(wù),就是將高度復(fù)雜的技術(shù)變得簡單直接,從而讓與日俱增的新用戶能容易上手。。所以,衡量的指標不僅在于規(guī)模,「可用性」也是很重要。
以搜索為核心
數(shù)據(jù)分析不管「大」不大都歸結(jié)于搜索的能力。人們總希望從數(shù)據(jù)中獲得新洞察和知識。十年前,向一般用戶提起「搜索」二字,沒幾個人能立刻體會其帶來的可能性。但是像Elasticsearch這樣的開源技術(shù),一切新問題都能透過「搜索」二字找出;要跨越先前的心理障礙可說十分簡單。我們看過很多用戶利用我們的技術(shù)應(yīng)用于各種場景而不僅僅是常規(guī)的搜索。用戶一直創(chuàng)新地利用我們的平臺,從另一角度看也標志著開源能帶來的好處。用戶甚至也沒能想像到自己的創(chuàng)新力能達至另一水平。
按照定義,「大」數(shù)據(jù)大致是混合多樣的。名為“Elasticsearch”的搜索功能結(jié)合了數(shù)據(jù)分析、文本及結(jié)構(gòu)搜索,是一種靈活的組合。而數(shù)據(jù)的形式并不重要,不論是典型的網(wǎng)頁/文檔還是Foursquare上的一個位置、銀行的交易、網(wǎng)站服務(wù)器的日志或各式各樣的度量指標;數(shù)據(jù)的形式和數(shù)量也沒太大關(guān)系,無論是結(jié)構(gòu)化還是非結(jié)構(gòu)化的數(shù)據(jù),人們想要探索就可搜索。更進一步的說,即使數(shù)據(jù)本身的內(nèi)容很復(fù)雜只要搜索可行也會變得無關(guān)緊要。
搜索的未來
如果我們回頭看看過去幾十年來企業(yè)數(shù)據(jù)分析的發(fā)展,這些趨勢在很大程度上都取決于搜索技術(shù)的進步,從而實現(xiàn)新的、更強大的搜索用途。要有能力搜索數(shù)據(jù)的不同維度、不同方面的相關(guān)性、搜索非結(jié)構(gòu)化數(shù)據(jù)、又或者僅是搜索更多的新數(shù)據(jù),存儲和索引技術(shù)在其中肯定起了作用。然而這大多是為了制造出新的、更強大的搜索方式。如圖分析和機器學習等最新的數(shù)據(jù)技術(shù)就是更成熟的搜索應(yīng)用。圖分析允許用戶在無需基礎(chǔ)數(shù)據(jù)的情況下尋找新關(guān)聯(lián)?,F(xiàn)今世界,搜索技術(shù)幾乎壓倒性地擁有一切可能性。這提供了一種更快速、更強大的方式探索數(shù)據(jù),進而了解重要趨勢和關(guān)系。圖亦提供了一套綜合分析,方便決定那些趨勢值得深入分析并持續(xù)監(jiān)測。即使是機器學習,核心也需要有搜索技術(shù)的支持。搜索技術(shù)一直以來都是用來查看隨時間發(fā)展的數(shù)據(jù)行為,并以此辨識重要事件的關(guān)鍵指標。常見例子有IT運維其中歷史應(yīng)用程序、服務(wù)器和網(wǎng)絡(luò)日志上的分析,所得都用于識別可能會發(fā)生的系統(tǒng)故障。
過去公司會要求熟練的數(shù)據(jù)科學家建立統(tǒng)計模型,并為每個指標確定極限。這是一個復(fù)雜而艱巨的任務(wù)。盡管如此,在使用模型來監(jiān)控實時數(shù)據(jù)時,仍可能產(chǎn)生較高的誤報。
結(jié)果是行為分析僅限于大型關(guān)鍵任務(wù)、數(shù)據(jù)中心和金融交易等高回報的領(lǐng)域。但是機器學習,又或更具體地說,行為分析工具的能力正在快速增長,足夠以更高的準確度自動生成機器學習模型。三四年前要一整隊研究數(shù)據(jù)的科學團隊才能做到的事,現(xiàn)在各種現(xiàn)成的軟件工具就可以為各機構(gòu)所用。這同時為不同業(yè)務(wù)的領(lǐng)域開辟了新的以搜索為主的應(yīng)用方向。
在所有的業(yè)務(wù)當中,需要分析的數(shù)據(jù)量未來都不會減少。但大小只是一個維度?!复蟆箍梢允且粓鲎兓ぉじ?、更快更實時甚至具備預(yù)測性。而數(shù)據(jù)分析也在自我進化,懂得從數(shù)據(jù)中了解并學習??梢妼磉@些技術(shù)都會被整個企業(yè)無以復(fù)加的用戶所應(yīng)用。