為什么只有機器學習可以解決大數(shù)據(jù)的這個問題

時間：2020-05-12 21:45:01

關鍵字：大數(shù)據(jù) 機器學習 ST LM

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 為什么很多公司仍在努力構建從采集數(shù)據(jù)到獲得洞察力的平穩(wěn)運行的管道？他們希望投資和采用機器學習算法來分析數(shù)據(jù)，并做出商業(yè)預測。但是，不可避免的是，他們應該意識到算法并不是魔法：如果采用的

為什么很多公司仍在努力構建從采集數(shù)據(jù)到獲得洞察力的平穩(wěn)運行的管道？他們希望投資和采用機器學習算法來分析數(shù)據(jù)，并做出商業(yè)預測。

但是，不可避免的是，他們應該意識到算法并不是魔法：如果采用的是垃圾數(shù)據(jù)，得出的就不會是一流的見解。因此，他們雇傭了一些數(shù)據(jù)科學家，但通常他們90%的時間都花在數(shù)據(jù)清潔上，只剩下10%的時間來完成分析工作。

這個過程的缺點還在于企業(yè)喜歡采用終端算法的機器學習。Tamr公司的聯(lián)合創(chuàng)始人兼執(zhí)行官Andy Palmer表示，他們應該在數(shù)據(jù)早期清潔階段盡可能地應用機器學習，而不是依靠工作人員來處理龐大的數(shù)據(jù)集。該公司幫助組織使用機器學習突破他們的數(shù)據(jù)孤島。

許多公司在大數(shù)據(jù)收集系統(tǒng)上花費了大量資金。他們強調(diào)的是數(shù)據(jù)數(shù)量而非質(zhì)量，這是顯而易見的。

Palmer說：“在大公司工作的人都可以告訴你，他們從大多數(shù)內(nèi)部系統(tǒng)獲得的數(shù)據(jù)很簡單，簡單明了。”

Tamr公司聯(lián)合創(chuàng)始人兼技術官Andy Palmer和SiliconSLE Media公司移動直播工作室CUBE的主持人Michael Stonebraker與Dave Vellante和Paul Gillin在會上進行了探討，他們最近參加了在馬薩諸塞州劍橋舉行的麻省理工學院CDOIQ研討會。他們探討了大數(shù)據(jù)采用機器學習技術，以及為什么Tamr認為初創(chuàng)公司會比傳統(tǒng)公司提供更好、更具可擴展性的大數(shù)據(jù)解決方案的原因。

大數(shù)據(jù)的清理和組織

Palmer和Stonebraker多年來一直關注大數(shù)據(jù)技術。早在2007年，他們就預測ApacheHadoop大數(shù)據(jù)框架不會帶來很多人所期望的結果。

Palmer說，“有人說大數(shù)據(jù)將是一場災難，這有些太激進了?！?/p>

他表示，這并不是說大數(shù)據(jù)集不好，顯然大數(shù)據(jù)是訓練分析模型和人工智能的必要工具。有些人認為，只要數(shù)據(jù)量夠大，其余的分析或人工智能方面就會到位，但這讓很多公司都感到失望。

企業(yè)現(xiàn)在意識到數(shù)據(jù)質(zhì)量不可忽視。他們還知道，數(shù)據(jù)科學家不應該花費80%到90%或更多的時間清理數(shù)據(jù)，須采用一種更好、更快的人工智能方法用于分析數(shù)據(jù)。

Palmer表示，其答案是將機器學習視為一種很實用的工具，用于執(zhí)行這些龐大而無趣的任務。許多供應商使用機器學習來使預測、推薦引擎等軟件的營銷更具吸引力。Tamr公司將其用于不具吸引力的事情：在一些人分析、預測、營銷或銷售一些東西之前清理和組織大數(shù)據(jù)。

機器學習可以大規(guī)模處理數(shù)據(jù)

如今，并不缺乏針對數(shù)據(jù)沼澤問題的建議解決方案。許多科技公司正在推出或更新其原始產(chǎn)品。然而，Stonebraker指出，這些系統(tǒng)中通常使用的主要技術存在關鍵缺陷。這些傳統(tǒng)技術包括ETL（提取、轉換、加載）系統(tǒng)和主數(shù)據(jù)管理系統(tǒng)。但其缺點是不能擴展。

ETL基于這樣一個前提：明智的企業(yè)會為用戶想要的數(shù)據(jù)源提供全局數(shù)據(jù)模型。然后讓每個業(yè)務部門查看他們獲得了哪些數(shù)據(jù)，如何在全局數(shù)據(jù)模型中獲取數(shù)據(jù)，將其加載到數(shù)據(jù)倉庫中等等。Stonebraker表示，人工密集型流程往往無法擴展。他們通常會在數(shù)據(jù)倉庫中集成10或20個數(shù)據(jù)源。

那么這些數(shù)據(jù)足夠嗎？以現(xiàn)實世界中的一家公司為例。TAMR公司的客戶豐田汽車歐洲（TME）公司在各國都有經(jīng)銷商。如果有人在西班牙買了一輛豐田汽車，然后將其開到法國，那么其在法國的經(jīng)銷商對此一無所知。

總的來說，豐田汽車歐洲（TME）公司擁有250個獨立的客戶數(shù)據(jù)庫，擁有使用50種語言的4000萬條記錄。該公司正在將它們集成到單個客戶數(shù)據(jù)庫中，以解決此客戶的服務問題。機器學習提供了一種合理的方法來實現(xiàn)這一目標。Stonebraker說，“我從未見過能夠處理這種規(guī)模的ETL系統(tǒng)?！?/p>

Stonebraker解釋說，主數(shù)據(jù)管理（MDM）無法擴展的原因主要是因為它是基于規(guī)則的。通用電氣公司是Tamr公司的另一家客戶，希望對其交易支出進行分析，該公司在去年有2000萬筆交易支出，希望將所有這些分類為基于規(guī)則的層次結構。

“所以通用電氣公司制定了500條規(guī)則，只采用了18條規(guī)則就將2000萬筆交易中的200萬筆進行了分類，但其余的400多條規(guī)則并不會像那18條規(guī)則那樣更快地進行分類。”

他指出，這是收益遞減規(guī)律。他說，“企業(yè)將不得不寫出大量無法理解的規(guī)則，如果不使用機器學習技術，那么將會不堪重負?！?/p>

Stonebraker承認，機器學習技術不是萬能的。真正的數(shù)據(jù)驅動需要技術和文化的調(diào)整。事實上，據(jù)NewVantage Partners 公司的一項研究，77%的受訪企業(yè)高管表示，盡管有大量新軟件涌入市場，他們的組織很難采用大數(shù)據(jù)/人工智能計劃。但這比去年的調(diào)查有所增加。這些高管列舉了采用機器學習的一些障礙，其中95%是文化或組織方面的障礙，而不是技術方面的障礙。Gartner公司分析師NickHeudecker說：“企業(yè)需要為此制定一個計劃，但大多數(shù)公司不會把大數(shù)據(jù)技術進行計劃和處理?！?/p>

Stonebraker表示，盡管如此，技術仍然很重要，并且可能在某種程度上述案例顯示了通用電氣公司數(shù)據(jù)科學家如何在高達90%的時間內(nèi)過濾和分類，而不是致力于混合動力汽車或燃氣輪機的開發(fā)和維修。如果大數(shù)據(jù)對于現(xiàn)實世界的企業(yè)來說是實用的，那么機器學習就是前進的方向。

他說，“須用機器學習取代人類，因為人們都明白，大規(guī)模傳統(tǒng)的數(shù)據(jù)集成技術根本不起作用?！?/p>

很多企業(yè)正在考慮這一點，并將機器學習打造成他們產(chǎn)品的核心。Stonebraker說：“總的來說，傳統(tǒng)的供應商落后于時代10年，而創(chuàng)業(yè)公司可以提供尖端的產(chǎn)品?！?/p>

這種“尖端”的東西是否提供了一種簡便的數(shù)據(jù)貨幣化途徑？是否會彌補在數(shù)據(jù)沼澤中浪費的時間？

Palmer指出，“我們正進入一個更快消耗數(shù)據(jù)的階段。這一階段是否會最終滿足企業(yè)數(shù)據(jù)倉庫的高期望？我不知道。但可以肯定離它越來越近了。”