機(jī)器學(xué)習(xí)存在哪些潛力與陷阱
最近這段時(shí)間,機(jī)器學(xué)習(xí)吸引了媒體和從業(yè)者大量的關(guān)注。的確,機(jī)器學(xué)習(xí)是一種變革性的技術(shù)。但是,盡管眾人對這個(gè)話題喋喋不休,盡管風(fēng)投為機(jī)器學(xué)習(xí)提供了許多資金,盡管谷歌讓這個(gè)領(lǐng)域變得令人矚目——在核心的技術(shù)領(lǐng)袖圈之外,機(jī)器學(xué)習(xí)仍然很少能獲得正確的理解。
這就導(dǎo)致了對于機(jī)器學(xué)習(xí)這一變革性技術(shù)的未來的低估,而從商者也會因此無緣于了解他們應(yīng)該為機(jī)器學(xué)習(xí)時(shí)代做好怎樣的準(zhǔn)備。
讓我們討論一下這把劍的兩面吧——也就是它的潛力與陷阱。先從定義開始。
機(jī)器學(xué)習(xí)是一種算法,可以從數(shù)據(jù)中進(jìn)行學(xué)習(xí)并作出預(yù)測。通常來說,運(yùn)用這種技術(shù)時(shí),越多的數(shù)據(jù)就能帶來越好的結(jié)果。機(jī)器學(xué)習(xí)并不需要明確的規(guī)則來生成結(jié)果。它不需要人工建構(gòu)的“如果這樣的話,那么就那樣”之類的結(jié)構(gòu),而是根據(jù)數(shù)據(jù)自行決定這一切。
機(jī)器學(xué)習(xí)的變革性作用,以及為何它現(xiàn)在如此重要,是因?yàn)槲覀儊淼搅藬?shù)據(jù)、運(yùn)算能力以及算法復(fù)雜度的轉(zhuǎn)折點(diǎn)。
這三個(gè)方面的進(jìn)展匯合,造就了機(jī)器學(xué)習(xí)的一鳴驚人。這似乎有一些像妄想——為了能夠在現(xiàn)在發(fā)生這樣的事,在過去已經(jīng)籌備了相當(dāng)長的時(shí)間。讓我們仔細(xì)看看這三個(gè)方面:
數(shù)據(jù)新數(shù)據(jù)庫技術(shù)的出現(xiàn)(比如Hadoop)已經(jīng)讓獲取海量數(shù)據(jù)的成本降低到令人吃驚的程度,以至于企業(yè)不再需要選擇什么數(shù)據(jù)需要保留、什么數(shù)據(jù)需要?jiǎng)h除,而是簡單地存儲一切數(shù)據(jù)。如果數(shù)據(jù)的價(jià)值在今天還不太明顯,不久之后也許人們就會漸漸地意識到這一點(diǎn)。這為對于數(shù)據(jù)始終貪得無厭的機(jī)器學(xué)習(xí)算法提供了大量的“養(yǎng)分”。
運(yùn)算能力運(yùn)算能力方面的進(jìn)展仍然在以讓人驚訝的速度持續(xù)著。摩爾定律失效的預(yù)言已經(jīng)過去了許多年,而Intel、IBM、Nvidia以及其他機(jī)構(gòu)的研究人員們接二連三地不斷創(chuàng)新,讓摩爾定律一直保持成立、沒有失效。要解決大問題?沒問題,加上幾十或者幾百個(gè)核,根據(jù)需求來就好。不過,這也有極限,因?yàn)椴皇撬袉栴}都能被這樣暴力破解。
算法復(fù)雜度有趣的是,算法復(fù)雜度是與數(shù)據(jù)和運(yùn)算相關(guān)的。由于這兩個(gè)領(lǐng)域的進(jìn)展,更徹底地探索復(fù)雜算法成為了可能。例如拓?fù)鋽?shù)據(jù)分析——它需要運(yùn)算能力發(fā)展到能夠從許多運(yùn)算角(algorithmic angles)來看待大量數(shù)據(jù)集。
機(jī)器學(xué)習(xí)的變革性在于,它大幅地降低了高性能結(jié)果的運(yùn)算時(shí)間。研究人員們已經(jīng)在圖像識別問題上花費(fèi)了數(shù)十年的時(shí)間,但Google轉(zhuǎn)向機(jī)器學(xué)習(xí)算法后僅僅幾個(gè)季度就高效地在這個(gè)問題上做到了完美的表現(xiàn)。考慮到Google擁有的素材數(shù)量和團(tuán)隊(duì)的熟練程度,幾乎沒有人有可能在這個(gè)領(lǐng)域再勝過Google。
這一類的創(chuàng)新在不少企業(yè)都發(fā)生著,特別是那些雇傭了絕大多數(shù)機(jī)器學(xué)習(xí)人才的公司,包括Google、Facebook、Amazon、Apple、IBM、GE,以及高度專注于顛覆特定應(yīng)用或是行業(yè)的一些初創(chuàng)公司。
這些公司在機(jī)器學(xué)習(xí)方面投資甚巨,這是因?yàn)橥顿Y能帶來指數(shù)級的增長回報(bào)。在一個(gè)機(jī)器學(xué)習(xí)帶來的指數(shù)級增長的世界中,即使只是少了10%的增長也會導(dǎo)致落于人后。而太晚開始的話,就算能和其他人保持一樣的增長速度也無濟(jì)于事。
雖然卓越的執(zhí)行會獲得指數(shù)級增長的回報(bào),現(xiàn)實(shí)中將會有一系列不連續(xù)的事件,讓增長曲線無法保持平滑。一家企業(yè)如何處理這些不連續(xù)的事件將會決定成王敗寇。
這些不連續(xù)的事件就是機(jī)器學(xué)習(xí)的另一面——那些會導(dǎo)致這種技術(shù)充滿競爭力的優(yōu)勢滑鐵盧的元素。
這里列舉了一些:
技術(shù)債機(jī)器學(xué)習(xí)系統(tǒng)并不是能自我復(fù)制(self-replicating)或者自我優(yōu)化(self-opTImizing)的軟件應(yīng)用。因此,隨著時(shí)間流逝,它們會積累越來越多的技術(shù)債。技術(shù)債有許多種表現(xiàn)形式,包括糾纏(entanglement)、隱藏反饋循環(huán)(hidden feedback loops)、依賴于未充分使用的數(shù)據(jù)(underuTIlized data dependencies)、管道叢林(pipeline jungles)、未申明的訪問者(undeclared customers)等等。技術(shù)債會在無意中導(dǎo)致不希望的結(jié)果,帶來脆弱(brittleness)以及混淆(obfuscaTIon)。所有這一切都會對系統(tǒng)產(chǎn)生影響,讓系統(tǒng)無法達(dá)到最優(yōu)狀態(tài)。
理解技術(shù)債的細(xì)節(jié)是技術(shù)團(tuán)隊(duì)的責(zé)任。
理解技術(shù)債的概念和影響是管理團(tuán)隊(duì)的責(zé)任。
關(guān)于機(jī)器學(xué)習(xí)技術(shù)債的細(xì)節(jié),請?jiān)谛轮窃⑿殴娞柡笈_回復(fù)xxxx,閱讀新智元翻譯的、來自谷歌的技術(shù)債詳細(xì)介紹:【Google 年度頂級論文】機(jī)器學(xué)習(xí)系統(tǒng),隱藏多少技術(shù)債?(論文下載)。
黑盒某些算法是黑盒——這是指難以理解在算法中發(fā)生了什么,特別是對于單獨(dú)的數(shù)據(jù)點(diǎn)來說。這并不總是會成為一個(gè)問題,但是,它對于一個(gè)組織而言很多時(shí)候都代表了真實(shí)存在的挑戰(zhàn),無論是從文化上還是從技術(shù)上來說都是這樣。如果選用的算法是一個(gè)黑盒,而世界的變化超出了模型的預(yù)測能力,那么缺乏足夠的理解會讓整個(gè)系統(tǒng)陷入懷疑論的危機(jī)。無法解釋模型為何失敗,從接收機(jī)器學(xué)習(xí)算法程度的角度來說,可以讓一個(gè)組織在這一方面倒退許多年。
算法選擇雖然這有一些老生常談,不過在機(jī)器學(xué)習(xí)領(lǐng)域的確沒有“上帝”一樣萬能的算法。沒有算法能在文本分析、模式匹配、分詞、異常偵測、以及特征生成上都做得一樣好。
的確,有幾十種強(qiáng)力的算法和數(shù)千種這些算法的高度調(diào)整(highly tuned)版本,每一種都有它自己獨(dú)有的優(yōu)點(diǎn)和缺點(diǎn)。最終,不同的算法會服務(wù)于不同的目的。比如,你的邏輯回歸模型(LRM)看待數(shù)據(jù)世界的方式與你的支持向量機(jī)(SVM)有很大的差異。這意味著,作為一個(gè)數(shù)據(jù)科學(xué)家或者是一個(gè)計(jì)算機(jī)科學(xué)家,你有時(shí)會放下LRM、轉(zhuǎn)而用起SVM——它們是為不同的工作而服務(wù)的。但是它們之前的區(qū)別并不只是類似于不同尺寸的扳手,并且放下LRM、轉(zhuǎn)向SVM在上手時(shí)是非常消耗時(shí)間的。
選用正確的算法對于保持一個(gè)組織的良好運(yùn)作來說是非常重要的,就和了解使用什么時(shí)候應(yīng)該使用凈現(xiàn)值(NPV)、什么時(shí)候應(yīng)該使用內(nèi)部收益率(IRR)一樣。
人類的偏差與算法選擇相關(guān)的一個(gè)概念是人類偏差(human bias)。無論如何,機(jī)器學(xué)習(xí)算法都是復(fù)雜的數(shù)學(xué)公式,而精通某種特定的算法會讓從業(yè)者對這種算法產(chǎn)生依賴——通常是嚴(yán)重的依賴。這種趨勢讓人想起一句古老的諺語,“當(dāng)你除了錘子一無所有時(shí),所有東西看上去都像釘子”。如果你的機(jī)器學(xué)習(xí)團(tuán)隊(duì)中,所有人都畢業(yè)于同一個(gè)學(xué)校的同一期,有可能他們用的都是同樣的一些算法。向你的組織中注入算法多樣性會為組織帶來明顯的益處。
避免陷阱因?yàn)榧夹g(shù)債的存在,領(lǐng)導(dǎo)層需要確保厲害的軟件工程師與厲害的數(shù)學(xué)家同在。缺少其中一方將會失去平衡,在未來導(dǎo)致很多問題。招募雙方。
對于黑盒問題,你需要仰賴數(shù)百年來的統(tǒng)計(jì)學(xué)知識來解釋模型中每一個(gè)決策背后的原因。這種要求非常嚴(yán)苛,但當(dāng)你需要知道為什么算法最后做出了一個(gè)決策時(shí),經(jīng)歷這樣的時(shí)間是非常重要的。這對于創(chuàng)造一種機(jī)器學(xué)習(xí)文化而言至關(guān)重要。人們需要信任這個(gè)系統(tǒng),而統(tǒng)計(jì)學(xué)可以提供溝通人類與算法的橋梁。
面對算法選擇的挑戰(zhàn),答案是部署越來越多種類的算法,于是你不必再從中選擇。計(jì)算機(jī)的性能已經(jīng)足夠做到這一點(diǎn),已經(jīng)有可以對于數(shù)據(jù)集用多種算法并行處理的框架。好好利用。
最后,如果你部署了多種機(jī)器學(xué)習(xí)算法,人類偏差問題應(yīng)當(dāng)迎刃而解——特別是如果你采用了讓過程自動(dòng)化的技術(shù),用數(shù)據(jù)來自動(dòng)找出最適應(yīng)的算法。
前方的機(jī)遇機(jī)器學(xué)習(xí)將無愧于它得到的炒作。明白情況的人都會對它的變革性——對于任何職業(yè)、工作流程和商務(wù)處理來說都是這樣——保持高度的信心。
率先邁向機(jī)器學(xué)習(xí)的組織將會獲得相應(yīng)的回報(bào)。但是理解機(jī)器學(xué)習(xí)的潛力和風(fēng)險(xiǎn)是非常重要的,因?yàn)閷τ跈C(jī)器學(xué)習(xí)領(lǐng)域的熟悉程度仍然不足?,F(xiàn)在正是時(shí)候針對這一技術(shù)深挖、學(xué)習(xí)、雇傭、以及投資,等到明天的話,也許你的競爭對手就已經(jīng)開始來勢洶洶地?cái)U(kuò)張了。