美國政府倡導(dǎo)聯(lián)邦機構(gòu)學(xué)習(xí)機器內(nèi)容
許多美國聯(lián)邦機構(gòu)現(xiàn)在正處于了解機器學(xué)習(xí)以及如何將之應(yīng)用到預(yù)測性分析中,把機器學(xué)習(xí)的一些要素應(yīng)用到任務(wù)中,每個機構(gòu)都能從中獲益。
許多美國聯(lián)邦機構(gòu)現(xiàn)在正處于了解機器學(xué)習(xí)以及如何將之應(yīng)用到預(yù)測性分析中,比如網(wǎng)絡(luò)威脅檢測,數(shù)據(jù)泄露自動檢測和在社交媒體上識別潛在恐怖分子威脅的動向。把機器學(xué)習(xí)的一些要素應(yīng)用到任務(wù)中,每個機構(gòu)都能從中獲益。
采用機器學(xué)習(xí)也意味著數(shù)據(jù)安全,數(shù)據(jù)引擎和基于數(shù)據(jù)型決策的新視角。對于還在部署階段探索的機構(gòu)而言,從何處開始部署其實都還是一項挑戰(zhàn)。以下幾步的學(xué)習(xí),有助于各位在機器學(xué)習(xí)的道路上事半功倍。
安全第一
和任何系統(tǒng)整合項目一樣,安全是整體設(shè)計過程中的頭等大事。有關(guān)數(shù)據(jù)的具體問題很重要。例如:
誰能看到這些數(shù)據(jù)?
如何變更數(shù)據(jù)訪問權(quán)限?
可否把Active Directory/Lightweight Directory Access Protocol方案整合進去?
可否將在行級(row level)或單元級(cell level)匿名數(shù)據(jù)?
可否與其他數(shù)據(jù)師共享我的數(shù)據(jù),運算法則和項目結(jié)果,然后在有需要的時候變更訪問控件?
在實施任何機器學(xué)習(xí)項目之前,有關(guān)數(shù)據(jù)管理,數(shù)據(jù)安全,監(jiān)管和數(shù)據(jù)沿襲(data lineage)都是基礎(chǔ)性的問題。
聚焦任務(wù)
準確了解自己需要解決哪些問題。選擇一項適合的技術(shù)來解決該問題。定格問題,最大化地挖掘此項技術(shù)的價值。
任何機器學(xué)習(xí)項目的最大挑戰(zhàn)之一是訪問數(shù)據(jù)集。通常操作者需要從多個數(shù)據(jù)所有者處進行訪問,此外,還會遇到各種數(shù)據(jù)類型的問題。數(shù)據(jù)所有者必須同意共享數(shù)據(jù)且加入機器學(xué)習(xí)計劃。
機器學(xué)習(xí)最簡單的形式是以運算法則為基礎(chǔ),根據(jù)歷史數(shù)據(jù)識別趨勢,然后做出預(yù)測。數(shù)據(jù)越好,運算法則越好,則預(yù)測越準確。
我已經(jīng)有數(shù)據(jù),然后要怎樣做?
在獲取數(shù)據(jù)集后,就可以全面了解數(shù)據(jù)了。將域?qū)<遥瑪?shù)據(jù)科學(xué)家和程序員召集到一起。先了解你的數(shù)據(jù),然后才可以對其進行最大化的利用。你需要補充新的數(shù)據(jù)要素,融合多個數(shù)據(jù)源,執(zhí)行數(shù)據(jù)分析,并啟動“特征工程”(feature engineer)。在機器學(xué)習(xí)領(lǐng)域,一個特征就是一個單獨的屬性或者“解釋性的變量”。你需要投入時間和域?qū)I(yè)知識以識別數(shù)據(jù)中特定的,獨立性的特征。數(shù)據(jù)方面的知識是選擇合適特征并使運算法則行之有效的關(guān)鍵。選定特征后,要啟動訓(xùn)練和提煉模式。
管理數(shù)據(jù)
把數(shù)據(jù)放入單獨的數(shù)據(jù)庫,數(shù)據(jù)湖或Hadoop生態(tài)系統(tǒng)的日子一去不復(fù)返。部署好控件層,才能更輕松地從多個數(shù)據(jù)源獲取數(shù)據(jù),并進行變更,特別是當任務(wù)關(guān)乎數(shù)據(jù)訪問和數(shù)據(jù)共享的時候。
利用遺留的數(shù)據(jù)存儲,然后同時管理數(shù)據(jù)和互動連接以加速數(shù)據(jù)訪問。
消除手動檢查節(jié)點,以便優(yōu)化模式輸出和整個企業(yè)之間的反饋回路。
確保政策部署到位,且要保障政策的執(zhí)行力和安全性。
與機器學(xué)習(xí)模式所掌握的情況溝通
記住一些案例。避免“科學(xué)項目綜合征”的發(fā)生,關(guān)注最初的問題以及從模式中獲取的真實情況,想辦法與之進行溝通。許多工具提供的虛擬化方式能讓這種溝通變簡單。
準備好模式生產(chǎn)并使其可持續(xù)
快速從概念轉(zhuǎn)換到產(chǎn)出,才能達到實操目的。一旦環(huán)境和控件層到位,就要繼續(xù)添加使用案例和更多的數(shù)據(jù)集。
讓一個機構(gòu)或組織要想最大程度利用機器學(xué)習(xí)和數(shù)據(jù)科學(xué),就需要長期投入人才和不斷發(fā)展技術(shù)。進入機器學(xué)習(xí)領(lǐng)域,需要在技術(shù)上完成從操作分析到預(yù)測分析的轉(zhuǎn)型。
企業(yè)文化也需要發(fā)生改變,因為領(lǐng)導(dǎo)者要意識到基于數(shù)據(jù)的決策要比感情用事更重要。多鼓勵數(shù)據(jù)共享和協(xié)作。保持你的模式。數(shù)據(jù)會隨著時間流逝而改變。趨勢也會隨時間而改變。建立準確的,有預(yù)測性的模式是一種努力的方向。制訂一個計劃來追蹤模式的性能,再設(shè)置好更新周期。