機(jī)器學(xué)習(xí)與深度學(xué)習(xí)之間有什么異同
掃描二維碼
隨時(shí)隨地手機(jī)看文章
在本文中,我闡述了數(shù)據(jù)科學(xué)家的各種角色,以及數(shù)據(jù)科學(xué)如何與機(jī)器學(xué)習(xí),深度學(xué)習(xí),人工智能,統(tǒng)計(jì)學(xué),物聯(lián)網(wǎng),運(yùn)籌學(xué)和應(yīng)用數(shù)學(xué)等相關(guān)領(lǐng)域進(jìn)行比較和重疊。 由于數(shù)據(jù)科學(xué)是一門廣泛的學(xué)科,我首先描述在任何商業(yè)環(huán)境中可能遇到的不同類型的數(shù)據(jù)科學(xué)家:您甚至可能發(fā)現(xiàn)自己是一名數(shù)據(jù)科學(xué)家,而不知道它。 與任何科學(xué)學(xué)科一樣,數(shù)據(jù)科學(xué)家可以借用相關(guān)學(xué)科的技術(shù),盡管我們已經(jīng)開發(fā)了自己的工具庫,特別是技術(shù)和算法,以自動(dòng)方式處理非常大的非結(jié)構(gòu)化數(shù)據(jù)集,即使沒有人工交互,也可以實(shí)時(shí)執(zhí)行交易 或者做出預(yù)測(cè)。
1.不同類型的數(shù)據(jù)科學(xué)家
要開始并獲得一些歷史觀點(diǎn),您可以閱讀我在2014年發(fā)表的關(guān)于9種數(shù)據(jù)科學(xué)家的文章,或者我的文章,其中我將數(shù)據(jù)科學(xué)與16個(gè)分析學(xué)科進(jìn)行了比較,也發(fā)表于2014年。
在同一時(shí)期發(fā)布的以下文章仍然有用:
數(shù)據(jù)科學(xué)家與數(shù)據(jù)架構(gòu)師
數(shù)據(jù)科學(xué)家與數(shù)據(jù)工程師
數(shù)據(jù)科學(xué)家與統(tǒng)計(jì)學(xué)家
數(shù)據(jù)科學(xué)家與業(yè)務(wù)分析師
最近(2016年8月)Ajit Jaokar討論了Type A(Analytics)與B類(Builder)數(shù)據(jù)科學(xué)家:
A型數(shù)據(jù)科學(xué)家可以很好地編碼以處理數(shù)據(jù),但不一定是專家。 A型數(shù)據(jù)科學(xué)家可能是實(shí)驗(yàn)設(shè)計(jì),預(yù)測(cè),建模,統(tǒng)計(jì)推斷或統(tǒng)計(jì)部門通常教授的其他事項(xiàng)的專家。一般而言,數(shù)據(jù)科學(xué)家的工作產(chǎn)品不是“p值和置信區(qū)間”,因?yàn)閷W(xué)術(shù)統(tǒng)計(jì)有時(shí)似乎表明(例如,有時(shí)對(duì)于在制藥行業(yè)工作的傳統(tǒng)統(tǒng)計(jì)學(xué)家而言)。在谷歌,A型數(shù)據(jù)科學(xué)家被稱為統(tǒng)計(jì)學(xué)家,定量分析師,決策支持工程分析師或數(shù)據(jù)科學(xué)家,可能還有一些。
B型數(shù)據(jù)科學(xué)家:B代表建筑。 B類數(shù)據(jù)科學(xué)家與A類有一些統(tǒng)計(jì)背景,但他們也是非常強(qiáng)大的編碼員,可能是訓(xùn)練有素的軟件工程師。 B類數(shù)據(jù)科學(xué)家主要關(guān)注“在生產(chǎn)中”使用數(shù)據(jù)。他們構(gòu)建與用戶互動(dòng)的模型,通常提供推薦(產(chǎn)品,您可能知道的人,廣告,電影,搜索結(jié)果)。來源:點(diǎn)擊這里。
我還寫了關(guān)于業(yè)務(wù)流程優(yōu)化的ABCD,其中D代表數(shù)據(jù)科學(xué),C代表計(jì)算機(jī)科學(xué),B代表商業(yè)科學(xué),A代表分析科學(xué)。數(shù)據(jù)科學(xué)可能涉及也可能不涉及編碼或數(shù)學(xué)實(shí)踐,您可以在我的關(guān)于低級(jí)別數(shù)據(jù)科學(xué)與高級(jí)數(shù)據(jù)科學(xué)的文章中閱讀。在創(chuàng)業(yè)公司中,數(shù)據(jù)科學(xué)家通常會(huì)戴上幾個(gè)帽子,如執(zhí)行,數(shù)據(jù)挖掘,數(shù)據(jù)工程師或架構(gòu)師,研究員,統(tǒng)計(jì)學(xué)家,建模師(如預(yù)測(cè)建模)或開發(fā)人員。
雖然數(shù)據(jù)科學(xué)家通常被描述為在R,Python,SQL,Hadoop和統(tǒng)計(jì)數(shù)據(jù)方面經(jīng)驗(yàn)豐富的編碼器,但這只是冰山一角,受數(shù)據(jù)營的歡迎,專注于教授數(shù)據(jù)科學(xué)的某些元素。但就像實(shí)驗(yàn)室技術(shù)人員可以稱自己為物理學(xué)家一樣,真正的物理學(xué)家遠(yuǎn)不止于此,她的專業(yè)領(lǐng)域也各不相同:天文學(xué),數(shù)學(xué)物理學(xué),核物理學(xué)(邊緣化學(xué)),力學(xué),電氣工程,信號(hào)處理(也是數(shù)據(jù)科學(xué)的一個(gè)子領(lǐng)域)等等。關(guān)于數(shù)據(jù)科學(xué)家也可以這樣說:生物信息學(xué),信息技術(shù),模擬和質(zhì)量控制,計(jì)算金融,流行病學(xué),工業(yè)工程,甚至數(shù)論都是各種各樣的領(lǐng)域。
就我而言,在過去的十年中,我專注于機(jī)器對(duì)機(jī)器和設(shè)備到設(shè)備的通信,開發(fā)系統(tǒng)來自動(dòng)處理大型數(shù)據(jù)集,執(zhí)行自動(dòng)交易:例如,購買互聯(lián)網(wǎng)流量或自動(dòng)生成內(nèi)容。它意味著開發(fā)適用于非結(jié)構(gòu)化數(shù)據(jù)的算法,它處于AI(人工智能)IoT(物聯(lián)網(wǎng))和數(shù)據(jù)科學(xué)的交叉點(diǎn)。這被稱為深度數(shù)據(jù)科學(xué)。它是相對(duì)無數(shù)學(xué)的,它涉及相對(duì)較少的編碼(主要是API),但它是相當(dāng)數(shù)據(jù)密集型(包括構(gòu)建數(shù)據(jù)系統(tǒng))并基于專門為此上下文設(shè)計(jì)的全新統(tǒng)計(jì)技術(shù)。
在此之前,我實(shí)時(shí)進(jìn)行了信用卡欺詐檢測(cè)。在我的職業(yè)生涯早期(大約1990年),我從事圖像遙感技術(shù),除了其他方面,以確定衛(wèi)星圖像中的圖案(或形狀或特征,例如湖泊)和執(zhí)行圖像分割:當(dāng)時(shí)我的研究被標(biāo)記為計(jì)算統(tǒng)計(jì)數(shù)據(jù),但人們?cè)谖壹掖髮W(xué)隔壁的計(jì)算機(jī)科學(xué)系做同樣的事情,稱他們研究人工智能。今天,它被稱為數(shù)據(jù)科學(xué)或人工智能,子域是信號(hào)處理,計(jì)算機(jī)視覺或物聯(lián)網(wǎng)。
此外,數(shù)據(jù)科學(xué)家可以在數(shù)據(jù)科學(xué)項(xiàng)目的生命周期,數(shù)據(jù)收集階段或數(shù)據(jù)探索階段的任何地方找到,一直到統(tǒng)計(jì)建模和維護(hù)現(xiàn)有系統(tǒng)。
2.機(jī)器學(xué)習(xí)與深度學(xué)習(xí)在深入研究數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)之間的聯(lián)系之前,讓我們簡要討論機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。機(jī)器學(xué)習(xí)是一組算法,它們訓(xùn)練數(shù)據(jù)集以進(jìn)行預(yù)測(cè)或采取行動(dòng)以優(yōu)化某些系統(tǒng)。例如,基于歷史數(shù)據(jù),監(jiān)督分類算法用于根據(jù)貸款目的將潛在客戶分類為好的或壞的潛在客戶。對(duì)于給定任務(wù)(例如,監(jiān)督聚類)所涉及的技術(shù)是變化的:樸素貝葉斯,SVM,神經(jīng)網(wǎng)絡(luò),集合,關(guān)聯(lián)規(guī)則,決策樹,邏輯回歸或許多的組合。有關(guān)算法的詳細(xì)列表,請(qǐng)單擊此處。有關(guān)機(jī)器學(xué)習(xí)問題的列表,請(qǐng)單擊此處。
所有這些都是數(shù)據(jù)科學(xué)的一個(gè)子集。當(dāng)這些算法自動(dòng)化時(shí),如自動(dòng)駕駛或無駕駛汽車,它被稱為AI,更具體地說,深度學(xué)習(xí)。點(diǎn)擊此處查看另一篇文章,將機(jī)器學(xué)習(xí)與深度學(xué)習(xí)進(jìn)如果收集的數(shù)據(jù)來自傳感器,并且如果它是通過互聯(lián)網(wǎng)傳輸?shù)模敲礄C(jī)器學(xué)習(xí)或數(shù)據(jù)科學(xué)或深度學(xué)習(xí)應(yīng)用于物聯(lián)網(wǎng)。
有些人對(duì)深度學(xué)習(xí)有不同的定義。他們認(rèn)為深度學(xué)習(xí)是具有更深層的神經(jīng)網(wǎng)絡(luò)(機(jī)器學(xué)習(xí)技術(shù))。最近在Quora上提出了這個(gè)問題,下面是一個(gè)更詳細(xì)的解釋(來源:Quora)
AI(人工智能)是計(jì)算機(jī)科學(xué)的一個(gè)子領(lǐng)域,創(chuàng)建于20世紀(jì)60年代,它關(guān)注的是解決對(duì)人類而言容易但對(duì)計(jì)算機(jī)來說很難的任務(wù)。特別是,所謂的強(qiáng)人工智能將是一個(gè)可以做任何事情的系統(tǒng)(也許沒有純粹的物理事物)。這是非常通用的,包括各種任務(wù),例如計(jì)劃,在世界各地移動(dòng),識(shí)別對(duì)象和聲音,說話,翻譯,進(jìn)行社交或商業(yè)交易,創(chuàng)造性工作(制作藝術(shù)或詩歌)等。
NLP(自然語言處理)只是人工智能的一部分,與語言(通常是書面的)有關(guān)。
機(jī)器學(xué)習(xí)關(guān)注的一個(gè)方面是:給定一些可以用離散術(shù)語描述的AI問題(例如,從一組特定的動(dòng)作中,哪一個(gè)是正確的動(dòng)作),并給出關(guān)于世界的大量信息,圖什么是“正確”的行動(dòng),沒有程序員編程。通常需要一些外部過程來判斷行動(dòng)是否正確。在數(shù)學(xué)術(shù)語中,它是一個(gè)函數(shù):你輸入一些輸入,并且你希望它產(chǎn)生正確的輸出,所以整個(gè)問題只是以某種自動(dòng)的方式建立這個(gè)數(shù)學(xué)函數(shù)的模型。為了區(qū)分AI,如果我能編寫一個(gè)非常聰明的程序,它具有類似人類的行為,它可以是AI,但除非它的參數(shù)是從數(shù)據(jù)中自動(dòng)學(xué)習(xí)的,否則它不是機(jī)器學(xué)習(xí)。
深度學(xué)習(xí)是一種現(xiàn)在非常流行的機(jī)器學(xué)習(xí)。它涉及一種特定類型的數(shù)學(xué)模型,可以被認(rèn)為是某種類型的簡單塊(函數(shù)組合)的組合,并且其中一些塊可以被調(diào)整以更好地預(yù)測(cè)最終結(jié)果。
機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)有什么區(qū)別?
本文試圖回答這個(gè)問題。作者寫道,統(tǒng)計(jì)數(shù)據(jù)是機(jī)器學(xué)習(xí),其中包含預(yù)測(cè)或估計(jì)量的置信區(qū)間。我傾向于不同意,因?yàn)槲医⒘斯こ逃押玫闹眯艆^(qū)間,不需要任何數(shù)學(xué)或統(tǒng)計(jì)知識(shí)。
3.數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)和統(tǒng)計(jì)是數(shù)據(jù)科學(xué)的一部分。機(jī)器學(xué)習(xí)中的單詞學(xué)習(xí)意味著算法依賴于一些數(shù)據(jù),用作訓(xùn)練集,以微調(diào)一些模型或算法參數(shù)。這包括許多技術(shù),例如回歸,樸素貝葉斯或監(jiān)督聚類。但并非所有技術(shù)都適用于此類別。例如,無監(jiān)督聚類 - 統(tǒng)計(jì)和數(shù)據(jù)科學(xué)技術(shù) - 旨在檢測(cè)聚類和聚類結(jié)構(gòu),而無需任何先驗(yàn)知識(shí)或訓(xùn)練集來幫助分類算法。需要人來標(biāo)記發(fā)現(xiàn)的聚類。一些技術(shù)是混合的,例如半監(jiān)督分類。一些模式檢測(cè)或密度估計(jì)技術(shù)適合此類別。
數(shù)據(jù)科學(xué)不僅僅是機(jī)器學(xué)習(xí)。數(shù)據(jù)科學(xué)中的數(shù)據(jù)可能來自也可能不來自機(jī)器或機(jī)械過程(調(diào)查數(shù)據(jù)可以手動(dòng)收集,臨床試驗(yàn)涉及特定類型的小數(shù)據(jù)),它可能與我剛剛討論過的學(xué)習(xí)無關(guān)。但主要區(qū)別在于數(shù)據(jù)科學(xué)涵蓋了整個(gè)數(shù)據(jù)處理范圍,而不僅僅是算法或統(tǒng)計(jì)方面。特別是,數(shù)據(jù)科學(xué)也包括在內(nèi)
數(shù)據(jù)集成
分布式架構(gòu)
自動(dòng)化機(jī)器學(xué)習(xí)
數(shù)據(jù)可視化
儀表板和BI
數(shù)據(jù)工程
在生產(chǎn)模式下部署
自動(dòng)化,數(shù)據(jù)驅(qū)動(dòng)的決策
當(dāng)然,在許多組織中,數(shù)據(jù)科學(xué)家只關(guān)注這一過程的一部分