大數(shù)據(jù)時(shí)代,如何把自己武裝成數(shù)據(jù)科學(xué)家? ——訪MathWorks公司首席戰(zhàn)略師Jim Tung
全球知名咨詢公司麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。”
毋庸諱言,我們現(xiàn)在正處在這樣一個(gè)爆炸性增長(zhǎng)的大數(shù)據(jù)時(shí)代。世界上每天都在產(chǎn)生著各種各樣的大量的數(shù)據(jù),但大致可以分為兩類:工程數(shù)據(jù)和商業(yè)數(shù)據(jù)。
所謂工程數(shù)據(jù),就是來(lái)自各種傳感器、數(shù)據(jù)采集設(shè)備、測(cè)試儀器等的工程上的各種數(shù)據(jù)。而商業(yè)數(shù)據(jù),一般是指商業(yè)企業(yè)內(nèi)部數(shù)據(jù)、分銷渠道數(shù)據(jù)、消費(fèi)市場(chǎng)數(shù)據(jù)等。
對(duì)于工程師來(lái)說(shuō),處理分析這些海量工程數(shù)據(jù)將是工作的新挑戰(zhàn)。
如何對(duì)工程數(shù)據(jù)實(shí)現(xiàn)高級(jí)分析?
這需要達(dá)到3個(gè)境界:
1.通過(guò)數(shù)據(jù)分析,理解數(shù)據(jù)表達(dá)的內(nèi)涵;
2.尋找數(shù)據(jù)模式,建立預(yù)測(cè)模型;
3.在此基礎(chǔ)上,提出可行的建議或措施;
要出色完成上面的工作,工程師不僅需要具有專業(yè)領(lǐng)域的知識(shí),還要具有寫代碼和系統(tǒng)集成的能力,同時(shí)還得了解統(tǒng)計(jì)學(xué)和數(shù)學(xué)知識(shí),這些無(wú)疑就是一個(gè)強(qiáng)大的數(shù)據(jù)科學(xué)家的要求啊!
想想我們?cè)诖髮W(xué)里學(xué)的那些可憐有限的知識(shí),離數(shù)據(jù)科學(xué)家還差著十萬(wàn)八千里呢!
不過(guò),也有一個(gè)方法,通過(guò)運(yùn)用MATLAB,讓自己快速成長(zhǎng)為數(shù)據(jù)科學(xué)家!
(什么?沒(méi)聽(tīng)說(shuō)過(guò)MATLAB,那還不趕緊去補(bǔ)課!)
MATLAB是美國(guó)MathWorks公司出品的商業(yè)數(shù)學(xué)軟件,用于算法開(kāi)發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計(jì)算的高級(jí)技術(shù)計(jì)算語(yǔ)言和交互式環(huán)境,主要包括MATLAB和Simulink兩大部分產(chǎn)品。
MATLAB厲害之處在于,它將數(shù)值分析、矩陣計(jì)算、科學(xué)數(shù)據(jù)可視化以及非線性動(dòng)態(tài)系統(tǒng)的建模和仿真等諸多強(qiáng)大功能集成在一個(gè)易于使用的圖形操作環(huán)境中,為科學(xué)研究、工程設(shè)計(jì)以及必須進(jìn)行有效數(shù)值計(jì)算的眾多科學(xué)領(lǐng)域提供了一種全面的解決方案,并在很大程度上擺脫了傳統(tǒng)非交互式程序設(shè)計(jì)語(yǔ)言(如C、Fortran)的編輯模式,代表了當(dāng)今國(guó)際科學(xué)計(jì)算軟件的先進(jìn)水平。
這是來(lái)自MathWorks美國(guó)總公司首席戰(zhàn)略師Jim Tung先生,這位牛人在前不久召開(kāi)的“2016 MATLAB巡回研討會(huì)”上,以“工程驅(qū)動(dòng)分析的崛起”為主題,通過(guò)大量生動(dòng)案例,告訴工程師如何應(yīng)用MATLAB和Simulink去實(shí)現(xiàn)自己的數(shù)據(jù)科學(xué)家夢(mèng)想。
Jim Tung先生指出,工程驅(qū)動(dòng)的高級(jí)數(shù)據(jù)分析需求正在迅速崛起,可以說(shuō)數(shù)據(jù)分析的需求無(wú)處不在。正是由于MATLAB具有的諸多優(yōu)勢(shì):良好的面向?qū)ο罂蚣?、與Java接口的能力(后端工作)、可在云中運(yùn)行、單元測(cè)試框架、健壯的數(shù)值算法、健壯和可靠的數(shù)學(xué)優(yōu)化程序等,使得MATLAB在多個(gè)行業(yè)幫助工程師實(shí)現(xiàn)高級(jí)分析挑戰(zhàn)。
例如,BuildingIQ公司使用 MATLAB 的數(shù)據(jù)分析功能加快開(kāi)發(fā)和部署前瞻性預(yù)測(cè)算法,以實(shí)現(xiàn)暖通空調(diào)能耗優(yōu)化。BuildingIQ 的工程師已開(kāi)發(fā)出一款基于云的軟件平臺(tái)—Predictive Energy Optimization,該平臺(tái)可以讓大型樓宇內(nèi)的暖通空調(diào)在正常運(yùn)行過(guò)程中降低 10%-25% 能耗。BuildingIQ公司項(xiàng)目負(fù)責(zé)人表示,他們采用 MATLAB 的原因在于它是現(xiàn)有算法原型開(kāi)發(fā)以及執(zhí)行高級(jí)數(shù)學(xué)運(yùn)算的最佳工具。MATLAB 能夠?qū)uildingIQ的原型算法直接轉(zhuǎn)換為可以靠處理真實(shí)噪音和不確定性問(wèn)題的產(chǎn)品級(jí)算法。
Scania是一家著名的貨車及巴士制造商,該公司使用MathWorks工具(包括MATLAB和Simulink)進(jìn)行基于模型的設(shè)計(jì),為其長(zhǎng)途運(yùn)輸卡車開(kāi)發(fā)節(jié)油駕駛輔助系統(tǒng)。該公司開(kāi)發(fā)負(fù)責(zé)人表示:“Simulink在我們開(kāi)發(fā)過(guò)程的兩個(gè)階段特別有幫助。在早期階段,可幫助我們嘗試新的構(gòu)想并直觀地展示工作原理。在生成代碼和進(jìn)行車內(nèi)測(cè)試后,我們可以運(yùn)行多次仿真,優(yōu)化設(shè)計(jì),并為下一次迭代重新生成代碼。”在本次大會(huì)上,還展示了一段視頻,Scania在其車輛自動(dòng)緊急制動(dòng)的研究中,基于MathWorks工具進(jìn)行傳感器融合的先進(jìn)分析,從而實(shí)現(xiàn)了在貨車50英里時(shí)速下的緊急制動(dòng)。
面對(duì)不斷涌現(xiàn)的新技術(shù),例如:無(wú)人機(jī)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等,MathWorks的工具如何滿足新的挑戰(zhàn)呢?Jim Tung先生解釋說(shuō),“首先,我們提供了很多新的算法,包括一些老算法的新實(shí)現(xiàn)。我們有統(tǒng)計(jì)與機(jī)器學(xué)習(xí)的工具箱,深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)工具箱,這些新的算法都可以讓客戶直接使用。其次,我們提供了代碼生成的功能,提供了一個(gè)簡(jiǎn)單快捷的方法讓用戶把算法直接做到嵌入式系統(tǒng)中。另一方面,我們對(duì)工程性的關(guān)注也很高,我們不僅關(guān)注一些統(tǒng)計(jì)學(xué)數(shù)學(xué)的東西,我們更關(guān)注怎樣最快地得到一些有效可用的技術(shù),例如,有關(guān)如何學(xué)習(xí)像Machine learning新技術(shù)的途徑。另外,我們的工具還新增支持GPU計(jì)算,對(duì)FPGA的支持,以及對(duì)集群技術(shù)的支持,這些對(duì)工程師應(yīng)對(duì)新的工程挑戰(zhàn)將大有幫助。”
附:MATLAB起源
上世紀(jì)70年代,美國(guó)New Mexico大學(xué)計(jì)算機(jī)系教授Cleve Moler在開(kāi)發(fā)EISPACK和LINPACK程序庫(kù),他同時(shí)在教授數(shù)值分析和矩陣?yán)碚撨@門課,他想讓學(xué)生們?cè)谑褂肊ISPACK和LINPACK時(shí)免去用Fortran編寫接口程序的麻煩,于是他就基于Fortran語(yǔ)言和EISPACK/LINPACK的部分內(nèi)容編寫出了第一個(gè)版本的MATLAB。1979年,Cleve Moler去斯坦福訪學(xué),并給研究生教授數(shù)值分析課程, Cleve Moler讓學(xué)生們用MATLAB去完成課后作業(yè),他發(fā)現(xiàn)其中來(lái)自數(shù)學(xué)/計(jì)算機(jī)專業(yè)的學(xué)生對(duì)他編寫的MATLAB并不感冒,因?yàn)镕ortran語(yǔ)言在數(shù)值分析方面并不主流;可是來(lái)自工程專業(yè)的學(xué)生卻很喜歡MATLAB,因?yàn)镸ATLAB的矩陣數(shù)據(jù)特點(diǎn)對(duì)他們很有幫助,但Cleve Moler卻對(duì)這些學(xué)生的研究課題像控制分析和信號(hào)處理等一無(wú)所知。后來(lái),Cleve Moler班上的一些學(xué)生畢業(yè)后繼續(xù)從事改進(jìn)MATLAB的工作,讓MATLAB在控制分析和信號(hào)處理方面變得更強(qiáng)大,同時(shí)基于此推出了一些商業(yè)產(chǎn)品。
Jack Little是第一個(gè)基于Fortran MATLAB的商業(yè)產(chǎn)品的主要開(kāi)發(fā)者,他和同事Steve Bangert用C語(yǔ)言重新編寫了MATLAB,同時(shí)增加了M-files、工具箱和更多強(qiáng)大的圖形功能。1984年,Cleve Moler、Jack Little和Steve Bangert成立了MathWorks公司,正式把MATLAB推向市場(chǎng),并繼續(xù)進(jìn)行MATLAB的研究和開(kāi)發(fā)。