大數(shù)據(jù)的本質(zhì)是怎樣的
掃描二維碼
隨時(shí)隨地手機(jī)看文章
事實(shí)上并非如此,從歷史上來說,現(xiàn)代統(tǒng)計(jì)學(xué)的起源是南丁格爾用大量的統(tǒng)計(jì)數(shù)據(jù)和方法制作出了后世有名的“南丁格爾玫瑰圖”從而奠定了現(xiàn)代護(hù)理學(xué)的基礎(chǔ),救助了許多戰(zhàn)場士兵的生命。從此以后許多國家(尤其是美國和法國)都開始致力于大量收集各種居民數(shù)據(jù),這種數(shù)據(jù)的搜集稱之為“人口普查”。人口普查可以看作是現(xiàn)在“大數(shù)據(jù)”的原型,統(tǒng)計(jì)學(xué)家事實(shí)上200年前就開始做這樣的事情了。所以“大數(shù)據(jù)”并不是2010年中以后的事情,這是許多不了解統(tǒng)計(jì)學(xué)的人的偏見。
從學(xué)科發(fā)展的角度來說,統(tǒng)計(jì)科學(xué)家?guī)资昵耙查_始注重研究如何處理“大數(shù)據(jù)”的問題,比如說當(dāng)我們有大量的觀測量,同時(shí)又有大量的解釋變量的時(shí)候應(yīng)該如何做?所以說覺得“大數(shù)據(jù)”問題是近幾年才出現(xiàn),并且缺少學(xué)術(shù)上的關(guān)注的想法也是完全錯(cuò)誤的。傳統(tǒng)統(tǒng)計(jì)學(xué)者比誰都更關(guān)心“大數(shù)據(jù)”所導(dǎo)致的問題。別的不說,我們熟知的“抽樣”統(tǒng)計(jì)的方法,最初就是為了解決數(shù)據(jù)量太過龐大,然而計(jì)算能力并無法允許我們直接采用全樣本進(jìn)行估計(jì)而設(shè)計(jì)的。
2. 用傳統(tǒng)統(tǒng)計(jì)學(xué)無法處理大數(shù)據(jù)是因?yàn)榫幊碳夹g(shù)不足么?
2010年之后,大多數(shù)人覺得“分布式”計(jì)算是未來處理大數(shù)據(jù)的主要方向,分布式計(jì)算主要的想法是: “組件之間彼此進(jìn)行交互以實(shí)現(xiàn)一個(gè)共同的目標(biāo)。把需要進(jìn)行大量計(jì)算的工程數(shù)據(jù)分割成小塊,由多臺(tái)計(jì)算機(jī)分別計(jì)算,再上傳運(yùn)算結(jié)果后,將結(jié)果統(tǒng)一合并得出數(shù)據(jù)結(jié)論的科學(xué)。
然而人們由于過度迷信這種分布式運(yùn)算帶來的“便利之處”,早就忘了很久以前,我們可能就已經(jīng)存在解決問題之道,并且可能甚至比分布式運(yùn)算來得更好。統(tǒng)計(jì)學(xué)者們?cè)?0年前就開始研究如何利用數(shù)據(jù)的抽象原理來快速求解及其復(fù)雜的整體最優(yōu)問題,并且早早地在抽象數(shù)學(xué)和具象的計(jì)算遠(yuǎn)離之間構(gòu)架起了橋梁。
分布式處理技術(shù)事實(shí)上很多時(shí)候與之前發(fā)現(xiàn)的技術(shù)相比并不具備太大優(yōu)勢,其最主要的優(yōu)勢在于:“使用世界各地上千萬志愿者計(jì)算機(jī)的閑置計(jì)算能力,通過互聯(lián)網(wǎng)進(jìn)行數(shù)據(jù)傳輸(志愿計(jì)算)。”這樣簡單粗暴的計(jì)算方式讓我們不再去思考如何優(yōu)雅地解決問題,而是把注意力更多地放在如何“更快地得到答案”以及“更實(shí)用”這兩點(diǎn)上。
在這種思維模式下,人們?cè)絹碓缴僬嬲ニ伎紨?shù)據(jù)背后的意義,以及如何策略性地選擇和分析數(shù)據(jù)的問題。很可惜,現(xiàn)在市場上的聲音只剩下了“大數(shù)據(jù)”狂熱者們的搖旗吶喊:“統(tǒng)計(jì)有什么用?只要算法足夠精妙,計(jì)算機(jī)足夠強(qiáng)大就行了”。
3. 是不是只有學(xué)了“大數(shù)據(jù)”專業(yè)才能在大公司找到工作?
許多“大數(shù)據(jù)”愛好者都覺得只有學(xué)了大數(shù)據(jù)專業(yè)才有可能會(huì)被谷歌或者亞馬遜這樣的大公司錄取。
當(dāng)然這樣的想法也不是空穴來風(fēng),在巨大的市場需求驅(qū)動(dòng)下,現(xiàn)在的確是”大數(shù)據(jù)“的黃金年代,美國僅僅2014年就有440萬與大數(shù)據(jù)相關(guān)的工作被提供,而大多數(shù)的這類職位的需求都是:“你需要懂得計(jì)算機(jī)編程,以及處理數(shù)據(jù)”。這就使得許多傳統(tǒng)統(tǒng)計(jì)方向畢業(yè)的學(xué)生直接被拒之門外,只能望洋興嘆。
另一方面在大量的市場需求下,許多人有了濫竽充數(shù)魚目混珠的機(jī)會(huì),這優(yōu)秀的數(shù)據(jù)工作者和“普通的”數(shù)據(jù)工作者往往很難在第一時(shí)間被市場分辨出來。這就導(dǎo)致了市場上有太多數(shù)據(jù)工作者,但是極少數(shù)的人能夠夠格稱得上“數(shù)據(jù)科學(xué)家”。大多數(shù)時(shí)候,一個(gè)“數(shù)據(jù)科學(xué)家”的職位往往意味著你需要有很多的工作經(jīng)驗(yàn),或者是名校的統(tǒng)計(jì)或者計(jì)算機(jī)系的博士文憑。真正的好公司也不傻,大家只愿意支付高額薪水給那些真正可以“讀懂”數(shù)據(jù)的人。而讀懂二字背后意味著不是只是會(huì)跑跑程序畫畫統(tǒng)計(jì)圖就夠了的。