數(shù)據(jù)驅(qū)動(dòng)世界中的騙局
掃描二維碼
隨時(shí)隨地手機(jī)看文章
物聯(lián)網(wǎng)時(shí)代,不論是智能硬件設(shè)備廠商、云端服務(wù)商,乃至是投資人,都在津津樂道地給大家灌輸著一個(gè)概念:數(shù)據(jù)驅(qū)動(dòng)。 他們大談數(shù)據(jù),有了數(shù)據(jù)就掌握了未來,而在數(shù)據(jù)驅(qū)動(dòng)的背后,欺騙與謊言充斥。Fusiom的Alexis Madriga就這一問題寫了一篇生動(dòng)有趣的文章,給大家形象地揭開了數(shù)據(jù)驅(qū)動(dòng)世界的騙局。全文如下:
每天早晨我都在謊言中開啟新的一天。
起床后我走進(jìn)衛(wèi)生間,稱了一下自己的體重。這個(gè)數(shù)據(jù)會(huì)從中國(guó)制造的體重秤上同步到我手機(jī)中的 App 里面,并且最終進(jìn)入蘋果的數(shù)據(jù)庫,我的體重?cái)?shù)據(jù)將永久地存放在云端。
我進(jìn)行這個(gè)稱量體重的儀式是因?yàn)楦杏X它能迫使我對(duì)于自己的體重保持誠(chéng)實(shí)。它會(huì)阻止我找借口欺騙自己,比如說衣服不合身是因?yàn)橄吹目s水了,而不是因?yàn)槌韵氯ヌ嗥【婆c奶酪。這些體重?cái)?shù)據(jù)是真實(shí)無誤的,它們不是出自于我的主觀判斷,因此體重秤是不會(huì)說謊的。
當(dāng)然了,我們都相信體重秤顯示的數(shù)字從技術(shù)層面上來看不應(yīng)有假,這個(gè)數(shù)字就是當(dāng)下我的真實(shí)體重,它就如同蛋糕菜譜上的配方表里的數(shù)字一樣是可靠的。
但是在一次次的稱體重中你會(huì)發(fā)現(xiàn),那個(gè)決定了一個(gè)人是標(biāo)準(zhǔn)還是臃腫,是瘦削還是肥胖的體重?cái)?shù)字,其實(shí)是很容易被操縱的。
如果我想讓自己輕一些,我就會(huì)在上稱之前出去跑步流一身大汗,排出多余水分。如果我擔(dān)心自己減的太猛已經(jīng)超出了健身方案制定的標(biāo)準(zhǔn),那么我就需要重新回到健康飲食當(dāng)中,推遲稱重的時(shí)間,補(bǔ)充食物與充足的水,這樣子就可以看到體重?cái)?shù)字又有所回升。
當(dāng)然了,你所使用的這些干預(yù)體重的方法只會(huì)帶來增減 5 磅(約為 4.5 斤)左右的差別,但是對(duì)于某些和我一樣對(duì)于體重?zé)o比看重的人來說,這些小小的體重?cái)?shù)字波動(dòng)已經(jīng)足以讓我感覺自己確實(shí)有所轉(zhuǎn)變,從這個(gè)人
變成了這個(gè)人
你也許覺得這只是個(gè)人生活方面的數(shù)字欺詐,世界上的其他數(shù)據(jù),比如說發(fā)表在公開學(xué)術(shù)期刊上的數(shù)據(jù)總沒那么容易被人為操縱吧。
不過如果你看到了最近刊登在美國(guó)權(quán)威學(xué)術(shù)期刊《科學(xué)》上面的一項(xiàng)研究,或許就不會(huì)這么認(rèn)為了。該項(xiàng)目的研究人員對(duì)于已發(fā)表的 100 篇高質(zhì)量心理學(xué)論文中進(jìn)行的實(shí)驗(yàn)進(jìn)行了復(fù)制,看看是不是能夠得出相同的數(shù)據(jù),而實(shí)驗(yàn)結(jié)果是僅僅有 36% 的數(shù)據(jù)可以重現(xiàn)。換句話說,就算是換了另一批小心翼翼且專業(yè)的研究人員,也有三分之二的論文結(jié)果是不能被重現(xiàn)出來的。
「這個(gè)研究項(xiàng)目為我們提供了不少證據(jù),了解到在很多心理學(xué)研究論文中發(fā)現(xiàn)的結(jié)論仍然需要細(xì)致的工作去反復(fù)檢驗(yàn),看看這些結(jié)果到底是不是像我們知道的那樣確定。」
在如今的很多研究領(lǐng)域當(dāng)中,科學(xué)家們會(huì)一直收集數(shù)據(jù),直到數(shù)據(jù)呈現(xiàn)出一種在統(tǒng)計(jì)學(xué)上顯著的模式,然后他們會(huì)使用這些經(jīng)過嚴(yán)格挑選的數(shù)據(jù)去發(fā)表論文。在學(xué)術(shù)圈里這種做法被稱作是「P 值篡改」(p-hacking),只要掌握一些數(shù)據(jù)操作的技巧,就可以讓數(shù)據(jù)虛高,得出一個(gè)在統(tǒng)計(jì)學(xué)上顯著且有意義的結(jié)果。在論文中常用的篡改數(shù)據(jù)的手法如下:
通過中途的實(shí)驗(yàn)分析決定是否要繼續(xù)收集數(shù)據(jù)
記錄下許多因變量,并決定要選取報(bào)哪一個(gè)寫入報(bào)告
擅自決定是否要添加或者刪除極端值
對(duì)于實(shí)驗(yàn)群體重新進(jìn)行排除、組合或者是分離操作
當(dāng)分析結(jié)果已經(jīng)呈現(xiàn)出 P 值顯著時(shí)就立刻停止數(shù)據(jù)采集
把上述所有加在一起,你就會(huì)發(fā)現(xiàn)知識(shí)產(chǎn)出的過程當(dāng)中存在著如此明顯的問題。
當(dāng)這些有問題的研究結(jié)論進(jìn)入到 Facebook 驅(qū)動(dòng)的社交媒體世界當(dāng)中時(shí),即便是一個(gè)小小的「P 值篡改」的研究也會(huì)迅速傳遍世界,而且不會(huì)有多少人表示懷疑。當(dāng)一個(gè)普通人在快速瀏覽新聞的時(shí)候不會(huì)意識(shí)到那些「科學(xué)實(shí)驗(yàn)得出」、「研究表明」其實(shí)就是扯淡,其研究結(jié)果根本經(jīng)不起檢驗(yàn),尤其是當(dāng)這些說法出現(xiàn)在學(xué)術(shù)期刊上,就更不會(huì)引發(fā)懷疑了。
這就是所謂專業(yè)的科學(xué)研究!如果在學(xué)術(shù)研究領(lǐng)域當(dāng)中都存在著數(shù)據(jù)作假,那么就更別提在數(shù)據(jù)驅(qū)動(dòng)的商業(yè)領(lǐng)域情況會(huì)是如何了。
在令人嘖嘖稱奇的《國(guó)家的視角》(Seeing Like a State)一書中,展現(xiàn)了各國(guó)政府與其他大型機(jī)構(gòu)如何試圖減少世界當(dāng)中存在的極端復(fù)雜性,將其歸為統(tǒng)計(jì)數(shù)據(jù)可以解釋的范疇里,并使得其國(guó)家或者組織的領(lǐng)導(dǎo)人能夠理解到底發(fā)生了什么。
作者 James C. Scott 在全書開頭使用了一則歷史當(dāng)中真實(shí)的故事作為引子。在 18 世紀(jì)下半葉,普魯士的統(tǒng)治者們想要知道在自己森林茂密的國(guó)家中到底擁有多少「自然資源」。因此他們就開始著手計(jì)算了,他們?cè)谧约簢?guó)家的版圖上畫出了一個(gè)巨大的表格,這樣就可以算出來在一個(gè)劃定的森林范圍當(dāng)中可以產(chǎn)出多少板尺(譯者注:硬木板材的計(jì)量單位)的木材。至于森林的其他價(jià)值,比如說為人類和動(dòng)物提供庇護(hù),以及自身擁有的生態(tài)環(huán)境價(jià)值都被忽略不計(jì)。
真實(shí)的世界并不那么守規(guī)矩,普魯士統(tǒng)治者們得到的數(shù)據(jù)總是不完美。因此他們開始自己創(chuàng)造新的森林,在相同時(shí)間種下單一品種的樹木,這樣在森林當(dāng)中就不會(huì)存在無法貨幣化的樹木了?!甘聦?shí)就是在這種幾何圖形的森林規(guī)劃背后有著國(guó)家力量的支撐,這種力量將原生的、真實(shí)的、包含多個(gè)物種且略顯混亂的森林變成了新型大一統(tǒng)森林,并且將森林劃分成網(wǎng)格狀進(jìn)行統(tǒng)一管理?!筍cott 在書中如此寫道。
普魯士的森林全都變成了網(wǎng)格!這些人甚至把樹木按照嚴(yán)格的網(wǎng)格形狀種成整齊的一排。
德國(guó)的林務(wù)員們對(duì)于如何施肥以及管理樹木有著非??茖W(xué)的認(rèn)識(shí)。普魯士的植樹造林計(jì)劃確實(shí)奏效,至少在接下來的 100 年里沒有出現(xiàn)什么問題。在全世界各地有很多人采用了普魯士這種統(tǒng)一管理森林的方法。
之后森林就開始大片的死去。
「在德國(guó)的這一植樹造林計(jì)劃中,那些無法形成最終商業(yè)價(jià)值的樹木品種被拋棄,以至于造成了后來樹木大片死亡的令人痛心的結(jié)果,這一局面只有在裸子植物被種下去之后才有可能得到扭轉(zhuǎn)?!?/p>
樹木生長(zhǎng)需要依靠復(fù)雜的生態(tài)系統(tǒng)作為支撐,而這種系統(tǒng)的形成需要經(jīng)過數(shù)代微生物與物種內(nèi)部的相互作用培養(yǎng)而成,所有的這一切物種關(guān)系都被普魯士嚴(yán)格的植樹計(jì)劃給破壞殆盡。植物與微生物的營(yíng)養(yǎng)周期被打斷,物種之間微妙的平衡一去不復(fù)返,在真實(shí)世界里隱藏著的運(yùn)行規(guī)則只有在它消失時(shí)才會(huì)慢慢顯露出來。德國(guó)人發(fā)明了一個(gè)新詞匯去描述發(fā)生的這一切:Waldsterben,意思為森林的消逝。
有時(shí)候當(dāng)我看看現(xiàn)在的世界,在很多情況下,人們僅憑得到的有限數(shù)據(jù)就去試圖掌控人類與其他生物之間無比復(fù)雜的關(guān)系。我很想知道是否我們也已經(jīng)步上了曾經(jīng)的普魯士的后塵,等待著下一個(gè) Waldsterben 的時(shí)刻。
由廣告支撐的互聯(lián)網(wǎng)生態(tài)系統(tǒng)就是一個(gè)好例子。這種運(yùn)作方式非常聰明:通過整個(gè)互聯(lián)網(wǎng)獲取人們的數(shù)據(jù),然后根據(jù)已知的信息向他們展示想要看的廣告。不僅如此,由于和傳統(tǒng)的廣播媒體與印刷媒體相比,人們的網(wǎng)上活動(dòng)過程是可以跟蹤的,因此廣告主能夠越來越精確地掌握人們想要買些啥。顯然,在數(shù)據(jù)挖掘技術(shù)的支持下,在線廣告市場(chǎng)份額在不斷增長(zhǎng),已經(jīng)奪取了大部分其他傳統(tǒng)媒體所擁有的市場(chǎng)份額。很多新媒體公司不斷增長(zhǎng)的估值都是建立在數(shù)字廣告市場(chǎng)將不斷增長(zhǎng)的預(yù)期基礎(chǔ)上。
不過如果撕開這一層光鮮亮麗的外皮,就會(huì)發(fā)現(xiàn)其中顯而易見的問題。在那些數(shù)字廣告與宣傳視頻龐大流量的背后其實(shí)并非是真實(shí)的消費(fèi)者,絕大部分都是軟件偽造出來的虛假點(diǎn)擊。
「這是一種讓虛假流量以假亂真的藝術(shù),它們會(huì)通過足夠的信息將自己偽造成一個(gè)看上去真實(shí)的用戶。由程序控制的廣告計(jì)費(fèi)系統(tǒng)無法分辨點(diǎn)擊是來自真實(shí)的用戶還是機(jī)器人,也無法識(shí)別出那些擁有新鮮、原創(chuàng)內(nèi)容的網(wǎng)站與只會(huì)復(fù)制粘貼別人的文章與圖片的假網(wǎng)站?!?/p>
當(dāng)然了,高端的媒體不需要做這種事情。但是便宜且由程序控制的計(jì)費(fèi)廣告被虛假流量給蒙蔽了,虛假流量也拉低了整個(gè)在線媒體行業(yè)的廣告價(jià)格,這使得那些真心做新聞的網(wǎng)站依靠廣告費(fèi)很難支撐自己的運(yùn)行。同時(shí),很多網(wǎng)站的用戶都非常反感這種商業(yè)模式,并且開始安裝廣告攔截器來對(duì)抗在線廣告。
廣告商與廣告技術(shù)公司只想要抓取用戶的數(shù)據(jù)去向他們投放精準(zhǔn)匹配的廣告,他們唯一想做的事情就是讓自己投放的廣告更加具有針對(duì)性。但是從實(shí)際出發(fā),這種伴隨著廣告商不斷增長(zhǎng)的欲望而發(fā)展出來的廣告模式勢(shì)必會(huì)以難以預(yù)料的方式去重塑網(wǎng)絡(luò)媒體的價(jià)值觀。
我們欺騙自己說數(shù)據(jù)不過是一個(gè)鏡頭,僅僅反映出我們的生活圖景,然而數(shù)據(jù)實(shí)際上已經(jīng)成為了在線廣告商業(yè)模式的引擎。廣告商獲取的用戶數(shù)據(jù)已經(jīng)改變了在線媒體業(yè)的運(yùn)作方式。單以收集數(shù)據(jù)這種行為本身來看,它就不是一個(gè)中性的舉動(dòng),它是一種重塑在線媒體的方式。
也就是說我每天上稱量體重并不是為了獲知自己真實(shí)的體重,而是為了改變對(duì)于自己胖瘦的認(rèn)知。這個(gè)謊言通常都是奏效的。