12億個(gè)人數(shù)據(jù)泄露:明晃晃地掛在暗網(wǎng)上
身為驢(旅)友,花大把時(shí)間探索大千世界著實(shí)不錯(cuò),如果運(yùn)氣好,找找寶藏,沒(méi)準(zhǔn)真能遇到堆滿了金銀財(cái)寶的“小金屋”。
不過(guò),這都算不上離奇。最刺激的,寶藏被神秘人士仍在大街上,任你去取。連找的力氣都省了,那還不得樂(lè)昏過(guò)去?
或許你會(huì)問(wèn),世上哪有這等好事?別說(shuō),還真有!
近日,研究人員鮑勃·迪亞琴科( Bob Diachenko )和文尼·特羅亞( Vinny Troia )就發(fā)現(xiàn)了“寶箱”。
原來(lái),這是一個(gè) Elasticsearch 服務(wù)器,其中包含12億用戶賬戶,該服務(wù)器被公開(kāi)在暗網(wǎng)上,任何人都可以“到此一游”。
數(shù)據(jù)來(lái)自何方?
研究人員分析,當(dāng)人們通過(guò) BinaryEdge 和 Shodan 尋找公開(kāi)信息時(shí),偶然發(fā)現(xiàn)服務(wù)器的IP地址可以追溯到 Google Cloud Services ??傮w而言,該數(shù)據(jù)庫(kù)存儲(chǔ)著超過(guò) 4 TB 的公開(kāi)數(shù)據(jù)供公眾訪問(wèn)。
作為全文檢索搜索引擎的核心技術(shù), Elasticsearch 作為基于 Lucene 庫(kù)的搜索引擎而存在,其被應(yīng)用于企業(yè)信息網(wǎng)站、媒體網(wǎng)站、政府站點(diǎn)、商業(yè)網(wǎng)站、數(shù)字圖書(shū)館和搜索引擎中。
查看研究人員分享的詳細(xì)信息后發(fā)現(xiàn),該數(shù)據(jù)是從社交媒體平臺(tái)(包括 Twitter , Facebook , LinkedIn 和 GitHub )中抓取,而該平臺(tái)同樣為 Git (一個(gè)開(kāi)源的分布式版本控制系統(tǒng))的存儲(chǔ)庫(kù)執(zhí)行托管服務(wù)。
這些數(shù)據(jù)在服務(wù)器中被分類(lèi)成四個(gè)不同的數(shù)據(jù)集,其中三個(gè)被標(biāo)記為“ People Data Labs ”的數(shù)據(jù)代理,而另一個(gè)則被標(biāo)記為“ OxyData ”的數(shù)據(jù)代理。
Troia 稱(chēng),他在 People Data Labs ( PDL )中發(fā)現(xiàn)了自己 10 年前在 AT&T 公司辦理的一個(gè)固話號(hào)碼。這個(gè)號(hào)碼他從未使用過(guò),但是當(dāng)時(shí)錄入的信息卻被保留在了這里。
經(jīng)研究發(fā)現(xiàn),在該服務(wù)器中包含了近 30 億 PDL 用戶記錄,近 12 億唯一人員和 6.5 億唯一電子郵件地址。
這些數(shù)據(jù)數(shù)量不光與 PDL 公司的宣傳相符,甚至研究人員還可以通過(guò) PDL API 返回的信息來(lái)反向查詢這些數(shù)據(jù)。
另外,研究人員通過(guò)將數(shù)據(jù)庫(kù)和上述兩家公司的公開(kāi)數(shù)據(jù)進(jìn)行比對(duì),發(fā)現(xiàn)至少在一定程度上源自它們。研究人員在博客文章中專(zhuān)門(mén)針對(duì) PDL 的措辭進(jìn)行了詳細(xì)說(shuō)明:
在打開(kāi)的 Elasticsearch 服務(wù)器上發(fā)現(xiàn)的數(shù)據(jù)幾乎與 People Data Labs API 返回的數(shù)據(jù)完全匹配。唯一的區(qū)別是 PDL 返回的數(shù)據(jù)還包含教育歷史記錄。
從服務(wù)器下載的任何數(shù)據(jù)中都沒(méi)有教育信息。其他所有內(nèi)容都完全相同,包括具有多個(gè)電子郵件地址和多個(gè)電話號(hào)碼的帳戶。
但是, PDL 聯(lián)合創(chuàng)始人 Sean Thorne 否認(rèn)公司擁有該服務(wù)器的說(shuō)法,并稱(chēng),該服務(wù)器的所有者可能使用了 PDL 提供的一種擴(kuò)充產(chǎn)品,以及其他數(shù)據(jù)擴(kuò)充或許可性服務(wù)。
另一方面,4 TB 用戶數(shù)據(jù)(包括 3.8 億個(gè)配置文件)被證實(shí)來(lái)自O(shè)xyData公司,但是該公司同樣回應(yīng)稱(chēng)并沒(méi)有服務(wù)器的所有權(quán)。
截止目前,研究人員并不能確定是誰(shuí)將服務(wù)器公開(kāi)在互聯(lián)網(wǎng)上,但信息泄露意味著將會(huì)影響到兩家公司的共同客戶,并使其面臨數(shù)據(jù)濫用的風(fēng)險(xiǎn)。
不是頭一次了
除了這次事件, Elasticsearch 服務(wù)器曾多次被向公眾公開(kāi),這同樣將毫無(wú)戒心的用戶和企業(yè)的個(gè)人數(shù)據(jù)置于風(fēng)險(xiǎn)之中:
今年早些時(shí)候,Elasticsearch服務(wù)器上公開(kāi)了超過(guò)2000萬(wàn)俄羅斯公民的個(gè)人信息。
今年5月,在 Freedom Mobile 擁有的 Elasticsearch 數(shù)據(jù)庫(kù)在線泄漏后,具有數(shù)百萬(wàn)加拿大人 CVV 碼的個(gè)人和支付卡數(shù)據(jù)再次暴露。
去年 12 月,另一個(gè)包含 8200 萬(wàn)美國(guó)人個(gè)人信息的數(shù)據(jù)庫(kù)在網(wǎng)上暴露了出來(lái)。
Elasticsearch 服務(wù)器有關(guān)的數(shù)據(jù)泄漏事件屢屢出現(xiàn),也吸引了大量攻擊者的目光,因?yàn)檫@可能成為其攻擊行動(dòng)的切入點(diǎn)。
Cequence Security 公司的一名黑客 Jason Kent 評(píng)論稱(chēng),“我們看到一種不同于以往的全新且具有潛在危險(xiǎn)的數(shù)據(jù)關(guān)聯(lián)。如果攻擊者持有豐富的數(shù)據(jù)集,那么就能夠制作針對(duì)性極高的攻擊。這種攻擊可導(dǎo)致密碼恢復(fù)信息、財(cái)務(wù)數(shù)據(jù)、通信模式、社會(huì)結(jié)構(gòu)等被暴露,這是高級(jí)別在位人員可遭針對(duì)性攻擊的方式。
聯(lián)邦調(diào)查局尚未回應(yīng)
兩名研究員將這一發(fā)現(xiàn)上報(bào)了聯(lián)邦調(diào)查局,盡管通常情況下幾個(gè)小時(shí)內(nèi) Elasticsearch 服務(wù)器即可完成數(shù)據(jù)脫機(jī)操作。但是,后者在收到消息后并未給出明確回復(fù)。
ARM Insight 首席執(zhí)行官 Randy Koch 分析,此次大規(guī)模數(shù)據(jù)泄露事件對(duì)那些被看成持有數(shù)據(jù)所有權(quán)的企業(yè)來(lái)說(shuō)造成巨大破壞,同時(shí)也會(huì)造成數(shù)十億人的信息外泄到世界各地。
所包含的個(gè)人數(shù)據(jù)如此龐大,加上識(shí)別數(shù)據(jù)所有者很復(fù)雜,因此有可能會(huì)引發(fā)我們現(xiàn)行隱私和數(shù)據(jù)泄露通知法律有效性的問(wèn)題。
如果具有數(shù)據(jù)掌控權(quán)的公司將其用戶信息收集并進(jìn)行集中合成,則可以有效預(yù)防此事件,因?yàn)閿?shù)據(jù)合成的過(guò)程在模仿真實(shí)數(shù)據(jù)的同時(shí)消除了用戶的可識(shí)別特征。
正確合成后,它就不能被黑客進(jìn)行逆向工程,并同時(shí)保留了原始數(shù)據(jù)集的所有統(tǒng)計(jì)價(jià)值,因此它仍然可以用于分析、市場(chǎng)營(yíng)銷(xiāo)、客戶細(xì)分和AI算法訓(xùn)練等等。
但是,集中數(shù)據(jù)會(huì)抵消作為數(shù)據(jù)掌控企業(yè)的名譽(yù),且在隱私、合規(guī)性上也頗具風(fēng)險(xiǎn)。