大數(shù)據(jù)時(shí)代的用戶隱私保護(hù)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
引 言
現(xiàn)在, 隨著網(wǎng)絡(luò)化和信息化的普及與提高, 數(shù)據(jù)正在以驚人的速度增長(zhǎng),大數(shù)據(jù)時(shí)代已經(jīng)來(lái)到,目前政府相關(guān)部門、學(xué)術(shù)研究單位和商業(yè)部門都在研究和應(yīng)用大數(shù)據(jù)。2008 年《Nature》推出了 Big Data ???,2011 年《Science》推出了Dealing with Data ???,2011 年McKinsey Global Institute 發(fā)布了一份報(bào) 告《Big data: The next frontier for innovation, competition, and productivity》,該報(bào)告詳盡分析了大數(shù)據(jù)的關(guān)鍵技術(shù)和應(yīng)用于各行業(yè)的關(guān)鍵發(fā)現(xiàn)。2012 年 6 月我國(guó)工業(yè)和信息化部賽迪研究院翻譯了該報(bào)告《大數(shù)據(jù) :下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿》,2012 年奧巴馬政府啟動(dòng)了投資2億美元的“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”,2012 年中國(guó)通信學(xué)會(huì)、中國(guó)計(jì)算機(jī)學(xué)會(huì)等重要學(xué)術(shù)組織先后成立了大數(shù)據(jù)專家委員會(huì)[1]。
大數(shù)據(jù)是一個(gè)比較抽象的概念,目前還沒有統(tǒng)一的定義, 但比較有代表性的是3V 定義,即認(rèn)為大數(shù)據(jù)需滿足規(guī)模性(Volume)、多樣性(Variety) 和高速性(Velocity) 3個(gè)特點(diǎn)[2]。大數(shù)據(jù)的來(lái)源可以分成人(人們?cè)诨ヂ?lián)網(wǎng)活動(dòng)以及使用移動(dòng)互聯(lián)網(wǎng)過程中所產(chǎn)生的各類數(shù)據(jù))、機(jī)(各類計(jì)算機(jī)信息系統(tǒng)產(chǎn)生的數(shù)據(jù))和物(各類數(shù)字設(shè)備所采集的數(shù)據(jù))三類 [1]。大數(shù)據(jù)的價(jià)值不僅在于它的基本用途,更來(lái)源于二次或多次利用, 從而提高相關(guān)企業(yè)在各行業(yè)中的競(jìng)爭(zhēng)力,故數(shù)據(jù)成為企業(yè)的財(cái)產(chǎn),更是新型商業(yè)模式的基石。
在商業(yè)利潤(rùn)的驅(qū)動(dòng)下,企業(yè)會(huì)大量收集包含了個(gè)人信息的數(shù)據(jù),同時(shí)對(duì)個(gè)人信息數(shù)據(jù)進(jìn)行加工、使用和發(fā)布,這樣會(huì)給用戶個(gè)人生活帶來(lái)困擾甚至危險(xiǎn),如果沒有好的方法來(lái)對(duì)個(gè)人隱私數(shù)據(jù)進(jìn)行保護(hù),那么對(duì)個(gè)人、企業(yè)甚至社會(huì)都有不好的影響。本文針對(duì)具體的大數(shù)據(jù)應(yīng)用,從位置大數(shù)據(jù)、射頻識(shí)別數(shù)據(jù)和在線社交網(wǎng)絡(luò)數(shù)據(jù)三個(gè)方面進(jìn)行分析。
1 位置大數(shù)據(jù)
現(xiàn)在的移動(dòng)設(shè)備通過GPS、WiFi 等定位設(shè)備可以直接獲取移動(dòng)對(duì)象的位置信息,可穿戴設(shè)備通過傳感設(shè)備收集加速度和光學(xué)影像等數(shù)據(jù)來(lái)獲取使用者的位置信息,上述位置大數(shù)據(jù)可以方便使用者,同時(shí)也可能泄露個(gè)人信息。因?yàn)槲恢眯畔擞脩舻碾[私信息,可據(jù)此推測(cè)出用戶的生活習(xí)慣、身體健康狀況、家庭住址等敏感信息,若使用不當(dāng),會(huì)給用戶帶來(lái)困擾甚至危險(xiǎn)。目前有很多位置大數(shù)據(jù)隱私保護(hù)技術(shù), 本文僅分析如下三類:
(1) 基于啟發(fā)式隱私度量的隱私保護(hù)技術(shù) ;
(2) 基于概率推測(cè)的隱私保護(hù)技術(shù);
(3) 基于隱私信息檢索的隱私保護(hù)技術(shù) [3]。
1.1 基于啟發(fā)式隱私度量的隱私保護(hù)技術(shù)
該技術(shù)主要通過用戶提交不真實(shí)的位置數(shù)據(jù)來(lái)避免攻擊者獲得正確的位置數(shù)據(jù),一般采用隨機(jī)化、空間模糊化和時(shí)間模糊化等技術(shù)。
(1) 隨機(jī)化是在真實(shí)位置數(shù)據(jù)中加入隨機(jī)噪聲,服務(wù)器接收到用戶的正確位置數(shù)據(jù)后,將噪音和正確位置數(shù)據(jù)發(fā)給服務(wù)提供商,同時(shí)過濾服務(wù)提供商返回的查詢數(shù)據(jù),將返回的查詢數(shù)據(jù)報(bào)給用戶。
(2) 空間模糊化是在不影響獲得服務(wù)的前提下,通過降低發(fā)布位置數(shù)據(jù)的精度將一個(gè)點(diǎn)模糊到一個(gè)區(qū)域。
(3) 時(shí)間模糊化則通過增加位置數(shù)據(jù)在時(shí)間域上的不確定性來(lái)降低位置數(shù)據(jù)的精度。
1.2 基于概率推測(cè)的隱私保護(hù)技術(shù)
該技術(shù)是為移動(dòng)對(duì)象所在的位置關(guān)聯(lián)一個(gè)發(fā)布位置的概率,用戶根據(jù)該概率來(lái)決定是否發(fā)布自己的位置數(shù)據(jù),從而讓攻擊者區(qū)分不了敏感位置和非敏感位置。一般可用隱馬爾可夫模型和圖模型計(jì)算上面的關(guān)聯(lián)概率
(1)隱馬爾可夫模型認(rèn)為,用戶當(dāng)前所處的位置決定是否發(fā)布位置數(shù)據(jù),如果當(dāng)前位置不敏感,可輕易被發(fā)布;若歷史數(shù)據(jù)暗示當(dāng)前位置敏感,則不發(fā)布。
(2)圖模型是隱馬爾可夫模型的一般化,允許用戶當(dāng)前位置與歷史位置數(shù)據(jù)有關(guān)。
1.3 基于隱私信息檢索的隱私保護(hù)技術(shù)
該技術(shù)包括最短路徑計(jì)算和近鄰查詢兩種。
(1) 最短路徑計(jì)算基于 Dijkstra算法,針對(duì)任何一個(gè)起點(diǎn)和終點(diǎn),服務(wù)器都進(jìn)行預(yù)算并保存起點(diǎn)到終點(diǎn)的最短距離。
(2) 近鄰查詢中用得最多的是k最近鄰查詢,它返回離查詢點(diǎn)最近的k個(gè)元素。
2 射頻識(shí)別數(shù)據(jù)
射頻識(shí)別(Radio Frequency Identification,RFID)采用無(wú)線自動(dòng)識(shí)別技術(shù),屬于非接觸式自動(dòng)識(shí)別技術(shù),可通過射頻信號(hào)自動(dòng)識(shí)別對(duì)象獲取數(shù)據(jù),俗稱電子標(biāo)簽,廣泛應(yīng)用在物流業(yè)、零售業(yè)和制造業(yè)等行業(yè)。
當(dāng)射頻識(shí)別數(shù)據(jù)和個(gè)人信息相關(guān)聯(lián)時(shí),可能會(huì)被秘密跟蹤,如在不停車收費(fèi)系統(tǒng)(ETC)中,安裝電子標(biāo)簽的車輛會(huì)被全程跟蹤。當(dāng)射頻識(shí)別數(shù)據(jù)和個(gè)人信息相關(guān)聯(lián)時(shí),可根據(jù)使用射頻卡消費(fèi)的情況推斷出個(gè)人消費(fèi)習(xí)慣。
目前為了保護(hù)個(gè)人隱私,有很多隱私增強(qiáng)技術(shù),文中將分別介紹 kill 標(biāo)簽、主動(dòng)干擾、阻止標(biāo)簽、Hash 鎖、隨機(jī) Hash 鎖、匿名標(biāo)簽和重加密。
(1) kill標(biāo)簽 :銷售的商品在結(jié)賬時(shí)執(zhí)行口令殺死標(biāo)簽, 從而可以完美的阻止掃描和追蹤。
(2) 主動(dòng)干擾 :通過某設(shè)備主動(dòng)廣播相應(yīng)無(wú)線電信號(hào),從而阻止和破壞附近閱讀器的相關(guān)操作。
(3) 阻止標(biāo)簽 :利用特殊的阻止標(biāo)簽來(lái)干擾防沖突算法,讓閱讀器讀取命令后得到相同的應(yīng)答數(shù)據(jù)。
(4) Hash鎖[4] :Hash鎖分為鎖定標(biāo)簽和解鎖標(biāo)簽兩個(gè)過程。鎖定標(biāo)簽,閱讀器給唯一標(biāo)識(shí)號(hào)ID的標(biāo)簽分配一個(gè)Key, 通過Hash (key) 計(jì)算 metaID 并分配給該標(biāo)簽,同時(shí)將(metaID, Key, ID) 存儲(chǔ)到后臺(tái)數(shù)據(jù)庫(kù)中,標(biāo)簽進(jìn)入鎖定狀態(tài); 解鎖標(biāo)簽,閱讀器詢問標(biāo)簽后,根據(jù)標(biāo)簽回答的metaID查詢后臺(tái)數(shù)據(jù)庫(kù), 獲取 Key值, 計(jì)算 Hash(Key), 若 Hash(Key) 與自身存儲(chǔ)的metaID值相等,則標(biāo)簽進(jìn)入解鎖狀態(tài)。
(5) 隨機(jī) Hash 鎖 :該方法對(duì) Hash 鎖進(jìn)行改良,其中標(biāo)簽每次回答是隨機(jī)的。
(6) 匿名標(biāo)簽 :采用第三方數(shù)據(jù)加密裝置,利用公鑰加密和私鑰加密算法隨機(jī)生成匿名標(biāo)簽。
(7) 重加密 :采用第三方數(shù)據(jù)加密裝置,利用公鑰加密定期對(duì)標(biāo)簽數(shù)據(jù)進(jìn)行重寫。
3 在線社交網(wǎng)絡(luò)數(shù)據(jù)
這些年,由于互聯(lián)網(wǎng)的迅速發(fā)展、無(wú)線通信技術(shù)的進(jìn)步以及移動(dòng)智能設(shè)備的普及,出現(xiàn)了許多服務(wù)不同群體、具有不同功能的在線社交網(wǎng)絡(luò)服務(wù)(Online Social Networking Services,OSNS),如微博、微信等,人們習(xí)慣通過這些社交網(wǎng)絡(luò)應(yīng)用來(lái)與朋友溝通、分享信息等,這樣就產(chǎn)生了海量的、跨越了不同時(shí)空限制的社交網(wǎng)絡(luò)數(shù)據(jù)。在這些社交網(wǎng)絡(luò)數(shù)據(jù)中有大量的個(gè)人信息,因?yàn)橛行┥缃痪W(wǎng)絡(luò)應(yīng)用要求用戶填寫包括姓名、性別、手機(jī)號(hào)碼等個(gè)人信息,還有用戶利用社交網(wǎng)絡(luò)應(yīng)用發(fā)布文字和圖片時(shí)可能自動(dòng)生成相關(guān)地理位置等私密信息。
如果用戶隱私泄露,可能給用戶造成多種困擾,如垃圾短信、騷擾電話,甚至人身傷害,這就要求對(duì)隱私進(jìn)行保護(hù), 目前有去匿名化和差分隱私兩類方法。
去匿名化有嵌入子圖攻擊、層次拓?fù)涔簟⒛:Y(jié)構(gòu)匹配、屬性指紋識(shí)別等方法。
(1) 嵌入子圖攻擊 :借助嵌入子圖對(duì)目標(biāo)節(jié)點(diǎn)及節(jié)點(diǎn)之間的邊關(guān)系進(jìn)行去匿名化。
(2) 層次拓?fù)涔?:借助節(jié)點(diǎn)的層次拓?fù)涮卣鬟M(jìn)行去匿名化。
(3) 模糊結(jié)構(gòu)匹配:利用自反饋和自完善的模糊匹配機(jī)制,使用結(jié)構(gòu)特征進(jìn)行去匿名化。
(4) 屬性指紋識(shí)別 :借助稀疏屬性為節(jié)點(diǎn)特征進(jìn)行去匿名化。
差分隱私有 PMW 等方法。PMW[5](Private Multiplicative Weights,PMW)利用機(jī)器學(xué)習(xí)中的加權(quán)多數(shù)算法,通過投票機(jī)制來(lái)構(gòu)建。
4 結(jié) 語(yǔ)
大數(shù)據(jù)時(shí)代拉開了序幕,公開的數(shù)據(jù)會(huì)越來(lái)越多,其中有很多與個(gè)人隱私數(shù)據(jù)相關(guān),可喜的是現(xiàn)在有許多學(xué)者和單位正在研究如何滿足個(gè)人隱私保護(hù)的需求,希望將來(lái)有一個(gè)理想的安全解決方案。