差分隱私如何保護(hù)用戶的數(shù)據(jù)安全和隱私

時(shí)間：2020-04-28 11:18:01

關(guān)鍵字：數(shù)據(jù)安全模型噪聲 NETFLIX

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] （文章來源：澎湃新聞）對于一家人工智能公司來說，數(shù)據(jù)是他們訓(xùn)練、調(diào)整算法和模型的關(guān)鍵，也是安身立命之本。但要安全處理數(shù)據(jù)，并讓數(shù)據(jù)產(chǎn)生自己想要的結(jié)果，并不簡單。舉個(gè)簡單的例子

（文章來源：澎湃新聞）

對于一家人工智能公司來說，數(shù)據(jù)是他們訓(xùn)練、調(diào)整算法和模型的關(guān)鍵，也是安身立命之本。但要安全處理數(shù)據(jù)，并讓數(shù)據(jù)產(chǎn)生自己想要的結(jié)果，并不簡單。

舉個(gè)簡單的例子，Netflix曾舉辦了一場根據(jù)公開數(shù)據(jù)推測用戶電影評分的比賽（Netflix Prize），公開數(shù)據(jù)中抹去了可識(shí)別用戶的信息，但一年后，來自得克薩斯大學(xué)奧斯汀分校的兩名研究員將公開數(shù)據(jù)與IMDb（互聯(lián)網(wǎng)電影數(shù)據(jù)庫）網(wǎng)站公開紀(jì)錄進(jìn)行關(guān)聯(lián)，通過差分攻擊等手段識(shí)別出了匿名用戶的身份。三年后，Netflix最終因隱私原因宣布停止該比賽，并付出了九百萬美元的高額賠償金。

對于那些手握大量人口數(shù)據(jù)的部門，這種攻擊可能就是致命的。因?yàn)閭鹘y(tǒng)的做法是對數(shù)據(jù)的敏感列作匿名化，但這些做法并不能完全保證數(shù)據(jù)安全，攻擊者還可以對分析結(jié)果的差分攻擊以及查表撞庫等方法反推原數(shù)據(jù)。

為了應(yīng)對攻擊，有研究人員提出了一種數(shù)據(jù)加密技術(shù)，稱為差分隱私?！?u>MIT科技評論》評選的2020年十大突破技術(shù)中，就有差分隱私。《MIT科技評論》認(rèn)為未來數(shù)據(jù)保護(hù)的難度會(huì)越來越高，解決這個(gè)問題的方法之一就是差分隱私，這種技術(shù)可以建立信任機(jī)制。

那么什么是差分隱私？它是一種數(shù)學(xué)技術(shù)，它能夠在給數(shù)據(jù)添加噪聲的同時(shí)，一直計(jì)算隱私提升的程度，從而使得增加“噪音”的過程變得更加嚴(yán)謹(jǐn)。它是對所有數(shù)據(jù)查詢、分析過程進(jìn)行約束，盡可能減少隱私泄露的風(fēng)險(xiǎn)。

具體的方法，是對原操作中的某些步驟，通過注入噪聲、混淆等形式，使得操作得到差分隱私保證。該技術(shù)可用于數(shù)據(jù)采集、數(shù)據(jù)分析建模、數(shù)據(jù)/模型發(fā)布等階段。其研究的重點(diǎn)就是如何分配隱私預(yù)算，也就是怎么加噪聲、加多少噪聲，減少對模型有效性的影響，能夠得到更加有效的結(jié)果，還能防止攻擊者通過查詢模型而泄露數(shù)據(jù)隱私。

目前，蘋果和Facebook已經(jīng)使用這種方法來收集聚合數(shù)據(jù)，而不需要識(shí)別特定的用戶。比如，蘋果公司需要搜集用戶數(shù)據(jù)，了解用戶習(xí)慣，從而更好地提升用戶體驗(yàn)。在這一過程中，利用差分隱私，就可以在不知悉用戶隱私的情況下，還能知道用戶整體的使用偏好。

這里需要提醒的一點(diǎn)是關(guān)于“隱私”的定義。隱私是針對個(gè)人的，通過攻擊方式獲得了一個(gè)人的性別是泄露隱私，但是獲得整體的性別比例或者一共多少個(gè)男性這種不屬于泄露隱私范疇。蘋果、谷歌、Facebook等公司可能只是需要其用戶的性別數(shù)量或是比例用于統(tǒng)計(jì)分析或者建模，都無需知道每個(gè)人的性別，因此，差分隱私可以在保證企業(yè)達(dá)到分析的目的，又可以保護(hù)用戶的隱私。

“相比之下，差分隱私現(xiàn)在肯定還是國外研究地更好一些，因?yàn)檎麄€(gè)技術(shù)在國外關(guān)注度更高，而且也更早一些。”第四范式主任科學(xué)家涂威威在接受澎湃新聞（www.thepaper.cn）采訪時(shí)說。

日前，第四范式宣布，其企業(yè)級AI平臺(tái)先知（4Paradigm Sage）已經(jīng)率先完成ePrivacySeal EU認(rèn)證，成為國內(nèi)第一款通過該認(rèn)證的AI平臺(tái)產(chǎn)品。ePrivacy是全球數(shù)據(jù)安全與隱私保護(hù)最具權(quán)威性的認(rèn)證機(jī)構(gòu)之一，其認(rèn)證過程均是按照偶們發(fā)布的《通用個(gè)人數(shù)據(jù)保護(hù)條例》（簡稱“GDPR）對于產(chǎn)品的條例逐一審核，認(rèn)證覆蓋面廣且細(xì)。

差分隱私是在第四范式的產(chǎn)品中就有應(yīng)用。以醫(yī)療為例，利用差分隱私與聯(lián)邦學(xué)習(xí)進(jìn)行融合，拓展到遷移學(xué)習(xí)領(lǐng)域后，第四范式在和瑞金醫(yī)院合作的“瑞寧知糖”產(chǎn)品中，將數(shù)據(jù)較為完善的大型醫(yī)院中遷移出有價(jià)值且受隱私保護(hù)的知識(shí)，去幫助地方醫(yī)院、社區(qū)醫(yī)院、體檢中心等機(jī)構(gòu)做更加完善。

據(jù)涂威威介紹，第四范式對目前的差分隱私技術(shù)進(jìn)一步優(yōu)化，通過更好的分配隱私預(yù)算、更有效的分配噪聲等方法，做到了在保護(hù)數(shù)據(jù)隱私的同時(shí)，提升分析結(jié)果的有效性。目前，該技術(shù)可廣泛應(yīng)用于數(shù)據(jù)收集、數(shù)據(jù)分析、數(shù)據(jù)發(fā)布等階段。

另外，值得注意的是，無論是差分隱私還是聯(lián)邦學(xué)習(xí)，也都面臨著成本、安全、應(yīng)用等方面的考驗(yàn)。例如成本方面，由于技術(shù)門檻較高，其中的技術(shù)環(huán)節(jié)仍需要較多的專家介入到數(shù)據(jù)預(yù)處理、特征工程、模型調(diào)參當(dāng)中。另外，人力的介入又會(huì)給數(shù)據(jù)安全與隱私保護(hù)帶來一層隱患，每次人工查詢操作，均會(huì)消耗隱私計(jì)算，風(fēng)險(xiǎn)也越大。

為此，第四范式綜合了差分隱私、自動(dòng)化機(jī)器學(xué)習(xí)等技術(shù)優(yōu)勢，開辟了自動(dòng)多方機(jī)器學(xué)習(xí)，讓機(jī)器自動(dòng)完成數(shù)據(jù)預(yù)處理、特征工程、模型調(diào)參等工作，大幅減少了專家人工的介入，提升安全性的同時(shí)，也大幅降低了隱私保護(hù)技術(shù)的使用門檻。
? ? ?