差分隱私如何保護(hù)用戶的數(shù)據(jù)安全和隱私
(文章來源:澎湃新聞)
對于一家人工智能公司來說,數(shù)據(jù)是他們訓(xùn)練、調(diào)整算法和模型的關(guān)鍵,也是安身立命之本。但要安全處理數(shù)據(jù),并讓數(shù)據(jù)產(chǎn)生自己想要的結(jié)果,并不簡單。
舉個(gè)簡單的例子,Netflix曾舉辦了一場根據(jù)公開數(shù)據(jù)推測用戶電影評分的比賽(Netflix Prize),公開數(shù)據(jù)中抹去了可識(shí)別用戶的信息,但一年后,來自得克薩斯大學(xué)奧斯汀分校的兩名研究員將公開數(shù)據(jù)與IMDb(互聯(lián)網(wǎng)電影數(shù)據(jù)庫)網(wǎng)站公開紀(jì)錄進(jìn)行關(guān)聯(lián),通過差分攻擊等手段識(shí)別出了匿名用戶的身份。三年后,Netflix最終因隱私原因宣布停止該比賽,并付出了九百萬美元的高額賠償金。
對于那些手握大量人口數(shù)據(jù)的部門,這種攻擊可能就是致命的。因?yàn)閭鹘y(tǒng)的做法是對數(shù)據(jù)的敏感列作匿名化,但這些做法并不能完全保證數(shù)據(jù)安全,攻擊者還可以對分析結(jié)果的差分攻擊以及查表撞庫等方法反推原數(shù)據(jù)。
為了應(yīng)對攻擊,有研究人員提出了一種數(shù)據(jù)加密技術(shù),稱為差分隱私?!?u>MIT科技評論》評選的2020年十大突破技術(shù)中,就有差分隱私。《MIT科技評論》認(rèn)為未來數(shù)據(jù)保護(hù)的難度會(huì)越來越高,解決這個(gè)問題的方法之一就是差分隱私,這種技術(shù)可以建立信任機(jī)制。
那么什么是差分隱私?它是一種數(shù)學(xué)技術(shù),它能夠在給數(shù)據(jù)添加噪聲的同時(shí),一直計(jì)算隱私提升的程度,從而使得增加“噪音”的過程變得更加嚴(yán)謹(jǐn)。它是對所有數(shù)據(jù)查詢、分析過程進(jìn)行約束,盡可能減少隱私泄露的風(fēng)險(xiǎn)。
具體的方法,是對原操作中的某些步驟,通過注入噪聲、混淆等形式,使得操作得到差分隱私保證。該技術(shù)可用于數(shù)據(jù)采集、數(shù)據(jù)分析建模、數(shù)據(jù)/模型發(fā)布等階段。其研究的重點(diǎn)就是如何分配隱私預(yù)算,也就是怎么加噪聲、加多少噪聲,減少對模型有效性的影響,能夠得到更加有效的結(jié)果,還能防止攻擊者通過查詢模型而泄露數(shù)據(jù)隱私。
目前,蘋果和Facebook已經(jīng)使用這種方法來收集聚合數(shù)據(jù),而不需要識(shí)別特定的用戶。比如,蘋果公司需要搜集用戶數(shù)據(jù),了解用戶習(xí)慣,從而更好地提升用戶體驗(yàn)。在這一過程中,利用差分隱私,就可以在不知悉用戶隱私的情況下,還能知道用戶整體的使用偏好。
這里需要提醒的一點(diǎn)是關(guān)于“隱私”的定義。隱私是針對個(gè)人的,通過攻擊方式獲得了一個(gè)人的性別是泄露隱私,但是獲得整體的性別比例或者一共多少個(gè)男性這種不屬于泄露隱私范疇。蘋果、谷歌、Facebook等公司可能只是需要其用戶的性別數(shù)量或是比例用于統(tǒng)計(jì)分析或者建模,都無需知道每個(gè)人的性別,因此,差分隱私可以在保證企業(yè)達(dá)到分析的目的,又可以保護(hù)用戶的隱私。
“相比之下,差分隱私現(xiàn)在肯定還是國外研究地更好一些,因?yàn)檎麄€(gè)技術(shù)在國外關(guān)注度更高,而且也更早一些。”第四范式主任科學(xué)家涂威威在接受澎湃新聞(www.thepaper.cn)采訪時(shí)說。
日前,第四范式宣布,其企業(yè)級AI平臺(tái)先知(4Paradigm Sage)已經(jīng)率先完成ePrivacySeal EU認(rèn)證,成為國內(nèi)第一款通過該認(rèn)證的AI平臺(tái)產(chǎn)品。ePrivacy是全球數(shù)據(jù)安全與隱私保護(hù)最具權(quán)威性的認(rèn)證機(jī)構(gòu)之一,其認(rèn)證過程均是按照偶們發(fā)布的《通用個(gè)人數(shù)據(jù)保護(hù)條例》(簡稱“GDPR)對于產(chǎn)品的條例逐一審核,認(rèn)證覆蓋面廣且細(xì)。
差分隱私是在第四范式的產(chǎn)品中就有應(yīng)用。以醫(yī)療為例,利用差分隱私與聯(lián)邦學(xué)習(xí)進(jìn)行融合,拓展到遷移學(xué)習(xí)領(lǐng)域后,第四范式在和瑞金醫(yī)院合作的“瑞寧知糖”產(chǎn)品中,將數(shù)據(jù)較為完善的大型醫(yī)院中遷移出有價(jià)值且受隱私保護(hù)的知識(shí),去幫助地方醫(yī)院、社區(qū)醫(yī)院、體檢中心等機(jī)構(gòu)做更加完善。
據(jù)涂威威介紹,第四范式對目前的差分隱私技術(shù)進(jìn)一步優(yōu)化,通過更好的分配隱私預(yù)算、更有效的分配噪聲等方法,做到了在保護(hù)數(shù)據(jù)隱私的同時(shí),提升分析結(jié)果的有效性。目前,該技術(shù)可廣泛應(yīng)用于數(shù)據(jù)收集、數(shù)據(jù)分析、數(shù)據(jù)發(fā)布等階段。
另外,值得注意的是,無論是差分隱私還是聯(lián)邦學(xué)習(xí),也都面臨著成本、安全、應(yīng)用等方面的考驗(yàn)。例如成本方面,由于技術(shù)門檻較高,其中的技術(shù)環(huán)節(jié)仍需要較多的專家介入到數(shù)據(jù)預(yù)處理、特征工程、模型調(diào)參當(dāng)中。另外,人力的介入又會(huì)給數(shù)據(jù)安全與隱私保護(hù)帶來一層隱患,每次人工查詢操作,均會(huì)消耗隱私計(jì)算,風(fēng)險(xiǎn)也越大。
為此,第四范式綜合了差分隱私、自動(dòng)化機(jī)器學(xué)習(xí)等技術(shù)優(yōu)勢,開辟了自動(dòng)多方機(jī)器學(xué)習(xí),讓機(jī)器自動(dòng)完成數(shù)據(jù)預(yù)處理、特征工程、模型調(diào)參等工作,大幅減少了專家人工的介入,提升安全性的同時(shí),也大幅降低了隱私保護(hù)技術(shù)的使用門檻。
? ? ?