差分隱私如何保護用戶的數(shù)據(jù)安全和隱私
(文章來源:澎湃新聞)
對于一家人工智能公司來說,數(shù)據(jù)是他們訓練、調(diào)整算法和模型的關鍵,也是安身立命之本。但要安全處理數(shù)據(jù),并讓數(shù)據(jù)產(chǎn)生自己想要的結果,并不簡單。
舉個簡單的例子,Netflix曾舉辦了一場根據(jù)公開數(shù)據(jù)推測用戶電影評分的比賽(Netflix Prize),公開數(shù)據(jù)中抹去了可識別用戶的信息,但一年后,來自得克薩斯大學奧斯汀分校的兩名研究員將公開數(shù)據(jù)與IMDb(互聯(lián)網(wǎng)電影數(shù)據(jù)庫)網(wǎng)站公開紀錄進行關聯(lián),通過差分攻擊等手段識別出了匿名用戶的身份。三年后,Netflix最終因隱私原因宣布停止該比賽,并付出了九百萬美元的高額賠償金。
對于那些手握大量人口數(shù)據(jù)的部門,這種攻擊可能就是致命的。因為傳統(tǒng)的做法是對數(shù)據(jù)的敏感列作匿名化,但這些做法并不能完全保證數(shù)據(jù)安全,攻擊者還可以對分析結果的差分攻擊以及查表撞庫等方法反推原數(shù)據(jù)。
為了應對攻擊,有研究人員提出了一種數(shù)據(jù)加密技術,稱為差分隱私?!?u>MIT科技評論》評選的2020年十大突破技術中,就有差分隱私?!禡IT科技評論》認為未來數(shù)據(jù)保護的難度會越來越高,解決這個問題的方法之一就是差分隱私,這種技術可以建立信任機制。
那么什么是差分隱私?它是一種數(shù)學技術,它能夠在給數(shù)據(jù)添加噪聲的同時,一直計算隱私提升的程度,從而使得增加“噪音”的過程變得更加嚴謹。它是對所有數(shù)據(jù)查詢、分析過程進行約束,盡可能減少隱私泄露的風險。
具體的方法,是對原操作中的某些步驟,通過注入噪聲、混淆等形式,使得操作得到差分隱私保證。該技術可用于數(shù)據(jù)采集、數(shù)據(jù)分析建模、數(shù)據(jù)/模型發(fā)布等階段。其研究的重點就是如何分配隱私預算,也就是怎么加噪聲、加多少噪聲,減少對模型有效性的影響,能夠得到更加有效的結果,還能防止攻擊者通過查詢模型而泄露數(shù)據(jù)隱私。
目前,蘋果和Facebook已經(jīng)使用這種方法來收集聚合數(shù)據(jù),而不需要識別特定的用戶。比如,蘋果公司需要搜集用戶數(shù)據(jù),了解用戶習慣,從而更好地提升用戶體驗。在這一過程中,利用差分隱私,就可以在不知悉用戶隱私的情況下,還能知道用戶整體的使用偏好。
這里需要提醒的一點是關于“隱私”的定義。隱私是針對個人的,通過攻擊方式獲得了一個人的性別是泄露隱私,但是獲得整體的性別比例或者一共多少個男性這種不屬于泄露隱私范疇。蘋果、谷歌、Facebook等公司可能只是需要其用戶的性別數(shù)量或是比例用于統(tǒng)計分析或者建模,都無需知道每個人的性別,因此,差分隱私可以在保證企業(yè)達到分析的目的,又可以保護用戶的隱私。
“相比之下,差分隱私現(xiàn)在肯定還是國外研究地更好一些,因為整個技術在國外關注度更高,而且也更早一些?!钡谒姆妒街魅慰茖W家涂威威在接受澎湃新聞(www.thepaper.cn)采訪時說。
日前,第四范式宣布,其企業(yè)級AI平臺先知(4Paradigm Sage)已經(jīng)率先完成ePrivacySeal EU認證,成為國內(nèi)第一款通過該認證的AI平臺產(chǎn)品。ePrivacy是全球數(shù)據(jù)安全與隱私保護最具權威性的認證機構之一,其認證過程均是按照偶們發(fā)布的《通用個人數(shù)據(jù)保護條例》(簡稱“GDPR)對于產(chǎn)品的條例逐一審核,認證覆蓋面廣且細。
差分隱私是在第四范式的產(chǎn)品中就有應用。以醫(yī)療為例,利用差分隱私與聯(lián)邦學習進行融合,拓展到遷移學習領域后,第四范式在和瑞金醫(yī)院合作的“瑞寧知糖”產(chǎn)品中,將數(shù)據(jù)較為完善的大型醫(yī)院中遷移出有價值且受隱私保護的知識,去幫助地方醫(yī)院、社區(qū)醫(yī)院、體檢中心等機構做更加完善。
據(jù)涂威威介紹,第四范式對目前的差分隱私技術進一步優(yōu)化,通過更好的分配隱私預算、更有效的分配噪聲等方法,做到了在保護數(shù)據(jù)隱私的同時,提升分析結果的有效性。目前,該技術可廣泛應用于數(shù)據(jù)收集、數(shù)據(jù)分析、數(shù)據(jù)發(fā)布等階段。
另外,值得注意的是,無論是差分隱私還是聯(lián)邦學習,也都面臨著成本、安全、應用等方面的考驗。例如成本方面,由于技術門檻較高,其中的技術環(huán)節(jié)仍需要較多的專家介入到數(shù)據(jù)預處理、特征工程、模型調(diào)參當中。另外,人力的介入又會給數(shù)據(jù)安全與隱私保護帶來一層隱患,每次人工查詢操作,均會消耗隱私計算,風險也越大。
為此,第四范式綜合了差分隱私、自動化機器學習等技術優(yōu)勢,開辟了自動多方機器學習,讓機器自動完成數(shù)據(jù)預處理、特征工程、模型調(diào)參等工作,大幅減少了專家人工的介入,提升安全性的同時,也大幅降低了隱私保護技術的使用門檻。
? ? ?