微軟新技術(shù):讓AI換臉等虛假、色情內(nèi)容無(wú)處遁形
前些日子,Deepfake技術(shù)現(xiàn)身印度選舉,被候選人用在了競(jìng)選拉票的宣傳材料上。雖然此候選人以慘敗而收?qǐng)?,但這意味著Deepfake點(diǎn)燃的AI換臉之火有逐漸升溫的跡象。
雖然愈演愈烈,但是反Deepfake的相關(guān)技術(shù)一直相對(duì)缺乏。近日,微軟亞洲研究院提出了一種檢測(cè)換臉圖像的方法 Face X-Ray。此項(xiàng)技術(shù)發(fā)表在論文《Face X-Ray for More General Face Forgery Detection》中,據(jù)研究人員在相應(yīng)的論文中指出,此類(lèi)工具有助于防止換臉圖像被濫用。
這項(xiàng)技術(shù)與現(xiàn)有方法不同,它能夠準(zhǔn)確檢測(cè)“未知”圖像,即不論什么算法合成的,在不進(jìn)行針對(duì)性的訓(xùn)練的情況下也可以進(jìn)行檢測(cè)。更為具體的是它會(huì)生成灰度圖像,顯示給定的輸入圖像是否可以分解為來(lái)自不同來(lái)源的兩個(gè)圖像的混合。畢竟,大多數(shù)操作換臉的方法,都是將生成的圖片和已有的圖片結(jié)合。
這也就是說(shuō)Face X-Ray不光能判斷是否是合成圖片,還能指出哪個(gè)地方是合成的,即兼?zhèn)渥R(shí)別+解釋兩種功能。算法的核心思想是識(shí)別每一幅圖像的獨(dú)特標(biāo)記。這些標(biāo)記產(chǎn)生的原因很多,可能來(lái)自算法等軟件因素,也有可能來(lái)自傳感器等硬件因素。此算法與市面上一些二分類(lèi)換臉檢測(cè)相比,F(xiàn)ace X-Ray更能有效地識(shí)別出未被發(fā)現(xiàn)的換臉圖像,并能可靠地預(yù)測(cè)混合區(qū)域。
但是論文中也指出,這個(gè)方法依賴于一個(gè)混合步驟,因此可能不適用于完全合成圖像,可能被對(duì)抗性樣本騙過(guò)。
一、相關(guān)工作
假臉技術(shù)日新月異,很多算法能夠合成圖片,而且合成的圖片越來(lái)越逼真,這意味著偽造的圖片可能被亂用,所以研究換臉檢測(cè)技術(shù)非常重要。
此類(lèi)的檢測(cè)技術(shù),學(xué)界已有研究,不過(guò)大多都是“二分類(lèi)”檢測(cè)方法,雖然也能達(dá)到98%的準(zhǔn)確率,然而這些檢測(cè)方法往往會(huì)受到過(guò)渡匹配的影響,也就是說(shuō)在處理不同類(lèi)型的圖片時(shí),檢測(cè)方法的性能會(huì)顯著下降。
更為具體一點(diǎn),能區(qū)分真人和照片的技術(shù)叫做liveness detection,中文叫做“活體取證”。當(dāng)前的技術(shù)主要是根據(jù)分辨率、三維信息、眼動(dòng)等來(lái)區(qū)分,因?yàn)榉牡恼掌直媛时戎苯訌恼嫒松喜杉恼掌谫|(zhì)量、分辨率上有差別。
而對(duì)于視頻欺騙,根據(jù)三維信息、光線等來(lái)區(qū)分。對(duì)于具體的應(yīng)用,谷歌曾經(jīng)推出一款照片打假神器名為 Assembler,具有 7 個(gè)檢測(cè)器(detectors),其中 5 個(gè)由美國(guó)和意大利的大學(xué)研究團(tuán)隊(duì)開(kāi)發(fā),分別負(fù)責(zé)檢測(cè)經(jīng)不同類(lèi)型的技術(shù)處理過(guò)的照片,例如合成、擦除等。
而另外兩個(gè)檢測(cè)器由 Jigsaw 自己的團(tuán)隊(duì)開(kāi)發(fā),其中一個(gè)旨在識(shí)別deepfake,也就是這兩年引起熱議的AI 換臉,該檢測(cè)器使用機(jī)器學(xué)習(xí)區(qū)分真人圖像和 StyleGAN 技術(shù)生成的 deepfake。
對(duì)于假圖片,標(biāo)出可能拼接的區(qū)域。而Face X-Ray方法可以針對(duì)合成圖片的共性:圖片拼接,即一張圖片和另一張圖片混合。檢測(cè)圖片可能存在的混合區(qū)域,分析差異,找到圖片標(biāo)記,從而判斷是否是合成圖片。
二、Face X-Ray算法詳情
典型的換臉合成方法包括三個(gè)階段:
1、檢測(cè)面部區(qū)域;
2、合成期望的目標(biāo)面部;
3、將目標(biāo)面部融合到原始圖像中。
現(xiàn)有的對(duì)面部合成圖像檢測(cè)通常面向第二階段,并基于數(shù)據(jù)集訓(xùn)練有監(jiān)督的每幀二進(jìn)制分類(lèi)器。這種方法可以測(cè)試數(shù)據(jù)集上實(shí)現(xiàn)近乎完美的檢測(cè)精度,如果遇見(jiàn)訓(xùn)練時(shí)沒(méi)見(jiàn)過(guò)的換臉圖像,性能會(huì)出現(xiàn)明顯下降。而Face X-Ray的關(guān)鍵步驟是從圖像中獲取標(biāo)記數(shù)據(jù),然后用“自監(jiān)督”的方式訓(xùn)練框架。
值得一提的是這里的自監(jiān)督是打引號(hào)的,不同于傳統(tǒng)的自監(jiān)督定義,這里的無(wú)監(jiān)督是指不從換臉數(shù)據(jù)庫(kù)里訓(xùn)練算法。前面也提到,圖片的標(biāo)記主要來(lái)自兩個(gè)方面,硬件和軟件。在正常的圖像中,硬軟件產(chǎn)生的標(biāo)記一般是具有“周期性”或者是均勻的。一旦圖像改變,就會(huì)打破這種均勻,因此可以利用標(biāo)記判斷是否是合成圖片。
本質(zhì)上來(lái)講,F(xiàn)ace X-Ray的目的是將圖像分解為兩個(gè)不同來(lái)源的圖,畢竟不同來(lái)源的圖像有些細(xì)微的差異人眼無(wú)法發(fā)現(xiàn),而計(jì)算機(jī)可以。換句話說(shuō)Face X-Ray是一種發(fā)現(xiàn)圖像差異的計(jì)算表示,它只關(guān)心混合邊界。
然后到了“自監(jiān)督”學(xué)習(xí)模塊。這一部分的難點(diǎn)在于解決如何僅用真實(shí)的圖片獲取相應(yīng)的訓(xùn)練數(shù)據(jù)。主要分為3個(gè)部分。
1.給定一個(gè)真實(shí)圖像,然后尋找另一個(gè)圖像作為真實(shí)圖像的變體。使用face landmarks作為匹配標(biāo)準(zhǔn),并根據(jù)歐式距離進(jìn)行搜索。
2.生成掩碼劃定“偽造”區(qū)域。
3.通過(guò)上述第一個(gè)公式得到混合后的圖像,然后根據(jù)第二個(gè)公式得到混合邊界在實(shí)踐中,會(huì)隨著訓(xùn)練過(guò)程進(jìn)行動(dòng)態(tài)生成標(biāo)簽數(shù)據(jù),并以自我監(jiān)督的方式訓(xùn)練框架。所以,僅僅在真實(shí)圖像層面上進(jìn)行操作就可以產(chǎn)生大量的訓(xùn)練數(shù)據(jù)。
在訓(xùn)練過(guò)程中,由于深度學(xué)習(xí)具有極強(qiáng)的表征學(xué)習(xí)能力,所以研究人員采用了基于卷積神經(jīng)網(wǎng)絡(luò)的框架。其中輸入為圖像,輸出為Face X-Ray,然后基于預(yù)測(cè)的Face X-Ray,輸出一個(gè)圖像是否真實(shí)的混合概率。另外,對(duì)預(yù)測(cè)采用的是廣泛使用的損失函數(shù)。對(duì)于Face X-Ray,采用交叉熵?fù)p失來(lái)衡量預(yù)測(cè)的準(zhǔn)確性??偟膩?lái)說(shuō),F(xiàn)ace X-Ray不需要依賴于與特定人臉操作技術(shù)相關(guān)的偽影知識(shí),并且支持它的算法可以在不使用任何方法生成假圖像的情況下進(jìn)行訓(xùn)練。
三、實(shí)驗(yàn)
在實(shí)驗(yàn)部分,研究人員在Face Forensics++和另一個(gè)包含由真實(shí)圖像構(gòu)建的混合圖像的訓(xùn)練數(shù)據(jù)集上訓(xùn)練了Face X-Ray,訓(xùn)練只采用數(shù)據(jù)庫(kù)里的“真圖”,不使用假圖。其中,F(xiàn)ace Forensics++是一個(gè)包含1000多個(gè)用四種最先進(jìn)的面部操作方法操作的原始剪輯的大型視頻語(yǔ)料庫(kù),包括DeepFake、Face2Face、Face Swap、NeuralTextures。
在測(cè)試部分評(píng)估了Face X-Ray使用四個(gè)數(shù)據(jù)集的泛化能力。這四個(gè)數(shù)據(jù)集包括:Face Forensics++、Deepfakedetection、Deepfake Detection Challenge、celeb-DF。
泛化能力評(píng)估
首先使用與Xception相同的訓(xùn)練集和訓(xùn)練策略來(lái)評(píng)估Face X-Ray檢測(cè)模型。為了得到準(zhǔn)確的Face X-Ray圖像,將真實(shí)圖像作為背景,將換臉的圖像作為前景,給出一對(duì)真圖像和假圖像。為了公平比較,還給出了二元類(lèi)的結(jié)果。泛化能力評(píng)價(jià),在未知的換臉檢測(cè)中,僅使用分類(lèi)器會(huì)導(dǎo)致性能下降。
另外,也對(duì)泛化能力進(jìn)行了改進(jìn),其改進(jìn)主要來(lái)自兩個(gè)部分:1.建議檢測(cè)Face X-Ray而不是操作特有的偽影。2.從真實(shí)的圖像中構(gòu)建大量的訓(xùn)練樣本。結(jié)果顯示僅使用自監(jiān)督數(shù)據(jù),也能夠達(dá)到很高的檢測(cè)精度。
未知數(shù)據(jù)集的基準(zhǔn)結(jié)果
從最近發(fā)布的大規(guī)模數(shù)據(jù)集上測(cè)試,然后從AUC、AP和EER三個(gè)方面給出結(jié)果。如下圖所示框架比基準(zhǔn)的性能更好。如果使用其他的換臉圖像,即使與測(cè)試集有不同的分布,性能也會(huì)有所提高。
針對(duì)此項(xiàng)研究,AI科技評(píng)論也專門(mén)采訪了微軟亞洲研究院常務(wù)副院長(zhǎng)郭百寧和微軟亞洲研究院高級(jí)研究員陳棟。
問(wèn):對(duì)于完全合成圖片以及對(duì)抗樣本Face X-Ray無(wú)法準(zhǔn)確識(shí)別,有何解決辦法?
答:我們尚在研究中,計(jì)劃在背景細(xì)節(jié)處的檢測(cè)下功夫,因?yàn)楹铣傻膱D片一般對(duì)于背景的處理比較粗糙。另一個(gè)想法是從將真實(shí)圖片與偽造圖片進(jìn)行對(duì)比訓(xùn)練算法,因?yàn)橐话忝嘶蛘咂渌四槇D片都有獨(dú)特的屬性ID,將這種獨(dú)特的屬性ID作為數(shù)據(jù)訓(xùn)練也能改進(jìn)算法。
問(wèn):Face X-Ray能夠識(shí)別用修圖工具修改的人臉照片?
答:Face X-Ray的工作重點(diǎn)不是判斷是否為原圖,而是在“真”與“假”之間衡量,畢竟假視頻、圖片對(duì)社會(huì)的負(fù)面影響較大。問(wèn):算法落地情況如何?何時(shí)能集成到應(yīng)用程序中去?答:我們的算法突破是剛剛?cè)〉玫倪M(jìn)展,具體應(yīng)用落地還需要一段時(shí)間。