微軟新技術(shù)：讓AI換臉等虛假、色情內(nèi)容無處遁形

時(shí)間：2020-04-20 12:54:02

關(guān)鍵字： AI 微軟 FACE X-RAY

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]前些日子，Deepfake技術(shù)現(xiàn)身印度選舉，被候選人用在了競選拉票的宣傳材料上。雖然此候選人以慘敗而收?qǐng)?，但這意味著Deepfake點(diǎn)燃的AI換臉之火有逐漸升溫的跡象。雖然愈演愈烈，但是反Deepf

前些日子，Deepfake技術(shù)現(xiàn)身印度選舉，被候選人用在了競選拉票的宣傳材料上。雖然此候選人以慘敗而收?qǐng)?，但這意味著Deepfake點(diǎn)燃的AI換臉之火有逐漸升溫的跡象。

雖然愈演愈烈，但是反Deepfake的相關(guān)技術(shù)一直相對(duì)缺乏。近日，微軟亞洲研究院提出了一種檢測換臉圖像的方法 Face X-Ray。此項(xiàng)技術(shù)發(fā)表在論文《Face X-Ray for More General Face Forgery Detection》中，據(jù)研究人員在相應(yīng)的論文中指出，此類工具有助于防止換臉圖像被濫用。

這項(xiàng)技術(shù)與現(xiàn)有方法不同，它能夠準(zhǔn)確檢測“未知”圖像，即不論什么算法合成的，在不進(jìn)行針對(duì)性的訓(xùn)練的情況下也可以進(jìn)行檢測。更為具體的是它會(huì)生成灰度圖像，顯示給定的輸入圖像是否可以分解為來自不同來源的兩個(gè)圖像的混合。畢竟，大多數(shù)操作換臉的方法，都是將生成的圖片和已有的圖片結(jié)合。

這也就是說Face X-Ray不光能判斷是否是合成圖片，還能指出哪個(gè)地方是合成的，即兼?zhèn)渥R(shí)別+解釋兩種功能。算法的核心思想是識(shí)別每一幅圖像的獨(dú)特標(biāo)記。這些標(biāo)記產(chǎn)生的原因很多，可能來自算法等軟件因素，也有可能來自傳感器等硬件因素。此算法與市面上一些二分類換臉檢測相比，F(xiàn)ace X-Ray更能有效地識(shí)別出未被發(fā)現(xiàn)的換臉圖像，并能可靠地預(yù)測混合區(qū)域。

但是論文中也指出，這個(gè)方法依賴于一個(gè)混合步驟，因此可能不適用于完全合成圖像，可能被對(duì)抗性樣本騙過。

一、相關(guān)工作

假臉技術(shù)日新月異，很多算法能夠合成圖片，而且合成的圖片越來越逼真，這意味著偽造的圖片可能被亂用，所以研究換臉檢測技術(shù)非常重要。

此類的檢測技術(shù)，學(xué)界已有研究，不過大多都是“二分類”檢測方法，雖然也能達(dá)到98%的準(zhǔn)確率，然而這些檢測方法往往會(huì)受到過渡匹配的影響，也就是說在處理不同類型的圖片時(shí)，檢測方法的性能會(huì)顯著下降。

更為具體一點(diǎn)，能區(qū)分真人和照片的技術(shù)叫做liveness detection，中文叫做“活體取證”。當(dāng)前的技術(shù)主要是根據(jù)分辨率、三維信息、眼動(dòng)等來區(qū)分，因?yàn)榉牡恼掌直媛时戎苯訌恼嫒松喜杉恼掌谫|(zhì)量、分辨率上有差別。

而對(duì)于視頻欺騙，根據(jù)三維信息、光線等來區(qū)分。對(duì)于具體的應(yīng)用，谷歌曾經(jīng)推出一款照片打假神器名為 Assembler，具有 7 個(gè)檢測器（detectors），其中 5 個(gè)由美國和意大利的大學(xué)研究團(tuán)隊(duì)開發(fā)，分別負(fù)責(zé)檢測經(jīng)不同類型的技術(shù)處理過的照片，例如合成、擦除等。

而另外兩個(gè)檢測器由 Jigsaw 自己的團(tuán)隊(duì)開發(fā)，其中一個(gè)旨在識(shí)別deepfake，也就是這兩年引起熱議的AI 換臉，該檢測器使用機(jī)器學(xué)習(xí)區(qū)分真人圖像和 StyleGAN 技術(shù)生成的 deepfake。

對(duì)于假圖片，標(biāo)出可能拼接的區(qū)域。而Face X-Ray方法可以針對(duì)合成圖片的共性：圖片拼接，即一張圖片和另一張圖片混合。檢測圖片可能存在的混合區(qū)域，分析差異，找到圖片標(biāo)記，從而判斷是否是合成圖片。

二、Face X-Ray算法詳情

典型的換臉合成方法包括三個(gè)階段：

1、檢測面部區(qū)域；

2、合成期望的目標(biāo)面部；

3、將目標(biāo)面部融合到原始圖像中。

現(xiàn)有的對(duì)面部合成圖像檢測通常面向第二階段，并基于數(shù)據(jù)集訓(xùn)練有監(jiān)督的每幀二進(jìn)制分類器。這種方法可以測試數(shù)據(jù)集上實(shí)現(xiàn)近乎完美的檢測精度，如果遇見訓(xùn)練時(shí)沒見過的換臉圖像，性能會(huì)出現(xiàn)明顯下降。而Face X-Ray的關(guān)鍵步驟是從圖像中獲取標(biāo)記數(shù)據(jù)，然后用“自監(jiān)督”的方式訓(xùn)練框架。

值得一提的是這里的自監(jiān)督是打引號(hào)的，不同于傳統(tǒng)的自監(jiān)督定義，這里的無監(jiān)督是指不從換臉數(shù)據(jù)庫里訓(xùn)練算法。前面也提到，圖片的標(biāo)記主要來自兩個(gè)方面，硬件和軟件。在正常的圖像中，硬軟件產(chǎn)生的標(biāo)記一般是具有“周期性”或者是均勻的。一旦圖像改變，就會(huì)打破這種均勻，因此可以利用標(biāo)記判斷是否是合成圖片。

本質(zhì)上來講，F(xiàn)ace X-Ray的目的是將圖像分解為兩個(gè)不同來源的圖，畢竟不同來源的圖像有些細(xì)微的差異人眼無法發(fā)現(xiàn)，而計(jì)算機(jī)可以。換句話說Face X-Ray是一種發(fā)現(xiàn)圖像差異的計(jì)算表示，它只關(guān)心混合邊界。

然后到了“自監(jiān)督”學(xué)習(xí)模塊。這一部分的難點(diǎn)在于解決如何僅用真實(shí)的圖片獲取相應(yīng)的訓(xùn)練數(shù)據(jù)。主要分為3個(gè)部分。

1.給定一個(gè)真實(shí)圖像，然后尋找另一個(gè)圖像作為真實(shí)圖像的變體。使用face landmarks作為匹配標(biāo)準(zhǔn)，并根據(jù)歐式距離進(jìn)行搜索。

2.生成掩碼劃定“偽造”區(qū)域。

3.通過上述第一個(gè)公式得到混合后的圖像，然后根據(jù)第二個(gè)公式得到混合邊界在實(shí)踐中，會(huì)隨著訓(xùn)練過程進(jìn)行動(dòng)態(tài)生成標(biāo)簽數(shù)據(jù)，并以自我監(jiān)督的方式訓(xùn)練框架。所以，僅僅在真實(shí)圖像層面上進(jìn)行操作就可以產(chǎn)生大量的訓(xùn)練數(shù)據(jù)。

在訓(xùn)練過程中，由于深度學(xué)習(xí)具有極強(qiáng)的表征學(xué)習(xí)能力，所以研究人員采用了基于卷積神經(jīng)網(wǎng)絡(luò)的框架。其中輸入為圖像，輸出為Face X-Ray，然后基于預(yù)測的Face X-Ray，輸出一個(gè)圖像是否真實(shí)的混合概率。另外，對(duì)預(yù)測采用的是廣泛使用的損失函數(shù)。對(duì)于Face X-Ray，采用交叉熵?fù)p失來衡量預(yù)測的準(zhǔn)確性?？偟膩碚f，F(xiàn)ace X-Ray不需要依賴于與特定人臉操作技術(shù)相關(guān)的偽影知識(shí)，并且支持它的算法可以在不使用任何方法生成假圖像的情況下進(jìn)行訓(xùn)練。

三、實(shí)驗(yàn)

在實(shí)驗(yàn)部分，研究人員在Face Forensics++和另一個(gè)包含由真實(shí)圖像構(gòu)建的混合圖像的訓(xùn)練數(shù)據(jù)集上訓(xùn)練了Face X-Ray，訓(xùn)練只采用數(shù)據(jù)庫里的“真圖”，不使用假圖。其中，F(xiàn)ace Forensics++是一個(gè)包含1000多個(gè)用四種最先進(jìn)的面部操作方法操作的原始剪輯的大型視頻語料庫，包括DeepFake、Face2Face、Face Swap、NeuralTextures。

在測試部分評(píng)估了Face X-Ray使用四個(gè)數(shù)據(jù)集的泛化能力。這四個(gè)數(shù)據(jù)集包括：Face Forensics++、Deepfakedetection、Deepfake Detection Challenge、celeb-DF。

泛化能力評(píng)估

首先使用與Xception相同的訓(xùn)練集和訓(xùn)練策略來評(píng)估Face X-Ray檢測模型。為了得到準(zhǔn)確的Face X-Ray圖像，將真實(shí)圖像作為背景，將換臉的圖像作為前景，給出一對(duì)真圖像和假圖像。為了公平比較，還給出了二元類的結(jié)果。泛化能力評(píng)價(jià)，在未知的換臉檢測中，僅使用分類器會(huì)導(dǎo)致性能下降。

另外，也對(duì)泛化能力進(jìn)行了改進(jìn)，其改進(jìn)主要來自兩個(gè)部分：1.建議檢測Face X-Ray而不是操作特有的偽影。2.從真實(shí)的圖像中構(gòu)建大量的訓(xùn)練樣本。結(jié)果顯示僅使用自監(jiān)督數(shù)據(jù)，也能夠達(dá)到很高的檢測精度。

未知數(shù)據(jù)集的基準(zhǔn)結(jié)果

從最近發(fā)布的大規(guī)模數(shù)據(jù)集上測試，然后從AUC、AP和EER三個(gè)方面給出結(jié)果。如下圖所示框架比基準(zhǔn)的性能更好。如果使用其他的換臉圖像，即使與測試集有不同的分布，性能也會(huì)有所提高。

針對(duì)此項(xiàng)研究，AI科技評(píng)論也專門采訪了微軟亞洲研究院常務(wù)副院長郭百寧和微軟亞洲研究院高級(jí)研究員陳棟。

問：對(duì)于完全合成圖片以及對(duì)抗樣本Face X-Ray無法準(zhǔn)確識(shí)別，有何解決辦法？

答：我們尚在研究中，計(jì)劃在背景細(xì)節(jié)處的檢測下功夫，因?yàn)楹铣傻膱D片一般對(duì)于背景的處理比較粗糙。另一個(gè)想法是從將真實(shí)圖片與偽造圖片進(jìn)行對(duì)比訓(xùn)練算法，因?yàn)橐话忝嘶蛘咂渌四槇D片都有獨(dú)特的屬性ID，將這種獨(dú)特的屬性ID作為數(shù)據(jù)訓(xùn)練也能改進(jìn)算法。

問：Face X-Ray能夠識(shí)別用修圖工具修改的人臉照片？

答：Face X-Ray的工作重點(diǎn)不是判斷是否為原圖，而是在“真”與“假”之間衡量，畢竟假視頻、圖片對(duì)社會(huì)的負(fù)面影響較大。問：算法落地情況如何？何時(shí)能集成到應(yīng)用程序中去？答：我們的算法突破是剛剛?cè)〉玫倪M(jìn)展，具體應(yīng)用落地還需要一段時(shí)間。