微小的變化為何能夠欺騙深度學(xué)習(xí)系統(tǒng)
人工智能的弱點(diǎn):從醫(yī)療診斷到自主車輛,探索改變單一像素會如何損害先進(jìn)的深層次學(xué)習(xí)模型,并探索確保我們的人工智能的未來的關(guān)鍵挑戰(zhàn)。
導(dǎo)言
深層次學(xué)習(xí) 是人工智能(AI)的一個(gè)基本組成部分。它的目的是使機(jī)器能夠執(zhí)行需要決策機(jī)制的任務(wù),這些決策機(jī)制往往接近人類的推理機(jī)制。DL模型是許多先進(jìn)應(yīng)用的核心,如醫(yī)療診斷和自主駕駛。
不幸的是,與所有其他系統(tǒng)一樣,它們也無法避免可能被網(wǎng)絡(luò)犯罪分子利用的漏洞。例如,單像素攻擊是通過修改(顧名思義)圖像的一個(gè)像素來破壞模型精度的最有效方法之一。
本文解釋了單像素攻擊是如何工作的,以及它們在許多領(lǐng)域可能產(chǎn)生的影響。本文還討論了針對人工智能系統(tǒng)的保護(hù)策略,以提高其可靠性和安全性。
概述
深層次學(xué)習(xí)導(dǎo)論
深層次學(xué)習(xí)是人工智能的一部分?神經(jīng)網(wǎng)絡(luò) 識別數(shù)據(jù)中的模式。這些神經(jīng)網(wǎng)絡(luò)模仿人類大腦的結(jié)構(gòu)和功能,使他們能夠從大量的數(shù)據(jù)中學(xué)習(xí),并做出預(yù)測或決策。例如,深度學(xué)習(xí)模型可以識別圖像中的物體,理解口語(?自然語言處理 ),甚至用醫(yī)學(xué)影像診斷疾病。
為了充分了解深層次學(xué)習(xí)技術(shù)的重要性,以下是其實(shí)際使用的幾個(gè)例子:
1.健康:醫(yī)學(xué)成像
深入學(xué)習(xí)模型被廣泛應(yīng)用于醫(yī)學(xué)成像的處理和理解,以檢測癌癥等疾病。例如,?卷積神經(jīng)網(wǎng)絡(luò)(CNN) 用于分析乳房X光檢查以檢測乳腺癌。這項(xiàng)技術(shù)提供了高度精確的惡性腫瘤鑒定。
它可以通過向放射科醫(yī)生提供第二種意見來幫助降低人類犯錯(cuò)的風(fēng)險(xiǎn)。
2.自動駕駛
自主車輛依靠DL算法實(shí)時(shí)處理來自傳感器和相機(jī)的數(shù)據(jù)。這些模型用于對象檢測、車道識別和決策。例如,特斯拉的自動駕駛儀利用深度學(xué)習(xí)來處理數(shù)據(jù),并對車輛的環(huán)境做出反應(yīng),以確保安全的導(dǎo)航和駕駛。
3.自然語言處理
DL是自然語言處理(NLP)的重要組成部分。在生成型人工智能出現(xiàn)之前,DL就已經(jīng)在對話技術(shù)上取得了進(jìn)展,比如聊天機(jī)器人,谷歌助理和亞馬遜阿列克莎等虛擬助手。這些系統(tǒng)通過深入學(xué)習(xí)來理解和處理人類語言,從而能夠回答問題,執(zhí)行任務(wù),甚至與用戶進(jìn)行對話。
還有許多其他例子。在金融部門,正在利用深入學(xué)習(xí)的模式,通過分析交易模式和查明顯示欺詐的異?,F(xiàn)象,發(fā)現(xiàn)欺詐活動。在零售業(yè),像亞馬遜或網(wǎng)飛公司這樣的平臺正在深入學(xué)習(xí),提供個(gè)性化的推薦。系統(tǒng)分析用戶行為、偏好和購買歷史,以改善用戶體驗(yàn),另一方面增加銷售。
所有這些都說明了深入學(xué)習(xí)在各個(gè)部門的影響程度,以及這種技術(shù)能夠提高復(fù)雜任務(wù)的效率和準(zhǔn)確性的領(lǐng)域。
是什么激發(fā)了對深入學(xué)習(xí)的攻擊?
正如我們剛才看到的,深度學(xué)習(xí)模型是廣泛應(yīng)用中使用的強(qiáng)大工具。然而,他們可能很容易受到攻擊。網(wǎng)絡(luò)犯罪者可以針對這些模型作出錯(cuò)誤的決定,這可能產(chǎn)生嚴(yán)重后果。例如,通過操縱一輛自主汽車的神經(jīng)網(wǎng)絡(luò),攻擊者可能導(dǎo)致汽車誤解信號,并危及車輛的使用者。
現(xiàn)實(shí)生活的例子
在現(xiàn)實(shí)生活中,研究人員展示了用于檢測乳腺癌的深學(xué)習(xí)模型的弱點(diǎn)。通過修改醫(yī)學(xué)圖像中的單個(gè)像素,他們能夠欺騙IBM的最大乳腺癌檢測器做出錯(cuò)誤診斷(*)。這一例子突出說明了此類襲擊對保健等關(guān)鍵領(lǐng)域的嚴(yán)重影響。
(*) "電腦輔助癌癥診斷一像素攻擊欺騙"
"在轉(zhuǎn)移攻擊環(huán)境中,重新定位攻擊可以成功地欺騙商業(yè)面部識別服務(wù),并將自動識別系統(tǒng)搜索面API和天藍(lán)面部驗(yàn)證的精確度從91%降至50.1%,從82%降至16.4%" - arXiv:2012.00517v6
單像素攻擊概覽
單像素攻擊通過改變輸入圖像的單個(gè)像素來攻擊深度學(xué)習(xí)模型,導(dǎo)致模型對圖像進(jìn)行錯(cuò)誤分類。此攻擊使用微分進(jìn)化算法來識別最優(yōu)像素進(jìn)行修改.即使不知道模型的內(nèi)部參數(shù),這種方法也是有效的。
傳播圖顯示了單個(gè)像素的修改如何影響一個(gè)深神經(jīng)網(wǎng)絡(luò)。這些映射顯示了更改如何通過網(wǎng)絡(luò)的層傳播,以及一個(gè)小的本地化更改如何影響最終決策。
這就是為什么單像素攻擊在許多地區(qū)帶來嚴(yán)重風(fēng)險(xiǎn)的原因。在醫(yī)學(xué)成像中,它們可能導(dǎo)致錯(cuò)誤的診斷,就像乳腺癌檢測器那樣。例如,在網(wǎng)絡(luò)安全方面,它們可以欺騙面部識別系統(tǒng)。
一像素攻擊的機(jī)制
正如我們現(xiàn)在所理解的,一個(gè)像素攻擊是一種對抗攻擊,它利用深神經(jīng)網(wǎng)絡(luò)的弱點(diǎn),修改輸入圖像的一個(gè)像素,從而導(dǎo)致錯(cuò)誤分類。
矛盾攻擊
對抗式攻擊涉及對輸入數(shù)據(jù)進(jìn)行小規(guī)模的、有意的更改,以欺騙機(jī)器電子學(xué)習(xí)模型做出錯(cuò)誤的預(yù)測或決定。這可以在許多不同的方式發(fā)生,除了圖像。
例如,在文本數(shù)據(jù)中,攻擊者可以改變單詞或字符來欺騙語言模型。在音頻數(shù)據(jù)中,它們可以增加細(xì)微的噪聲來欺騙語音識別系統(tǒng)。在網(wǎng)絡(luò)安全方面,對抗性攻擊可能涉及輕微修改惡意軟件代碼,以繞過防病毒軟件。
同樣,在金融系統(tǒng)中,攻擊者可以操縱市場數(shù)據(jù),欺騙交易算法,使交易變得錯(cuò)誤。
單像素攻擊
單像素攻擊利用了深神經(jīng)網(wǎng)絡(luò)的復(fù)雜決策過程。他們使用微分進(jìn)化算法來識別最大化錯(cuò)誤分類概率的像素的最優(yōu)修改。微分進(jìn)化算法迭代搜索可能的像素修改空間.它使用隨時(shí)間演變的候選解決方案群。
單像素攻擊的成功是由于深神經(jīng)網(wǎng)絡(luò)(DNN)對小擾動的敏感性。dnns很容易被人類不會注意到的微小變化所愚弄。微分進(jìn)化算法的工作原理是生成一組勢解,然后合并和修改這些解來找到最佳候選解。每個(gè)候選解決方案代表一個(gè)潛在的像素變化,算法評估每個(gè)變化對網(wǎng)絡(luò)分類結(jié)果的影響。通過不斷完善解的群,該算法最終在一個(gè)像素變化上收斂,從而導(dǎo)致所需的錯(cuò)誤分類。
它是如何運(yùn)作的
執(zhí)行一個(gè)像素攻擊通常需要使用微分進(jìn)化算法,這是一種基于給定質(zhì)量度量的迭代改進(jìn)候選解的優(yōu)化方法。以下是對這一過程的詳細(xì)說明:
1. Initialization
該算法首先生成一組候選解.在單像素攻擊的上下文中,每個(gè)候選者代表了對圖像中單個(gè)像素的潛在修改。這些候選人通常在圖像的尺寸和顏色值的范圍內(nèi)隨機(jī)初始化。
2.突變和交叉
對于每個(gè)候選解決方案,算法執(zhí)行突變和交叉操作以創(chuàng)建一個(gè)新的候選。突變包括從人群中選擇三個(gè)不同的候選人,通過在第三個(gè)候選人中增加兩個(gè)候選人之間的加權(quán)差來創(chuàng)建一個(gè)新的候選人。然后交叉組合這個(gè)變異的候選人和最初的候選人產(chǎn)生一個(gè)試驗(yàn)候選人。該方法在候選群體中產(chǎn)生多樣性,使算法能夠更有效地探索解決方案空間。
3. Selection
根據(jù)試驗(yàn)候選人對神經(jīng)網(wǎng)絡(luò)分類結(jié)果的影響進(jìn)行評價(jià)。如果試驗(yàn)候選人導(dǎo)致模型比原候選人更有效地對圖像進(jìn)行錯(cuò)誤分類(或增加目標(biāo)錯(cuò)誤分類的可能性),它將取代原候選人中的原候選人。這個(gè)選擇過程是由一個(gè)適合函數(shù)指導(dǎo)的,在這種情況下,它測量錯(cuò)誤分類的概率。
4. Iteration
突變、交叉和選擇步驟在幾個(gè)迭代中重復(fù)進(jìn)行。隨著每一次迭代,人口的演變和候選人變得越來越有效地導(dǎo)致錯(cuò)誤分類。這個(gè)過程一直持續(xù),直到算法識別出一個(gè)變化,導(dǎo)致所需的錯(cuò)誤分類和高度的信心。
5. Result
最后的結(jié)果是,修改后的圖像帶有單一像素的變化,這成功地欺騙了神經(jīng)網(wǎng)絡(luò)做出錯(cuò)誤的預(yù)測。
視覺化和分析
傳播映射提供了一種新的可視化方法,可以觀察單個(gè)像素的變化如何影響深神經(jīng)網(wǎng)絡(luò)。這些地圖追蹤像素?cái)_動的影響,因?yàn)樗ㄟ^網(wǎng)絡(luò)的分層傳播,從局部化的變化到全局化的變化。這個(gè)轉(zhuǎn)換幫助我們理解單像素攻擊的力量。
當(dāng)我們檢查傳播映射時(shí),我們可以看到單像素變化在網(wǎng)絡(luò)中傳播時(shí)的影響是如何增加的。最初,擾動可能看起來微不足道,但當(dāng)它通過網(wǎng)絡(luò)的分層傳播時(shí),它可能導(dǎo)致網(wǎng)絡(luò)輸出的實(shí)際變化。
位置分析可以更好地理解像素級的攻擊。該分析包括測試與中斷像素相鄰的像素的脆弱性。結(jié)果表明,鄰近像素通常具有相似的漏洞,表明攻擊的有效性不限于一個(gè)點(diǎn),但會影響更大的區(qū)域。這樣,攻擊就利用了卷繞層的接收域。這些層中的每個(gè)神經(jīng)元響應(yīng)輸入圖像的特定區(qū)域,該區(qū)域的變化會顯著影響神經(jīng)元的輸出。因此,攻擊的成功與這些接收域的結(jié)構(gòu)和功能有關(guān),而不是與單個(gè)神經(jīng)元或像素有關(guān)。
變化
有幾種變化可以改進(jìn)單像素攻擊。
其中一個(gè)優(yōu)化包括 DNN網(wǎng)絡(luò)形成階段的后門 .這種方法創(chuàng)建了可以稍后開發(fā)的漏洞,使網(wǎng)絡(luò)更容易受到單像素攻擊。
另一種變化是使用 關(guān)鍵像素迭代算法 識別和鎖定最可能影響網(wǎng)絡(luò)性能的像素。這些算法使用許多不同的技術(shù),包括基于梯度的方法和啟發(fā)式的搜索策略,以確定最重要的像素。
視覺化技術(shù) 逆境映射和激活映射等也在優(yōu)化單像素攻擊中發(fā)揮著至關(guān)重要的作用。
逆境地圖 突出圖像中對干擾最敏感的區(qū)域,鼓勵攻擊者集中精力在這些區(qū)域。 激活圖 展示圖像的不同部分如何激活網(wǎng)絡(luò)中的神經(jīng)元,揭示哪些像素影響最大。
通過將這些可視化工具和優(yōu)化算法結(jié)合起來,攻擊者可以設(shè)計(jì)出更有效的破壞,增加成功攻擊的機(jī)會。
所有領(lǐng)域的應(yīng)用
利用關(guān)鍵系統(tǒng)中的漏洞,單像素攻擊在許多領(lǐng)域被證明是有效的。
例如,在醫(yī)學(xué)成像領(lǐng)域,這些攻擊可以欺騙用于診斷疾病的人工智能模型,正如我們在上面看到的IBMCODAIT的MAX乳腺癌檢測器,導(dǎo)致錯(cuò)誤的分類。
在網(wǎng)絡(luò)安全領(lǐng)域,一次像素攻擊對面部識別系統(tǒng)構(gòu)成特別威脅。
面部識別
通過修改一個(gè)像素,攻擊者可能會導(dǎo)致這些系統(tǒng)錯(cuò)誤識別個(gè)人,從而損害安全性。
在一個(gè)研究(*)中介紹了在面部識別背景下的一次像素攻擊的一個(gè)顯著例子,該研究探討了如何將對抗性攝動應(yīng)用于面部識別模型。當(dāng)然,目的是盡可能降低他們的性能。
通過修改單個(gè)像素,攻擊會導(dǎo)致面部識別系統(tǒng)識別錯(cuò)誤或無法準(zhǔn)確識別個(gè)人。這項(xiàng)研究表明?面部識別 技術(shù)即使受到小的不利修改也是脆弱的。
(*) ARXIV:1710.08864V7"重構(gòu):對面部識別系統(tǒng)的實(shí)時(shí)對抗式攻擊"
"結(jié)果表明,KagleCIFF-10測試數(shù)據(jù)集中的自然圖像占67.97%,伊馬內(nèi)特測試數(shù)據(jù)中的自然圖像占16.04%,通過修改一個(gè)像素,平均74.03%和22.91%的置信度,至少可以干擾到一個(gè)目標(biāo)類別" - arXiv:1710.08864v7
這種類型的漏洞擴(kuò)展到依賴圖像識別的其他應(yīng)用程序,例如自主驅(qū)動。在這些系統(tǒng)中,攻擊可能導(dǎo)致車輛誤解路標(biāo),導(dǎo)致錯(cuò)誤甚至危險(xiǎn)的駕駛決定。
防御機(jī)制
為了降低OPP攻擊的風(fēng)險(xiǎn),建立了若干防御機(jī)制,包括補(bǔ)丁選擇識別器和多初始化CNN。這些方法通過解決深度學(xué)習(xí)模型在輸入數(shù)據(jù)中的微小擾動面前的脆弱性,提高了它們的健壯性。
補(bǔ)丁選擇指示器
一個(gè)有效的方法是補(bǔ)丁選擇顯示器,它從圖像的局部補(bǔ)丁中移除潛在的攻擊像素。私營部門司識別并消除具有異常模式的像素,從而減輕攻擊的影響。這種方法特別有效,因?yàn)樗鼈?cè)重于圖像的小區(qū)域,使攻擊者更難創(chuàng)建成功的破壞。
多初始化卷繞神經(jīng)網(wǎng)絡(luò)(cnns)也顯示出了防御這些攻擊的希望。
這些網(wǎng)絡(luò)使用對抗式培訓(xùn)方法,在這種方法中,對模型進(jìn)行的培訓(xùn)既要有透明的例子,也要有對抗式的例子。通過在訓(xùn)練過程中暴露網(wǎng)絡(luò)于潛在的攻擊,模型學(xué)會識別和抵抗不利的干擾。這種方法提高了網(wǎng)絡(luò)的健壯性,并降低了它對單像素攻擊的脆弱性。
盡管取得了這一進(jìn)展,許多防御戰(zhàn)略仍然容易受到適應(yīng)性攻擊的影響。攻擊者不斷改變他們的技術(shù)來面對現(xiàn)有的防御。這表明在這一領(lǐng)域進(jìn)行中的研究和開發(fā)的必要性有多么重要。
多初始化CNN
在另一種方法中,多初始化cnn通過在同一網(wǎng)絡(luò)中形成多個(gè)不同初始化的實(shí)例來提高模型的復(fù)原力。
每次初始化都會導(dǎo)致網(wǎng)絡(luò)的權(quán)重和偏差略有不同的配置。在推理過程中,最終預(yù)測是通過聚合這些多個(gè)實(shí)例的輸出來確定的,例如通過多數(shù)表決或平均法。這種集成方法降低了單個(gè)像素?cái)_動系統(tǒng)地誤導(dǎo)網(wǎng)絡(luò)中所有實(shí)例的可能性。
多重初始化的不同響應(yīng)提高了模型的整體健壯性,使其對小擾動(如單像素攻擊中引入的擾動)的敏感性降低。
對模型安全性和準(zhǔn)確性的影響
因此,單像素攻擊確實(shí)會損害缺陷檢測模型的準(zhǔn)確性和可靠性,特別是在工業(yè)環(huán)境中。
這些攻擊可能導(dǎo)致錯(cuò)誤的肯定或否定,導(dǎo)致制造成本增加和利潤減少。例如,制造廠的缺陷檢測系統(tǒng)可能由于像素攻擊而錯(cuò)誤地將一個(gè)有缺陷的產(chǎn)品歸類為"無缺陷",從而導(dǎo)致產(chǎn)品召回和財(cái)務(wù)損失。
強(qiáng)有力的重要性?人工智能申請中的安全措施 很好理解。對抗式攻擊,如單像素攻擊,使人懷疑人工智能在關(guān)鍵應(yīng)用程序的核心的可靠性。它們不僅損害了它們的有效性,而且也使人們對企業(yè)必須對它們有信心產(chǎn)生懷疑。
結(jié)論
單像素攻擊有效性的現(xiàn)實(shí)突出了AI開發(fā)中的一個(gè)基本張力:模型復(fù)雜性和健壯性之間的權(quán)衡。
隨著深層次學(xué)習(xí)模型變得越來越復(fù)雜,它們也會對微妙的干擾變得越來越敏感。這種悖論要求重新評估我們對AI設(shè)計(jì)的方法,可能更傾向于在關(guān)鍵應(yīng)用程序中使用更簡單、更可解釋的模型。它還強(qiáng)調(diào)需要一個(gè)完整的人工智能安全方法,該方法超越簡單的模型體系結(jié)構(gòu),包括數(shù)據(jù)完整性、系統(tǒng)設(shè)計(jì)和操作保障。
由于人工智能已經(jīng)成為我們?nèi)粘I畹囊徊糠?我們必須確保它在面對這種攻擊時(shí)的復(fù)原力。它似乎不僅成為技術(shù)挑戰(zhàn),而且也成為社會當(dāng)務(wù)之急。