你認為AI對你會有偏見嗎

時間：2020-05-20 12:18:01

關(guān)鍵字： AI GEN IMAGE FOR

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 近日，麻省理工的博士生在兩項獨立研究中發(fā)現(xiàn)，雖然機器擅長識別人工智能生成的文本，但是很難分辨其中的真假。原因在于訓(xùn)練機器識別假新聞的數(shù)據(jù)庫中充滿了人類的偏見，因此，訓(xùn)練而成的人工智能也不可避免地

近日，麻省理工的博士生在兩項獨立研究中發(fā)現(xiàn)，雖然機器擅長識別人工智能生成的文本，但是很難分辨其中的真假。原因在于訓(xùn)練機器識別假新聞的數(shù)據(jù)庫中充滿了人類的偏見，因此，訓(xùn)練而成的人工智能也不可避免地帶上了刻板印象。

人類偏見是人工智能界普遍存在的沉疴。ImageNetRoulette數(shù)字藝術(shù)項目通過使用AI分析描述用戶上傳的圖片，揭示出了這一嚴峻問題。本期全媒派獨家編譯《紐約時報》對ImageNetRoulette項目的評論，為你呈現(xiàn)人工智能背后的“隱形偏見”。

一天清晨，當網(wǎng)友Tabong Kima正在刷推特時，他看到了一個名為#ImageNetRoulette的實時熱搜。

在這個熱搜里，用戶們把自拍上傳到某個網(wǎng)站上，然后由人工智能來分析和描述它所看到的每一張臉。ImageNetRoulette就是一家這樣的網(wǎng)站，它把某位男性定義為“孤兒”，或是“不吸煙者”，如果是戴著眼鏡的，則可能被貼上“書呆子、白癡、怪胎”的標簽。

一位Twitter網(wǎng)友上傳了自己的照片，被AI識別為“強奸犯嫌疑人”（Rape Suspect），標簽位于照片左上角

在Kima看到的推特信息中，這些標簽有的準確，有的奇怪，有的離譜，但都是為了搞笑，于是他也加入了。但結(jié)果卻讓這個24歲的非裔美國人很不開心——他上傳了一張自己的微笑照片，然后網(wǎng)站給他貼上了“不法分子”和“罪犯”的標簽。

“可能是我不懂幽默吧，”他發(fā)了一條推特，“但我沒覺得這有什么有趣的。”

注：截至發(fā)稿，該網(wǎng)站imagenet-roulette.paglen.com已經(jīng)下線，現(xiàn)跳轉(zhuǎn)到www.excavating.ai。后者網(wǎng)頁上發(fā)布了一篇由原項目創(chuàng)始人撰寫的文章《挖掘人工智能：機器學(xué)習(xí)訓(xùn)練集中的圖像政治》

人工智能背后：偏見、種族、厭女癥

事實上，Kima的反應(yīng)正是這家網(wǎng)站想看到的。ImageNetRoulette是一個數(shù)字藝術(shù)項目，在人工智能迅速改變個人生活的當下，這個項目旨在揭露某些古怪的、無根據(jù)的、冒犯的行為，它們正在蔓延到人工智能技術(shù)中，包括被互聯(lián)網(wǎng)公司、公安部門和其他政府機構(gòu)廣泛使用的面部識別服務(wù)。

面部識別和其他AI技術(shù)都是通過分析海量數(shù)據(jù)來學(xué)習(xí)技能，而這些數(shù)據(jù)來自過去的網(wǎng)站和學(xué)術(shù)項目，不可避免地包含多年來未被注意到的細微偏差和其他缺陷。這也是美國藝術(shù)家Trevor Paglen和微軟研究員Kate Crawford發(fā)起ImageNetRoulette項目的原因——他們希望更深層次地揭露這個問題。

“我們希望揭露偏見、種族主義和厭女癥如何從一個系統(tǒng)轉(zhuǎn)移到另一個系統(tǒng)，”Paglen在電話采訪中說：“重點在于讓人們理解幕后的操作，看到我們（的信息）一直以來是如何被處理和分類的?！?/p>

作為本周米蘭Fondazione Prada博物館展覽的一部分，這個網(wǎng)站主要關(guān)注的是知名的大型可視化數(shù)據(jù)庫ImageNet。2007年，以李飛飛為首的研究人員開始討論ImageNet項目，它在“深度學(xué)習(xí)”的興起中發(fā)揮了重要的作用，這種技術(shù)使機器能夠識別包括人臉在內(nèi)的圖像。

“Training Humans”攝影展在米蘭Fondazione Prada博物館揭幕，展示人工智能系統(tǒng)如何通過訓(xùn)練來觀看并給這個世界分類。

ImageNet匯集了從互聯(lián)網(wǎng)上提取的1400多萬張照片，它探索了一種訓(xùn)練AI系統(tǒng)并評估其準確性的辦法。通過分析各種各樣不同的圖像，例如：花、狗、汽車，這些系統(tǒng)可以學(xué)習(xí)如何識別它們。

在關(guān)于人工智能的討論中，鮮少被提及的一點是，ImageNet也包含了數(shù)千人的照片，每一張都被歸入某一類。有些標簽直截了當，如“啦啦隊”、“電焊工”和“童子軍”；有些則帶有明顯的感情色彩，例如“失敗者、無望成功的人、不成功的人”和“奴隸、蕩婦、邋遢女人、流氓”。

Paglen和Crawford發(fā)起了應(yīng)用這些標簽的ImageNetRoulette項目，以展示觀點、偏見甚至冒犯性的看法如何影響人工智能，不論這些標簽看起來是否無害。

偏見的蔓延

ImageNet的標簽被成千上萬的匿名者使用，他們大多數(shù)來自美國，被斯坦福的團隊雇傭。通過Amazon Mechanical Turk的眾包服務(wù)，他們每給一張照片貼標簽就能賺幾分錢，每小時要瀏覽數(shù)百個標簽。在這個過程中，偏見就被納入了數(shù)據(jù)庫，盡管我們不可能知道這些貼標簽的人本身是否帶有這樣的偏見。

但他們定義了“失敗者”、“蕩婦”和“罪犯”應(yīng)該長什么樣。

這些標簽最早來自另一個龐大的數(shù)據(jù)集，WordNet，是普林斯頓大學(xué)研究人員開發(fā)的一種機器可讀的語義詞典。然而，該詞典包含了這些煽動性的標簽，斯坦福大學(xué)ImageNet的研究者們可能還沒有意識到這項研究出現(xiàn)了問題。

人工智能通常以龐大的數(shù)據(jù)集為基礎(chǔ)進行訓(xùn)練，而即使是它的創(chuàng)造者們也并不能完全理解這些數(shù)據(jù)集。“人工智能總是以超大規(guī)模運作，這會帶來一些后果，”Liz O’Sullivan說道。他曾在人工智能初創(chuàng)公司Clarifai負責數(shù)據(jù)標簽的監(jiān)督工作，現(xiàn)在是民權(quán)和私人組織“技術(shù)監(jiān)督計劃”（STOP，全稱為Surveillance Techonology Oversight Project）的成員，這個組織的目標是提高人們對人工智能系統(tǒng)問題的意識。

ImageNet數(shù)據(jù)中的許多標簽都是十分極端的。但是，同樣的問題也可能發(fā)生在看似“無害”的標簽上。畢竟，即使是“男人”和“女人”的定義，也有待商榷。

“給女性（無論是否成年）的照片貼標簽時，可能不包括性別酷兒（nonbinary，即自我認為非二元性別的人士）或短發(fā)女性，”O(jiān)’ Sullivan表示，“于是，AI模型里就只有長發(fā)女性?！?/p>

近幾個月來，研究者們發(fā)現(xiàn)諸如亞馬遜、微軟和IBM等公司提供的面部識別服務(wù)，都有對女性和有色人種持有偏見。通過IamgeNetRoulette項目，Paglen和Crawford希望能引起人們對這個問題的重視，而他們也的確做到了。隨著這個項目在推特等網(wǎng)站上走紅，ImageNetRoulette項目近期每小時產(chǎn)生的標簽數(shù)超過10萬個。

“我們完全沒想到，它會以這樣的方式走紅，”Crawford與Paglen說道，“它讓我們看到人們對這件事的真正看法，并且真正參與其中?！?/p>

熱潮之后，隱憂重重

對有些人來說，這只是個玩笑。但另外一些人，例如Kima，則能懂得Crawford和Paglen的用意。“他們做得很好，并不是說我以前沒有意識到這個問題，但他們把問題揭露出來了”，Kima說道。

然而，Paglen和Crawford認為，問題也許比人們想象得更加嚴重。

ImageNet只是眾多數(shù)據(jù)集中的一個。這些數(shù)據(jù)集被科技巨頭、初創(chuàng)公司和學(xué)術(shù)實驗室重復(fù)使用，訓(xùn)練出各種形式的人工智能。這些數(shù)據(jù)庫中的任何紕漏，都有可能已經(jīng)開始蔓延。

如今，許多公司和研究者都在試圖消除這些弊端。為了應(yīng)對偏見，微軟和IBM升級了面部識別服務(wù)。今年一月，Paglen和Crawofrod初次探討ImageNet中的奇怪標簽時，斯坦福大學(xué)的研究者們禁止了該數(shù)據(jù)集中所有人臉圖像的下載?，F(xiàn)在，他們表示將刪除更多的人臉圖像。

斯坦福大學(xué)的研究團隊向《紐約時報》發(fā)表了一份聲明，他們的長期目標是“解決數(shù)據(jù)集和算法中的公平性、問責制度和透明度問題?！?/p>

但對Paglen來說，一個更大的隱憂正在逼近——人工智能是從人類身上學(xué)習(xí)的，而人類是有偏見的生物。

“我們對圖像的貼標簽方式是我們世界觀的產(chǎn)物，”他說，“任何一種分類系統(tǒng)都會反映出分類者的價值觀?！?/p>

來源：人人都是產(chǎn)品經(jīng)理