人工智能也會有偏差

時間：2020-06-20 09:51:02

關(guān)鍵字： AI 人工智能機器學(xué)習(xí)

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 機器學(xué)習(xí)是當(dāng)今技術(shù)最重要的基本趨勢之一，也是未來十年科技將在更廣闊的世界中改變事物的主要方式之一。作為其中的一部分，機器學(xué)習(xí)的各個方面引起關(guān)注 - 例如，它對就業(yè)的潛在影響，以及它用于我們可能認

機器學(xué)習(xí)是當(dāng)今技術(shù)最重要的基本趨勢之一，也是未來十年科技將在更廣闊的世界中改變事物的主要方式之一。作為其中的一部分，機器學(xué)習(xí)的各個方面引起關(guān)注 - 例如，它對就業(yè)的潛在影響，以及它用于我們可能認為不道德的目的，例如它可能給予壓迫性政府的新能力。另一個，也就是這篇文章的主題，是人工智能偏差的問題。

什么是'AI Bias偏差'？

“原始數(shù)據(jù)既是矛盾又是壞主意; 相反，數(shù)據(jù)應(yīng)該小心烹飪?！敖芨ダ秕U克

直到2013年左右，如果你想制作一個可以識別照片中的貓的軟件系統(tǒng)，你就會編寫邏輯步驟。你會做一些尋找圖像邊緣的東西，一個眼睛探測器，一個用于皮毛的紋理分析器，并嘗試計算腿部等等，然后將它們?nèi)抗潭ㄔ谝黄?.....它永遠不會真的很棒。從概念上講，這就像試圖制造機械馬一樣 - 理論上這是可能的，但在實踐中，復(fù)雜性太大，我們無法描述。在沒有工作模型的情況下，您最終會得到數(shù)百或數(shù)千條手寫規(guī)則。

通過機器學(xué)習(xí)，我們不使用手寫規(guī)則來識別X或Y。

相反，我們采用X的一千個例子和Y的一千個例子，我們讓計算機根據(jù)這些的統(tǒng)計分析建立一個模型。例子。然后我們可以給該模型一個新的數(shù)據(jù)點，并且它具有給定的準(zhǔn)確度，是否適合示例集X或示例集Y.機器學(xué)習(xí)使用數(shù)據(jù)生成模型，而不是人類編寫模型。這產(chǎn)生了驚人的好結(jié)果，特別是對于識別或模式發(fā)現(xiàn)問題，這就是為什么整個科技行業(yè)正在圍繞機器學(xué)習(xí)重新制作的原因。

然而，有一個問題。在現(xiàn)實世界中，你的千（或十萬或百萬）X和Y的例子也包含A，B，J，L，O，R和P.這些可能不均勻分布，并且它們可能足夠突出，你的AI系統(tǒng)對L和R的關(guān)注度卻超過了X。

這在實踐中意味著什么？我最喜歡的例子是圖像識別系統(tǒng)傾向于觀看草山的照片并指出“羊”。大多數(shù)作為“綿羊”的例子的照片都是在草山上拍攝的，因為那是綿羊往往生活的地方，而且圖像中的草比白色蓬松的小東西更加突出。

這里要理解的一個重要事項是系統(tǒng)沒有語義去理解它正在看的是什么。我們查看像素網(wǎng)格并將其轉(zhuǎn)換為綿羊，皮膚或標(biāo)尺，系統(tǒng)只看到一串?dāng)?shù)字。它沒有看到3D空間，物體，紋理或綿羊。它只是看到數(shù)據(jù)中的模式。

同時，嘗試診斷此類問題的挑戰(zhàn)在于您的機器學(xué)習(xí)系統(tǒng)生成的模型（神經(jīng)網(wǎng)絡(luò)）包含數(shù)千或數(shù)十萬個節(jié)點。沒有簡單的方法來查看模型內(nèi)部，看看它是如何做出決定的 - 如果可以的話，那么這個過程很簡單，你首先就不需要ML了，你可以自己編寫規(guī)則。人們擔(dān)心ML是一個“黑匣子”。（正如我稍后解釋的那樣，這個問題經(jīng)常被夸大了。）

那么什么是“AI偏差”或“機器學(xué)習(xí)偏差”問題？用于查找數(shù)據(jù)模式的系統(tǒng)可能會找到錯誤的模式，您可能也沒有意識到。

AI偏差場景用例

這個問題可以表現(xiàn)出來的最明顯和最直接的關(guān)注點是人類的多樣性。據(jù)報道，亞馬遜最近曾嘗試建立一個機器學(xué)習(xí)系統(tǒng)來篩選簡歷以進行招聘。由于亞馬遜目前的員工群體偏向于男性，因此“成功招聘”的例子在機械上也會使男性產(chǎn)生偏差，因此，該系統(tǒng)選擇了簡歷。亞馬遜發(fā)現(xiàn)了這一點，該系統(tǒng)從未投入生產(chǎn)。

這個例子中最重要的部分是據(jù)報道，即使在簡歷上沒有明確標(biāo)明性別，該系統(tǒng)也表現(xiàn)出這種傾斜。該系統(tǒng)在其他事物中看到了“成功員工”樣本集中的模式 - 例如，女性可能會使用不同的詞語來描述成就，或者在學(xué)校中進行過不同的體育運動。當(dāng)然，該系統(tǒng)不知道什么是冰球，也不知道人們是什么，也不知道“成功”是什么 - 它只是對文本進行統(tǒng)計分析。但是它所看到的模式并不一定是人類會注意到的東西。

它變得更糟。一個非常善于發(fā)現(xiàn)蒼白皮膚上的皮膚癌的機器學(xué)習(xí)系統(tǒng)可能更難以在深色皮膚上發(fā)現(xiàn)皮膚癌，反之亦然，可能不是因為樣本中的偏差，而是因為您可能需要以不同的方式構(gòu)建模型首先要挑選出不同的特征。

即使在像圖像識別這樣的狹窄應(yīng)用中，機器學(xué)習(xí)系統(tǒng)也是不可互換的。您必須調(diào)整系統(tǒng)的結(jié)構(gòu)，有時只是通過反復(fù)試驗，以便善于發(fā)現(xiàn)您感興趣的數(shù)據(jù)中的特定功能，直到達到所需的準(zhǔn)確度。但是你可能沒有意識到系統(tǒng)對于一組而言準(zhǔn)確率為98％，但對于另一組而言只有91％準(zhǔn)確（即使該準(zhǔn)確度仍然超過人類分析）。

我們將使用ML來做很多事情，樣本偏差將成為所有這些問題的一部分考慮因素。同樣，即使您與人合作，數(shù)據(jù)中的偏差也可能與人無關(guān)。

AI偏差管理

我們該怎么辦？您可以將現(xiàn)場思維分為三個方面：

在訓(xùn)練數(shù)據(jù)的收集和管理中的方法嚴謹性

用于分析和診斷模型行為的技術(shù)工具。

在產(chǎn)品中部署ML的培訓(xùn)，教育和謹慎。

樣板偏差關(guān)鍵是來自于我們自己先驗地可能對不同的人群數(shù)據(jù)有偏見。

在這種情況下，我經(jīng)常將機器學(xué)習(xí)與數(shù)據(jù)庫進行比較，特別是關(guān)系數(shù)據(jù)庫 - 一種新的基礎(chǔ)技術(shù)，它改變了計算機科學(xué)的可能性，改變了更廣闊的世界，成為了所有東西的一部分，我們現(xiàn)在使用一直沒有注意到。

但數(shù)據(jù)庫也存在問題，而且問題具有相同的特征：系統(tǒng)可能建立在錯誤的假設(shè)或糟糕的數(shù)據(jù)之上，一直使用它的人很難意識到這點更不會去質(zhì)疑。

比如稅務(wù)系統(tǒng)中如果登記你的名字寫錯了，更容易的是讓改變你的名字，而不是讓他們修改數(shù)據(jù)庫中的拼寫字母，這被認為是SQL固有的技術(shù)問題，Oracle的執(zhí)行失敗，或大型官僚機構(gòu)的制度性失敗？如何輕松地確定部署系統(tǒng)的確切過程，無法修復(fù)拼寫錯誤，或者知道在人們開始抱怨之前已經(jīng)完成了這個操作？

所有這一切都是說，ML偏見會以與過去問題大致相同的方式引起問題，并且可以解決和發(fā)現(xiàn)，或者不會，與過去大致相同的程度。因此，人工智能偏見導(dǎo)致最容易想象的傷害的情景可能不是來自主要機構(gòu)的主要研究人員。相反，它是第三層技術(shù)承包商或軟件供應(yīng)商，它將開源組件，圖書館和工具中的某些內(nèi)容與其真正理解的東西聯(lián)系在一起，然后將其出售給在貼紙上看到“AI”的不熟練買家。不要問正確的問題，把它交給最低工資的員工，并告訴他們做'AI'所說的任何事情。這是數(shù)據(jù)庫發(fā)生的事情。這不是特別是AI問題，甚至是“軟件”問題。?

結(jié)論

“機器學(xué)習(xí)可以做任何你可以訓(xùn)練狗去做的事情 - 但你從來都不能完全確定你訓(xùn)練狗去做什么?！?/p>

我經(jīng)常認為“人工智能”這個詞在這樣的對話中是無用的。它創(chuàng)造了我們實際創(chuàng)造的大部分錯誤印象，這些只是機器，將它們與洗衣機進行比較會更有用。在洗衣服時，洗衣機比人類要好得多，但是如果你把洗碗機放在洗衣機而不是衣服上并按下開始，它就會洗掉它們。他們甚至?xí)兊酶蓛?。但這不是你想要的結(jié)果，也不會是因為系統(tǒng)偏向于菜肴。洗衣機不知道什么衣服或餐具 - 它只是一個自動化，它在概念上與以前的任何自動化浪潮都沒有什么不同。

也就是說，就像汽車，飛機或數(shù)據(jù)庫一樣，這些系統(tǒng)既強大又極其有限，完全取決于人們?nèi)绾问褂眠@些系統(tǒng)，以及用戶的好壞，以及受過良好教育或無知的人這些系統(tǒng)是如何工作的。

因此，說'人工智能是數(shù)學(xué)，所以它不會有偏差'是完全錯誤的。ML在數(shù)據(jù)中找到模式 - 哪些模式取決于數(shù)據(jù)，數(shù)據(jù)取決于我們，我們用它做什么取決于我們。機器學(xué)習(xí)在做某些事情方面要比人們好得多，就像一只狗在尋找毒品方面要比人們好得多，但你不會因狗的證據(jù)而定罪。而且狗比任何機器學(xué)習(xí)都聰明得多。