當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀] 機器學(xué)習(xí)是當(dāng)今技術(shù)最重要的基本趨勢之一,也是未來十年科技將在更廣闊的世界中改變事物的主要方式之一。作為其中的一部分,機器學(xué)習(xí)的各個方面引起關(guān)注 - 例如,它對就業(yè)的潛在影響,以及它用于我們可能認

機器學(xué)習(xí)是當(dāng)今技術(shù)最重要的基本趨勢之一,也是未來十年科技將在更廣闊的世界中改變事物的主要方式之一。作為其中的一部分,機器學(xué)習(xí)的各個方面引起關(guān)注 - 例如,它對就業(yè)的潛在影響,以及它用于我們可能認為不道德的目的,例如它可能給予壓迫性政府的新能力。另一個,也就是這篇文章的主題,是人工智能偏差的問題。

什么是'AI Bias偏差'?

“原始數(shù)據(jù)既是矛盾又是壞主意; 相反,數(shù)據(jù)應(yīng)該小心烹飪?!敖芨ダ秕U克

直到2013年左右,如果你想制作一個可以識別照片中的貓的軟件系統(tǒng),你就會編寫邏輯步驟。你會做一些尋找圖像邊緣的東西,一個眼睛探測器,一個用于皮毛的紋理分析器,并嘗試計算腿部等等,然后將它們?nèi)抗潭ㄔ谝黄?.....它永遠不會真的很棒。從概念上講,這就像試圖制造機械馬一樣 - 理論上這是可能的,但在實踐中,復(fù)雜性太大,我們無法描述。在沒有工作模型的情況下,您最終會得到數(shù)百或數(shù)千條手寫規(guī)則。

通過機器學(xué)習(xí),我們不使用手寫規(guī)則來識別X或Y。

相反,我們采用X的一千個例子和Y的一千個例子,我們讓計算機根據(jù)這些的統(tǒng)計分析建立一個模型。例子。然后我們可以給該模型一個新的數(shù)據(jù)點,并且它具有給定的準(zhǔn)確度,是否適合示例集X或示例集Y.機器學(xué)習(xí)使用數(shù)據(jù)生成模型,而不是人類編寫模型。這產(chǎn)生了驚人的好結(jié)果,特別是對于識別或模式發(fā)現(xiàn)問題,這就是為什么整個科技行業(yè)正在圍繞機器學(xué)習(xí)重新制作的原因。

然而,有一個問題。在現(xiàn)實世界中,你的千(或十萬或百萬)X和Y的例子也包含A,B,J,L,O,R和P.這些可能不均勻分布,并且它們可能足夠突出,你的AI系統(tǒng)對L和R的關(guān)注度卻超過了X。

這在實踐中意味著什么?我最喜歡的例子是圖像識別系統(tǒng)傾向于觀看草山的照片并指出“羊”。大多數(shù)作為“綿羊”的例子的照片都是在草山上拍攝的,因為那是綿羊往往生活的地方,而且圖像中的草比白色蓬松的小東西更加突出。

這里要理解的一個重要事項是系統(tǒng)沒有語義去理解它正在看的是什么。我們查看像素網(wǎng)格并將其轉(zhuǎn)換為綿羊,皮膚或標(biāo)尺,系統(tǒng)只看到一串?dāng)?shù)字。它沒有看到3D空間,物體,紋理或綿羊。它只是看到數(shù)據(jù)中的模式。

同時,嘗試診斷此類問題的挑戰(zhàn)在于您的機器學(xué)習(xí)系統(tǒng)生成的模型(神經(jīng)網(wǎng)絡(luò))包含數(shù)千或數(shù)十萬個節(jié)點。沒有簡單的方法來查看模型內(nèi)部,看看它是如何做出決定的 - 如果可以的話,那么這個過程很簡單,你首先就不需要ML了,你可以自己編寫規(guī)則。人們擔(dān)心ML是一個“黑匣子”。(正如我稍后解釋的那樣,這個問題經(jīng)常被夸大了。)

那么什么是“AI偏差”或“機器學(xué)習(xí)偏差”問題?用于查找數(shù)據(jù)模式的系統(tǒng)可能會找到錯誤的模式,您可能也沒有意識到。

AI偏差場景用例

這個問題可以表現(xiàn)出來的最明顯和最直接的關(guān)注點是人類的多樣性。據(jù)報道,亞馬遜最近曾嘗試建立一個機器學(xué)習(xí)系統(tǒng)來篩選簡歷以進行招聘。由于亞馬遜目前的員工群體偏向于男性,因此“成功招聘”的例子在機械上也會使男性產(chǎn)生偏差,因此,該系統(tǒng)選擇了簡歷。亞馬遜發(fā)現(xiàn)了這一點,該系統(tǒng)從未投入生產(chǎn)。

這個例子中最重要的部分是據(jù)報道,即使在簡歷上沒有明確標(biāo)明性別,該系統(tǒng)也表現(xiàn)出這種傾斜。該系統(tǒng)在其他事物中看到了“成功員工”樣本集中的模式 - 例如,女性可能會使用不同的詞語來描述成就,或者在學(xué)校中進行過不同的體育運動。當(dāng)然,該系統(tǒng)不知道什么是冰球,也不知道人們是什么,也不知道“成功”是什么 - 它只是對文本進行統(tǒng)計分析。但是它所看到的模式并不一定是人類會注意到的東西。

它變得更糟。一個非常善于發(fā)現(xiàn)蒼白皮膚上的皮膚癌的機器學(xué)習(xí)系統(tǒng)可能更難以在深色皮膚上發(fā)現(xiàn)皮膚癌,反之亦然,可能不是因為樣本中的偏差,而是因為您可能需要以不同的方式構(gòu)建模型首先要挑選出不同的特征。

即使在像圖像識別這樣的狹窄應(yīng)用中,機器學(xué)習(xí)系統(tǒng)也是不可互換的。您必須調(diào)整系統(tǒng)的結(jié)構(gòu),有時只是通過反復(fù)試驗,以便善于發(fā)現(xiàn)您感興趣的數(shù)據(jù)中的特定功能,直到達到所需的準(zhǔn)確度。但是你可能沒有意識到系統(tǒng)對于一組而言準(zhǔn)確率為98%,但對于另一組而言只有91%準(zhǔn)確(即使該準(zhǔn)確度仍然超過人類分析)。

我們將使用ML來做很多事情,樣本偏差將成為所有這些問題的一部分考慮因素。同樣,即使您與人合作,數(shù)據(jù)中的偏差也可能與人無關(guān)。

AI偏差管理

我們該怎么辦?您可以將現(xiàn)場思維分為三個方面:

在訓(xùn)練數(shù)據(jù)的收集和管理中的方法嚴謹性

用于分析和診斷模型行為的技術(shù)工具。

在產(chǎn)品中部署ML的培訓(xùn),教育和謹慎。

樣板偏差關(guān)鍵是來自于我們自己先驗地可能對不同的人群數(shù)據(jù)有偏見。

在這種情況下,我經(jīng)常將機器學(xué)習(xí)與數(shù)據(jù)庫進行比較,特別是關(guān)系數(shù)據(jù)庫 - 一種新的基礎(chǔ)技術(shù),它改變了計算機科學(xué)的可能性,改變了更廣闊的世界,成為了所有東西的一部分,我們現(xiàn)在使用一直沒有注意到。

但數(shù)據(jù)庫也存在問題,而且問題具有相同的特征:系統(tǒng)可能建立在錯誤的假設(shè)或糟糕的數(shù)據(jù)之上,一直使用它的人很難意識到這點更不會去質(zhì)疑。

比如稅務(wù)系統(tǒng)中如果登記你的名字寫錯了,更容易的是讓改變你的名字,而不是讓他們修改數(shù)據(jù)庫中的拼寫字母,這被認為是SQL固有的技術(shù)問題,Oracle的執(zhí)行失敗,或大型官僚機構(gòu)的制度性失敗?如何輕松地確定部署系統(tǒng)的確切過程,無法修復(fù)拼寫錯誤,或者知道在人們開始抱怨之前已經(jīng)完成了這個操作?

所有這一切都是說,ML偏見會以與過去問題大致相同的方式引起問題,并且可以解決和發(fā)現(xiàn),或者不會,與過去大致相同的程度。因此,人工智能偏見導(dǎo)致最容易想象的傷害的情景可能不是來自主要機構(gòu)的主要研究人員。相反,它是第三層技術(shù)承包商或軟件供應(yīng)商,它將開源組件,圖書館和工具中的某些內(nèi)容與其真正理解的東西聯(lián)系在一起,然后將其出售給在貼紙上看到“AI”的不熟練買家。不要問正確的問題,把它交給最低工資的員工,并告訴他們做'AI'所說的任何事情。這是數(shù)據(jù)庫發(fā)生的事情。這不是特別是AI問題,甚至是“軟件”問題。?

結(jié)論

“機器學(xué)習(xí)可以做任何你可以訓(xùn)練狗去做的事情 - 但你從來都不能完全確定你訓(xùn)練狗去做什么?!?/p>

我經(jīng)常認為“人工智能”這個詞在這樣的對話中是無用的。它創(chuàng)造了我們實際創(chuàng)造的大部分錯誤印象,這些只是機器,將它們與洗衣機進行比較會更有用。在洗衣服時,洗衣機比人類要好得多,但是如果你把洗碗機放在洗衣機而不是衣服上并按下開始,它就會洗掉它們。他們甚至?xí)兊酶蓛?。但這不是你想要的結(jié)果,也不會是因為系統(tǒng)偏向于菜肴。洗衣機不知道什么衣服或餐具 - 它只是一個自動化,它在概念上與以前的任何自動化浪潮都沒有什么不同。

也就是說,就像汽車,飛機或數(shù)據(jù)庫一樣,這些系統(tǒng)既強大又極其有限,完全取決于人們?nèi)绾问褂眠@些系統(tǒng),以及用戶的好壞,以及受過良好教育或無知的人這些系統(tǒng)是如何工作的。

因此,說'人工智能是數(shù)學(xué),所以它不會有偏差'是完全錯誤的。ML在數(shù)據(jù)中找到模式 - 哪些模式取決于數(shù)據(jù),數(shù)據(jù)取決于我們,我們用它做什么取決于我們。機器學(xué)習(xí)在做某些事情方面要比人們好得多,就像一只狗在尋找毒品方面要比人們好得多,但你不會因狗的證據(jù)而定罪。而且狗比任何機器學(xué)習(xí)都聰明得多。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉