深陷信息安全漏洞丑聞的臉書能否靠AI破局?
臉書最近真可謂麻煩纏身,假新聞、恐怖主義、泄露用戶數(shù)據(jù)等等一系列丑聞全都主動(dòng)找上門來,讓這個(gè)即使有著最龐大用戶基礎(chǔ)的社交軟件也有點(diǎn)吃不消。面對公眾的諸多質(zhì)疑,臉書給出的答案似乎也很簡單,那就是利用人工智能(AI)來解決眼前的這些煩惱。
觀看上個(gè)月的兩場聽證會(huì)時(shí)你會(huì)發(fā)現(xiàn),公司CEO扎格伯格在向記者和議員們解釋未來將如何管制平臺內(nèi)容時(shí),“AI”這個(gè)詞在他的談話中居然出現(xiàn)了30多次。臉書CTO邁克·斯科洛普夫,這個(gè)負(fù)責(zé)將扎克伯克對公眾的允諾變?yōu)楝F(xiàn)實(shí)的男人,在一場記者發(fā)布會(huì)上又再次接過這個(gè)話題,進(jìn)一步向人們展示公司有能力利用AI技術(shù)幫助自己走出眼下的困境。“AI是保護(hù)社區(qū)安全的最好辦法”。不過,有些人顯然并不買賬,一些批評人士就指出,臉書此舉是在混淆視聽,讓人們誤以為這家公司面臨的挑戰(zhàn)僅僅是技術(shù)方面的。斯科洛普夫?qū)Υ吮硎?,即使公司有能力雇傭人力來挨個(gè)檢查每一條消息,我們也不會(huì)這么做。“如果我告訴你你要發(fā)送的每條消息在發(fā)布之前都會(huì)有一個(gè)人對它們進(jìn)行檢查,你可能就會(huì)考慮一下是不是要修改一下原文內(nèi)容,這正是我們不愿看到的”。
臉書對AI技術(shù)的早期布局:“照片DNA”
事實(shí)上,臉書早在2011年的時(shí)候就已經(jīng)開始使用AI技術(shù)管理平臺了。當(dāng)時(shí)的臉書使用了一種被稱為“照片DNA”的軟件技術(shù),用來檢測平臺上出現(xiàn)的諸如兒童色情圖片等不良內(nèi)容。根據(jù)斯科洛普夫的表述,這款軟件的算法已經(jīng)有了穩(wěn)步的提升,能夠?qū)δ切┢脚_想驅(qū)逐的內(nèi)容進(jìn)行標(biāo)記。裸露和色情圖像比較容易識別,充滿血腥和暴力的圖像,比如IS斬首俘虜?shù)漠嬅妫捎谑侵鹣袼氐募墑e,所以一開始比較難識別,但現(xiàn)在這個(gè)問題已經(jīng)被我們解決了。
“照片DNA”最初是由微軟公司開發(fā)的一款信息篩選軟件,后來達(dá)特茅斯學(xué)院一個(gè)名為Hany Farid的教授對其做了進(jìn)一步改進(jìn),才逐漸被投入使用。該技術(shù)會(huì)對圖片、視頻和音頻文件的哈希值進(jìn)行計(jì)算,最終會(huì)得出一個(gè)數(shù)字簽名。類似人手的指紋,每個(gè)簽名都是獨(dú)一無二的。這樣只需要將違規(guī)圖片的哈希值和平臺上傳的圖片的哈希值進(jìn)行比對,一旦結(jié)果匹配基本就能斷定平臺圖片是違規(guī)圖片的復(fù)制品了,這樣就能有效的防止色情圖片的多次傳播。很多科技巨頭都已經(jīng)采用了這一技術(shù),包括谷歌、推特、Adobe等。當(dāng)然,技術(shù)都有兩面性,這項(xiàng)功能強(qiáng)大的技術(shù)收獲一番好評的同時(shí)也為自身惹來了非議。
2014年,谷歌曾利用“照片DNA”技術(shù)檢測出某個(gè)用戶的郵箱含有兒童色請圖片,該名用戶也為此進(jìn)了監(jiān)獄。就在周圍人群一片掌聲,紛紛慶祝正義得到維護(hù)的時(shí)候,也有人表達(dá)了對谷歌利用這一技術(shù)侵犯用戶隱私的擔(dān)憂。谷歌對此回應(yīng)稱,未來只會(huì)用該技術(shù)打擊兒童性虐待事件,至于谷歌是否會(huì)信守承諾我們也不得而知了。
臉書的困境之一:如何正確識別語言
利用AI定位色情圖片對臉書來講可能已經(jīng)是小菜一碟,然而打擊假新聞、網(wǎng)絡(luò)騷擾和各種虛假宣傳活動(dòng)要面臨的困難要大得多。畢竟前者是用看的,而后者是需要讀的,機(jī)器識別語言的能力是否能夠滿足需求還是一個(gè)很大的未知數(shù)。斯科洛普夫?qū)Υ吮硎?,臉書在最近的幾個(gè)月中已經(jīng)投入了大量的人力物力來解決假廣告和假新聞問題。扎克伯格也曾告訴記者,他計(jì)劃花三年的時(shí)間來打造更好的系統(tǒng),以期肅清那些人們不想看到的內(nèi)容。
盡管網(wǎng)絡(luò)搜索和自動(dòng)翻譯技術(shù)已經(jīng)取得重大突破,但在識別語言情景和細(xì)小差別上,各種軟件的短板依然十分突出,很難投入使用。畢竟,AI本質(zhì)上只是一種技術(shù),再怎么進(jìn)化似乎也很難和人腦比肩。在周三舉行的一次主旨演講中,負(fù)責(zé)臉書AI業(yè)務(wù)的部門主管Srinivas Narayanan,在向人們解釋AI和機(jī)器學(xué)習(xí)遭遇的困難時(shí)就曾用到“看看那只豬!”這樣的表述。
不過,臉書的算法在閱讀方面也確實(shí)取得一些進(jìn)步。前不久,公司發(fā)言人曾對外透露,臉書去年部署的一項(xiàng)搜尋自殘行為的軟件已經(jīng)取得顯著成效,第一目擊者總共收到1000多個(gè)電話。僅今年第一季度,語言算法就為臉書發(fā)現(xiàn)并刪除200萬份與恐怖分子有關(guān)的內(nèi)容。
Schroepfer稱臉書已經(jīng)對欺凌檢測軟件做了改進(jìn),未來它們的功能會(huì)更加強(qiáng)大。據(jù)悉,一些專門軟件會(huì)自動(dòng)生成辱罵性的語言,工作人員會(huì)使用這些虛假的語言數(shù)據(jù)訓(xùn)練欺凌檢測軟件。兩者之間的對抗性訓(xùn)練使彼此的功能愈發(fā)完善,最終真正收到一加一大于二的效果。
臉書的困境之二:如何克服多語言的工作環(huán)境
臉書的語言技術(shù)在英語的環(huán)境下效果最佳,這并不僅僅是因?yàn)檫@家公司的總部位于美國,更大一部分原因在于臉書訓(xùn)練技術(shù)軟件的文本基本上都是從網(wǎng)上直接抓取的,而互聯(lián)網(wǎng)的參與者絕大多數(shù)都是說英語的。統(tǒng)計(jì)數(shù)據(jù)顯示,超過一半的臉書用戶來自非英語國家,這樣形勢就顯得很嚴(yán)峻了。對于一些高度依賴臉書作為社交工具的國家來講,其代價(jià)有可能是致命的。
2017年,緬甸發(fā)生羅興亞穆斯林種族清洗事件,聯(lián)合國官員經(jīng)調(diào)查后,認(rèn)為臉書在散播仇恨羅興亞人言論的活動(dòng)中起到了推波助瀾的作用。臉書方面對此回應(yīng)稱,承認(rèn)擅長緬甸語的內(nèi)容審查者數(shù)量不多并對此表示深深的歉意。據(jù)悉,臉書目前正在開展一項(xiàng)代號為“繆斯”的計(jì)劃,未來將有可能使該公司的語言技術(shù)在不增加訓(xùn)練數(shù)據(jù)的基礎(chǔ)上實(shí)現(xiàn)多語言服務(wù)。但在這項(xiàng)計(jì)劃尚未具備實(shí)用價(jià)值之前,臉書只能不斷收集新數(shù)據(jù)來改善它在其他語言環(huán)境下的工作能力。
目前來看,臉書的進(jìn)度似乎仍然停留在十分緩慢的狀態(tài),僅從緬甸這件事上就能看出,這家科技巨頭并未在世界各國分配自己的語言資源。在周二舉行的會(huì)議上,臉書的產(chǎn)品經(jīng)理Tessa Lyons-Laing發(fā)言稱,臉書的機(jī)器學(xué)習(xí)軟件正在向事實(shí)檢查人員學(xué)習(xí)標(biāo)記錯(cuò)誤信息,不過這要建立在臉書已經(jīng)與當(dāng)?shù)氐氖聦?shí)檢查組織建立合作關(guān)系而且他們收集了豐富的數(shù)據(jù)的基礎(chǔ)之上。除此之外的地區(qū),臉書還沒有辦法部署語言技術(shù)軟件。
寫在最后
Schroepfer曾向人們坦言,在不增加人力的基礎(chǔ)上推動(dòng)AI的發(fā)展一直都是臉書的主要策略。就在周三的時(shí)候,臉書的研究人員向人們展示,數(shù)十億個(gè)“電報(bào)”標(biāo)簽是如何為其提供免費(fèi)的數(shù)據(jù)源的,這在圖像識別領(lǐng)域還創(chuàng)下了新的記錄。
不過要想解決臉書面臨的諸多難題,沒有人為判斷是萬萬不可的。當(dāng)人們想預(yù)先判斷什么可為什么不可為的時(shí)候,AI是絕對不可以替代人類的位置的。它只是個(gè)工具而已,決定權(quán)依然要?dú)w它的主人——也就是人類。