11月17日,F(xiàn)acebook副總裁石峰在2016年世界互聯(lián)網(wǎng)大會上表示,人工智能已經(jīng)融入了他們產(chǎn)品的各個方面,他們希望能用人工智能夠幫助所有的人在臉譜上創(chuàng)制更好的視頻,而不僅限于專業(yè)人員,這其中非常重要的一門技術(shù)就是視頻穩(wěn)定技術(shù),這樣即便是普通人也能夠更專業(yè)。
石峰表示,如果有人試圖要騙過相機,不管他運動速度多快或者不斷改變自己的身體形態(tài),還是能夠迅速辨識,能夠追蹤這個人的活動。就好像最早推出照片辨識的時候,(系統(tǒng))已經(jīng)達到了對面孔辨識97%的準確率,現(xiàn)在要比人更善于辨識面孔,而在視頻當中也是從人臉辨識開始的。
他還提到,F(xiàn)acebook在兩個星期前剛剛在愛爾蘭開始測試了新技術(shù),手機上將能夠運行人工智能,即在Facebook應(yīng)用當中推出了神經(jīng)網(wǎng)絡(luò),運算都通過手機來完成。
他表示,這些多是現(xiàn)有AI應(yīng)用在圖像視頻識別、自動翻譯等領(lǐng)域做不到的。“對于人工智能我們要花很長時間來訓(xùn)練它,就像教孩子打棒球一樣。一方面我們有超過十億人在尋找內(nèi)容,而另外一方面我們又有數(shù)以億計的內(nèi)容發(fā)布給他們,他們可以很了解這兩者怎么取得平衡,所以我們每天做很多預(yù)測,而真正最激動人心的就是我們還能獲得很多反饋”,石峰說道。
下為石峰演講實錄:
大家早上好!我很高興第三次參加世界互聯(lián)網(wǎng)大會,我每年都來,但是我的中文還是很糟糕,我就不為難大家了,我還是用英文演講吧。在我們的工作中,我們覺得最重要的就是人工智能。接下來我給大家介紹一下臉譜網(wǎng)公司在人工智能方面的發(fā)展。可以說人工智能已經(jīng)融入了我們產(chǎn)品的各個方面,今天給大家舉不少例子,比如說人工智能支持著我們的硬件和軟件,最后一部分給大家介紹一下我們最近的研究成果,內(nèi)容就是如何教會機器去閱讀文本。
比如我們講新聞推送,我先給大家簡單介紹一下,每天有十二億的用戶訪問臉譜網(wǎng)站,可以說他們在這里花費了很多時間,而就我們公司而言,我們的工作就是服務(wù)于這十二億人,我們?yōu)樗麄兲峁┝嗽S多故事,我們?yōu)樗麄兲峁┝舜罅康膬?nèi)容。就我們而言,我們的工作就是想要了解用戶究竟想要什么故事,并且將這些內(nèi)容推送給他們。
舉個例子來說,我們了解每個用戶的興趣,并且向他們提供相關(guān)的內(nèi)容。比如說我在烏鎮(zhèn),如果我的太太和孩子發(fā)了照片,內(nèi)容是他們在爬黃山,我肯定希望她們是我新聞推送的第一條,因為他們是我最在乎的人,而且他們的登山活動也是我的興趣所在。今天能再來烏鎮(zhèn)我特別高興,我還記得去年烏鎮(zhèn)也是非常精彩。
我們從人工智能的角度來講講,我想在座的各位都知道人工智能和傳統(tǒng)計算機不同,它更像一個孩子在學(xué)習(xí)這個世界,而不是事先編程,所以對于人工智能我們要花很長時間來訓(xùn)練它,就像教孩子打棒球一樣。一方面我們有超過十億人在尋找內(nèi)容,而另外一方面我們又有數(shù)以億計的內(nèi)容發(fā)布給他們,他們可以很了解這兩者怎么取得平衡,所以我們每天做很多預(yù)測,而真正最激動人心的就是我們還能獲得很多的反饋。
一旦我們向用戶發(fā)布內(nèi)容,我們就知道他們喜歡什么內(nèi)容,了解他們和朋友分享什么,點擊什么內(nèi)容,看什么視頻等等。所以我們每天能夠獲得大量的反饋,在這個過程當中也可以幫助我們訓(xùn)練系統(tǒng)。所以說大家如果是做人工智能的,大家一定覺得這是再理想不過的狀況了。除此之外還有兩樣?xùn)|西幫助我們在現(xiàn)在獲得成功,我們回到1992年,那個時候我剛剛完成我的博士學(xué)位,我的研究當中一部分就是人工智能,就我個人而言,我覺得1992年還近在眼前,但是實際上我們看看計算機資源在這個過程當中有了飛躍。
可以說如果離開這個飛躍,我們肯定沒有辦法處理如今這樣大量海量的數(shù)據(jù)。而且可以說更加激動人心的是我們在這方面真正的取得了進展。大家看這張PPT,這張圖表上可以看到智能競賽的結(jié)果,在左邊大家可以看到是系統(tǒng)的準確率,內(nèi)容是辨識圖像,大家可以看到在四年的時間當中,準確率從55%上升到了80%,所以說是了不起的進步啊。大家看這些圓圈,可以看到計算能力,特別激動人心的是最近的系統(tǒng),大家可以看到較之四年前運算能力大大提高,接下來的部分我們來講講這些技術(shù)對于我們每天的日?;顒佑惺裁从绊?。大家可以看到這里是一些例子,告訴我們在臉譜上如何解析圖像,并在所有的內(nèi)容當中都已經(jīng)融入了人工智能。
接下來給大家介紹一些圖片和視頻,我想這是最前沿的一部分技術(shù),我想就很多的臉譜的用戶他們有的人在視力上有一些障礙,要想讓他們能夠辨識圖片,以前他們做不到,現(xiàn)在我們有可能幫助他們,比如說看這里的視頻,我們還能夠讓人來分析這些圖片。如果你是盲人,這毫無疑問是一個很大的發(fā)展和進步。另外我們知道臉譜上一個內(nèi)容增長速度很快,就是視頻,在這里我們沒有把聲音放出來,但是在這里大家可以看到我們進行的自動的翻譯。大家可以看到底部的文本,就是聲音材料的意思。所以說即便不開聲音,仍然可以看字幕知道下面的內(nèi)容是什么。
我們希望能夠幫助所有的人在臉譜上創(chuàng)制更好的視頻,而不僅限于專業(yè)人員,所以說非常重要的一門技術(shù)就是視頻穩(wěn)定技術(shù),我們用的就是人工智能技術(shù),這樣即便是普通人也能夠更專業(yè),而且在這個領(lǐng)域當中發(fā)展也很迅速。我們一直都是以人為本,驅(qū)動技術(shù),所以說我們的技術(shù)最關(guān)心的就是人,在這里是一個研發(fā)者,他在這里試圖要騙過相機。他們的活動速度,這個研發(fā)人員的運動速度很快,而且不斷地在改變自己的身體姿態(tài),還穿了衣服,我們知道衣服的運動體態(tài)和人不一樣,有的時候還調(diào)整顏色和背景色彩,但是即便如此,系統(tǒng)還是能夠迅速辨識,能夠追蹤這個人的活動。就好像最早我們推出照片辨識的時候。在兩年半的時候,我們已經(jīng)達到了對面孔辨識97%的準確率,現(xiàn)在我們要比人更善于辨識面孔,而在視頻當中我們也是從人臉辨識開始的。
這是另外的一些例子,也是我們的突破,這是我們在兩個星期前剛剛在愛爾蘭開始測試的新技術(shù)。大家可以看到有史以來第一次可以帶手機上面運行人工智能,究竟這一技術(shù)是什么樣的,就是我們在臉譜應(yīng)用當中推出了神經(jīng)網(wǎng)絡(luò),你只要用手機拍張照,隨后你可以選一個著名的藝術(shù)流派濾鏡,之后加上照片就可以形成最后的成果,而且這些都是實時的。為什么說這些很有意思,因為這一切的過程和運算都是在手機當中進行的。一般來說以往需要接入云端獲得計算能力才能完成。我們現(xiàn)在還是在以原先的方法在繼續(xù)訓(xùn)練我們的系統(tǒng),但是我們現(xiàn)在速度更快,而且只需要手機的硬件就可以完成原先的運算。
為了能夠進一步發(fā)展技術(shù),推進人工智能,我們也在不斷地發(fā)明新的硬件,這樣的話能夠幫助我們以更快的速度處理更多的數(shù)據(jù),我也非常高興,我們都是開源設(shè)計,最近我們也給九個不同的國家,十九個金融機構(gòu)提供了支持,從而使這些行業(yè)獲得更快的進展,我們給他們提供的就是我們專門設(shè)計的硬件,我們也非常欣喜能夠幫助所有的方面獲得進步。
剛剛給大家分享了具體的例子,告訴我們的產(chǎn)品當中的技術(shù),接下來給大家介紹一下我最感興趣的研究領(lǐng)域,我們的系統(tǒng)可以很有效的告訴大家,左邊是一個披薩餅,右邊是一個戴眼鏡的人手里拿著一個香蕉。但是有兩件事計算機做得不太好,一個就是理解情景和文本,另外一件事就是生產(chǎn)。比如說左邊我們問計算機這是不是一張素食披薩,計算機很難回答。右邊問這個人有沒有2.0的視力,計算機也沒有辦法回答,人是可以回答這些問題的。因為很快在這個問題當中你就知道,意思是素食不是葷食,一看就知道肯定不是素食。而在右邊一看這個人戴眼鏡就知道這個人視力肯定沒有2.0,但是機器做不到,我們要怎么做才能讓機器理解這些文本呢?我們就要著手來應(yīng)對這個問題。