我們正在人工智能時代的前夜,從上世紀(jì)五十年代的達(dá)特茅斯會議至今,人類花了漫長的時間去實現(xiàn)讓人工智能降臨的三大條件:算法、算力和數(shù)據(jù)。三者中,新的算法讓科學(xué)家們有著智者般的光環(huán),算力的突破則是 ICT 巨頭們相互炫耀的成就。只剩下數(shù)據(jù),這個最為重要且龐大的領(lǐng)域,開始有越來越多的人好奇數(shù)據(jù)的生產(chǎn)過程。
隨著人工智能產(chǎn)業(yè)落地的發(fā)展加速,應(yīng)用人工智能對優(yōu)質(zhì)數(shù)據(jù)的渴求越來越強(qiáng)烈?!赶乱粋€十年,人工智能需要更好的數(shù)據(jù)」Testin 云測 CTO 陳冠誠這樣堅信。過去十年中,這個行業(yè)出現(xiàn)了互聯(lián)網(wǎng)數(shù)據(jù)—數(shù)據(jù)集—眾包數(shù)據(jù)—定制化等商業(yè)模式,隨著人工智能發(fā)展到不同的階段,對數(shù)據(jù)服務(wù)也提出了不同的需求,以往層層外包、同質(zhì)化嚴(yán)重、數(shù)據(jù)質(zhì)量和安全少有保障的「數(shù)據(jù)工廠」,正逐漸被淘汰掉。
每個行業(yè)都有其生命周期,也有其上下產(chǎn)業(yè)鏈,我們所能看到的是,數(shù)據(jù)服務(wù)產(chǎn)業(yè)正跟隨人工智能來到了關(guān)鍵的產(chǎn)業(yè)上升轉(zhuǎn)型期,整個行業(yè)將豹變,未來十年的人工智能需要什么樣數(shù)據(jù)服務(wù)?我們邀請了陳冠誠來講述答案。
以下是 TesTIn 云測 CTO 陳冠誠在 GeekPark IF X 上的演講實錄(經(jīng)極客公園編輯整理):
大家下午好!
今天大家聽到的搜狗同聲傳譯,還有傅盛剛剛提到的獵豹移動機(jī)器人,其實都是人工智能前端的應(yīng)用,大家有沒有想過,這些光鮮的人工智能應(yīng)用背后有什么有意思的故事呢?這是我今天想要跟大家分享的主題。
其實 TesTIn 云測經(jīng)常跟 AI 企業(yè)同臺獲獎,但可能在座很多觀眾對我們沒有特別了解,而這也是我今天跟大家分享的目的。
但是,這些其實都是前端,前端就是跟我們用戶交互的應(yīng)用,大家有沒有想過,這些應(yīng)用背后到底是怎么實現(xiàn)的?我相信在座很多人都聽過人工智能三要素:
1、算力
2、算法
3、數(shù)據(jù)
如果我們把人工智能比作一個個學(xué)生,老師自然是它們背后一個個實現(xiàn)這些機(jī)器學(xué)習(xí)算法的工程師,老師去教學(xué)生自然需要教材,教材就是我今天想要跟大家分享的數(shù)據(jù)。
從我們自己從小到大的學(xué)習(xí)經(jīng)歷來講,我們學(xué)過典型的語、數(shù)、外,非常多門類的學(xué)科,一個好的教材其實是很難得的,那個時候可能大家趨之若鶩的是名校出的一些非常好的教材,或者課外輔導(dǎo)教材,大家都認(rèn)為這樣的教材有保障,對教育學(xué)生有很好的效果。
其實高質(zhì)量的 AI 數(shù)據(jù)也有一樣的效果,為什么我們說制作一個好的教材、生產(chǎn)一個好的 AI 數(shù)據(jù)很困難呢?給大家看一個例子。
這其實是云測數(shù)據(jù)曾經(jīng)制作過的一些教材或者數(shù)據(jù),里面包括圖像、視頻、文本,在這些大類下面還有紛繁復(fù)雜的需求。
比如用天津話說的英語、用四川話說的法語,這個雖然聽上去很奇葩,但是這個是真實出現(xiàn)過的例子,比如說不同人種的人臉數(shù)據(jù)等,比如說你從大段的文字里面去摘取里面專業(yè)的形容詞、修飾詞。這些 AI 應(yīng)用的落地本身是在各個場景下的,我們?nèi)绻讶斯ぶ悄芸醋魇且粋€學(xué)校里面不同的學(xué)生,他們可能都有不同的性格、脾氣、特長、擅長的領(lǐng)域,這就意味著如果我們想要教好這些學(xué)生,我們的教材必須能夠適應(yīng)各種各樣專長、領(lǐng)域教學(xué)的需求。
這樣的話,老師才能夠更好的因材施教,把這些學(xué)生教得更聰明、更專業(yè),我給大家看一個例子,這張圖其實一目了然,有藍(lán)天、白云、道路,上面也有車道線,中間有一個行人。
要解決這一類的問題其實很簡單,只要在你的教材里能夠覆蓋到這種場景。
對于 AI 來說,多樣化的場景,就像是一個個學(xué)生一樣,它需要我們的這些教材,或者說我們這些數(shù)據(jù),不僅要覆蓋到,而且還要求精度足夠的高。這樣的話我們這些 AI 算法背后的工程師,或者說這些老師,才能夠更好地因材施教,把這些學(xué)生教成各個領(lǐng)域里面出類拔萃的學(xué)生。
我們把這些質(zhì)量高、針對性強(qiáng)的數(shù)據(jù)叫做是好的數(shù)據(jù)。我們怎么區(qū)分一個數(shù)據(jù)的好壞呢?其實在這個行業(yè)里面,我們很容易把它分成三個維度:
第一,效率
第二,安全
第三,精準(zhǔn)度或者說質(zhì)量
我一一給大家解釋一下,我們先聊一聊效率,大家知道人工智能這個行業(yè),其實迭代的速度會非???,剛剛傅盛也提到他們做獵豹移動的機(jī)器人,每一代的機(jī)器人可能都是不一樣的,這么高的迭代速度,其實對于你怎么高效率獲得高質(zhì)量的據(jù)作為教材,提出了非常高的要求,就是效率這個維度。
另外一個維度是安全,大家知道現(xiàn)在公民的隱私越來越受到關(guān)注和保護(hù),我們?nèi)绻娴娜プ鲆粋€好的數(shù)據(jù),作為 AI 算法的教材,一定要注意保護(hù)好公民的隱私,且獲取合法合規(guī)的授權(quán),來保證你拿到的數(shù)據(jù)是沒有問題的。
然后就是質(zhì)量,這個其實是非常顯而易見的,但是我唯一要強(qiáng)調(diào)的一點是說,因為整個 AI 現(xiàn)在落地場景的多元化,所以其實整個行業(yè)對于好教材或者是好數(shù)據(jù)的要求,必須是你能夠在你覆蓋的所場景下質(zhì)量精準(zhǔn)高。
可以說作為人工智能的三要素,如果沒有數(shù)據(jù)或者是沒有好的數(shù)據(jù),人工智能肯定是沒有未來的。今天的大主題其實是下一個十年,我們知道如果想要展望未來,我們先要更好地回顧一下過去,看看我們有什么可以借鑒的地方。
我們跟大家先分享一下,整個數(shù)據(jù)的行業(yè)來龍去脈,其實我們知道整個互聯(lián)網(wǎng)經(jīng)過了幾個浪潮,比如說 PC 互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、智能互聯(lián)網(wǎng)或者說下一代的智能物聯(lián)網(wǎng) IoT、AIoT,我們?nèi)タ醋钤绲臅r候,其實行業(yè)里面通過互聯(lián)網(wǎng)已經(jīng)沉積了很多用戶的數(shù)據(jù),比如說用戶的點擊和瀏覽的數(shù)據(jù)。
這些數(shù)據(jù)能夠干什么呢?其實大家今天已經(jīng)享受到了非常多的應(yīng)用,比如說你在進(jìn)行新聞瀏覽的時候,它的推薦引擎會利用你過往瀏覽行為、點擊行為給你推薦你感興趣的內(nèi)容。
另外就是通用型的數(shù)據(jù)產(chǎn)品,我給大家舉個例子,比如說你可能是一個 APP 的開發(fā)商,或者說做了一個 APP 的公司。然后你沉淀了很多用戶的數(shù)據(jù),比如說你的用戶可能上傳了很多用戶的頭像。
我認(rèn)為,從我們的角度去看這個行業(yè)的話,未來的 10 年定制化的數(shù)據(jù)服務(wù),就是整個人工智能行業(yè)里面最主流的方式。
我們再聊一聊,什么是定制化數(shù)據(jù),或者說定制化數(shù)據(jù)的整個發(fā)展趨勢里面最重要的哪些內(nèi)容,其實我個人認(rèn)為會有五大塊:
第一,設(shè)備的定制化
第二,場景的定制化
第三,樣本的定制化
第四,工作的協(xié)同化
第五,工作的專業(yè)化
隨著技術(shù)和行業(yè)的發(fā)展,慢慢地從單攝像頭的方案過渡到了多攝像頭的方案,隨著行業(yè)的進(jìn)一步發(fā)展,有一些人選擇了多攝像頭純視覺的方案是不能滿足要求的,我們必須引入更多專業(yè)定制的設(shè)備,比如激光雷達(dá)。
我們先不去爭論在自動駕駛行業(yè)里未來到底是純視覺的多攝像頭解決方案,還是攝像頭+激光雷達(dá)的方案,哪一個會成為主流,但是我們?nèi)タ吹脑挘豢此惴涞氐男Ч?,多攝像頭+激光雷達(dá)這種多維數(shù)據(jù)組合,用定制化設(shè)備進(jìn)行多維數(shù)據(jù)組合的算法,精度確實得到了更多提升,這就是我們認(rèn)為越來越多定制化的設(shè)備會出現(xiàn)在數(shù)據(jù)生產(chǎn)過程中的原因。
第二個趨勢,場景定制化。AI 一個很典型的應(yīng)用是安防領(lǐng)域,如果你想要生產(chǎn)非常高質(zhì)量、能夠覆蓋更多場景的數(shù)據(jù)或者教材,最高效率去實現(xiàn)這種場景覆蓋的方法就是搭建一個專業(yè)的場景實驗室,然后你去人為的模擬各種各樣的光線強(qiáng)度、角度,以覆蓋不同的場景,甚至是長尾場景的數(shù)據(jù)需求。
第三個趨勢,樣本的定制化,我們知道今天很多 AI 應(yīng)用都是以人為中心,人其實是一個非常多元化、多樣化的物種,比如我們有黃種人、白人、黑人,比如說我們有各種各樣的方言,像普通話、四川話、廣東話等等,我們還有很多不同年齡段的圈層,比如說年輕人、老年人、兒童。AI 具有普惠性,如果你想要你做的 AI 服務(wù)好這些人群的話,就必須為這些樣本考慮,覆蓋各種各樣的樣本。
第四個趨勢,工作的協(xié)同化,這里面可以給大家分享一些背后的故事,在我們內(nèi)部,整個數(shù)據(jù)制造的生態(tài)大概會有 30 多個環(huán)節(jié),這些環(huán)節(jié)參與的人員、角色是多種多樣的,比如說產(chǎn)品經(jīng)理、采集人員、標(biāo)注人員、審核人員、質(zhì)檢人員,以及提出需求的算法工程師、AI 應(yīng)用的產(chǎn)品經(jīng)理等,如何讓這些人更好地協(xié)作對于整個工作協(xié)同效率的提升提出了很高的要求。
第五個趨勢,行業(yè)背景的專業(yè)化,不知道大家有沒有了解過 X 光片診斷機(jī)器人背后是怎么實現(xiàn)的,如果你要去制作一個能夠訓(xùn)練出一個好的 X 光片診斷機(jī)器人的教材(數(shù)據(jù)),你有可能需要副主任醫(yī)師以上級別的人,才能正確的標(biāo)注 X 光片里面到底是什么疾病,這種專業(yè)的要求發(fā)生在醫(yī)療、教育、法律等非常多的細(xì)分領(lǐng)域上。
一個 AI 應(yīng)用的成功直接關(guān)系到一個企業(yè)的效率、用戶的感受、產(chǎn)品的問題,如果我們說 AI 正在改變這個世界,其實從落地的角度上看,驅(qū)動 AI 改變世界的背后是數(shù)據(jù)正在發(fā)生作用。
TesTIn 云測一直秉持著一個獨立第三方的行業(yè)角色。在移動互聯(lián)網(wǎng)時代我們是云測試的開創(chuàng)者。在人工智能產(chǎn)業(yè)化落地的大趨勢下,我們以人工智能三要素之一的數(shù)據(jù)為抓手,成立 AI 數(shù)據(jù)標(biāo)注品牌-云測數(shù)據(jù)。不到兩年的時間,云測數(shù)據(jù)已經(jīng)發(fā)展成為國內(nèi) TOP 級的數(shù)據(jù)標(biāo)注服務(wù)商?,F(xiàn)在我們在華北、華東、華南有著自建的數(shù)據(jù)場景實驗室和數(shù)據(jù)標(biāo)注基地,目前有著千人規(guī)模的全職標(biāo)注人員團(tuán)隊,來做整個 AI 數(shù)據(jù)的生態(tài)。
除了這些硬件之外,我們也有行業(yè)領(lǐng)先的自研數(shù)據(jù)標(biāo)注系統(tǒng)、數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)審核流程等等,通過專業(yè)的項目經(jīng)理來把控,每一個數(shù)據(jù)生產(chǎn)的過程,以保證整個質(zhì)量是合格的。
除此之外更重要的、也是我們 AI 數(shù)據(jù)服務(wù)的前置底線——數(shù)據(jù)安全。
第一,不濫用數(shù)據(jù),數(shù)據(jù)交付后清毀數(shù)據(jù)不留底,絕不二次使用;
第二,不侵犯隱私,與所有數(shù)據(jù)采集的用戶都簽訂數(shù)據(jù)授權(quán)協(xié)議,確保 AI 企業(yè)用于訓(xùn)練的數(shù)據(jù)合法合規(guī);
第三,建立了相關(guān)的數(shù)據(jù)保障機(jī)制,如從防火墻的設(shè)置、內(nèi)部信息系統(tǒng)的管護(hù)、乃至標(biāo)準(zhǔn)化的流程作業(yè)體系等。
這些都是云測數(shù)據(jù)正在全力在做的事情。
今天有機(jī)會來到極客公園,跟大家一起分享人工智能背后數(shù)據(jù)的生產(chǎn)制造過程,希望給大家分享的內(nèi)容能讓大家意識到除了在 AI 應(yīng)用之外,人工智能的背后還有這么多跟數(shù)據(jù)生產(chǎn)、制造相關(guān)的有意思的事情。
我們把 AI 應(yīng)用看作一個個學(xué)生,那些老師就是他們背后的算法工程師,而云測數(shù)據(jù)做的就是生產(chǎn)好的教材,讓這些老師更好的因材施教,變成更好的 AI 應(yīng)用。
? ? ?