人工智能的發(fā)展離不開數(shù)據(jù)的支撐 更離不開AI數(shù)據(jù)做“燃料”
上個世紀(jì)五十年代,麥卡錫當(dāng)時為達特茅斯會議命名了一個在那時看起來別出心裁的名字:人工智能夏季研討會(Summer Research Project on Artificial Intelligence),由此“人工智能(ArtificialIntelligence)”這個概念開始走向世界。
歷經(jīng)了半個多世紀(jì)的AI一直都不溫不火,但近幾年AI突然爆發(fā),在人工智能大量邊緣設(shè)備落地的同時,將其推上一個更為興盛的階段:圍棋人工智能程序AlphaGo橫掃棋壇,傳統(tǒng)與文化相結(jié)合獨具一格的“AI茶館”,甚至還有騰訊去年在“AI+醫(yī)療”領(lǐng)域打造的“救命AI”——騰訊AI醫(yī)療產(chǎn)品的聚合。
AI迅速爆發(fā)的背后究竟靠的是什么?現(xiàn)下眾多巨頭企業(yè)、初創(chuàng)公司等紛紛入局人工智能領(lǐng)域,都在嘗試尋找全新突破口。業(yè)內(nèi)曾流傳著這樣一句話:得“數(shù)據(jù)”者,得“人工智能”,而能將“人工智能”玩的轉(zhuǎn)的,便能稱的上是撬動世界第四次工業(yè)革命的先鋒了。
偏偏是“數(shù)據(jù)”扼住了AI命運的咽喉?
從發(fā)展意義來看,人工智能(AI)在不斷的進步,并且隨著這種進步勢必會改變一大批產(chǎn)業(yè)的形態(tài)。此外,從另一方面看,人工智能技術(shù)的背后有三大支柱:算法、算力和數(shù)據(jù),這三者相輔相成、相互制約,但其中數(shù)據(jù)是核心要義,只要有了大量優(yōu)質(zhì)精準(zhǔn)的數(shù)據(jù),再加上算法實現(xiàn)高效的機器運算、算力的推動,AI才能越走越遠(yuǎn)。
“沒有好的數(shù)據(jù),人工智能將沒有未來”已經(jīng)成為業(yè)界共識。
值得一提的是,這里有兩個重要的點需要區(qū)分:一個是數(shù)據(jù),另一個是好的數(shù)據(jù):“高質(zhì)、精準(zhǔn)、安全”。
云測數(shù)據(jù)賈宇航表示:“首先數(shù)據(jù)是人工智能底層邏輯中不可或缺的支撐要素,因為人工智能的本質(zhì)就像人類要不斷的通過訓(xùn)練來獲取技能一樣,AI的根基就是訓(xùn)練,需要經(jīng)過大量數(shù)據(jù)進行訓(xùn)練,神經(jīng)網(wǎng)絡(luò)才能總結(jié)出規(guī)律,進而熟能生巧的應(yīng)用到新樣本上”。
也就是說,數(shù)據(jù)是最基本的燃料,沒有燃料,AI這艘火箭是不可能直沖云霄,而商業(yè)落地更是遙不可及的夢。從自動駕駛到AI聊天、服務(wù)機器人,從人臉識別到各類AI邊緣落地化產(chǎn)品,數(shù)據(jù)是真正的“幕后英雄”,無“數(shù)據(jù)”不“AI”。
其次,要想經(jīng)算法訓(xùn)練后獲得的模型更加智能,僅“數(shù)據(jù)”遠(yuǎn)遠(yuǎn)不夠的,這背后更多的是對數(shù)據(jù)的“高質(zhì)、精準(zhǔn)、安全”的要求。
例如在訓(xùn)練的過程中,高質(zhì)精準(zhǔn)的數(shù)據(jù)扮演著“教科書”級別的重要角色。如果僅需要識別勺子,但在訓(xùn)練數(shù)據(jù)中勺子總和碗、筷子一起出現(xiàn),那么AI系統(tǒng)可能會誤入歧途,進入一種“瞎猜”的狀態(tài)而產(chǎn)生混亂和誤差,結(jié)果很可能會將碗或筷子識別成勺子。所以對于人工智能來說,雖然大量的訓(xùn)練數(shù)據(jù)固然很重要,但更重要的是數(shù)據(jù)的“高質(zhì)精準(zhǔn)”。
再從另一方面看“高質(zhì)精準(zhǔn)的數(shù)據(jù)”對算法模型來講究竟有多重要?
現(xiàn)在人工智能處在產(chǎn)業(yè)落地前夕,可以說AI產(chǎn)品的精準(zhǔn)數(shù)據(jù)訓(xùn)練直接影響落地產(chǎn)品的良品率;舉個不恰當(dāng)?shù)睦?,如果自動駕駛系統(tǒng)的訓(xùn)練數(shù)據(jù)的缺乏或不精準(zhǔn),則很可能在行駛過程中由于未正確識別物體數(shù)據(jù)直接導(dǎo)致人身傷亡,這些后果都是不堪設(shè)想的。
此外,數(shù)據(jù)標(biāo)注的價值不僅體現(xiàn)在物體識別上。當(dāng)下人工智能整個行業(yè)都在往多模態(tài)的方向發(fā)展,比如以智能駕駛為例,基于傳統(tǒng)的車外環(huán)境感知系統(tǒng)一般都采用攝像頭做設(shè)計,以至于存在著測距效果差等缺陷,現(xiàn)在引入激光雷達后,在數(shù)據(jù)的提升上對應(yīng)是既有圖像又有3D點云的三維數(shù)據(jù)的耦合。
隨著人工智能逐漸從學(xué)術(shù)走向產(chǎn)品化、落地化、市場化,企業(yè)對于場景數(shù)據(jù)的要求也越來越多維,所以引入更多維度的數(shù)據(jù)去完善AI產(chǎn)品落地前的模型,也是當(dāng)下行業(yè)發(fā)展的趨勢。
直擊行業(yè)痛點,這樣的“數(shù)據(jù)一把手”才更性感
傳統(tǒng)的數(shù)據(jù)清洗標(biāo)注工作呈現(xiàn)出一種“數(shù)據(jù)粗放型處理”的狀況,從移動互聯(lián)中大量獲取公開、通用的數(shù)據(jù),通過雇傭廉價的勞動力完成數(shù)據(jù)的清晰標(biāo)注工作,“道路、天空、大樹”大致標(biāo)注粗糙勾選后,便全部投入應(yīng)用到神經(jīng)網(wǎng)絡(luò)中。
但隨著人工智能發(fā)展至商業(yè)落地前夕,算法模型對高質(zhì)量、高精度數(shù)據(jù)的需求極速提升,以往的通用數(shù)據(jù)集越來越不能滿足AI企業(yè)的數(shù)據(jù)需要,人工智能落地越來越專注于小場景和專業(yè)領(lǐng)域。人工智能不再是漂浮在“空中的樓閣”,基于AI實際應(yīng)用場景的數(shù)據(jù)服務(wù),已成為人工智能落地的核心地基。
賈宇航表示:“在這個行業(yè)中有一個‘garbage in garbage out’的理論,即如果標(biāo)注完的數(shù)據(jù)精度達不到標(biāo)準(zhǔn),那么訓(xùn)練出來的算法也是不精準(zhǔn)的?!比缃褚晃洞址诺奶幚砟J郊炔荒軡M足逐漸商用的AI企業(yè)的數(shù)據(jù)需求,甚至還將影響技術(shù)本身的發(fā)展。
面對這樣的產(chǎn)業(yè)趨勢,云測數(shù)據(jù)作為行業(yè)的典型代表,直擊行業(yè)痛點:將“精準(zhǔn)高質(zhì)”“獨立安全”作為業(yè)務(wù)發(fā)展的核心,并隨著AI企業(yè)數(shù)據(jù)需求不斷的演進。
有剛性需求便會有實時供給,有痛點問題便就有解決方案。云測數(shù)據(jù)基于其自建的數(shù)據(jù)標(biāo)注基地和場景實驗室,根據(jù)AI企業(yè)數(shù)據(jù)需求,進行特定動作、表情和表情的捕捉,將精準(zhǔn)的數(shù)據(jù)投入到流程化規(guī)范生產(chǎn)的數(shù)據(jù)標(biāo)注環(huán)節(jié)中,最終輸出精準(zhǔn)高質(zhì)的數(shù)據(jù)。解決特定場景化下的數(shù)據(jù)缺失、質(zhì)量良莠不齊、安全性等行業(yè)問題,以幫助AI企業(yè)打造以高精度數(shù)據(jù)為核心的行業(yè)壁壘。
場景實驗室是云測數(shù)據(jù)布局高度定制化、多模態(tài)的AI數(shù)據(jù)服務(wù)的重要組成部分,以AI企業(yè)的具體算法模型的特定需求來定制化搭建采集場景,致力于覆蓋盡可能多的實際場景及邊際場景,從數(shù)據(jù)產(chǎn)生的源頭把控數(shù)據(jù)質(zhì)量。
自建標(biāo)注基地是云測數(shù)據(jù)保證數(shù)據(jù)精準(zhǔn)高質(zhì)的又一強力保證。基地內(nèi)的全職標(biāo)注人員有利于協(xié)同化管理和快速響應(yīng)企業(yè)數(shù)據(jù)需求。同時云測數(shù)據(jù)還基于不同場景對標(biāo)注人員進行領(lǐng)域內(nèi)的細(xì)分,接受固定領(lǐng)域的知識培訓(xùn)。得到高效的行業(yè)知識輸入,在理解企業(yè)客戶的需求上就能做到準(zhǔn)確無誤的輸出。
所以,AI的背后是數(shù)據(jù),行業(yè)的幕后是云測數(shù)據(jù)——這樣的“行業(yè)數(shù)據(jù)一把手”才著實性感。
數(shù)據(jù)安全成核心,行業(yè)規(guī)范亟需建立
目前云測數(shù)據(jù)基于自建的數(shù)據(jù)場景實驗室和數(shù)據(jù)標(biāo)注基地,服務(wù)領(lǐng)域已涉及智能駕駛、智能家居、智慧城市、智慧金融、新零售等領(lǐng)域,實時為領(lǐng)域內(nèi)各個AI企業(yè)提供定制化的數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注服務(wù),全方位支持文本、語音、圖像、視頻等各類型數(shù)據(jù)的處理。
更重要的一條前置底線是,云測數(shù)據(jù)除了提供優(yōu)質(zhì)數(shù)據(jù),更是把數(shù)據(jù)隱私安全做到了極致。從防火墻的設(shè)置、到內(nèi)部信息系統(tǒng)的管護,乃至標(biāo)準(zhǔn)化的流程作業(yè)體系等,將一整套的安全防護和信息保護的機制,應(yīng)用在數(shù)據(jù)標(biāo)注生產(chǎn)的各環(huán)節(jié)。
賈宇航告訴獵云網(wǎng):“對于一個企業(yè)來講,擁有了數(shù)據(jù)便就擁有了核心競爭力,數(shù)據(jù)安全一直都是我們極其重視的一點。首先我們要做到的,是數(shù)據(jù)絕不復(fù)用,第二就是保證數(shù)據(jù)隱私性。與所有數(shù)據(jù)采集的用戶都簽訂數(shù)據(jù)授權(quán)協(xié)議,確保AI企業(yè)用于訓(xùn)練的數(shù)據(jù)合法合規(guī)?!?/p>
TesTIn云測CMO張鵬飛也強調(diào)“從整體看來,AI數(shù)據(jù)行業(yè)關(guān)于安全、隱私等方面并沒有統(tǒng)一的標(biāo)準(zhǔn)和強調(diào)重視。但從我們長遠(yuǎn)角度出發(fā),一直在隱私和安全防護角度下大力氣服務(wù)行業(yè)、樹立數(shù)據(jù)質(zhì)量標(biāo)桿,只有以這種負(fù)責(zé)的態(tài)度來服務(wù)客戶,我們的行業(yè)才能‘良幣驅(qū)除劣幣’,真正讓人工智能成為新一輪技術(shù)革命,改變整個社會和人類進程”。
人工智能的發(fā)展離不開數(shù)據(jù)的支撐,更離不開AI數(shù)據(jù)做“燃料”。如果非要用一句話來定義這個時代的“人工智能”和“數(shù)據(jù)”的關(guān)系,可以說是:數(shù)據(jù)是人工智能的核心要義,而“高質(zhì)精準(zhǔn)、獨立安全”的數(shù)據(jù),則是撬動世界第四次工業(yè)革命(人工智能浪潮)的關(guān)鍵所在。