數(shù)據(jù)質(zhì)量對(duì)于AI的未來有什么影響
掃描二維碼
隨時(shí)隨地手機(jī)看文章
AI被認(rèn)為是最有可能的新工業(yè)革命引爆點(diǎn),各國(guó)都在此方向積極投入?yún)⑴c競(jìng)爭(zhēng),中國(guó)當(dāng)前的競(jìng)爭(zhēng)位置還很不錯(cuò),當(dāng)在兩強(qiáng)之一。AI發(fā)展需有三個(gè)要件,即算力、算法和數(shù)據(jù),這其中算力屬于基礎(chǔ)設(shè)施能力,算法可算是基于基礎(chǔ)設(shè)施之上運(yùn)作的工作方法,而數(shù)據(jù)則相當(dāng)于用來指導(dǎo)算法運(yùn)作的依據(jù)。從一個(gè)可以完整運(yùn)作的AI應(yīng)用來看,沒有算力則算法和數(shù)據(jù)跑不起來,沒有算法則數(shù)據(jù)沒有執(zhí)行通道,沒有數(shù)據(jù)則算力和算法就成了擺設(shè),而目前人工智能發(fā)展的階段恰逢算力和算法充足,AI數(shù)據(jù)十分缺乏,毫不夸張的說如果沒有高質(zhì)量的數(shù)據(jù),人工智能將沒有未來。
有數(shù)據(jù)人工智能才能跑起來,但數(shù)據(jù)的質(zhì)量高低,對(duì)AI是否好用起到?jīng)Q定性作用。當(dāng)前AI發(fā)展對(duì)于數(shù)據(jù)的需求非常大,但對(duì)于AI來說數(shù)據(jù)量并非等于數(shù)據(jù)質(zhì)量,只有高質(zhì)量的數(shù)據(jù)才能對(duì)算法起到?jīng)Q定性作用,進(jìn)而產(chǎn)生生產(chǎn)力,而質(zhì)量一般的海量數(shù)據(jù)對(duì)AI不但無利反而有害。大數(shù)據(jù)行業(yè)之前有對(duì)大數(shù)據(jù)去噪的作業(yè)流程,而到了AI時(shí)代,隨著AI公司對(duì)高質(zhì)量數(shù)據(jù)的需求不斷加大,數(shù)據(jù)標(biāo)注開始形成一個(gè)行業(yè),在AI發(fā)展中擔(dān)當(dāng)越來越重要的作用。云測(cè)數(shù)據(jù),正是這個(gè)行業(yè)中的頭部企業(yè)。
像百度、阿里巴巴這樣擁有海量數(shù)據(jù)的企業(yè),更需要將數(shù)據(jù)進(jìn)行清洗、標(biāo)注,把海量數(shù)據(jù)加工成有價(jià)值的數(shù)據(jù)。更不用說人工智能產(chǎn)業(yè)落地前夕,AI需要更多還原特定場(chǎng)景的數(shù)據(jù)。這對(duì)于輕資產(chǎn)的AI公司來說用人力去做成本太過高昂,因此AI公司多將此類工作外包。由此而產(chǎn)生了一個(gè)以數(shù)據(jù)標(biāo)注為核心的AI數(shù)據(jù)服務(wù)市場(chǎng)。根據(jù)艾瑞報(bào)告,2018年AI基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)的規(guī)模約為25.86億元,并預(yù)測(cè)到2025年這個(gè)市場(chǎng)的規(guī)模約為113億元。這是個(gè)高速增長(zhǎng)的市場(chǎng),有多家企業(yè)涉足其中,為AI行業(yè)的發(fā)展提供最不可或缺的服務(wù)。
數(shù)據(jù)標(biāo)注行業(yè)從性質(zhì)上看偏勞動(dòng)密集型,因?yàn)橹饕ぷ鬟^程都牽涉到人力。舉一個(gè)例子,谷歌大腦當(dāng)年曾成功從視頻中認(rèn)出了一只貓,為此所付出的算力代價(jià)則是16000臺(tái)電腦學(xué)習(xí)了1000萬張圖片。在當(dāng)前的算力情況沒有突破性進(jìn)展的情況下,這個(gè)案例是無法落地應(yīng)用的,因?yàn)閮H僅認(rèn)出一只貓就要機(jī)器學(xué)習(xí)這么久,要是認(rèn)一間屋子里床上的一只貓呢?從應(yīng)用角度來說算力成本太高,難以推行。將這個(gè)案例投入應(yīng)用的唯一辦法,就是采集和標(biāo)注大量貓圖片訓(xùn)練算法,以提升效率。這只是數(shù)據(jù)標(biāo)注行業(yè)的某個(gè)單一工作場(chǎng)景,還有更多更復(fù)雜的數(shù)據(jù)需求。
當(dāng)一輛自動(dòng)駕駛的車行駛在路上時(shí),有可能遇到的情況有哪些?由于智能駕駛領(lǐng)域的的特殊性,其算法模型要求能處理任何常規(guī)情況和突發(fā)情況,條件是要在數(shù)據(jù)上盡可能對(duì)其加以滿足。前后左右來車,這是最常見的簡(jiǎn)單場(chǎng)景,目前自動(dòng)駕駛發(fā)展的階段可以作相應(yīng)處置以避開,但如果車前方飛來一只鳥,或走來一個(gè)撐雨傘的人,這就屬于非常見的復(fù)雜場(chǎng)景了,任何互聯(lián)網(wǎng)公司也沒有此類數(shù)據(jù),只能靠云測(cè)數(shù)據(jù)等這些數(shù)據(jù)服務(wù)公司進(jìn)行特定場(chǎng)景的數(shù)據(jù)搭建采集。自動(dòng)駕駛的車要保證安全,就需要后臺(tái)的AI數(shù)據(jù)盡可能將任何在公路上可能遇到的情況容納進(jìn)去,有些情況發(fā)生概率接近零,但只要不是零,自動(dòng)駕駛的車的算法模型就需要這些數(shù)據(jù)。一個(gè)例子是,特斯拉曾有輛車在自動(dòng)駕駛狀態(tài)下車毀人亡,原因是自動(dòng)駕駛系統(tǒng)沒有辨別出前方白色車輛和天空的區(qū)別,導(dǎo)致自動(dòng)剎車沒有及時(shí)制動(dòng),一頭沖了過去。
隨著AI應(yīng)用落地越來越廣,相應(yīng)的高質(zhì)、精準(zhǔn)、安全數(shù)據(jù)的需求量也在直線上升。創(chuàng)建于2011年的Testin云測(cè)從應(yīng)用測(cè)試業(yè)務(wù)出發(fā),在服務(wù)了超過一百萬家企業(yè)之后,經(jīng)過行業(yè)前瞻判斷,抓住機(jī)會(huì)順應(yīng)市場(chǎng)趨勢(shì)進(jìn)入了AI數(shù)據(jù)服務(wù)領(lǐng)域,成立數(shù)據(jù)標(biāo)注業(yè)務(wù)品牌云測(cè)數(shù)據(jù)。通過自建數(shù)據(jù)場(chǎng)景實(shí)驗(yàn)室和數(shù)據(jù)標(biāo)注基地,為智能駕駛、智能家居、智慧城市、智慧金融、零售等領(lǐng)域提供定制化的數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注服務(wù),全方位支持文本、語音、圖像、視頻等各類型數(shù)據(jù)的處理。在很短的時(shí)間內(nèi),云測(cè)數(shù)據(jù)已成為國(guó)內(nèi)AI數(shù)據(jù)標(biāo)注服務(wù)市場(chǎng)的第一名,目前市場(chǎng)上主要的AI企業(yè)均是其客戶。
云測(cè)數(shù)據(jù)可以說是隨著一個(gè)應(yīng)用人工智能市場(chǎng)的成長(zhǎng)而崛起的,其目前的市場(chǎng)地位除了順應(yīng)趨勢(shì)站上風(fēng)口之外,還有長(zhǎng)期耕耘To B市場(chǎng)的流程化管理和人員協(xié)作經(jīng)驗(yàn)的繼承,而云測(cè)數(shù)據(jù)在開拓新業(yè)務(wù)時(shí)有章有法,是一個(gè)更為重要的原因。一個(gè)新生市場(chǎng)在初期時(shí)往往是野蠻生長(zhǎng)期,監(jiān)管缺失,市場(chǎng)認(rèn)識(shí)不足,都會(huì)導(dǎo)致這個(gè)市場(chǎng)內(nèi)亂象橫生。企業(yè)為了盡可能拿到市場(chǎng)紅利,往往會(huì)只盯住增長(zhǎng)而放任其他方面不管,甚至采用一些非常規(guī)手段來保證盡快增長(zhǎng),但云測(cè)數(shù)據(jù)在AI數(shù)據(jù)標(biāo)注服務(wù)這一行的征戰(zhàn),顯然沒有走這條看似常規(guī)的路。
需求定制是云測(cè)數(shù)據(jù)商業(yè)模式的核心,無論是數(shù)據(jù)標(biāo)注還是數(shù)據(jù)采集,云測(cè)數(shù)據(jù)都發(fā)展出一套科學(xué)的生產(chǎn)與管理流程。云測(cè)數(shù)據(jù)在華東、華南、華北等地自建的數(shù)據(jù)交付中心和數(shù)據(jù)采集基地,在提升了數(shù)據(jù)生產(chǎn)作業(yè)流程環(huán)境、保證數(shù)據(jù)交付效率的同時(shí),對(duì)于數(shù)據(jù)的最終質(zhì)量保證有著很大的提升作用。如果為了節(jié)省成本可以采用小作坊式的數(shù)據(jù)標(biāo)注作業(yè)場(chǎng)所,生產(chǎn)環(huán)境惡劣,員工素質(zhì)不高,雖然可以省點(diǎn)錢,卻終究無法提供最好的服務(wù)。云測(cè)數(shù)據(jù)是將AI數(shù)據(jù)服務(wù)當(dāng)成一個(gè)長(zhǎng)遠(yuǎn)的事業(yè)來做的,而非用來賺快錢,這個(gè)主導(dǎo)思想自然會(huì)對(duì)最終結(jié)果產(chǎn)生正面影響。
其實(shí)云測(cè)數(shù)據(jù)更為吸引客戶的,是在數(shù)據(jù)安全方面所下的功夫。行業(yè)發(fā)展初期很少有公司會(huì)重視這件事,但云測(cè)數(shù)據(jù)卻對(duì)其高度重視。云測(cè)數(shù)據(jù)在場(chǎng)景數(shù)據(jù)采集之前都會(huì)與被采用戶簽署數(shù)據(jù)授權(quán)協(xié)議,確保AI企業(yè)用于訓(xùn)練的數(shù)據(jù)合法合規(guī);在作業(yè)流程中采用數(shù)據(jù)隔離機(jī)制,所有的數(shù)據(jù)都是被封閉在標(biāo)注平臺(tái)中的,員工可以在平臺(tái)之上作業(yè)但卻無法真正接觸到這些數(shù)據(jù),以保證數(shù)據(jù)的安全性;還有一點(diǎn)是不濫用數(shù)據(jù),數(shù)據(jù)交付后清毀數(shù)據(jù)不留底,絕不二次使用;從安全防范到作業(yè)流程,再到數(shù)據(jù)審核與質(zhì)量保障,每個(gè)環(huán)節(jié)云測(cè)數(shù)據(jù)都建立起了一套完善的機(jī)制與管理規(guī)定,用制度來守護(hù)數(shù)據(jù)的安全性和隱私性。
TesTIn云測(cè)CMO張鵬飛也強(qiáng)調(diào)“從整體看來,AI數(shù)據(jù)行業(yè)關(guān)于安全、隱私等方面并沒有統(tǒng)一的標(biāo)準(zhǔn)和強(qiáng)調(diào)重視。但我們從長(zhǎng)遠(yuǎn)角度出發(fā),一直在隱私和安全防護(hù)角度下大力氣服務(wù)行業(yè)、樹立數(shù)據(jù)質(zhì)量標(biāo)桿,只有以這種負(fù)責(zé)的態(tài)度來服務(wù)客戶,我們的行業(yè)才能‘良幣驅(qū)除劣幣’,真正讓人工智能成為新一輪技術(shù)革命,改變整個(gè)社會(huì)和人類進(jìn)程”。
事實(shí)上,這些看似繁瑣的安全和質(zhì)量機(jī)制,恰恰是客戶所看重的,即便客戶需求中也許不會(huì)展示那么詳細(xì),但云測(cè)數(shù)據(jù)通過科學(xué)流程主動(dòng)將客戶顧慮排除,客戶的內(nèi)心一定是認(rèn)可的。因?yàn)檎l也不愿意自己重要的數(shù)據(jù)被泄露外傳,也不想自己的數(shù)據(jù)經(jīng)過一番加工之后質(zhì)量達(dá)不到要求。人工智能公司與AI數(shù)據(jù)服務(wù)公司之間,最重要的是建立一種信任關(guān)系,其他的事情自可迎刃而解。云測(cè)數(shù)據(jù)在這個(gè)行業(yè)內(nèi)有章有法的運(yùn)營(yíng)行為,是其能夠獲得成功的關(guān)鍵。這給整個(gè)行業(yè)做出了正面示范,也引領(lǐng)了行業(yè)的健康發(fā)展態(tài)勢(shì)。
全機(jī)器化、全智能化的時(shí)代還遠(yuǎn)遠(yuǎn)沒有到來,在通往這個(gè)目標(biāo)的過程中,相應(yīng)的人力消耗與線下活動(dòng)是必需的,因此云測(cè)數(shù)據(jù)具備充足的發(fā)展空間和機(jī)會(huì)。AI數(shù)據(jù)服務(wù)看上去所做的事情足夠基礎(chǔ),但這些工作卻是AI行業(yè)發(fā)展不可缺少的。如果說數(shù)據(jù)是驅(qū)動(dòng)AI運(yùn)行的能源,那么數(shù)據(jù)標(biāo)注就是提供石油的那個(gè)角色。如果說數(shù)據(jù)是驅(qū)動(dòng)AI運(yùn)行的血液,那么數(shù)據(jù)標(biāo)注就是造血干細(xì)胞,其作用與功能的重要性是怎么描述也不為過的。而云測(cè)數(shù)據(jù)正是這個(gè)新生行業(yè)的執(zhí)牛耳者,將隨著AI行業(yè)的發(fā)展而不斷成長(zhǎng)。