國家層面來看,2015年至2019年,人工智能行業(yè)政策也在不斷迭代更新。從最初的“智能制造”到“加速AI技術研發(fā)和轉化”再到“深化大數據、人工智能等研發(fā)應用”,標示著國內人工智能正在進入全新的發(fā)展階段,AI應用時代的大幕已然開啟。
未來人工智能勢不可擋是共同認知?;ㄊ届拧凹肌眳s無法支持當前實際應用落地的人工智能企業(yè)將寸步難行也是共識。
人工智能的關鍵要素包括算法、算力、數據。如華為、阿里等都在積極布局智能計算,芯片代表算力,智能框架代表算法,并相繼投入到智慧城市、自動駕駛、新零售等眾多領域。超強算力,高效算法成為巨頭們必備的實力tag,再加上目前人工智能企業(yè)多半還在靠算法盈利,其重要性可想而知。
相比之下,數據作為人工智能的基礎原料,在這個組合里雖然很必要卻低調很多。
海量數據到AI數據的“距離”
人工智能多樣化應用正在帶動數據采集標注產業(yè)的發(fā)展,從前的眾包數據服務模式和通用數據集無法滿足AI企業(yè)的場景化需求,我們需要重新審視從海量數據到我們真正想要的AI數據究竟隔了多遠。
AI企業(yè)追求速度與激情。比如,一般AI產品在發(fā)布前一個月就需要獲取標注好的精準數據進行訓練,數據標注前還需要先完成數據的采集。這對AI數據的質量和時效性要求很高。
舉個栗子,假如你要填湖蓋房子有三種方式。第一種自己召集人馬買裝備找石子,第二種雇多人每天往湖里扔石子,第三種是直接找賣石子的用他家的挖掘機快速填平。
Testin云測CTO陳冠誠對AI數據的描述很形象直觀,AI應用落地本身是基于眾多場景的。如果把AI應用看作一個個學生,他們可能有不同的性格、脾氣、擅長領域,如果老師(算法工程師)想教好這些學生,需要多樣化的優(yōu)質數據“教材”來適應各種專長、領域教學的需求,把他們打造成更好的 AI 應用。
從自動駕駛到聊天機器人再到醫(yī)學診斷和成像,AI應用的成功落地與企業(yè)效率、用戶體驗和產品質量息息相關,其背后能夠起到有效支撐作用的優(yōu)質AI數據才代表了真正的數據價值。隨著人工智能產業(yè)落地的發(fā)展加速,AI應用對優(yōu)質數據的需求越來越強烈。定制化和場景化的優(yōu)質數據正在為人工智能應用落地帶來更多的可能性。
基于場景化應用高效提供優(yōu)質數據,保證數據安全,在我看來,這是TesTIn云測旗下的云測數據作為唯一一家數據標注服務商與第四范式等多家AI企業(yè)同時登上ToB行業(yè)影響力·產品價值榜的原因,這也表明了AI數據的重要性日漸突出。
AI數據服務領域的頭部玩家云測數據通過在華北、華東、華南自建數據場景實驗室和數據標注基地,為智能駕駛、智能家居、智慧城市、智慧金融、新零售等領域提供定制化的數據標注、數據采集服務,支持文本、語音、圖像、視頻等各類型數據的處理。其目前擁有行業(yè)內最大規(guī)模的專業(yè)數據服務全職人員,用來構建整體 AI 數據的生態(tài)。
除了這些硬實力之外,云測數據還有自研數據標注系統(tǒng)、數據采集系統(tǒng),并構建了完善的數據生產流程等,通過專業(yè)的項目經理來把控每一個AI數據的精準,以保證數據質量的先進性。
在數據安全方面,云測數據始終主張:
第一,不濫用數據,數據交付后清毀數據不留底,絕不二次使用;第二,不侵犯隱私,與所有數據采集的用戶都簽訂數據授權協議,確保AI企業(yè)用于訓練的數據合法合規(guī);第三,建立了相關的數據保障機制,如從防火墻的設置、內部信息系統(tǒng)的管護乃至標準化的流程作業(yè)體系等。
現在的人工智能,一定不是我們理想中的樣子,我們想要的是BB-8、賈維斯還有莫斯,然而行業(yè)中我們接觸更多的是引導型機器人、X臉識別、語音助手等等,這是我們與未來的距離。
在這段路程中,會有更多的AI企業(yè)為了提升自身的競爭力,追求最新技術,優(yōu)先創(chuàng)新落地應用,而AI數據服務專業(yè)領域的挑戰(zhàn)也會隨之增多,我們期待云測數據能夠提供出更多的高質量數據教材,推動人工智能應用時代加速到來。