OPPO 在CVPR2022取得佳績:7篇論文入選、8項挑戰(zhàn)賽獲獎
OPPO共計七篇論文成功收錄CVPR 2022 ,創(chuàng)歷年新高,在多個關(guān)鍵研究領(lǐng)域?qū)崿F(xiàn)創(chuàng)新突破
2022年6月23日,深圳——年度計算機視覺頂級會議CVPR(Conference on Computer Vision and Pattern Recognition國際計算機視覺與模式識別會議)在新奧爾良落下帷幕。今年,OPPO有七篇論文成功入選,躋身一流科技廠商之列。同時在廣受關(guān)注的挑戰(zhàn)賽上,OPPO也取得了三項第一、一項第二、四項第三的良好成績。
隨著深度學(xué)習(xí)逐步成熟化規(guī)?;斯ぶ悄芗夹g(shù)從“感知智能”向“認(rèn)知智能”邁進。AI除了“看到”或“聽到”,開始初步逐步具備像人類一樣的思考能力。多模態(tài)融合、3D視覺智能技術(shù)、自動機器學(xué)習(xí)等正在成為人工智能領(lǐng)域的關(guān)鍵研-究熱點。OPPO在上述領(lǐng)域都均實現(xiàn)論文收錄,在AI關(guān)鍵學(xué)術(shù)領(lǐng)域取得創(chuàng)新突破。
OPPO 智能感知首席科學(xué)家郭彥東表示:“在2012年,為了圖像識別任務(wù)而設(shè)計的深度神經(jīng)網(wǎng)絡(luò)重新給人工智能的研究與應(yīng)用注入了能量。從此,人工智能(AI)技術(shù)迎來了飛速發(fā)展的10年。在OPPO,我們持續(xù)推動人工智能完成像人一樣復(fù)雜的感知與認(rèn)知行為。比如,從無標(biāo)簽的海量數(shù)據(jù)中持續(xù)學(xué)習(xí)并遷移到下游具體任務(wù),從幾個有限視角中完整的重建3D信息;更高級別的認(rèn)知能力,比如對美的理解與創(chuàng)作;以及具有自主行為能力的“實體AI”(embodied AI),比如自動駕駛場景中的行為預(yù)測等。很高興OPPO繼2020年首次亮相后,在短短的3年內(nèi)就實現(xiàn)了7篇主會論文入選的好成績。未來,我們希望繼續(xù)向更基礎(chǔ)、更前沿的AI領(lǐng)域探索,推動AI的商用落地,讓創(chuàng)新科技更好地服務(wù)于人。”
7篇論文獲得收錄,OPPO正在助力AI認(rèn)知水平升級
本次CVPR2022上,OPPO共有7篇CVPR入選論文,涵蓋多模態(tài)信息交互、三維人體重建、個性化圖像美學(xué)評價、知識蒸餾等多個研究領(lǐng)域。
不同模態(tài)數(shù)據(jù)的特性各不相同,像文字、語言這樣的信息概括性極強,而圖像往往包含大量細(xì)節(jié)。在多模態(tài)數(shù)據(jù)下,能夠在模態(tài)間建立起有效交互對于AI來說是一件十分有挑戰(zhàn)性的事情。OPPO研究人員基于CLIP模型提出了全新CRIS框架,使得AI能夠更加細(xì)粒度地理解圖像與文本兩種模態(tài)的數(shù)據(jù)。即使輸入包含多重信息的文本描述,該框架也能夠準(zhǔn)確聚焦到對應(yīng)的圖像區(qū)域,顯示出強大的細(xì)粒度跨模態(tài)匹配能力。
當(dāng)前,人類的智能和人工智能最重要的區(qū)別之一在于對于多模態(tài)信息的識別和理解。對于人類來說,我們往往可以同時理解文字和圖像,并將其有效關(guān)聯(lián)。但AI更多停留在識別階段,很難將不同模態(tài)的信息精準(zhǔn)對應(yīng)。本次OPPO提出的創(chuàng)新方法可以幫助人工智能在多模態(tài)理解上更進一步。未來,隨著相關(guān)技術(shù)的不斷發(fā)展,人工智能可以真的可以像科幻小說中描述的那樣,通過語言、聽覺、視覺等多重信息去認(rèn)知真實世界,真正地成為人們最好的“幫手”。
同樣,在近期熱門的三維人體重建領(lǐng)域,OPPO研究院通過改進NeRF創(chuàng)新的動態(tài)角色建模方法,在業(yè)界首次實現(xiàn)了自動為寬松著裝人體創(chuàng)建數(shù)字分身的工作。該建模方法僅通過分析攝像頭所拍攝的RGB視頻,就可以1:1精準(zhǔn)還原人物動態(tài)細(xì)節(jié),甚至包括衣服細(xì)小logo或紋理細(xì)節(jié)。衣服的建模還原一直是業(yè)界挑戰(zhàn)較大的領(lǐng)域之一,因為人體姿態(tài)發(fā)生變化的同時衣服物料的形變非常復(fù)雜,從而導(dǎo)致AI難以解算像“裙擺”這樣的部位形變。此舉可有效降低三維人體重建的門檻,為在線虛擬試裝購物、AI健身乃至VR/AR虛擬世界的真正落地提供良好的技術(shù)基礎(chǔ)。
隨著AI圖像識別能力的逐漸成熟,如何讓AI具備圖像審美能力成為新的難題。AI的審美能力往往強關(guān)聯(lián)訓(xùn)練所使用的數(shù)據(jù)和標(biāo)注者的偏好,而人的審美往往是千人千面的,采用基于大數(shù)據(jù)的美學(xué)評價來為不同用戶服務(wù),這可能會引發(fā)人們對于“審美歧視”的討論,造成不好的用戶體驗。因此,通過更精細(xì)化的數(shù)據(jù)和模型,準(zhǔn)確捕捉不同用戶的審美差異的個性化美學(xué)評價應(yīng)運而生。
對此,OPPO研究院聯(lián)合西安電子科技大學(xué)李雷達(dá)教授,開創(chuàng)性地提出了帶條件的PIAA算法(Conditional Personalized Image Aesthetics Assessment),首次從“用戶主觀偏好與圖像美學(xué)相互作用,如何產(chǎn)生個性化品味”角度出發(fā)對AI模型進行優(yōu)化。該算法可以基于不同用戶畫像信息實現(xiàn)個性化的審美評價,可以為用戶在相冊、相機、互聯(lián)網(wǎng)內(nèi)容推薦等場景中打造個性化體驗,具有廣闊的應(yīng)用前景。
隨該算法一并提出的帶有豐富屬性標(biāo)注的個性化美學(xué)評價數(shù)據(jù)集也已宣布開源,為業(yè)界在個性化美學(xué)評價領(lǐng)域的研究提供了有價值的研究數(shù)據(jù),目前該數(shù)據(jù)集已收到多家研究機構(gòu)及高校的關(guān)注和問詢。
此外,OPPO提出的多視圖三維語義平面重建技術(shù)能夠準(zhǔn)確解析場景的三維平面結(jié)構(gòu),并預(yù)測地面、桌面、墻面等平面的語義標(biāo)注,其效果明顯優(yōu)于當(dāng)前主流單視圖重建架構(gòu)。而聯(lián)合清華大學(xué)提出的INS-Conv (INcremental Sparse Convolution),能達(dá)到更快及更準(zhǔn)確的在線3D點云語義及實例分割推斷,該技術(shù)可以有效降低環(huán)境識別對于終端算力的要求,為全自動駕駛、虛擬現(xiàn)實這樣前沿技術(shù)的落地增加了可能。
斬獲NAS挑戰(zhàn)賽亞軍 OPPO創(chuàng)新模型助力AI“輕量化”
在同期舉辦的挑戰(zhàn)賽中,OPPO也表現(xiàn)出色,在八大賽項中斬獲佳績。包括目前行業(yè)關(guān)注的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索技術(shù)(NAS)賽道、足球行為檢測(SoccerNet Action Spotting)賽道、足球回放定位(SoccerNet Replay Grounding)賽道、時序動作定位(ActivityNet temporal localization)賽道、大尺度視頻目標(biāo)分割挑戰(zhàn)賽(The 4th Large-scale Video Object Segmentation Challenge)、ACDC挑戰(zhàn)賽(the ACDC Challenge 2022 on semantic segmentation in adverse visual conditions)和運動預(yù)測挑戰(zhàn)賽(WAD Argoverse2 Motion Forecasting)。
從手機攝影到無人駕駛,深度學(xué)習(xí)模型走進越來越多行業(yè)。但深度學(xué)習(xí)非常依賴大數(shù)據(jù)和大算力,學(xué)習(xí)成本高,這也給前沿AI技術(shù)的商用落地帶來了挑戰(zhàn)。神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索技術(shù)(NAS)可自動發(fā)掘神經(jīng)網(wǎng)絡(luò)的最優(yōu)架構(gòu),降低對人工經(jīng)驗和背景知識的依賴,讓AI也可以實現(xiàn)“自主學(xué)習(xí)”。在比賽中,OPPO研究人員通過優(yōu)化訓(xùn)練超網(wǎng)過程中的模型參數(shù)遺忘及不公平的梯度下降問題,針對“繼承”超網(wǎng)參數(shù)的45000個子網(wǎng)絡(luò),有效地提高了子網(wǎng)絡(luò)在性能及性能排序上的一致性,最終取得了第二名的好成績。
NAS技術(shù)的發(fā)展使得研究人員只需訓(xùn)練一個大的超網(wǎng)絡(luò),然后通過繼承超網(wǎng)參數(shù)方式低成本構(gòu)建預(yù)測器,實現(xiàn)網(wǎng)絡(luò)架構(gòu)自我學(xué)習(xí),從而高效地獲得優(yōu)于專家設(shè)計的深度學(xué)習(xí)模型。該技術(shù)可適用于當(dāng)前大部分人工智能算法,可以幫助AI技術(shù)在移動端設(shè)備上的應(yīng)用,讓用戶體驗到AI技術(shù)快速落地帶來的好處。
值得一提的是,繼去年OPPO在足球行為分析(SoccerNet)賽道中取得動作定位(Action Spotting)和回放定位(Replay Grounding)雙項第二名后,今年OPPO再次取得回放定位(Replay Grounding)第一名和動作定位(Action Spotting)賽項第三。
在CVPR 2022上,OPPO還參加了三場高水準(zhǔn)Workshop并發(fā)表演講。其中,在SLAM 研討會上,OPPO研究員鄧凡就如何在智能手機、AR/VR設(shè)備上運行實時vSLAM進行分享和討論。研究員李毅康則在移動人工智能研討會中發(fā)表了演講,提出無監(jiān)督的視頻-文本跨模態(tài)哈希方法——CLIP4Hashing,為移動設(shè)備上的跨模態(tài)搜索提供重要思路。李薇參加AICITY Workshop并提出了基于多視角的動作定位系統(tǒng),用來識別駕駛員行車時的異常行為。
以創(chuàng)新推動商用,OPPO希望盡早讓人們享受AI帶來的便利
今年是OPPO參加CVPR的第三年,OPPO在收錄論文數(shù)量及挑戰(zhàn)賽成績保持上升的同時,研究領(lǐng)域也從人臉識別等應(yīng)用領(lǐng)域向更基礎(chǔ)的技術(shù)方向轉(zhuǎn)移。
快速突破的成果來源于OPPO在AI領(lǐng)域的不懈投入。自2015年起,OPPO在人工智能領(lǐng)域展開投入,成立相關(guān)研發(fā)團隊,聚焦語言語義、計算機視覺等領(lǐng)域。2020年初,OPPO研究院正式成立智能感知與交互研究院,進一步深化OPPO對人工智能前沿科技的探索。目前,OPPO在AI領(lǐng)域的全球?qū)@暾埑^2650件,廣泛覆蓋計算機視覺、語音技術(shù)、自然語言處理、機器學(xué)習(xí)等領(lǐng)域。
在“微笑前行”品牌使命的指引下,OPPO也在和業(yè)界伙伴一道,不斷推動人工智能(AI)技術(shù)從實驗室真正走向生活。2021年12月,OPPO發(fā)布了首款自研影像專用NPU——馬里亞納X,具備強大算力、能效比和計算速度,能夠讓AI算法的運行速度達(dá)到空前水平,為用戶解決手機長期難以解決的夜景視頻畫質(zhì)問題。此外,基于強大的底層AI能力,OPPO也發(fā)布了包括CybeReal全時空間計算AR應(yīng)用、OPPO Air Glass、Omoji等創(chuàng)新產(chǎn)品及功能,希望盡早創(chuàng)造更真實的數(shù)字新世界,為用戶帶來現(xiàn)實物理世界與虛擬數(shù)字世界的融合體驗。