OPPO 在CVPR2022取得佳績：7篇論文入選、8項挑戰(zhàn)賽獲獎

時間：2022-06-23 15:59:22

關(guān)鍵字： OPPO CVPR2022

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]2022年6月23日，深圳——年度計算機視覺頂級會議CVPR（Conference on Computer Vision and Pattern Recognition國際計算機視覺與模式識別會議）在新奧爾良落下帷幕。今年，OPPO有七篇論文成功入選，躋身一流科技廠商之列。同時在廣受關(guān)注的挑戰(zhàn)賽上，OPPO也取得了三項第一、一項第二、四項第三的良好成績。

OPPO共計七篇論文成功收錄CVPR 2022 ，創(chuàng)歷年新高，在多個關(guān)鍵研究領(lǐng)域?qū)崿F(xiàn)創(chuàng)新突破

2022年6月23日，深圳——年度計算機視覺頂級會議CVPR（Conference on Computer Vision and Pattern Recognition國際計算機視覺與模式識別會議）在新奧爾良落下帷幕。今年，OPPO有七篇論文成功入選，躋身一流科技廠商之列。同時在廣受關(guān)注的挑戰(zhàn)賽上，OPPO也取得了三項第一、一項第二、四項第三的良好成績。

隨著深度學(xué)習(xí)逐步成熟化規(guī)?；斯ぶ悄芗夹g(shù)從“感知智能”向“認(rèn)知智能”邁進。AI除了“看到”或“聽到”，開始初步逐步具備像人類一樣的思考能力。多模態(tài)融合、3D視覺智能技術(shù)、自動機器學(xué)習(xí)等正在成為人工智能領(lǐng)域的關(guān)鍵研-究熱點。OPPO在上述領(lǐng)域都均實現(xiàn)論文收錄，在AI關(guān)鍵學(xué)術(shù)領(lǐng)域取得創(chuàng)新突破。

OPPO 智能感知首席科學(xué)家郭彥東表示：“在2012年，為了圖像識別任務(wù)而設(shè)計的深度神經(jīng)網(wǎng)絡(luò)重新給人工智能的研究與應(yīng)用注入了能量。從此，人工智能（AI）技術(shù)迎來了飛速發(fā)展的10年。在OPPO，我們持續(xù)推動人工智能完成像人一樣復(fù)雜的感知與認(rèn)知行為。比如，從無標(biāo)簽的海量數(shù)據(jù)中持續(xù)學(xué)習(xí)并遷移到下游具體任務(wù)，從幾個有限視角中完整的重建3D信息；更高級別的認(rèn)知能力，比如對美的理解與創(chuàng)作；以及具有自主行為能力的“實體AI”(embodied AI)，比如自動駕駛場景中的行為預(yù)測等。很高興OPPO繼2020年首次亮相后，在短短的3年內(nèi)就實現(xiàn)了7篇主會論文入選的好成績。未來，我們希望繼續(xù)向更基礎(chǔ)、更前沿的AI領(lǐng)域探索，推動AI的商用落地，讓創(chuàng)新科技更好地服務(wù)于人。”

7篇論文獲得收錄，OPPO正在助力AI認(rèn)知水平升級

本次CVPR2022上，OPPO共有7篇CVPR入選論文，涵蓋多模態(tài)信息交互、三維人體重建、個性化圖像美學(xué)評價、知識蒸餾等多個研究領(lǐng)域。

不同模態(tài)數(shù)據(jù)的特性各不相同，像文字、語言這樣的信息概括性極強，而圖像往往包含大量細(xì)節(jié)。在多模態(tài)數(shù)據(jù)下，能夠在模態(tài)間建立起有效交互對于AI來說是一件十分有挑戰(zhàn)性的事情。OPPO研究人員基于CLIP模型提出了全新CRIS框架，使得AI能夠更加細(xì)粒度地理解圖像與文本兩種模態(tài)的數(shù)據(jù)。即使輸入包含多重信息的文本描述，該框架也能夠準(zhǔn)確聚焦到對應(yīng)的圖像區(qū)域，顯示出強大的細(xì)粒度跨模態(tài)匹配能力。

當(dāng)前，人類的智能和人工智能最重要的區(qū)別之一在于對于多模態(tài)信息的識別和理解。對于人類來說，我們往往可以同時理解文字和圖像，并將其有效關(guān)聯(lián)。但AI更多停留在識別階段，很難將不同模態(tài)的信息精準(zhǔn)對應(yīng)。本次OPPO提出的創(chuàng)新方法可以幫助人工智能在多模態(tài)理解上更進一步。未來，隨著相關(guān)技術(shù)的不斷發(fā)展，人工智能可以真的可以像科幻小說中描述的那樣，通過語言、聽覺、視覺等多重信息去認(rèn)知真實世界，真正地成為人們最好的“幫手”。

同樣，在近期熱門的三維人體重建領(lǐng)域，OPPO研究院通過改進NeRF創(chuàng)新的動態(tài)角色建模方法，在業(yè)界首次實現(xiàn)了自動為寬松著裝人體創(chuàng)建數(shù)字分身的工作。該建模方法僅通過分析攝像頭所拍攝的RGB視頻，就可以1:1精準(zhǔn)還原人物動態(tài)細(xì)節(jié)，甚至包括衣服細(xì)小logo或紋理細(xì)節(jié)。衣服的建模還原一直是業(yè)界挑戰(zhàn)較大的領(lǐng)域之一，因為人體姿態(tài)發(fā)生變化的同時衣服物料的形變非常復(fù)雜，從而導(dǎo)致AI難以解算像“裙擺”這樣的部位形變。此舉可有效降低三維人體重建的門檻，為在線虛擬試裝購物、AI健身乃至VR/AR虛擬世界的真正落地提供良好的技術(shù)基礎(chǔ)。

隨著AI圖像識別能力的逐漸成熟，如何讓AI具備圖像審美能力成為新的難題。AI的審美能力往往強關(guān)聯(lián)訓(xùn)練所使用的數(shù)據(jù)和標(biāo)注者的偏好，而人的審美往往是千人千面的，采用基于大數(shù)據(jù)的美學(xué)評價來為不同用戶服務(wù)，這可能會引發(fā)人們對于“審美歧視”的討論，造成不好的用戶體驗。因此，通過更精細(xì)化的數(shù)據(jù)和模型，準(zhǔn)確捕捉不同用戶的審美差異的個性化美學(xué)評價應(yīng)運而生。

對此，OPPO研究院聯(lián)合西安電子科技大學(xué)李雷達(dá)教授，開創(chuàng)性地提出了帶條件的PIAA算法（Conditional Personalized Image Aesthetics Assessment），首次從“用戶主觀偏好與圖像美學(xué)相互作用，如何產(chǎn)生個性化品味”角度出發(fā)對AI模型進行優(yōu)化。該算法可以基于不同用戶畫像信息實現(xiàn)個性化的審美評價，可以為用戶在相冊、相機、互聯(lián)網(wǎng)內(nèi)容推薦等場景中打造個性化體驗，具有廣闊的應(yīng)用前景。

隨該算法一并提出的帶有豐富屬性標(biāo)注的個性化美學(xué)評價數(shù)據(jù)集也已宣布開源，為業(yè)界在個性化美學(xué)評價領(lǐng)域的研究提供了有價值的研究數(shù)據(jù)，目前該數(shù)據(jù)集已收到多家研究機構(gòu)及高校的關(guān)注和問詢。

此外，OPPO提出的多視圖三維語義平面重建技術(shù)能夠準(zhǔn)確解析場景的三維平面結(jié)構(gòu)，并預(yù)測地面、桌面、墻面等平面的語義標(biāo)注，其效果明顯優(yōu)于當(dāng)前主流單視圖重建架構(gòu)。而聯(lián)合清華大學(xué)提出的INS-Conv (INcremental Sparse Convolution)，能達(dá)到更快及更準(zhǔn)確的在線3D點云語義及實例分割推斷，該技術(shù)可以有效降低環(huán)境識別對于終端算力的要求，為全自動駕駛、虛擬現(xiàn)實這樣前沿技術(shù)的落地增加了可能。

斬獲NAS挑戰(zhàn)賽亞軍 OPPO創(chuàng)新模型助力AI“輕量化”

在同期舉辦的挑戰(zhàn)賽中，OPPO也表現(xiàn)出色，在八大賽項中斬獲佳績。包括目前行業(yè)關(guān)注的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索技術(shù)（NAS）賽道、足球行為檢測（SoccerNet Action Spotting）賽道、足球回放定位（SoccerNet Replay Grounding）賽道、時序動作定位（ActivityNet temporal localization）賽道、大尺度視頻目標(biāo)分割挑戰(zhàn)賽（The 4th Large-scale Video Object Segmentation Challenge）、ACDC挑戰(zhàn)賽（the ACDC Challenge 2022 on semantic segmentation in adverse visual conditions）和運動預(yù)測挑戰(zhàn)賽（WAD Argoverse2 Motion Forecasting）。

從手機攝影到無人駕駛，深度學(xué)習(xí)模型走進越來越多行業(yè)。但深度學(xué)習(xí)非常依賴大數(shù)據(jù)和大算力，學(xué)習(xí)成本高，這也給前沿AI技術(shù)的商用落地帶來了挑戰(zhàn)。神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索技術(shù)（NAS）可自動發(fā)掘神經(jīng)網(wǎng)絡(luò)的最優(yōu)架構(gòu)，降低對人工經(jīng)驗和背景知識的依賴，讓AI也可以實現(xiàn)“自主學(xué)習(xí)”。在比賽中，OPPO研究人員通過優(yōu)化訓(xùn)練超網(wǎng)過程中的模型參數(shù)遺忘及不公平的梯度下降問題，針對“繼承”超網(wǎng)參數(shù)的45000個子網(wǎng)絡(luò)，有效地提高了子網(wǎng)絡(luò)在性能及性能排序上的一致性，最終取得了第二名的好成績。

NAS技術(shù)的發(fā)展使得研究人員只需訓(xùn)練一個大的超網(wǎng)絡(luò)，然后通過繼承超網(wǎng)參數(shù)方式低成本構(gòu)建預(yù)測器，實現(xiàn)網(wǎng)絡(luò)架構(gòu)自我學(xué)習(xí)，從而高效地獲得優(yōu)于專家設(shè)計的深度學(xué)習(xí)模型。該技術(shù)可適用于當(dāng)前大部分人工智能算法，可以幫助AI技術(shù)在移動端設(shè)備上的應(yīng)用，讓用戶體驗到AI技術(shù)快速落地帶來的好處。

值得一提的是，繼去年OPPO在足球行為分析（SoccerNet）賽道中取得動作定位（Action Spotting）和回放定位（Replay Grounding）雙項第二名后，今年OPPO再次取得回放定位（Replay Grounding）第一名和動作定位（Action Spotting）賽項第三。

在CVPR 2022上，OPPO還參加了三場高水準(zhǔn)Workshop并發(fā)表演講。其中，在SLAM 研討會上，OPPO研究員鄧凡就如何在智能手機、AR/VR設(shè)備上運行實時vSLAM進行分享和討論。研究員李毅康則在移動人工智能研討會中發(fā)表了演講，提出無監(jiān)督的視頻-文本跨模態(tài)哈希方法——CLIP4Hashing，為移動設(shè)備上的跨模態(tài)搜索提供重要思路。李薇參加AICITY Workshop并提出了基于多視角的動作定位系統(tǒng)，用來識別駕駛員行車時的異常行為。

以創(chuàng)新推動商用，OPPO希望盡早讓人們享受AI帶來的便利

今年是OPPO參加CVPR的第三年，OPPO在收錄論文數(shù)量及挑戰(zhàn)賽成績保持上升的同時，研究領(lǐng)域也從人臉識別等應(yīng)用領(lǐng)域向更基礎(chǔ)的技術(shù)方向轉(zhuǎn)移。

快速突破的成果來源于OPPO在AI領(lǐng)域的不懈投入。自2015年起，OPPO在人工智能領(lǐng)域展開投入，成立相關(guān)研發(fā)團隊，聚焦語言語義、計算機視覺等領(lǐng)域。2020年初，OPPO研究院正式成立智能感知與交互研究院，進一步深化OPPO對人工智能前沿科技的探索。目前，OPPO在AI領(lǐng)域的全球?qū)＠暾埑^2650件，廣泛覆蓋計算機視覺、語音技術(shù)、自然語言處理、機器學(xué)習(xí)等領(lǐng)域。

在“微笑前行”品牌使命的指引下，OPPO也在和業(yè)界伙伴一道，不斷推動人工智能（AI）技術(shù)從實驗室真正走向生活。2021年12月，OPPO發(fā)布了首款自研影像專用NPU——馬里亞納X，具備強大算力、能效比和計算速度，能夠讓AI算法的運行速度達(dá)到空前水平，為用戶解決手機長期難以解決的夜景視頻畫質(zhì)問題。此外，基于強大的底層AI能力，OPPO也發(fā)布了包括CybeReal全時空間計算AR應(yīng)用、OPPO Air Glass、Omoji等創(chuàng)新產(chǎn)品及功能，希望盡早創(chuàng)造更真實的數(shù)字新世界，為用戶帶來現(xiàn)實物理世界與虛擬數(shù)字世界的融合體驗。