武漢大學高智教授團隊：動態(tài)場景下基于視覺同時定位與地圖構建技術的多層次語義地圖構建方法 | 《電子與信息學報》佳文速遞

時間：2022-09-01 11:13:11

關鍵字：視覺SLAM 動態(tài)場景

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]針對目前視覺SLAM遇到的問題以及現(xiàn)有方法的不足，武漢大學高智教授團隊與中科院空天信息創(chuàng)新研究院合作，提出一種簡便且有效的視覺SLAM系統(tǒng)。本文方法考慮了被迫移動的物體給定位和建圖帶來的影響，在定位精度上遠優(yōu)于目前主流的動態(tài)場景下的視覺SLAM方案，證明在高動態(tài)場景中具有較好的穩(wěn)定性和魯棒性。

編者按

同時定位與地圖構建技術(Simultaneous Localization And Mapping, SLAM)是指在沒有環(huán)境先驗信息的情況下，機器人可以估計自身位置和構建環(huán)境地圖的技術已經成為機器人在未知領域內自主工作的核心技術。

針對目前視覺SLAM遇到的問題以及現(xiàn)有方法的不足，武漢大學高智教授團隊與中科院空天信息創(chuàng)新研究院合作，提出一種簡便且有效的視覺SLAM系統(tǒng)。本文方法考慮了被迫移動的物體給定位和建圖帶來的影響，在定位精度上遠優(yōu)于目前主流的動態(tài)場景下的視覺SLAM方案，證明在高動態(tài)場景中具有較好的穩(wěn)定性和魯棒性。

原論文：動態(tài)場景下基于視覺同時定位與地圖構建技術的多層次語義地圖構建方法 (jeit.ac.cn)

引言

基于視覺的同時定位與地圖構建技術（Simultaneous Localization And Mapping ，SLAM）是無人系統(tǒng)智能感知與探索的核心技術之一，其被廣泛應用于太空探索、災后搜救、地下礦道探索、水下潛航等領域。然而現(xiàn)有大部分SLAM算法難以處理場景中的運動物體，進而導致SLAM方法的性能退化，給高精度位姿估計與地圖構建帶來挑戰(zhàn)。

圖1 動態(tài)場景下基于視覺同時定位與地圖構建技術的多層次語義地圖構建運行演示

視頻演示

動態(tài)場景下視覺SLAM的主要挑戰(zhàn)

目前，傳統(tǒng)視覺SLAM都基于靜態(tài)環(huán)境的假設，這使得視覺SLAM可以利用前端特征點匹配、后端回環(huán)檢測等關鍵技術完成定位與環(huán)境理解。但這一假設限制了視覺SLAM在真實場景中的廣泛應用，因此動態(tài)環(huán)境下可靠運行的視覺SLAM成為目前廣泛關注的一個研究熱點與難點。

從視覺SLAM定義出發(fā)，可以從兩方面理解這一難點。首先動態(tài)目標會影響前后幀之間的匹配，從而大幅度降低視覺SLAM的定位精度，其次動態(tài)目標的出現(xiàn)會影響環(huán)境理解過程中所構造地圖的穩(wěn)定性，如常規(guī)特征地圖、柵格地圖和點云地圖在動態(tài)場景下都無法展現(xiàn)真實的場景信息。

為克服環(huán)境中動態(tài)目標對視覺SLAM的影響，武漢大學高智教授智能無人系統(tǒng)團隊提出了一種基于目標檢測網絡的視覺SLAM系統(tǒng)。

該方法首先利用被迫移動物體與動態(tài)目標間的空間位置關系，并結合光流約束判斷真正的動態(tài)目標，從而剔除動態(tài)特征點，提升定位精度；其次提出一種基于超體素的快速點云分割方案，將基于靜態(tài)區(qū)域構建的地圖進行優(yōu)化。同時，構建的語義地圖可提供更高精度訓練數(shù)據(jù)樣本，又可以進一步提升目標檢測網絡性能。

武漢大學團隊的方法

武漢大學高智教授帶領的智能無人系統(tǒng)團隊研究人員發(fā)現(xiàn)，現(xiàn)實場景中的動態(tài)目標可被分為兩類：

一類為主動的動態(tài)目標，即在目標檢測網絡中可以通過先驗設置的動態(tài)目標；

另一類為被動的動態(tài)目標，即這些目標原本應是靜態(tài)的，但因為一些人為因素而運動，如被拿在手里的書本等，且這些被迫移動的物體都大概率會與動態(tài)目標相鄰。

基于這一觀察，結合目標檢測網絡，高智教授團隊提出一種簡單有效的方法檢測實際移動目標，區(qū)分主動移動目標與被動移動目標。該方法克服了現(xiàn)有結合動態(tài)目標檢測視覺SLAM方法不能區(qū)分虛假移動目標和靜止目標的缺陷。

同時為驗證通過目標檢測網絡判斷出的結果是否可靠，團隊又加入了光流約束模塊，即通過計算符合幾何約束的光流特征點的比例來判斷潛在動態(tài)目標框內的目標是否真的存在運動。這一模塊可以更加有效地針對諸如停在原地的汽車等，這類保持靜止的潛在動態(tài)目標。

在地圖構建方面，團隊采用了循序漸進的方式建立多層次地圖，每個層次的地圖都有不同特點。首先是稠密語義點云地圖，該地圖在攜帶語義信息的同時能夠更加直觀地展現(xiàn)場景內容；

其次是語義分割地圖，團隊提出一種簡便快速的點云分割方法，該方法基于超體素和鄰接圖思想，能夠有效改善語義信息的誤匹配和無法對齊等現(xiàn)象；最后是物體級語義地圖，獨立的三維模型被首次使用來表示每個不同物體類別。

圖2 動態(tài)場景視覺SLAM系統(tǒng)總體框架

實驗結果分析

團隊不僅在公開數(shù)據(jù)集上完成了相關驗證實驗，也通過Intel RealSense D400系列相機在真實室內場景下采集數(shù)據(jù)并進行實時實驗。

◆ 定位精度評估

通過將不同時刻生成的系統(tǒng)位置和姿態(tài)與對應的真實位置和姿態(tài)進行比較，可評估該視覺SLAM系統(tǒng)的定位精度。評價指標選用了被廣泛使用的絕對軌跡誤差ATE和相對誤差RPE，其中絕對軌跡誤差通過對真實值的位置偏移求和來評估軌跡的整體質量，而相對位姿誤差則考慮局部運動誤差，因此可以用來測量漂移。

為了能夠提供更加完善的實驗結果，本文對每個數(shù)據(jù)集進行連續(xù)5次的數(shù)據(jù)采集，記錄每次的均方根誤差，并將這5次的均值作為最終數(shù)據(jù)樣本，數(shù)據(jù)結果如表1所示。實驗結果表明所提方法在高動態(tài)場景下，無論是ATE還是RPE，相比現(xiàn)有方法都有非常明顯的提高。

表?1??絕對軌跡誤差和相對位姿誤差在不同方法下的數(shù)據(jù)對比

◆ 地圖質量評估

所提方法構建的地圖為稠密地圖，因此可通過點云數(shù)量的對比及每個三維點的空間位置的比較來進行較為準確的評價。相較于現(xiàn)有地圖重建方法，所提方法重建的地圖與真實模型的重合度更高。

圖3展示了在TUM的fr3-W-xyz數(shù)據(jù)集上生成多層次地圖的最終結果，可以看出3張地圖都沒有受到數(shù)據(jù)集中大幅度走動的人的影響，并且都攜帶了一致的語義信息，其中綠色代表顯示器，黃色為鍵盤，粉色為鼠標。而生成的地圖3作為物體級語義地圖不僅可以為避障和抓取等高級任務提供有效幫助，還節(jié)省了更多的存儲資源。

圖?3??fr3-W-xyz數(shù)據(jù)集上生成的多層次地圖

總結

武漢大學高智教授智能無人系統(tǒng)團隊針對動態(tài)場景下的不確定性問題，利用動態(tài)場景中目標之間的相互關系，結合目標檢測網絡和光流約束，提出了一套完整的可適用于動態(tài)場景的視覺SLAM方案。該方案不僅能夠提升動態(tài)場景下的定位精度，還利用提出的基于超體素的點云分割方案，完成動態(tài)場景下的多層次語義地圖構建。該視覺SLAM方案可以用于避障、導航等真實應用場景。

團隊介紹

TEAM

武漢大學高智教授智能無人系統(tǒng)團隊

智能系統(tǒng)與視覺實驗室

Intelligent System Vision Laboratory

高智博士現(xiàn)就職于武漢大學遙感信息工程學院，教授、博士生導師，國家海外高層次人才計劃（青年項目）獲得者，湖北省楚天學者特聘教授，湖北省杰青，國家基金委重大項目課題負責人。高智教授長期從事人工智能、計算機視覺與智能無人系統(tǒng)相關的核心問題研究，及其在測繪遙感領域的應用研究。

高智教授曾經在新加坡國立大學工作11年，先后擔任博士后，博士后研究員，研究員及獨立PI等職位。高智教授在科研項目、學術論文、人才培養(yǎng)、學術服務等方面取得優(yōu)異成果。在科研項目方面，作為項目負責人或課題負責人主持了中國、新加坡政府項目10余項及跨國公司合作項目6項。在學術論文方面，發(fā)表學術論文90余篇，其中SCI論文43篇，發(fā)表在IEEE PAMI、IJCV、IEEE TIP、ISPRS JPRS、IEEE TGRS、IEEE ITS、CVPR、ECCV、ICRA、IROS等頂級期刊及會議。在人才培養(yǎng)方面，指導博士后4人、博士生12人、碩士生36人，并指導學生多次在國內外比賽中獲獎。

在學術服務方面，曾擔任2項期刊的編委，3項國際會議的編輯、程序委員會成員和分論壇主席，受邀發(fā)表主題演講10余次。高智教授具有廣泛的科研合作，團隊與香港中文大學、香港科技大學緊密合作，圍繞前沿技術研究、高端人才培養(yǎng)等領域開展高水平、高質量的合作，雙方團隊每周舉行學術討論與會議，建立了穩(wěn)定的人員定期互訪機制。

團隊一直關注惡劣與挑戰(zhàn)場景（如不穩(wěn)定光照、暗光照、弱紋理、惡劣天氣、動態(tài)環(huán)境）下無人系統(tǒng)視覺相關的最前沿研究領域，并圍繞“Vision for Intelligent Systems”和“Intelligent Systems based Vision”兩個重點研究方向開展了深入研究，取得一系列成果。

在Vision for Intelligent Systems方面，團隊在同時定位與地圖構建(Simultaneous Localization And Mapping)、魯棒位姿估計與運動控制、多模態(tài)數(shù)據(jù)融合與處理方面有較多積累，多篇學術論文發(fā)表于機器人、自動化及工業(yè)應用領域的頂刊、頂會，包括IEEE Transactions on Cybernetics、IEEE Transactions on Industrial Electronics、IEEE Transactions on Robotics、IEEE Transactions on Intelligent Transportation Systems、IROS、ICRA等。

圖4 在地下礦道內通過多傳感器融合進行定位與建圖

在Intelligent Systems based Vision方面，團隊在基于人工智能的場景語義分割與理解、影像去霧去雨、小樣本目標檢測、遙感影像智能解譯等領域有較多成果。相關論文發(fā)表于業(yè)內頂刊、頂會，包括IEEE Transactions on Pattern Analysis and Machine Intelligence、IEEE Transactions on Image Processing、International Journal of Computer Vision 、ISPRS Journal of Photogrammetry and Remote Sensing、CVPR、ECCV等。

圖5 惡劣條件下視覺數(shù)據(jù)增強

美編 | 張良良、馬秀強

校對?|?融媒體工作室

審核 |?陳倩

聲明

本文系《電子與信息學報》獨家稿件，內容僅供學習交流，版權屬于原作者。歡迎評論、轉載和分享本公眾號原創(chuàng)內容，轉載請與本號聯(lián)系授權，標注原作者和信息來源《電子與信息學報》。

本號發(fā)布信息旨在傳播交流。如涉及文字、圖片、版權等問題，請在20日內與本號聯(lián)系，我們將第一時間處理。《電子與信息學報》擁有最終解釋權。