三方面詳解如何為機器人構建起一個“三維世界”
從本科到研究生階段,再到2014年出來創(chuàng)業(yè)以后,這前后大概5年的時間里,我始終聚焦在視覺領域的學習。所以能夠比較清晰地看到,在這幾年時間里,以視覺為核心的,包括人臉識別、物體識別、空間定位、導航避障等在內的感知層算法正在隨著底層人工智能的基礎型算法架構(比如我們現(xiàn)在熟知的機器學習、深度學習,以及最近很火的增強學習)和硬件傳感器的發(fā)展產生著日新月異的變化。
在實驗室的時候,我的主要研究方向是為特種機器,包括微小型的無人機、功能性的機器人構建一套以視覺感知為主的機器人視覺系統(tǒng),而在2011年后發(fā)展起來的這一波感知層算法的進步與傳感器硬件上面的推陳出新恰恰為這樣的研究提供了有利的支持,以至于到今天推動了整個資本市場上對于人工智能項目的大熱與追捧。
下面,我將從機器人視覺系統(tǒng)、視覺技術原理和未來發(fā)展趨勢三個方面,為大家講述我們是如何為機器人構建起一個“三維世界”的。
機器人視覺系統(tǒng)發(fā)展與三維視覺的興起我們知道“機器人”這一名詞是1920年一位捷克作家在一本科幻劇中提出的,到了1950年前后,另一位美國作家阿西莫夫才系統(tǒng)性的提出了“機器人學”這一概念,并給出了著名的機器人三定律。在那之后,從1970年,隨著計算機的興起,現(xiàn)代控制技術、傳感器技術的發(fā)展,機器人開始了真正的產品化的進程。也正是從那個時候開始,搭載一顆基于CCD芯片攝像頭的機器人,可以為人們提供某一時刻的光學影像信息記錄,而這也形成了最早期的機器人視覺系統(tǒng)。值得一提的是,1969年美國的阿波羅登月飛船上搭載的正是基于CCD感光芯片的照相機,為機器人視覺系統(tǒng)的硬件架構提供了系統(tǒng)性的參照。由于具備一定的簡單的記憶存儲能力,那個時候的機器人可以進行簡單的重復作業(yè),但是對周圍環(huán)境沒有任何感知與反饋控制能力,我們稱當時的機器人為第一代機器人。
時間推進到80年代,視覺傳感器、力觸覺傳感器、接近傳感器和計算機在這一時期進入到了快速發(fā)展期,特別是摩爾定律的發(fā)現(xiàn)代表著信息技術的發(fā)展速度在這一時期確確實實到了頂峰。這一時期的機器人已經具備了一定的感知能力,能夠獲取作業(yè)環(huán)境與作業(yè)對象的部分信息,并進行一定的實時處理,引導機器人進行作業(yè)。比如下圖我們看到的當時美國斯坦福研究所開發(fā)實現(xiàn)的Shakey移動機器人,擁有電子攝像頭、測距儀等感知設備,建立了一套底層到頂層的分層控制機制和當時最先進的視覺系統(tǒng),用來幫助機器人在非結構化的環(huán)境中進行獨立的推理、運動規(guī)劃與實時控制。這是當時人工智能技術應用于移動機器人最為成熟的成果之一,Shakey的誕生自此也揭開了智能移動機器人研究的大幕。
自此以后,世界各國都開始投入到了對移動機器人的研究上,而在這之中,視覺系統(tǒng)更是被公認為是機器人走向智能的核心入口。因為在研究的推進中,人們需要機器人對環(huán)境擁有更完善的感知能力、邏輯思維能力、判斷決策能力,甚至是根據(jù)作業(yè)要求與環(huán)境信息進行自主的工作。比如美國DARPA在90年代研究的ALV自主車可以選擇路標識別實現(xiàn)導航,達到10km/h的移動虛度,還采用了立體視覺、衛(wèi)星導航等當時的先進技術。2004年NASA研制的火星探測器機遇號與勇氣號成功在火星表面登陸,搭載當時最為先進的圖像采集與立體視覺技術,幫助探測器在復雜的星球表面完成各項未知任務。而也正是在這樣一個時期,三維視覺系統(tǒng)在移動機器人上的重要性被首次提出。
通過上面的介紹,不難發(fā)現(xiàn),從上個世紀六七十年代發(fā)展起來的機器人視覺系統(tǒng),到今天,實際上是建立在不同時期最先進的算法技術和硬件傳感器的基礎之上的。在視覺系統(tǒng)的算法技術上,通過幾十年的發(fā)展,形成了用戶交互、識別感知、運動決策和數(shù)據(jù)優(yōu)化4個層級,分別對應實現(xiàn)體感識別、目標跟隨、人眼跟隨;地圖構建、場景理解、物體識別;定位定姿、自主導航、路徑規(guī)劃;圖像優(yōu)化、深度優(yōu)化、其他數(shù)據(jù)優(yōu)化等諸多今天大家耳熟能詳?shù)乃惴?。在硬件傳感器上,也主要分為前端傳感器表現(xiàn),集成處理芯片和嵌入式算法三個層級。在今天的鈦坦白分享課上,我會主要介紹一下三維視覺的主要實現(xiàn)原理。
在前面的介紹中,我們看到,機器人視覺系統(tǒng)一路走來,和光學傳感器的演進密不可分??梢哉f視覺系統(tǒng)幾十年的發(fā)展史,就是光學傳感器的演進史。今天,我們大體將機器人視覺系統(tǒng)中搭載的視覺傳感器分為三類:以單線激光雷達為代表的一維線陣傳感器,以嵌入式攝像頭為代表的二維面陣傳感器和以特殊光源為代表的三維深度傳感器。其中,以特殊光源為代表的三維深度傳感器是實現(xiàn)機器人三維視覺系統(tǒng)的最主要也是最關鍵的傳感器,三維數(shù)據(jù)的獲取質量直接影響了移動機器人后端的算法結果與決策控制。
目前實現(xiàn)三維深度傳感器的主流技術大體在2010年后發(fā)展起來,路線有以下幾類:基于單目結構光技術路線、基于雙目結構光技術路線以及基于飛行時間法技術路線。速感科技在今年的11月份,面向服務機器人廠商推出的M-32三維傳感器就是基于其中的雙目結構光原理實現(xiàn)的,且集成嵌入式視覺算法的視覺傳感器。結構光的原理是利用激光的光學衍射原理,通過傳感器投射出特定的圖案,用以加速或輔助深度圖的獲取。其中特定的圖案可以分為規(guī)則、偽隨機或隨機點狀散斑和特殊圖形斑幾類,其優(yōu)勢在于精度高,刷新率快,但缺點是不適合在戶外強光下的環(huán)境進行使用。飛行時間的原理也稱TOF原理,是利用調制光源在不同距離接收到的相位不同從而根據(jù)光的傳播速度反算距離這一原理實現(xiàn)的深度獲取,這一原理的優(yōu)勢測量精度不會隨著距離遞減,但劣勢是分辨率低且環(huán)境擾動大。