Google新算法助力下 機器人自學(xué)行走平均只需3.5小時
在機器人領(lǐng)域,讓機器人保持站立并進(jìn)行平穩(wěn)的運動一直是一個棘手的挑戰(zhàn),因為這需要超高的專業(yè)知識和設(shè)計水平。盡管一些傳統(tǒng)的機器人能在人工控制的情況下完成站立和運動,但它們的活動范圍也充滿了各種局限性。
為了解決這個問題,Google近日和佐治亞理工學(xué)院以及加州大學(xué)伯克利分校的研究人員聯(lián)合發(fā)表了一篇論文,詳細(xì)介紹了他們?nèi)绾纬晒Φ貥?gòu)建了一個通過AI以自學(xué)走路的機器人。他們給這只四足小機器人起了個可愛的代號“Rainbow Dash”。
根據(jù)世界紀(jì)錄,嬰兒從爬行到學(xué)會行走的最快速度是6個月,而根據(jù)論文中的測試數(shù)據(jù)顯示,Rainbow Dash平均只需要大約3.5小時來學(xué)習(xí)向前、向后和左右轉(zhuǎn)彎等運動在堅硬平坦的地面上,該機器人學(xué)習(xí)走路需要1.5個小時,在由記憶海綿材質(zhì)的床墊上大約需要5.5個小時,在鏤空的地毯上大約需要4.5個小時。
具體來說,該機器人使用深度強化學(xué)習(xí),即結(jié)合了深度學(xué)習(xí)和強化學(xué)習(xí)兩種不同類型的AI技術(shù)。通過深度學(xué)習(xí),系統(tǒng)可以處理和評估來自其身處環(huán)境的原始輸入數(shù)據(jù);通過強化學(xué)習(xí),算法可以反復(fù)試驗,以學(xué)習(xí)如何執(zhí)行任務(wù),并根據(jù)完成的程度來獲得獎勵和懲罰。也就是說,通過上述的這種方式,機器人便可以在其不了解環(huán)境中實現(xiàn)自動控制策略。
在以往的此類實驗中,研究人員最初都會讓機器人通過模擬來學(xué)習(xí)真實世界的環(huán)境。在仿真環(huán)境中,機器人的虛擬體首先與虛擬環(huán)境進(jìn)行交互,然后,算法接收這些虛擬數(shù)據(jù),直到系統(tǒng)有能力對這些數(shù)據(jù)“應(yīng)對自如”,一個搭載系統(tǒng)的物理形態(tài)的機器人才會被放置到現(xiàn)實環(huán)境中進(jìn)行實驗。這種方法有助于避免在試錯過程中對機器人及其周圍環(huán)境造成損害。
不過,環(huán)境雖然容易建模,但通常耗時長,而且現(xiàn)實環(huán)境中充滿了各種意想不到的情況,因此,在模擬環(huán)境中訓(xùn)練機器人的意義有限。畢竟,此類研究的最終目標(biāo)恰恰是讓機器人為現(xiàn)實世界的場景做好準(zhǔn)備。
Google和佐治亞理工學(xué)院以及加州大學(xué)伯克利分校的研究人員并沒有“守舊”。在他們的實驗中,從一開始就在真實環(huán)境中對Rainbow Dash進(jìn)行訓(xùn)練,這樣一來,機器人不僅能夠很好地適應(yīng)自己所處的環(huán)境,也能夠更好地適應(yīng)相似的環(huán)境。
盡管Rainbow Dash能夠獨立運動,這并不代表研究人員可以對其“撒手不管”。在一個環(huán)境中學(xué)習(xí)行走的最開始,研究人員仍需要對Rainbow Dash手動干預(yù)上百次。為了解決這個問題,研究人員限定了機器人運動的環(huán)境,讓其一次性進(jìn)行多重動作訓(xùn)練。
在Rainbow Dash自學(xué)行走之后,研究人員可以通過連入控制手柄來操控機器人實現(xiàn)理想的運動軌跡,將機器人控制在設(shè)定的環(huán)境內(nèi)。此外,機器人在識別到環(huán)境的邊界后,也會自動往回走。在特定的環(huán)境之外,機器人可能會重復(fù)摔倒導(dǎo)致機器損壞,那時候就需要另一個硬編碼算法來幫助機器人站起來。
Google在該研究中的負(fù)責(zé)人Jan Tan告訴媒體,這項研究花費了大約一年的時間才完成。他說道:“我們有興趣讓機器人能夠在各種復(fù)雜的現(xiàn)實世界環(huán)境中運動。不過,要設(shè)計出能夠靈活處理多樣性和復(fù)雜性的運動控制器十分困難?!?/p>
雷鋒網(wǎng)了解到,接下來,研究人員希望他們的算法能適用于不同種類的機器人,或適用于多個機器人在同一環(huán)境中同時進(jìn)行學(xué)習(xí)。研究人員相信,破解機器人的運動能力將是解鎖更多實用機器人的關(guān)鍵人類用腿來走路,如果機器人不會使用腿,它們就不能在人類世界中行走。
然而,讓機器人在人類世界中行走是一個至關(guān)重要的課題,它們可以代替人類探索地球上不同的地形或未被人類探索過的地區(qū),比如太空。但由于該機器人依賴于安裝在其上方的動作捕捉系統(tǒng)來確定位置,該裝置暫時還不能直接用于現(xiàn)實世界。