Google新算法助力下機器人自學(xué)行走平均只需3.5小時

時間：2020-05-04 09:51:01

關(guān)鍵字：機器人 GOOGLE DAS 模擬

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 在機器人領(lǐng)域，讓機器人保持站立并進(jìn)行平穩(wěn)的運動一直是一個棘手的挑戰(zhàn)，因為這需要超高的專業(yè)知識和設(shè)計水平。盡管一些傳統(tǒng)的機器人能在人工控制的情況下完成站立和運動，但它們的活動范圍也充滿了各種局限性

在機器人領(lǐng)域，讓機器人保持站立并進(jìn)行平穩(wěn)的運動一直是一個棘手的挑戰(zhàn)，因為這需要超高的專業(yè)知識和設(shè)計水平。盡管一些傳統(tǒng)的機器人能在人工控制的情況下完成站立和運動，但它們的活動范圍也充滿了各種局限性。

為了解決這個問題，Google近日和佐治亞理工學(xué)院以及加州大學(xué)伯克利分校的研究人員聯(lián)合發(fā)表了一篇論文，詳細(xì)介紹了他們?nèi)绾纬晒Φ貥?gòu)建了一個通過AI以自學(xué)走路的機器人。他們給這只四足小機器人起了個可愛的代號“Rainbow Dash”。

根據(jù)世界紀(jì)錄，嬰兒從爬行到學(xué)會行走的最快速度是6個月，而根據(jù)論文中的測試數(shù)據(jù)顯示，Rainbow Dash平均只需要大約3.5小時來學(xué)習(xí)向前、向后和左右轉(zhuǎn)彎等運動在堅硬平坦的地面上，該機器人學(xué)習(xí)走路需要1.5個小時，在由記憶海綿材質(zhì)的床墊上大約需要5.5個小時，在鏤空的地毯上大約需要4.5個小時。

具體來說，該機器人使用深度強化學(xué)習(xí)，即結(jié)合了深度學(xué)習(xí)和強化學(xué)習(xí)兩種不同類型的AI技術(shù)。通過深度學(xué)習(xí)，系統(tǒng)可以處理和評估來自其身處環(huán)境的原始輸入數(shù)據(jù)；通過強化學(xué)習(xí)，算法可以反復(fù)試驗，以學(xué)習(xí)如何執(zhí)行任務(wù)，并根據(jù)完成的程度來獲得獎勵和懲罰。也就是說，通過上述的這種方式，機器人便可以在其不了解環(huán)境中實現(xiàn)自動控制策略。

在以往的此類實驗中，研究人員最初都會讓機器人通過模擬來學(xué)習(xí)真實世界的環(huán)境。在仿真環(huán)境中，機器人的虛擬體首先與虛擬環(huán)境進(jìn)行交互，然后，算法接收這些虛擬數(shù)據(jù)，直到系統(tǒng)有能力對這些數(shù)據(jù)“應(yīng)對自如”，一個搭載系統(tǒng)的物理形態(tài)的機器人才會被放置到現(xiàn)實環(huán)境中進(jìn)行實驗。這種方法有助于避免在試錯過程中對機器人及其周圍環(huán)境造成損害。

不過，環(huán)境雖然容易建模，但通常耗時長，而且現(xiàn)實環(huán)境中充滿了各種意想不到的情況，因此，在模擬環(huán)境中訓(xùn)練機器人的意義有限。畢竟，此類研究的最終目標(biāo)恰恰是讓機器人為現(xiàn)實世界的場景做好準(zhǔn)備。

Google和佐治亞理工學(xué)院以及加州大學(xué)伯克利分校的研究人員并沒有“守舊”。在他們的實驗中，從一開始就在真實環(huán)境中對Rainbow Dash進(jìn)行訓(xùn)練，這樣一來，機器人不僅能夠很好地適應(yīng)自己所處的環(huán)境，也能夠更好地適應(yīng)相似的環(huán)境。

盡管Rainbow Dash能夠獨立運動，這并不代表研究人員可以對其“撒手不管”。在一個環(huán)境中學(xué)習(xí)行走的最開始，研究人員仍需要對Rainbow Dash手動干預(yù)上百次。為了解決這個問題，研究人員限定了機器人運動的環(huán)境，讓其一次性進(jìn)行多重動作訓(xùn)練。

在Rainbow Dash自學(xué)行走之后，研究人員可以通過連入控制手柄來操控機器人實現(xiàn)理想的運動軌跡，將機器人控制在設(shè)定的環(huán)境內(nèi)。此外，機器人在識別到環(huán)境的邊界后，也會自動往回走。在特定的環(huán)境之外，機器人可能會重復(fù)摔倒導(dǎo)致機器損壞，那時候就需要另一個硬編碼算法來幫助機器人站起來。

Google在該研究中的負(fù)責(zé)人Jan Tan告訴媒體，這項研究花費了大約一年的時間才完成。他說道：“我們有興趣讓機器人能夠在各種復(fù)雜的現(xiàn)實世界環(huán)境中運動。不過，要設(shè)計出能夠靈活處理多樣性和復(fù)雜性的運動控制器十分困難?！?/p>

雷鋒網(wǎng)了解到，接下來，研究人員希望他們的算法能適用于不同種類的機器人，或適用于多個機器人在同一環(huán)境中同時進(jìn)行學(xué)習(xí)。研究人員相信，破解機器人的運動能力將是解鎖更多實用機器人的關(guān)鍵人類用腿來走路，如果機器人不會使用腿，它們就不能在人類世界中行走。

然而，讓機器人在人類世界中行走是一個至關(guān)重要的課題，它們可以代替人類探索地球上不同的地形或未被人類探索過的地區(qū)，比如太空。但由于該機器人依賴于安裝在其上方的動作捕捉系統(tǒng)來確定位置，該裝置暫時還不能直接用于現(xiàn)實世界。