Google新算法助力下 機(jī)器人自學(xué)行走平均只需3.5小時(shí)
在機(jī)器人領(lǐng)域,讓機(jī)器人保持站立并進(jìn)行平穩(wěn)的運(yùn)動一直是一個(gè)棘手的挑戰(zhàn),因?yàn)檫@需要超高的專業(yè)知識和設(shè)計(jì)水平。盡管一些傳統(tǒng)的機(jī)器人能在人工控制的情況下完成站立和運(yùn)動,但它們的活動范圍也充滿了各種局限性。
為了解決這個(gè)問題,Google近日和佐治亞理工學(xué)院以及加州大學(xué)伯克利分校的研究人員聯(lián)合發(fā)表了一篇論文,詳細(xì)介紹了他們?nèi)绾纬晒Φ貥?gòu)建了一個(gè)通過AI以自學(xué)走路的機(jī)器人。他們給這只四足小機(jī)器人起了個(gè)可愛的代號“Rainbow Dash”。
根據(jù)世界紀(jì)錄,嬰兒從爬行到學(xué)會行走的最快速度是6個(gè)月,而根據(jù)論文中的測試數(shù)據(jù)顯示,Rainbow Dash平均只需要大約3.5小時(shí)來學(xué)習(xí)向前、向后和左右轉(zhuǎn)彎等運(yùn)動在堅(jiān)硬平坦的地面上,該機(jī)器人學(xué)習(xí)走路需要1.5個(gè)小時(shí),在由記憶海綿材質(zhì)的床墊上大約需要5.5個(gè)小時(shí),在鏤空的地毯上大約需要4.5個(gè)小時(shí)。
具體來說,該機(jī)器人使用深度強(qiáng)化學(xué)習(xí),即結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩種不同類型的AI技術(shù)。通過深度學(xué)習(xí),系統(tǒng)可以處理和評估來自其身處環(huán)境的原始輸入數(shù)據(jù);通過強(qiáng)化學(xué)習(xí),算法可以反復(fù)試驗(yàn),以學(xué)習(xí)如何執(zhí)行任務(wù),并根據(jù)完成的程度來獲得獎勵(lì)和懲罰。也就是說,通過上述的這種方式,機(jī)器人便可以在其不了解環(huán)境中實(shí)現(xiàn)自動控制策略。
在以往的此類實(shí)驗(yàn)中,研究人員最初都會讓機(jī)器人通過模擬來學(xué)習(xí)真實(shí)世界的環(huán)境。在仿真環(huán)境中,機(jī)器人的虛擬體首先與虛擬環(huán)境進(jìn)行交互,然后,算法接收這些虛擬數(shù)據(jù),直到系統(tǒng)有能力對這些數(shù)據(jù)“應(yīng)對自如”,一個(gè)搭載系統(tǒng)的物理形態(tài)的機(jī)器人才會被放置到現(xiàn)實(shí)環(huán)境中進(jìn)行實(shí)驗(yàn)。這種方法有助于避免在試錯(cuò)過程中對機(jī)器人及其周圍環(huán)境造成損害。
不過,環(huán)境雖然容易建模,但通常耗時(shí)長,而且現(xiàn)實(shí)環(huán)境中充滿了各種意想不到的情況,因此,在模擬環(huán)境中訓(xùn)練機(jī)器人的意義有限。畢竟,此類研究的最終目標(biāo)恰恰是讓機(jī)器人為現(xiàn)實(shí)世界的場景做好準(zhǔn)備。
Google和佐治亞理工學(xué)院以及加州大學(xué)伯克利分校的研究人員并沒有“守舊”。在他們的實(shí)驗(yàn)中,從一開始就在真實(shí)環(huán)境中對Rainbow Dash進(jìn)行訓(xùn)練,這樣一來,機(jī)器人不僅能夠很好地適應(yīng)自己所處的環(huán)境,也能夠更好地適應(yīng)相似的環(huán)境。
盡管Rainbow Dash能夠獨(dú)立運(yùn)動,這并不代表研究人員可以對其“撒手不管”。在一個(gè)環(huán)境中學(xué)習(xí)行走的最開始,研究人員仍需要對Rainbow Dash手動干預(yù)上百次。為了解決這個(gè)問題,研究人員限定了機(jī)器人運(yùn)動的環(huán)境,讓其一次性進(jìn)行多重動作訓(xùn)練。
在Rainbow Dash自學(xué)行走之后,研究人員可以通過連入控制手柄來操控機(jī)器人實(shí)現(xiàn)理想的運(yùn)動軌跡,將機(jī)器人控制在設(shè)定的環(huán)境內(nèi)。此外,機(jī)器人在識別到環(huán)境的邊界后,也會自動往回走。在特定的環(huán)境之外,機(jī)器人可能會重復(fù)摔倒導(dǎo)致機(jī)器損壞,那時(shí)候就需要另一個(gè)硬編碼算法來幫助機(jī)器人站起來。
Google在該研究中的負(fù)責(zé)人Jan Tan告訴媒體,這項(xiàng)研究花費(fèi)了大約一年的時(shí)間才完成。他說道:“我們有興趣讓機(jī)器人能夠在各種復(fù)雜的現(xiàn)實(shí)世界環(huán)境中運(yùn)動。不過,要設(shè)計(jì)出能夠靈活處理多樣性和復(fù)雜性的運(yùn)動控制器十分困難?!?/p>
雷鋒網(wǎng)了解到,接下來,研究人員希望他們的算法能適用于不同種類的機(jī)器人,或適用于多個(gè)機(jī)器人在同一環(huán)境中同時(shí)進(jìn)行學(xué)習(xí)。研究人員相信,破解機(jī)器人的運(yùn)動能力將是解鎖更多實(shí)用機(jī)器人的關(guān)鍵人類用腿來走路,如果機(jī)器人不會使用腿,它們就不能在人類世界中行走。
然而,讓機(jī)器人在人類世界中行走是一個(gè)至關(guān)重要的課題,它們可以代替人類探索地球上不同的地形或未被人類探索過的地區(qū),比如太空。但由于該機(jī)器人依賴于安裝在其上方的動作捕捉系統(tǒng)來確定位置,該裝置暫時(shí)還不能直接用于現(xiàn)實(shí)世界。