OpenAI能解開三階魔方的機械手
據(jù)報道,OpenAI是一家以人工智能和機器學(xué)習(xí)研究而聞名的公司,其周二展示了能解開三階魔方的機械手。這套名為Dactyl的機械手是通過使用稱為自動域隨機化(ADR)和強化學(xué)習(xí)的新技術(shù)進行訓(xùn)練的。在過去的Dota 2中,Dactyl所采用的強化學(xué)習(xí)算法已經(jīng)證明了它可以對抗人類對手。
OpenAI機械手“學(xué)習(xí)”解開三階魔方技術(shù)
名為Dactyl的機械手是通過使用稱為自動域隨機化(ADR)和強化學(xué)習(xí)的新技術(shù)進行訓(xùn)練的。在過去的Dota 2中,Dactyl所采用的強化學(xué)習(xí)算法已經(jīng)證明了它可以對抗人類對手。
新技術(shù)ADR通過生成越來越難以訓(xùn)練的Dactyl訓(xùn)練場景來幫助教機械手解決古老的難題。自動域隨機化的方式如下:
ADR從單一的非隨機環(huán)境開始,在該環(huán)境中,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)了如何解開三階魔方。隨著神經(jīng)網(wǎng)絡(luò)在任務(wù)中變得更好并達到性能閾值,域隨機化的數(shù)量會自動增加。
由于神經(jīng)網(wǎng)絡(luò)現(xiàn)在必須學(xué)會將其推廣到更隨機的環(huán)境,因此這使任務(wù)更加艱巨。神經(jīng)網(wǎng)絡(luò)不斷學(xué)習(xí),直到再次超過性能閾值,然后再進行更多隨機化,然后重復(fù)該過程。
團隊認(rèn)為,ADR是一項重大進步,因為逐步困難的訓(xùn)練模擬的建立“使我們擺脫了對真實世界的準(zhǔn)確模型的束縛,并使在模擬中學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)移能夠應(yīng)用于真實世界。 ”
有些人并不完全相信增強學(xué)習(xí)是否是未來此類機器人的方法。Berenson在談到該主題時暗示了一種更傳統(tǒng)的方法:“到今天結(jié)束時,將會有一些學(xué)習(xí)過程-可能是強化學(xué)習(xí)。但是我認(rèn)為那些過程實際上應(yīng)該晚得多。”