谷歌DeepMind開發(fā)AlphaZero,輕松擊敗國際象棋、圍棋世界冠軍
Alphabet旗下人工智能部門DeepMind一年前宣布開發(fā)了一套名為AlphaZero的系統(tǒng),它可以教會自己如何掌握國際象棋、日本將棋和中國圍棋,而且都能擊敗世界冠軍。
雖然DeepMind的說法令人印象深刻,但當(dāng)時卻未能通過同行評審。不過,DeepMind今天宣布,經(jīng)過數(shù)月的反復(fù)修訂,該公司在AlphaZero上的成果已經(jīng)被《科學(xué)》雜志接受,并登上該雜志的首頁。
“幾年前,我們的AlphaGo以4:1擊敗了18次獲得圍棋世界冠軍的棋手李世石。但對于我們來說,這實際上是構(gòu)建一個通用學(xué)習(xí)系統(tǒng)的開始,這個系統(tǒng)可以自己學(xué)習(xí)不同的游戲,最終達到超越人類的水平。“AlphaZero的首席研究員大衛(wèi)·西爾沃(David Silver)對參加蒙特利爾NeurIPS 2018大會的記者說,“AlphaZero是這一段旅程的下一步。它從頭開始學(xué)習(xí)擊敗圍棋、國際象棋和日本將棋的世界冠軍。除了游戲規(guī)則外,它什么知識都沒有。“
Silver解釋說,選擇這些游戲既考慮了它們的復(fù)雜性,也考慮了之前針對它們進行人工智能研究的豐富歷史。
為此,本周發(fā)表的論文描述了DeepMind如何利用深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)優(yōu)于Stockfish、Elmo和IBM深藍的游戲算法。
“傳統(tǒng)引擎非常強大并且?guī)缀鯖]有明顯的錯誤,但當(dāng)面對沒有具體和可計算解決方案的位置時,可能會發(fā)生漂移。”國際象棋大師馬修·薩德勒(Matthew Sadler)說,“正是在這樣的位置,AlphaZero才能實現(xiàn)‘感覺’,‘洞察力’或‘直覺’。“
為了測試經(jīng)過全面訓(xùn)練的AlphaZero,除了其前身AlphaGo Zero之外,DeepMind的研究人員還對上述的Stockfish和Elmo游戲引擎進行了測試。在具有44個處理器內(nèi)核和4個谷歌第一代TPU的單臺機器上運行時,AlphaZero都能輕松贏得大多數(shù)比賽。