AlphaGo明年復(fù)出人工智能將達(dá)到什么高度？

時(shí)間：2020-08-21 09:54:01

關(guān)鍵字： alphago 人工智能

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 　　昨日，DeepMind CEO Demis Hassabis 在 Twitter 上發(fā)布聲明：他們正在全力提高 AlphaGo 的智能程度，全新版 AlphaGo 將在 2017 年復(fù)出下棋

　　昨日，DeepMind CEO Demis Hassabis 在 Twitter 上發(fā)布聲明：他們正在全力提高 AlphaGo 的智能程度，全新版 AlphaGo 將在 2017 年復(fù)出下棋。DeepMind 會(huì)在近期內(nèi)公布更多信息。

　　隨后樊麾也在微博上發(fā)文稱 AlphaGo 的棋力得到了巨大的提升。

　　樊麾現(xiàn)任法國圍棋隊(duì)總教練，曾三度獲得歐洲冠軍，是第一位與 AlphaGo 交手的職業(yè)棋手，去年 10 月，他在一場閉門比賽中 0 比 5 敗給機(jī)器。隨后樊麾加盟了DeepMind團(tuán)隊(duì)，擔(dān)任專職陪練。

　　今年 3 月李世石與 AlphaGo 大戰(zhàn)之后，柯杰非常期待挑戰(zhàn) AlphaGo。國家體育總局棋牌運(yùn)動(dòng)管理中心黨委書記楊俊安曾在公開場合披露柯潔將挑戰(zhàn) AlphaGo，消息一出被 DeepMind 否認(rèn)。據(jù)業(yè)內(nèi)人消息，中國棋院確實(shí)與 DeepMind 達(dá)成對(duì)戰(zhàn)協(xié)議，但由于特殊原因，遲遲未能公布。因此，柯潔在明年對(duì)戰(zhàn) AlphaGo 的概率非常大。

　　一年時(shí)間的“閉關(guān)修煉”，AlphaGo 可能在干嘛？

　　此前田淵棟在《AlphaGo 為什么那么厲害？》一文中提到：

　　與之前的圍棋系統(tǒng)相比，AlphaGo 較少依賴圍棋的領(lǐng)域知識(shí)，但還遠(yuǎn)未達(dá)到通用系統(tǒng)的程度。職業(yè)棋手可以在看過了寥寥幾局之后明白對(duì)手的風(fēng)格并采取相應(yīng)策略，一位資深游戲玩家也可以在玩一個(gè)新游戲幾次后很快上手，但到目前為止，人工智能系統(tǒng)要達(dá)到人類水平，還是需要大量樣本的訓(xùn)練的。

　　業(yè)內(nèi)人士分析，AlphaGo 隱退的這一年間，它可能會(huì)進(jìn)行大量的樣本訓(xùn)練，應(yīng)用增強(qiáng)學(xué)習(xí)不斷與自己“左右手互博”：在電腦里自行模擬，產(chǎn)生新的棋局，使得收集到的經(jīng)驗(yàn)和樣本變得更多，逐步增強(qiáng)自己的能力。

　　與此同時(shí)，田淵棟也解釋到，樣本訓(xùn)練固然重要，但動(dòng)態(tài)實(shí)戰(zhàn)經(jīng)驗(yàn)所起到的作用可能會(huì)更大。

　　在 AlphaGo 中，增強(qiáng)學(xué)習(xí)（Reinforcement Learning）所扮演的角色并沒有想像中那么大。在理想情況下，我們希望人工智能系統(tǒng)能在對(duì)局中動(dòng)態(tài)地適應(yīng)環(huán)境和對(duì)手的招式并且找到辦法反制之，但是在 AlphaGo 中增強(qiáng)學(xué)習(xí)更多地是用于提供更多質(zhì)量更好的樣本，給有監(jiān)督學(xué)習(xí)（Supervised Learning）以訓(xùn)練出更好的模型。

　　出于這方面的考量，DeepMind 把樊麾等頂尖棋手招入麾下給 AlphaGo 做陪練，專門進(jìn)行動(dòng)態(tài)實(shí)戰(zhàn)訓(xùn)練，至于效果如何，暫時(shí)還無法得知。IBM 資深工程師兼弈城業(yè)余 4 段棋手 Zhuang Zhuang 向雷鋒網(wǎng)透露：

　　AlphaGo 對(duì)戰(zhàn)李世石時(shí)是 V18 版，現(xiàn)在為 V20 版，明年初正式發(fā)布即便是 V21 版也不奇怪。從表面來看，至少三個(gè)版本的更迭大致可以看出 AlphaGo 的升級(jí)速度相對(duì)較快，實(shí)力應(yīng)該有著不少提升。

　　柯杰與 AlphaGo 誰厲害這一問題一直被擺在熱議話題中，那么人類棋手在與 AI 對(duì)戰(zhàn)時(shí)應(yīng)該注意什么？

　　Zhuang Zhuang 指出：

　　與機(jī)器交手的心態(tài)很重要，這不同于和真人對(duì)戰(zhàn)。職業(yè)棋手在準(zhǔn)備重大比賽的時(shí)候，可以研究對(duì)手的棋風(fēng)偏好，可以準(zhǔn)備一些布局套路，對(duì)局時(shí)可以在一定程度上推測對(duì)手的選擇，但這些對(duì) AlphaGo 都不管用。AlphaGo 的棋風(fēng)是什么？其實(shí)不是那么容易說清楚，但是有一點(diǎn)應(yīng)該是公認(rèn)的，就是價(jià)值判斷絕大部分情況下超過人類棋手，它的選擇沒有感情，不是基于棋風(fēng)，是基于勝率、價(jià)值。當(dāng)棋手面對(duì) AlphaGo 這樣強(qiáng)勁對(duì)手，最佳策略就是不斷追求最善、最直接的一手，這樣才能最大化勝率。在這期間，棋手應(yīng)該多與冷冰冰的機(jī)器系統(tǒng)交戰(zhàn)，形成應(yīng)對(duì)機(jī)器棋手的獨(dú)特心態(tài)。

　　除了 AlphaGo 外， Zen 圍棋 AI 目前也已升級(jí)到了 V13，智能程度不俗。可以預(yù)見未來我們看到的不僅是 AI 與人之間的較量，甚至還有各公司水平超越人類的圍棋 AI 系統(tǒng)之間的對(duì)決。