無(wú)敵的寂寞,AlphaGo 要在星際 2 再虐人類
掃描二維碼
隨時(shí)隨地手機(jī)看文章
在兩周前落下帷幕的世紀(jì)圍棋人機(jī)大戰(zhàn)中,李世石最終以 1:4 的成績(jī)不敵 Google 出品的 AI AlphaGo。顯然,AlphaGo 團(tuán)隊(duì)已經(jīng)不滿足于圍棋一種游戲,暴雪娛樂(lè)制作總監(jiān) Tim Morten 在 WCS 中國(guó)區(qū)總決賽上確認(rèn):
AlphaGo 接下來(lái)將要挑戰(zhàn) 《星際爭(zhēng)霸 2》
但暴雪官方?jīng)]有透露更多的細(xì)節(jié)信息,因?yàn)殛P(guān)于這場(chǎng)電子競(jìng)技領(lǐng)域的人類大戰(zhàn),Google 還在和暴雪處在商談過(guò)程中,而無(wú)疑人類也將會(huì)派出最高水平的電子競(jìng)技選手與 AlphaGo 再次一決高下。
與圍棋不同,在《星際爭(zhēng)霸 2》中 Alpha 將難以推算出下一步應(yīng)該做什么,所以暴雪的娛樂(lè)制作總監(jiān) Time Morten 也預(yù)言 AlphaGo 將不會(huì)在 《星際爭(zhēng)霸 2》中戰(zhàn)勝人類。但是誰(shuí)又能說(shuō)的準(zhǔn)呢?畢竟在 AlphaGo 挑戰(zhàn)李世石開(kāi)始之前,人類也是對(duì)之后的戰(zhàn)局自信滿滿。
不過(guò)星際爭(zhēng)霸顯然與圍棋不同,圍棋對(duì)人操作的要求更低,只需要玩家謹(jǐn)慎思考然后下出棋子就好。但在星際爭(zhēng)霸等一些電子游戲中,APM(Actions Per Minute)每分鐘操作次數(shù),換句話來(lái)說(shuō)就是我們常說(shuō)的手速,是評(píng)價(jià)一個(gè)玩家競(jìng)技水平的一個(gè)重要指標(biāo)。而在星際爭(zhēng)霸和魔獸爭(zhēng)霸 3(WAR3)這兩款游戲中 APM 的高低往往象征著玩家操作的精細(xì)程度。但從理論上來(lái)講 AlphaGo 的 APM 可以調(diào)節(jié)到人類完全實(shí)現(xiàn)不了的水平,為了與人類的對(duì)戰(zhàn)更加公平,在真正比賽時(shí) AlphaGo 的 “手速” 很有可能受到限制。
同時(shí)作為一款即時(shí)戰(zhàn)略類游戲,星際爭(zhēng)霸對(duì)于 AlphaGo 來(lái)說(shuō)還有很多難點(diǎn)需要突破,首先圍棋與星際爭(zhēng)霸是完全不同的兩種游戲,圍棋的輸入值很小,只需要幾個(gè)數(shù)字就能描述清楚場(chǎng)上的局面,但是即時(shí)戰(zhàn)略游戲需要有多少數(shù)據(jù)來(lái)處理,可以參考上面那張圖,雙方的兵力數(shù)量、兵種構(gòu)成、每一個(gè)士兵的能力屬性、當(dāng)前時(shí)間、地形等等。而所有這些的解析、決策、執(zhí)行都需要在極短的時(shí)間時(shí)間內(nèi)完成,這些需要極大的運(yùn)算量。而從圍棋世紀(jì)大戰(zhàn)中我們可以看出,AlphaGo 也是需要一個(gè)較長(zhǎng)的運(yùn)算時(shí)間的,而戰(zhàn)局轉(zhuǎn)瞬即逝的星際爭(zhēng)霸 2 明顯不允許 AlphaGo 來(lái)慢慢考慮。
還有一處難點(diǎn)就是每一步的狀態(tài)改變,所造成的結(jié)果不一致。不僅僅是圍棋與即時(shí)戰(zhàn)略游戲,即使是同類游戲的星際爭(zhēng)霸 2 和魔獸爭(zhēng)霸 3,每走一步對(duì)最終的勝負(fù)完全是不一樣的,即使 AlphaGo 已經(jīng)能夠算是一個(gè)圍棋大師,在星際爭(zhēng)霸 2 中還是需要打造它的團(tuán)隊(duì)一點(diǎn)一點(diǎn)重新學(xué)習(xí)改進(jìn)。像 AlphaGo 這樣 AI 行為還是需要對(duì)目標(biāo)進(jìn)行數(shù)學(xué)建模,然后使用各種算法去簡(jiǎn)化和求解。越是難以數(shù)學(xué)建模的游戲,構(gòu)建 AI 的難度就越大,而像星際爭(zhēng)霸這樣的即時(shí)戰(zhàn)略游戲,恰好是個(gè)很難建模的事務(wù),需要很大的工作量。
那我們什么時(shí)候能看到這場(chǎng)星際爭(zhēng)霸的人機(jī)大戰(zhàn)呢?可能還需要挺長(zhǎng)一段時(shí)間,首先是因?yàn)?AlphaGo 的算法哲學(xué)其實(shí)是經(jīng)驗(yàn)主義的,也就是說(shuō),它并不關(guān)心也無(wú)法做到理解它每一步為什么這么走的深刻含義,但是它知道這樣走能夠獲取最高的預(yù)測(cè)勝率(通過(guò)一定程度的搜索、試錯(cuò)與枚舉)。所以也就是說(shuō) AlphaGo 還需要一段時(shí)間的學(xué)習(xí),先戰(zhàn)勝星際爭(zhēng)霸界的“樊麾”這些較低段位選手,才能挑戰(zhàn)星際爭(zhēng)霸界中的“李世石”這樣的世界大師。
下次在玩星際爭(zhēng)霸的時(shí)候,不要噴對(duì)面小學(xué)生了,也許對(duì)面坐著的,可是肩負(fù)戰(zhàn)勝 AlphaGo 大任的祖國(guó)花朵。