無敵的寂寞,AlphaGo 要在星際 2 再虐人類
在兩周前落下帷幕的世紀(jì)圍棋人機(jī)大戰(zhàn)中,李世石最終以 1:4 的成績不敵 Google 出品的 AI AlphaGo。顯然,AlphaGo 團(tuán)隊已經(jīng)不滿足于圍棋一種游戲,暴雪娛樂制作總監(jiān) Tim Morten 在 WCS 中國區(qū)總決賽上確認(rèn):
AlphaGo 接下來將要挑戰(zhàn) 《星際爭霸 2》
但暴雪官方?jīng)]有透露更多的細(xì)節(jié)信息,因為關(guān)于這場電子競技領(lǐng)域的人類大戰(zhàn),Google 還在和暴雪處在商談過程中,而無疑人類也將會派出最高水平的電子競技選手與 AlphaGo 再次一決高下。
與圍棋不同,在《星際爭霸 2》中 Alpha 將難以推算出下一步應(yīng)該做什么,所以暴雪的娛樂制作總監(jiān) Time Morten 也預(yù)言 AlphaGo 將不會在 《星際爭霸 2》中戰(zhàn)勝人類。但是誰又能說的準(zhǔn)呢?畢竟在 AlphaGo 挑戰(zhàn)李世石開始之前,人類也是對之后的戰(zhàn)局自信滿滿。
不過星際爭霸顯然與圍棋不同,圍棋對人操作的要求更低,只需要玩家謹(jǐn)慎思考然后下出棋子就好。但在星際爭霸等一些電子游戲中,APM(Actions Per Minute)每分鐘操作次數(shù),換句話來說就是我們常說的手速,是評價一個玩家競技水平的一個重要指標(biāo)。而在星際爭霸和魔獸爭霸 3(WAR3)這兩款游戲中 APM 的高低往往象征著玩家操作的精細(xì)程度。但從理論上來講 AlphaGo 的 APM 可以調(diào)節(jié)到人類完全實現(xiàn)不了的水平,為了與人類的對戰(zhàn)更加公平,在真正比賽時 AlphaGo 的 “手速” 很有可能受到限制。
同時作為一款即時戰(zhàn)略類游戲,星際爭霸對于 AlphaGo 來說還有很多難點需要突破,首先圍棋與星際爭霸是完全不同的兩種游戲,圍棋的輸入值很小,只需要幾個數(shù)字就能描述清楚場上的局面,但是即時戰(zhàn)略游戲需要有多少數(shù)據(jù)來處理,可以參考上面那張圖,雙方的兵力數(shù)量、兵種構(gòu)成、每一個士兵的能力屬性、當(dāng)前時間、地形等等。而所有這些的解析、決策、執(zhí)行都需要在極短的時間時間內(nèi)完成,這些需要極大的運(yùn)算量。而從圍棋世紀(jì)大戰(zhàn)中我們可以看出,AlphaGo 也是需要一個較長的運(yùn)算時間的,而戰(zhàn)局轉(zhuǎn)瞬即逝的星際爭霸 2 明顯不允許 AlphaGo 來慢慢考慮。
還有一處難點就是每一步的狀態(tài)改變,所造成的結(jié)果不一致。不僅僅是圍棋與即時戰(zhàn)略游戲,即使是同類游戲的星際爭霸 2 和魔獸爭霸 3,每走一步對最終的勝負(fù)完全是不一樣的,即使 AlphaGo 已經(jīng)能夠算是一個圍棋大師,在星際爭霸 2 中還是需要打造它的團(tuán)隊一點一點重新學(xué)習(xí)改進(jìn)。像 AlphaGo 這樣 AI 行為還是需要對目標(biāo)進(jìn)行數(shù)學(xué)建模,然后使用各種算法去簡化和求解。越是難以數(shù)學(xué)建模的游戲,構(gòu)建 AI 的難度就越大,而像星際爭霸這樣的即時戰(zhàn)略游戲,恰好是個很難建模的事務(wù),需要很大的工作量。
那我們什么時候能看到這場星際爭霸的人機(jī)大戰(zhàn)呢?可能還需要挺長一段時間,首先是因為 AlphaGo 的算法哲學(xué)其實是經(jīng)驗主義的,也就是說,它并不關(guān)心也無法做到理解它每一步為什么這么走的深刻含義,但是它知道這樣走能夠獲取最高的預(yù)測勝率(通過一定程度的搜索、試錯與枚舉)。所以也就是說 AlphaGo 還需要一段時間的學(xué)習(xí),先戰(zhàn)勝星際爭霸界的“樊麾”這些較低段位選手,才能挑戰(zhàn)星際爭霸界中的“李世石”這樣的世界大師。
下次在玩星際爭霸的時候,不要噴對面小學(xué)生了,也許對面坐著的,可是肩負(fù)戰(zhàn)勝 AlphaGo 大任的祖國花朵。