無(wú)敵的寂寞，AlphaGo 要在星際 2 再虐人類

時(shí)間：2016-03-29 11:23:29

關(guān)鍵字： alphago 人工智能新鮮事星際爭(zhēng)霸

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]AlphaGo 接下來(lái)將要挑戰(zhàn) 《星際爭(zhēng)霸 2》

在兩周前落下帷幕的世紀(jì)圍棋人機(jī)大戰(zhàn)中，李世石最終以 1:4 的成績(jī)不敵 Google 出品的 AI AlphaGo。顯然，AlphaGo 團(tuán)隊(duì)已經(jīng)不滿足于圍棋一種游戲，暴雪娛樂(lè)制作總監(jiān) Tim Morten 在 WCS 中國(guó)區(qū)總決賽上確認(rèn)：

AlphaGo 接下來(lái)將要挑戰(zhàn) 《星際爭(zhēng)霸 2》

但暴雪官方?jīng)]有透露更多的細(xì)節(jié)信息，因?yàn)殛P(guān)于這場(chǎng)電子競(jìng)技領(lǐng)域的人類大戰(zhàn)，Google 還在和暴雪處在商談過(guò)程中，而無(wú)疑人類也將會(huì)派出最高水平的電子競(jìng)技選手與 AlphaGo 再次一決高下。

與圍棋不同，在《星際爭(zhēng)霸 2》中 Alpha 將難以推算出下一步應(yīng)該做什么，所以暴雪的娛樂(lè)制作總監(jiān) Time Morten 也預(yù)言 AlphaGo 將不會(huì)在《星際爭(zhēng)霸 2》中戰(zhàn)勝人類。但是誰(shuí)又能說(shuō)的準(zhǔn)呢?畢竟在 AlphaGo 挑戰(zhàn)李世石開(kāi)始之前，人類也是對(duì)之后的戰(zhàn)局自信滿滿。

不過(guò)星際爭(zhēng)霸顯然與圍棋不同，圍棋對(duì)人操作的要求更低，只需要玩家謹(jǐn)慎思考然后下出棋子就好。但在星際爭(zhēng)霸等一些電子游戲中，APM(Actions Per Minute)每分鐘操作次數(shù)，換句話來(lái)說(shuō)就是我們常說(shuō)的手速，是評(píng)價(jià)一個(gè)玩家競(jìng)技水平的一個(gè)重要指標(biāo)。而在星際爭(zhēng)霸和魔獸爭(zhēng)霸 3(WAR3)這兩款游戲中 APM 的高低往往象征著玩家操作的精細(xì)程度。但從理論上來(lái)講 AlphaGo 的 APM 可以調(diào)節(jié)到人類完全實(shí)現(xiàn)不了的水平，為了與人類的對(duì)戰(zhàn)更加公平，在真正比賽時(shí) AlphaGo 的 “手速” 很有可能受到限制。

同時(shí)作為一款即時(shí)戰(zhàn)略類游戲，星際爭(zhēng)霸對(duì)于 AlphaGo 來(lái)說(shuō)還有很多難點(diǎn)需要突破，首先圍棋與星際爭(zhēng)霸是完全不同的兩種游戲，圍棋的輸入值很小，只需要幾個(gè)數(shù)字就能描述清楚場(chǎng)上的局面，但是即時(shí)戰(zhàn)略游戲需要有多少數(shù)據(jù)來(lái)處理，可以參考上面那張圖，雙方的兵力數(shù)量、兵種構(gòu)成、每一個(gè)士兵的能力屬性、當(dāng)前時(shí)間、地形等等。而所有這些的解析、決策、執(zhí)行都需要在極短的時(shí)間時(shí)間內(nèi)完成，這些需要極大的運(yùn)算量。而從圍棋世紀(jì)大戰(zhàn)中我們可以看出，AlphaGo 也是需要一個(gè)較長(zhǎng)的運(yùn)算時(shí)間的，而戰(zhàn)局轉(zhuǎn)瞬即逝的星際爭(zhēng)霸 2 明顯不允許 AlphaGo 來(lái)慢慢考慮。

還有一處難點(diǎn)就是每一步的狀態(tài)改變，所造成的結(jié)果不一致。不僅僅是圍棋與即時(shí)戰(zhàn)略游戲，即使是同類游戲的星際爭(zhēng)霸 2 和魔獸爭(zhēng)霸 3，每走一步對(duì)最終的勝負(fù)完全是不一樣的，即使 AlphaGo 已經(jīng)能夠算是一個(gè)圍棋大師，在星際爭(zhēng)霸 2 中還是需要打造它的團(tuán)隊(duì)一點(diǎn)一點(diǎn)重新學(xué)習(xí)改進(jìn)。像 AlphaGo 這樣 AI 行為還是需要對(duì)目標(biāo)進(jìn)行數(shù)學(xué)建模，然后使用各種算法去簡(jiǎn)化和求解。越是難以數(shù)學(xué)建模的游戲，構(gòu)建 AI 的難度就越大，而像星際爭(zhēng)霸這樣的即時(shí)戰(zhàn)略游戲，恰好是個(gè)很難建模的事務(wù)，需要很大的工作量。

那我們什么時(shí)候能看到這場(chǎng)星際爭(zhēng)霸的人機(jī)大戰(zhàn)呢?可能還需要挺長(zhǎng)一段時(shí)間，首先是因?yàn)?AlphaGo 的算法哲學(xué)其實(shí)是經(jīng)驗(yàn)主義的，也就是說(shuō)，它并不關(guān)心也無(wú)法做到理解它每一步為什么這么走的深刻含義，但是它知道這樣走能夠獲取最高的預(yù)測(cè)勝率(通過(guò)一定程度的搜索、試錯(cuò)與枚舉)。所以也就是說(shuō) AlphaGo 還需要一段時(shí)間的學(xué)習(xí)，先戰(zhàn)勝星際爭(zhēng)霸界的“樊麾”這些較低段位選手，才能挑戰(zhàn)星際爭(zhēng)霸界中的“李世石”這樣的世界大師。

下次在玩星際爭(zhēng)霸的時(shí)候，不要噴對(duì)面小學(xué)生了，也許對(duì)面坐著的，可是肩負(fù)戰(zhàn)勝 AlphaGo 大任的祖國(guó)花朵。