當前位置:首頁 > 芯聞號 > 充電吧
[導(dǎo)讀]日前,微軟亞洲研究院在arXiv平臺上正式發(fā)表了關(guān)于麻將AI系統(tǒng)Suphx的論文,公布了Suphx背后的包括決策流程、模型架構(gòu)、訓(xùn)練算法等核心技術(shù)細節(jié)。那么,麻將AI 到底有哪些難點?Suphx這一在

日前,微軟亞洲研究院在arXiv平臺上正式發(fā)表了關(guān)于麻將AI系統(tǒng)Suphx的論文,公布了Suphx背后的包括決策流程、模型架構(gòu)、訓(xùn)練算法等核心技術(shù)細節(jié)。

那么,麻將AI 到底有哪些難點?Suphx這一在游戲AI領(lǐng)域具有跨越性的突破具體是如何實現(xiàn)的?近日,微軟亞洲研究院Suphx研發(fā)團隊在arXiv平臺上正式發(fā)表論文,公布了Suphx背后的核心技術(shù)。

麻將AI面臨的挑戰(zhàn)

麻將AI系統(tǒng)Suphx主要基于深度強化學(xué)習(xí)技術(shù)。盡管深度強化學(xué)習(xí)在一系列游戲AI中取得了巨大的成功,但想要將其直接應(yīng)用在麻將AI上殊為不易,面臨著若干挑戰(zhàn)。

挑戰(zhàn)一:麻將的計分規(guī)則通常都非常復(fù)雜,在如天鳳平臺等競技麻將中,計分規(guī)則更加復(fù)雜。

首先,一輪麻將游戲通常有8局甚至更多,每一局結(jié)束后四位玩家都會有這一局的得分(可能為正,可能為負)。當一整輪游戲都結(jié)束后,四位玩家按照所有局的累計得分排名,計算這一輪游戲的點數(shù)獎勵。在天鳳平臺上,排在一二名的玩家會得到一定數(shù)目的點數(shù),排在第三位的玩家點數(shù)不變,排在第四位的玩家會被扣去一定數(shù)目的點數(shù) 。因此玩家的點數(shù)和段位都可能會起起落落,當點數(shù)增加到一定程度時段位上升,而點數(shù)扣到0時則會被降段。因此,為了提高段位,玩家需要盡量多的排在第一位或者第二位,盡量避免被排在第四位。

有趣的是,由于一輪游戲的最終點數(shù)是由多局的累計得分決定,所以高手可能會策略性地輸?shù)粢恍┚?,也就是說,某一局的輸贏并不能直接代表玩家打的好不好,所以不能直接使用每局的得分來作為強化學(xué)習(xí)的獎勵反饋信號。微軟亞洲研究院的研究員們找到了一種其他的方法,會在后文中解釋。

其次,天鳳平臺上每一局游戲的計分規(guī)則都需要根據(jù)贏家手里的牌型來累計計算得分,牌型有非常多的可能,例如清一色、混一色、門清等等,不同牌型的得分會相差很大。這樣的計分規(guī)則比象棋、圍棋等游戲要復(fù)雜得多。麻將高手需要謹慎選擇牌型,以在胡牌的概率和胡牌的得分上進行平衡,從而取得第一、二位或者擺脫第四位。

挑戰(zhàn)二:從博弈論的角度來看,麻將是多人非完美信息博弈。麻將一共有136張牌,每一位玩家只能看到很少的牌,包括自己的13張手牌和所有人打出來的牌,更多的牌是看不到,包括另外三位玩家的手牌以及墻牌。面對如此多的隱藏未知信息,麻將玩家很難僅根據(jù)自己的手牌做出一個很好的決策。

挑戰(zhàn)三:麻將除了計分規(guī)則復(fù)雜之外,打法也比較復(fù)雜,需要考慮多種決策類型,例如,除了正常的摸牌、打牌之外,還要經(jīng)常決定是否吃牌、碰牌、杠牌、立直以及是否胡牌。任意一位玩家的吃碰杠以及胡牌都會改變摸牌的順序,因此研究員們很難為麻將構(gòu)建一棵規(guī)則的博弈樹(game tree)。即使去構(gòu)建一棵博弈樹,那么這棵博弈樹也會非常龐大,并且有不計其數(shù)的分支,導(dǎo)致以前一些很好的方法,如蒙特卡洛樹搜索(MCTS)、蒙特卡洛反事實遺憾最小化(MCCFR)算法等都無法直接被應(yīng)用。

Suphx的決策流程及模型架構(gòu)

Suphx的打牌策略包含5個需要訓(xùn)練的模型,以應(yīng)對麻將復(fù)雜的決策類型——丟牌模型、立直模型、吃牌模型、碰牌模型以及杠牌模型,5個模型都基于深度殘差卷積神經(jīng)網(wǎng)絡(luò)。另外Suphx還有一個基于規(guī)則的贏牌模型決定在可以贏牌的時候要不要贏牌。

圖1:Suphx決策流程

這些模型的輸入包含了兩大類信息:

1. 當前可觀測的信息,例如玩家自己的手牌、公開牌(包括丟出來的牌、碰的牌、明杠的牌),以及每個玩家的累計得分、座位、段位等等。

2. 對將來進行預(yù)測的信息,比如打某張牌還需要拿幾張牌才能胡牌、能夠贏多少分、胡牌概率有多大,等等。

Suphx訓(xùn)練算法

Suphx訓(xùn)練過程分為三個主要步驟:首先使用來自天鳳平臺的高手打牌記錄,通過監(jiān)督學(xué)習(xí)來訓(xùn)練這5個模型,然后使用自我博弈強化學(xué)習(xí)以及由微軟亞洲研究院Suphx研發(fā)團隊設(shè)計的兩個技術(shù)解決麻將本身的獨特性所帶來的挑戰(zhàn),最后在實戰(zhàn)時采用在線策略自適應(yīng)算法來進一步提高Suphx的能力。

分布式強化學(xué)習(xí)

Suphx的整個訓(xùn)練過程十分復(fù)雜,需要多GPU和多CPU協(xié)同,因此Suphx研發(fā)團隊采用了分布式架構(gòu)(圖2所示)。架構(gòu)包括一個參數(shù)服務(wù)器以及多個自我博弈節(jié)點,每個節(jié)點里包含了多個麻將的模擬器以及多個推理引擎來進行多個策略之間的博弈(即打麻將)。每個自我博弈節(jié)點定期將打牌的記錄發(fā)送給參數(shù)服務(wù)器,參數(shù)服務(wù)器會利用這些打牌記錄來訓(xùn)練提高當前策略。每過一段時間,自我博弈節(jié)點就會從參數(shù)服務(wù)器拿回最新的策略,用來進行下一階段的自我博弈。

圖2:分布式訓(xùn)練

全局獎勵預(yù)測

麻將的計分規(guī)則很復(fù)雜——玩家每局有得分,一輪游戲根據(jù)多局累計分數(shù)的排名計算點數(shù)。如何讓麻將AI知道自己打得好不好呢?

無論是每局得分還是一輪游戲的最終點數(shù),都不適合用來做強化學(xué)習(xí)訓(xùn)練的反饋信號。以最終獎勵點數(shù)作為反饋信號不能區(qū)分打得好的局和打得差的局,因此研究員們需要對每局都單獨提供強化學(xué)習(xí)的訓(xùn)練信號。但單獨計算每局分數(shù)也未必能反映出一局打的好壞,因為頂級玩家會策略性輸牌,比如,在一輪游戲的最后一兩局中,累計得分排位第一的選手在累計分數(shù)領(lǐng)先較大的情況下,會有意識地讓排位第三或第四的選手贏下這一局,不讓排第二位的玩家贏,這樣就可以穩(wěn)穩(wěn)地保住總排位第一。也就是說,某一局得分為負不一定意味著策略不好。

因此,為了給強化學(xué)習(xí)訓(xùn)練提供有效的信號,需要將最終的游戲獎勵適當?shù)貧w因到每一輪的游戲中。Suphx研發(fā)團隊引入了一個全局獎勵預(yù)測器,它可以基于本局的信息和之前的所有局信息預(yù)測出最終的游戲獎勵。在Suphx中,獎勵預(yù)測器是一個遞歸神經(jīng)網(wǎng)絡(luò) (GRU),訓(xùn)練數(shù)據(jù)來自于高手玩家在天鳳平臺的歷史記錄。預(yù)測器訓(xùn)練好后,對于自我博弈生成的游戲,Suphx研發(fā)團隊用當前局預(yù)測的最終獎勵和上一局預(yù)測的最終獎勵之間的差值作為該局強化學(xué)習(xí)訓(xùn)練的反饋信號。

先知教練

麻將中存在著豐富的隱藏信息,如其他玩家的手牌、墻牌等,如果不能獲得這些隱藏信息,那么就很難確保某個動作(例如丟三萬)的好壞,這也是麻將很難的一個根本原因。在這種情況下,雖然Suphx可以通過強化學(xué)習(xí)來提高策略,但學(xué)習(xí)速度會非常慢。

為了加快強化學(xué)習(xí)訓(xùn)練的速度,Suphx研發(fā)團隊引入了一個“先知”,它可以看到所有的信息,包括(1)玩家自己的私有手牌,(2)所有玩家的公開牌,(3)其他公共信息, (4)其他三個玩家的私有手牌,(5)墻牌。只有(1)(2)和(3)是正常的玩家可以獲得的,而(4)和(5)是只有“先知”才能獲得的額外的"完美"信息。

圖3:左邊為正常可觀測信息,右邊為完全信息(包括對手手牌墻牌這些“完美”信息)

有了這些“不公平”的完美信息,“先知”在經(jīng)過強化學(xué)習(xí)訓(xùn)練后,很容易成為麻將超級高手,安定段位也很容易就可以超過20段。如何利用“先知”來引導(dǎo)和加速AI的訓(xùn)練呢?實驗表明,簡單的知識萃?。╧nowledge distillation)或者模仿學(xué)習(xí)(imitation learning)并不能很好地把“先知”的“超能力”轉(zhuǎn)移到AI系統(tǒng)上——對于一個只能獲取有限信息的正常AI來說,它很難模仿一個訓(xùn)練有素的“先知”的行為,因為“先知”的能力太強,普通AI無法理解。比如,“先知”看到了其他玩家的手牌,知道每個玩家胡什么牌,所以它可以打出絕對安全的牌,避免點炮,然而正常的AI并沒有這些信息,它可能完全不能理解為什么“先知”會打這張牌,所以也不能學(xué)到這種行為。因此,研究人員需要一個更聰明的方法,用“先知”來引導(dǎo)正常AI的訓(xùn)練。

在Suphx中,Suphx研發(fā)團隊首先使用包括完美信息在內(nèi)的所有特征來對“先知”進行強化學(xué)習(xí)訓(xùn)練,在這一步中控制“先知”的學(xué)習(xí)進度,不能讓其過于強大。然后,通過對完美特征增加mask逐漸使“先知”最終過渡到正常AI。接著,繼續(xù)訓(xùn)練正常AI并進行一定數(shù)量的迭代,采用衰減學(xué)習(xí)率和拒絕采樣的技巧來調(diào)整訓(xùn)練過程,讓AI的技術(shù)不斷精進。

參數(shù)化的蒙特卡洛策略自適應(yīng)

對一個麻將高手來說,初始手牌不同時,打牌策略也會有很大的不同。例如,如果初始手牌好,他會積極進攻,以獲得更多的得分;如果初始手牌不好,他會傾向防守,放棄胡牌,以減少損失。這與此前的圍棋AI和星際爭霸等游戲AI有很大的不同。所以,如果能夠在對戰(zhàn)過程中對線下訓(xùn)練的策略進行調(diào)整,那么就可以得到更強的麻將AI。

蒙特卡洛樹搜索(MCTS)是圍棋等游戲AI中一種成熟的技術(shù),以提高對戰(zhàn)時的勝率。然而遺憾的是,如前所述,麻將的摸牌、打牌順序并不固定,很難建立一個規(guī)則的博弈樹。因此,MCTS不能直接應(yīng)用于麻將AI。在Suphx中,Suphx研發(fā)團隊設(shè)計了一種新的方法,命名為參數(shù)蒙特卡洛策略自適應(yīng)(pMCPA)。

當初始的手牌發(fā)到麻將AI手中時,通過模擬來調(diào)整離線訓(xùn)練好的策略,使其更適應(yīng)這個給定的初始手牌。微軟亞洲研究院的實驗表明,相對麻將隱藏信息集的平均大小10的48+次方倍而言,模擬的次數(shù)不需要很大,pMCPA也并不需要為這一局手牌收集所有可能后續(xù)狀態(tài)的統(tǒng)計數(shù)據(jù)。由于pMCPA是一種參數(shù)化的方法,所以微調(diào)更新后的策略可以幫助研究團隊將從有限的模擬中獲得的知識推廣泛化到未見過的狀態(tài)。

天鳳平臺在線實戰(zhàn)

在經(jīng)歷這樣的訓(xùn)練后,Suphx就可以“出道”了。Suphx已在天鳳平臺特上房和其他玩家對戰(zhàn)了5000多場,達到了該房間目前的最高段位10段,其安定段位達到了8.7段(如圖4所示),超過了平臺上另外兩個知名AI以及頂級人類選手的平均水平。

圖4:天鳳平臺“特上房”安定段位對比

在實戰(zhàn)中Suphx非常擅長防守,它的4位率和點炮率(deal-in rate)都尤其低(如圖5)。此外,Suphx“牌風(fēng)”比較鮮明,也另辟蹊徑地創(chuàng)造了許多新的策略和打法,例如它特別擅長保留安全牌,傾向于胡混一色等等。圖6展示了Suphx在天鳳平臺實戰(zhàn)時保留安全牌的一個例子。當前時刻Suphx(南家)需要丟牌,人類玩家在這時通常會丟北風(fēng),但是Suphx丟掉一張7條,這在人類玩家看起來會覺得很不尋常,因為7條是一張好牌,丟掉7條會使得胡牌的進度變慢。Suphx之所以丟掉7條而留住北風(fēng),是因為北風(fēng)是一張安全牌,這樣在未來某一時刻,如果有人突然立直要胡牌了,Suphx可以打出北風(fēng)而不點炮,這樣后面還有機會胡牌;如果它在前面已經(jīng)把北風(fēng)丟掉,那這個時候為了打出一張安全牌就不得不拆掉手里的好牌,從而大大降低了胡牌的可能。

圖5:Suphx在對戰(zhàn)中的一些統(tǒng)計數(shù)據(jù),包括1/2/3/4位率、胡牌率以及點炮率(注:上表格中的Bakuuchi即東京大學(xué)/HEROZ研發(fā)的麻將AI“爆打”)

圖6:Suphx(南邊位置)保留安全牌北風(fēng)

許多觀看 Suphx比賽的玩家表示在觀戰(zhàn)過程中受到了啟發(fā),甚至有麻將愛好者將Suphx稱作“麻將教科書”、“Suphx老師”,通過學(xué)習(xí)Suphx的打法來提升和豐富自己的麻將技巧。

“我已經(jīng)看了300多場 Suphx的比賽,我甚至不再觀看人類玩家的比賽了。我從Suphx身上學(xué)到了很多新技術(shù),它們對于我的三人麻將打法有著非常大的啟發(fā),”麻將選手太くないお在社交媒體上說,他是第一位在四人麻將和三人麻將中均取得天鳳位的頂級玩家。

據(jù)介紹,Suphx在天鳳平臺上取得的成績只是一個開始,未來,微軟亞洲研究院將為Suphx引入更多新技術(shù),繼續(xù)推動麻將AI和不完美信息游戲研究的前沿。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉