這一次,AI 又擊敗了人類。
由華為云人工智能領(lǐng)域 CTO 戴宗宏、北京大學人工智能研究院助理教授楊耀東領(lǐng)導(dǎo)的研究團隊,開發(fā)了一種能夠在象棋對局中以 99.41% 勝率碾壓人類對手的算法——JiangJun(音譯為“將軍”)。
相關(guān)研究論文以“JiangJun: Mastering Xiangqi by Tackling Non-Transitivity in Two-Player Zero-Sum Games”為題,已發(fā)表在預(yù)印本網(wǎng)站 arXiv 上。
將人類玩家作為對手,不斷試錯、迭代,是當前基于強化學習的 AI 智能體的普遍進化方式。近年來,考慮到現(xiàn)實場景中通常會同時存在多個智能體,研究人員將目光由單智能體領(lǐng)域延伸到了多智能體。
事實上,多智能體強化學習在多種游戲領(lǐng)域中也確實取得了顯著的成功,在捉迷藏(Steam 的一款游戲)、圍棋、星際爭霸II、刀塔2 和軍棋等游戲中已經(jīng)得到印證。
然而,像 AlphaZero 和 AlphaGo 這樣專注于對手近期表現(xiàn)進行訓(xùn)練的算法,在非傳遞性結(jié)構(gòu)的博弈中可能無法穩(wěn)定地獲得勝利或達到理想的狀態(tài)。盡管這個問題在不完全信息博弈中得到了深入研究,但在完全信息博弈中的研究相對較少。
完全信息博弈:每一位參與者都擁有所有其他參與者的特征、策略及得益函數(shù)等方面的準確信息的博弈,比如象棋。
不完全信息博弈:至少有一名參與者對于以上內(nèi)容不完全了解,如西洋陸軍棋。
目前,克服完全信息博弈中的非傳遞性問題仍然是一個未解決的研究問題。近期的研究重點集中在采用策略空間響應(yīng)預(yù)言者(PSRO)算法來尋找納什均衡,但是這些方法在完全信息博弈中尚未得到探究。
象棋的易接近性使其成為探索棋盤游戲和非傳遞性幾何格局的絕佳對象。該研究深入探討了象棋的復(fù)雜幾何特性,利用超過 10000 場人類游戲?qū)值拇笠?guī)模數(shù)據(jù)集,揭示了象棋在傳遞性中間區(qū)域的顯著非傳遞性。
為了解決非傳遞性問題,研究人員提出了 JiangJun 算法,與 AlphaZero 的自我對弈策略不同,該算法利用納什響應(yīng)來選擇對手。
JiangJun 算法包括兩個基本模塊:MCTS 演算器(MCTS Actor)和人口生成器(Populationer)。這些組件共同利用蒙特卡洛樹搜索(MCTS)技術(shù)在玩家群體內(nèi)趨近納什均衡。
JiangJun 算法的效力在一系列指標中得到了全面評估。研究人員提出了一種訓(xùn)練框架,該框架有效地利用了華為云 ModelArt 平臺上高達 90 個 V100 GPU 的計算能力,將 JiangJun 算法訓(xùn)練至大師級水平。
多重指標,包括相對人口表現(xiàn)、納什分布可視化以及主要兩個嵌入維度的低維游戲景觀可視化,共同證實了 JiangJun 算法在解決象棋非傳遞性問題方面的熟練程度。
另外,JiangJun 算法在勝率上顯著超過其當代算法,與標準的 AlphaZero 象棋和行為克隆象棋相比,其勝率分別超過 85% 和 96.40%。在可剝削性評估中,JiangJun 算法(近似最佳響應(yīng)的勝率為8.41%)與標準的 AlphaZero 象棋算法(25.53%)相比,明顯更接近最優(yōu)策略。
此外,研究人員在微信平臺上設(shè)計了一個象棋小程序,在六個月的時間內(nèi),匯總了超過 7000 局 JiangJun 算法與人類對手之間的對局記錄。據(jù)對局數(shù)據(jù)顯示,JiangJun 算法以驚人的 99.41% 勝率擊敗人類對手。
除了接近 100% 的驚人勝率外,各種殘局的案例研究顯示,JiangJun 算法在靈活應(yīng)對象棋殘局復(fù)雜性方面也有很強的能力。
JiangJun 算法的問世,標志著 AI 在象棋領(lǐng)域取得了一次令人驚嘆的成就。通過解決完全信息博弈中的非傳遞性問題,研究團隊成功地引入了納什響應(yīng)和蒙特卡洛樹搜索技術(shù),為象棋這一博弈領(lǐng)域帶來了全新的思維方式。這個算法不僅實現(xiàn)了驚人的勝率,更彰顯了 AI 在處理復(fù)雜、不確定性問題上的強大能力。
參考鏈接:
https://arxiv.org/abs/2308.04719
https://openreview.net/forum?id=MMsyqXIJuk
https://sites.google.com/view/jiangjun-site/
作者:Hazel Yan