会议专题

多人扩展式博弈问题中的虚拟遗憾最小化算法研究

本文对多人扩展式博弈问题中虚拟遗憾最小化算法展开研究.针对该算法基于二人零和博弈的前提假设的应用局限性,提出了将其扩展应用于多人博弈问题的方法.本文给出了虚拟遗憾最小化算法在多人非合作零和博弈条件下的收敛性及收敛的纳什均衡偏移阈值证明.基于一种简化的德州扑克游戏——Pinea pple Poker,利用其三人非合作博弈的性质作为实验平台,提出了虚拟遗憾最小化方法在多人博弈问题中的应用及训练方法.最后,本文通过与Q-Learning和MCTS算法实现系统的比对实验验证了本文的研究成果的有效性.

多人扩展式博弈 虚拟遗憾最小化算法 纳什均衡

张加佳 刘宏 钱涛

北京大学深圳研究生院信息工程学院,广东深圳518055 深圳市逸风网络科技有限公司,广东深圳518055

国内会议

第十二届中国智能机器人大会

哈尔滨

中文

534-539

2017-10-01(万方平台首次上网日期,不代表论文的发表时间)