会议专题

元博弈平衡和多Agent强化学习的MetaQ算法

多Agent强化学习(MARL)是强化学习(RL)在多Agent环境中的推广.其中,NashQ学习算法是一个里程碑式的贡献.然而NashQ存在着3点不足:①Nash平衡的”混合策略”思想在MARL中的意义不明确;②一个博弈的Nash平衡可能不是Pareto最优的;③Nash平衡的计算比较复杂.这3点不足都来源于”Agent是Nash理性的”这一假设.一个称为”MetaQ”的多AgentQ学习算法以元博弈理论为基础,通过改变Agent的理性来避免所有的这些不足.研究证明,MetaQ算法具有很好的理论解释和实验性能。

强化学习 多Agent系统 元博弈 MetaQ算法

王皓 高阳

南京大学软件新技术国家重点实验室,南京,210093

国内会议

第一届Agent理论与应用学术会议

山东烟台

中文

137-141

2006-08-19(万方平台首次上网日期,不代表论文的发表时间)