基于内省推理的多agent在线学习新方法

多agent环境下agent的最优策略取决于其他agent的策略,这使得学习目标不易被清晰的定义.基于客观观察行为建模的方法并不保证学习策略最终收敛.本文提出了基于内省推理方法的多智能体环境下智能体高效在线学习方法,将基于对手模型的客观观察行为与基于换位思考推理的主观意图推测结合起来.仿真结果证实了算法在电子市场定价中的有效性.
多智能体 在线学习 内省推理 学习策略
韩伟 王成道 陈优广
华东师范大学计算机系,上海,20062
国内会议
深圳
中文
115-120
2005-04-16(万方平台首次上网日期,不代表论文的发表时间)