POMDP中基于内部状态的多agent强化学习
基于部分可观察Markov决策过程(POMDP)的强化学习模型能有效地对动态决策问题进行建模,但精确求解最优策略是PSPACE难题,在直接逼近最优策略的近似求解方法中策略描述的复杂性随着问题规模的增大成指数增加。本文利用agent的内部状态(InternalState)来记忆agent的历史经验值,提出一种基于内部状态POMDP的多agent强化学习模型,该模型可简化策略的描述和提高学习效率。在两个实例上的实验结果表明利用此模型建模求解问题,学习效率和时间空间开销都有改进。
马尔可夫决策过程 强化学习 内部状态 多agent系统
方长胜 王浩 王池社 姚宏亮
合肥工业大学 计算机与信息学院 合肥 230009 巢湖学院 巢湖 238000
国内会议
合肥
中文
437-441
2007-10-01(万方平台首次上网日期,不代表论文的发表时间)