基于角色跟踪的再励学习算法
针对现有再励学习策略在群体对抗环境中,收敛速度慢,无法动态改变学习步伐,难以准确收敛至最优点的问题,本文提出了一种基于角色跟踪的再励学习算法。该算法借助MAS对抗系统中Agent角色异构特性,判断对手角色与动作的匹配度,利用此匹配度动态调节马尔可夫决策学习步伐,从而达到快速收敛目的。实验结果表明该算法收敛速度快,性能好。
再励学习算法 马尔可夫决策 角色跟踪
陈箭锋 张志涌
南京邮电大学自动化学院,南京 210003
国内会议
南京
中文
198-202
2008-11-01(万方平台首次上网日期,不代表论文的发表时间)