会议专题

基于角色跟踪的再励学习算法

针对现有再励学习策略在群体对抗环境中,收敛速度慢,无法动态改变学习步伐,难以准确收敛至最优点的问题,本文提出了一种基于角色跟踪的再励学习算法。该算法借助MAS对抗系统中Agent角色异构特性,判断对手角色与动作的匹配度,利用此匹配度动态调节马尔可夫决策学习步伐,从而达到快速收敛目的。实验结果表明该算法收敛速度快,性能好。

再励学习算法 马尔可夫决策 角色跟踪

陈箭锋 张志涌

南京邮电大学自动化学院,南京 210003

国内会议

2008江苏省自动化学会学术年会

南京

中文

198-202

2008-11-01(万方平台首次上网日期,不代表论文的发表时间)