会议专题

多回报模糊强化学习算法的研究及实现

本文提出了一种多回报模糊强化学习算法.算法采用模糊逻辑对状态空间进行泛化,能够实现连续状态空间和离散动作序列的学习.通过学习得到一个完整的规则库.这个规则库为Agent的行为选择提供了先验知识,通过这个规则库可以实现动态规划.算法从不同角度考虑动作的回报值,实现了Agent短期利益和长期回报间的平衡.我们在RoboCup环境中验证了这个算法,成功的解决了截球决策问题.

强化学习算法 模糊集 多回报 RoboCup截球 离散动作序列 规则库 Agent

高建清 王浩 方宝富 于磊 徐栋哲

合肥工业大学计算机与信息学院,230009 中国科学技术大学力学与机械工程系,230029

国内会议

第十一届中国人工智能学术年会

武汉

中文

442-446

2005-09-20(万方平台首次上网日期,不代表论文的发表时间)