针对机器人觅食任务的强化学习算法及其仿真研究

摘要：

针对传统强化学习算法在执行学习任务时只在完成一系列动作后获得奖赏，不能对每个动作进行奖赏分配，无法满足复杂实时任务的要求。本文提出了过程奖赏Course Reward-CR，关心的是完成任务过程中的每个动作和趋势，实时对其进行奖赏．并提出了一种基于过程奖赏和优先扫除PrioritizedSweeping-PS的强化学习算法PS-CR。借助机器人觅食任务进行了仿真研究，并与Q学习算法、基于过程奖赏的Q学习算法Q-CR和优先扫除算法PS进行了对比．结果表明本文提出的强化学习算法在系统性能和学习速度上都有很大的提高，并能适用于动态环境．

关键词：过程奖赏优先扫除强化学习机器人觅食任务学习算法

作者: 陈宗海段家庆任燚罗杨宇李成荣

作者单位: 中国科学技术大学自动化系，安徽，合肥，230027 中国科学院自功化研究所，北京，100080

会议类型: 国内会议

会议名称: ”2008系统仿真技术及应用学术会议

会议地点: 合肥

会议语种:中文

页码: 252-256

在线出版日期: 2008-07-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

针对机器人觅食任务的强化学习算法及其仿真研究