针对机器人觅食任务的强化学习算法及其仿真研究
针对传统强化学习算法在执行学习任务时只在完成一系列动作后获得奖赏,不能对每个动作进行奖赏分配,无法满足复杂实时任务的要求。本文提出了过程奖赏Course Reward-CR,关心的是完成任务过程中的每个动作和趋势,实时对其进行奖赏.并提出了一种基于过程奖赏和优先扫除PrioritizedSweeping-PS的强化学习算法PS-CR。借助机器人觅食任务进行了仿真研究,并与Q学习算法、基于过程奖赏的Q学习算法Q-CR和优先扫除算法PS进行了对比.结果表明本文提出的强化学习算法在系统性能和学习速度上都有很大的提高,并能适用于动态环境.
过程奖赏 优先扫除 强化学习 机器人 觅食任务 学习算法
陈宗海 段家庆 任燚 罗杨宇 李成荣
中国科学技术大学自动化系,安徽,合肥,230027 中国科学院自功化研究所,北京,100080
国内会议
合肥
中文
252-256
2008-07-01(万方平台首次上网日期,不代表论文的发表时间)