会议专题

一类连续动作空间下的Q-learning

提出一类连续状态与动作空间下的加权Q学习算法,应用改进的增长神经气算法动态构建径向基网络的隐含层,实现状态空间的自适应理解.在基于径向基网络实现的标准Q学习基础上,利用加权Q学习算法用以解决具有连续动作输出的控制问题.小车爬山控制的仿真实例验证了本文所提加权Q学习算法的有效性.

连续状态空间 连续动作空间 加权Q学习 神经气算法 径向基网络

程玉虎 易建强 赵冬斌

中国科学院自动化研究所,复杂系统与智能科学实验室(北京)

国内会议

中国自动化与信息技术研讨会暨2004年学术年会

北京

中文

72-78

2005-03-01(万方平台首次上网日期,不代表论文的发表时间)