一类连续动作空间下的Q-learning

摘要：

提出一类连续状态与动作空间下的加权Q学习算法,应用改进的增长神经气算法动态构建径向基网络的隐含层,实现状态空间的自适应理解.在基于径向基网络实现的标准Q学习基础上,利用加权Q学习算法用以解决具有连续动作输出的控制问题.小车爬山控制的仿真实例验证了本文所提加权Q学习算法的有效性.

关键词：连续状态空间连续动作空间加权Q学习神经气算法径向基网络

作者: 程玉虎易建强赵冬斌

作者单位: 中国科学院自动化研究所,复杂系统与智能科学实验室(北京)

会议类型: 国内会议

会议地点: 北京

会议语种:中文

页码: 72-78

在线出版日期: 2005-03-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题