一类连续动作空间下的Q-learning
提出一类连续状态与动作空间下的加权Q学习算法,应用改进的增长神经气算法动态构建径向基网络的隐含层,实现状态空间的自适应理解.在基于径向基网络实现的标准Q学习基础上,利用加权Q学习算法用以解决具有连续动作输出的控制问题.小车爬山控制的仿真实例验证了本文所提加权Q学习算法的有效性.
连续状态空间 连续动作空间 加权Q学习 神经气算法 径向基网络
程玉虎 易建强 赵冬斌
中国科学院自动化研究所,复杂系统与智能科学实验室(北京)
国内会议
北京
中文
72-78
2005-03-01(万方平台首次上网日期,不代表论文的发表时间)