会议专题

一种二阶TD Error快速Q(λ)算法

  Q(λ)学习算法是将值迭代与随机逼近的思想相结合,一种基于模型无关的多步离策略强化学习算法。针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题,从TD Error 的角度出发,给出n 阶TD Error 的概念,并将n 阶TD Error用于经典的Q(λ)学习算法,提出一种二阶TD Error 快速Q(λ)学习算法——SOE ? FQ(λ)。该算法利用二阶TD Error修正Q 值函数,并通过资格迹将TD Error 传播至整个状态动作空间,加快算法的收敛速度。在此基础之上,分析算法的收敛性及收敛效率,在仅考虑一步更新的情况下,算法所要执行的迭代次数T 主要指数依赖于1 11?γ ε 、。将SOE ? FQ(λ)算法用于Random Walk 和Mountain Car 问题,实验结果表明,算法具有较快的收敛速度和较好的收敛精度。

强化学习 马尔科夫决策过程 二阶TD Error 资格迹 Q(λ)算法

傅启明 刘全 孙洪坤 高龙 李瑾 王辉

苏州大学计算机科学与技术学院 江苏苏州 215006 苏州大学计算机科学与技术学院 江苏苏州 215006;吉林大学符号计算与知识工程教育部重点实验室 长春 130012

国内会议

第四届中国Agent理论与应用学术会议

长春

中文

1-13

2012-08-04(万方平台首次上网日期,不代表论文的发表时间)