一种二阶TD Error快速Q(λ)算法

摘要：

　　Q(λ)学习算法是将值迭代与随机逼近的思想相结合，一种基于模型无关的多步离策略强化学习算法。针对经典的Q(λ)学习算法执行效率低、收敛速度慢的问题，从TD Error 的角度出发，给出n 阶TD Error 的概念，并将n 阶TD Error用于经典的Q(λ)学习算法，提出一种二阶TD Error 快速Q(λ)学习算法——SOE ？ FQ(λ)。该算法利用二阶TD Error修正Q 值函数，并通过资格迹将TD Error 传播至整个状态动作空间，加快算法的收敛速度。在此基础之上，分析算法的收敛性及收敛效率，在仅考虑一步更新的情况下，算法所要执行的迭代次数T 主要指数依赖于1 11？γ ε 、。将SOE ？ FQ(λ)算法用于Random Walk 和Mountain Car 问题，实验结果表明，算法具有较快的收敛速度和较好的收敛精度。

关键词：强化学习马尔科夫决策过程二阶TD Error 资格迹 Q(λ)算法

作者: 傅启明刘全孙洪坤高龙李瑾王辉

作者单位: 苏州大学计算机科学与技术学院江苏苏州 215006 苏州大学计算机科学与技术学院江苏苏州 215006;吉林大学符号计算与知识工程教育部重点实验室长春 130012

会议类型: 国内会议

会议名称: 第四届中国Agent理论与应用学术会议

会议地点: 长春

会议语种:中文

页码: 1-13

在线出版日期: 2012-08-04（万方平台首次上网日期，不代表论文的发表时间）

会议专题

一种二阶TD Error快速Q(λ)算法