在策略激励学习算法的POMDPs实验研究

摘要：

SARSA(λ)和Q学习算法是两类最重要的激励学习算法。该文结合一些已有算法，提出了一个新的激励学习算法，称为PW-SARSA(λ)算法。通过一系列实验，对部分可观测Markov(POMDP)环境下无记忆策略的确定问题进行了检验。结果表明，在一定条件下，智能体可以不用任何状态估计来确定较好的POMDP无记忆策略。

关键词： SARSA(λ)学习 Q学习决策过程无记忆策略激励学习算法

作者: 陈焕文谢丽娟谢建平

作者单位: 长沙电力学院数学与计算机系(长沙) 长沙交通学院网络中心(长沙)

会议类型: 国内会议

会议名称: 第7届中国机器学习学术会议

会议地点: 南京

会议语种:中文

页码: 219～223

在线出版日期: 2000-11-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

在策略激励学习算法的POMDPs实验研究