在策略激励学习算法的POMDPs实验研究
SARSA(λ)和Q学习算法是两类最重要的激励学习算法。该文结合一些已有算法,提出了一个新的激励学习算法,称为PW-SARSA(λ)算法。通过一系列实验,对部分可观测Markov(POMDP)环境下无记忆策略的确定问题进行了检验。结果表明,在一定条件下,智能体可以不用任何状态估计来确定较好的POMDP无记忆策略。
SARSA(λ)学习 Q学习 决策过程 无记忆策略 激励学习算法
陈焕文 谢丽娟 谢建平
长沙电力学院数学与计算机系(长沙) 长沙交通学院网络中心(长沙)
国内会议
南京
中文
219~223
2000-11-01(万方平台首次上网日期,不代表论文的发表时间)