会议专题

S(λ):一个基于平均奖赏MDPs的激励学习算法

折扣最优判据是当今激励学习领域广泛使用的判据.本文分析了折扣最优判据存在的问题,对基于折扣最优判据的PW-SARSA(λ)算法进行了扩展,提出了一个新的基于平均奖赏MDPs的无模型激励学习算法S(λ),并对标准SARSA(λ)、PW-SARSA(λ)算法和S(λ)算法的性能进行了比较实验.

激励学习 Markov决策过程 平均奖赏 折扣奖赏 机器学习

陈焕文 谢丽娟 谢建平

长沙电力学院数学与计算机系(湖南长沙) 长沙交通学院网络中心(湖南长沙)

国内会议

2001年中国智能自动化会议

昆明

中文

381-387

2001-08-01(万方平台首次上网日期,不代表论文的发表时间)