会议专题

即时差分策略迭代算法

本文考虑平均准则模型马氏决策过程的一种改进的策略迭代算法:即时差分(TD:Temporal-Differences)策略迭代法.通过引入所谓即时差分的概念,将传统的策略迭代算法的策略赋值步改进为近似策略赋值,相当于将值迭代算法与策略迭代算法进行了折中.最后对所给的TD策略迭代算法的收敛性进行了讨论.

马氏决策过程 平均准则 即时差分 迭代算法

胡光华 殷英 李世云

云南大学数学系(云南昆明) 文山师专(云南文山)

国内会议

中国运筹学会第七届学术交流会

青岛

中文

919-925

2004-10-01(万方平台首次上网日期,不代表论文的发表时间)