平均准则TD策略迭代算法

摘要：

该文考虑平均堆则模型马氏决策过程的一种改进的策略迭算法—即时差分(TD)策略迭代法。通过引入所谓即时差分的概念，将传统的策略迭代算法的策略赋值步改进为近似策略赋值，相当于将值迭代算法与策略迭代算法进行了折中。最后对所给的TD策略迭代算法的收敛性进行了讨论。

关键词：马氏决策过程平均准则即时差分

作者: 胡光华

作者单位: 云南大学数学系(云南昆明)

会议类型: 国内会议

会议地点: 长沙

会议语种:中文

页码: 427～434

在线出版日期: 2001-03-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题