会议专题

平均准则TD策略迭代算法

该文考虑平均堆则模型马氏决策过程的一种改进的策略迭算法—即时差分(TD)策略迭代法。通过引入所谓即时差分的概念,将传统的策略迭代算法的策略赋值步改进为近似策略赋值,相当于将值迭代算法与策略迭代算法进行了折中。最后对所给的TD策略迭代算法的收敛性进行了讨论。

马氏决策过程 平均准则 即时差分

胡光华

云南大学数学系(云南昆明)

国内会议

中国运筹学会第六届学术交流会

长沙

中文

427~434

2001-03-01(万方平台首次上网日期,不代表论文的发表时间)