关于马氏决策中概率准则的综述
本文对马尔可夫决策过程(Markov Decision Process,简记为:MDP)中概率准则的有关模型进行了综述.概率准则是实际问题中应用的比较广泛的一个重要准则.首先我们给出了MDP的一般构成.并介绍了一些经典的MDP模型,即以期望值为优化目标的期望模型,如有限阶段模型、折扣模型和平均模型等.其次我们介绍了MDP中关于概率准则模型的有关性质和有效算法.最后提出概率准则模型今后可能的研究方向.
马尔可夫决策过程 最优策略 目标值 概率准则
姜玉双
北京大学数学系
国内会议
大庆
中文
195-204
2003-08-16(万方平台首次上网日期,不代表论文的发表时间)