基于约束MORKOV的强化学习的研究与应用

摘要：

对Markov决策过程与强化学习进行了研究。针对许多实际问题不仅要求报酬达到最大，同时希望代价(即费用)不要过大的特点，引入约束Markov决策过程，提出一种新的基于约束Markov决策的Q-学习算法。针对煤炭行业生产与安全密切相关的特点，根据具体煤矿工作面采煤机运行控制进行了实验分析，结果证明了方法的有效性。

关键词： Markov决策过程强化学习煤炭行业约束MDP模型

作者: 赵小虎王晴晴赵可可

作者单位: 中国矿业大学信电学院徐州 221008

会议类型: 国内会议

会议名称: 2009国际信息技与应用论坛

会议地点: 成都

会议语种:中文

页码: 467-470

在线出版日期: 2009-05-15（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于约束MORKOV的强化学习的研究与应用