会议专题

基于约束MORKOV的强化学习的研究与应用

对Markov决策过程与强化学习进行了研究。针对许多实际问题不仅要求报酬达到最大,同时希望代价(即费用)不要过大的特点,引入约束Markov决策过程,提出一种新的基于约束Markov决策的Q-学习算法。针对煤炭行业生产与安全密切相关的特点,根据具体煤矿工作面采煤机运行控制进行了实验分析,结果证明了方法的有效性。

Markov决策过程 强化学习 煤炭行业 约束MDP模型

赵小虎 王晴晴 赵可可

中国矿业大学信电学院 徐州 221008

国内会议

2009国际信息技与应用论坛

成都

中文

467-470

2009-05-15(万方平台首次上网日期,不代表论文的发表时间)