基于约束MORKOV的强化学习的研究与应用
对Markov决策过程与强化学习进行了研究。针对许多实际问题不仅要求报酬达到最大,同时希望代价(即费用)不要过大的特点,引入约束Markov决策过程,提出一种新的基于约束Markov决策的Q-学习算法。针对煤炭行业生产与安全密切相关的特点,根据具体煤矿工作面采煤机运行控制进行了实验分析,结果证明了方法的有效性。
Markov决策过程 强化学习 煤炭行业 约束MDP模型
赵小虎 王晴晴 赵可可
中国矿业大学信电学院 徐州 221008
国内会议
成都
中文
467-470
2009-05-15(万方平台首次上网日期,不代表论文的发表时间)