基于Q学习的劣化系统检测与维修问题求解
针对离散状态连续时间下的劣化系统检测与维修问题,本文建立了半马尔科夫决策过程(Semi-Markov Decision Process,SMDP)模型。由于状态的转移概率难以求解,以及为了避免结果陷入局部最优值,本文使用Q学习与模拟退火(Simulated Annealing,SA)相结合的算法对该问题进行求解,得到系统最佳的维修策略。最后通过仿真分别得出平均和折扣准则下的优化结果,表明了方法的可行性。另外还通过仿真数据讨论了检测间隔的设定对最优平均代价的影响,其结果与实际情况相符合。
离散状态连续时间 劣化系统 半马尔科夫决策过程 Q学习 模拟退火 维修策略
郭一明 周雷 唐昊 史久根
合肥工业大学计算机与信息学院,合肥230009 合肥工业大学计算机与信息学院,合肥230009 安全关键工业测控技术教育部工程研究中心,合肥230009
国内会议
北京
中文
4088-4092
2010-07-29(万方平台首次上网日期,不代表论文的发表时间)