会议专题

多Agent系统连续时间Option算法

传统用于解决多Agent系统的分层强化学习(Hierachical Reinforcement Learning,HRL),基本上是建立在离散时间多Agent半马尔科夫决策过程(Discrete Time Multi-Agent Semi-Markov Decision Processes,DT-MSMDP)和折扣准则基础上,无法解决连续时间多Agent无穷任务问题。因此本文在连续时间多Agent半马尔科夫决策过程(Continue Time Multi-Agent Semi-Markov Decision Processes,CT-MSMDP)框架下,结合现有的Option算法思想,给出一种在上层采用Agent之间进行宏行动交互,并适用于平均或折扣性能准则的多Agent连续时间Option分层强化学习模型和学习优化算法,用于解决连续时间多Agent无穷任务问题。最后通过以多Agent垃圾收集系统为仿真实例,说明这种分层强化学习优化算法与上层采用联合状态联合宏行动的多Agent连续时间Option算法相比,具有优化精度高、优化速度快和节约存储空间的优势。

连续时间 多Agent系统 半马尔科夫决策过程 分层强化学习 Option算法

张晓艳 唐昊 韩江洪 周雷

合肥工业大学计算机与信息学院,合肥230009 合肥工业大学计算机与信息学院,合肥230009 安全关键工业测控技术教育部工程研究中心,合肥230009

国内会议

第29届中国控制会议

北京

中文

1517-1522

2010-07-29(万方平台首次上网日期,不代表论文的发表时间)