基于多Agent并行采样和学习经验复用的E3算法
在强化学习领域,E3 (Explicit Explore or Exploit)算法是第一个获得理论证明的解决一般马尔科夫决策过程(MDP)问题的高效率近似最优算法。针对E3 算法所需的收敛时间界限太大,在实际问题中难以有效应用的问题,提出一种基于多Agent 并行采样和学习经验复用的改进算法。该算法在探索阶段,通过多Agent 并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优值函数的方式复用算法的学习经验,提高了算法迭代计算值函数的效率。仿真实验结果表明,所提方法与原始的E3 算法相比,在收敛速度和精度方面都具有很大的提高,与其他两种并行强化学习方法相比也具有很大的性能优势。
强化学习 E3 算法 多Agent 并行采样 学习经验复用
刘全 杨旭东 荆玲 肖飞
苏州大学计算机科学与技术学院,江苏 苏州 215006;吉林大学符号计算与知识工程教育部重点实验室,长春 130012 苏州大学计算机科学与技术学院,江苏 苏州 215006 南京大学计算机科学与技术系,南京210093
国内会议
长春
中文
1-8
2012-08-04(万方平台首次上网日期,不代表论文的发表时间)