基于AMDP-Q的自主车辆行驶策略求解
结合增广马尔可夫决策过程(AMDP),蒙特卡罗一部分可观察马尔可夫决策过程(MC—POMDP)以及Q学习,提出了AMDP—Q学习(AMDP—Q)算法。算法的主要思想是:首先用一个低维充分统计量表示原信念状态空间,通常使用最大似然状态和信念状态的信息熵作为充分统计量。其组成的空间称为增广状态空间;然后应用参考状态集离散化该空间,并利用Q学习和Shepard插值得到连续状态的转移函数和回报函数;最后使用具有知识探索性质的e-贪婪策略进行策略选择。实验结果表明:AMDP—Q比MC-POMDP收敛速度更快。
自主车辆 行驶策略 马尔可夫决策过程算法 Q学习算法 连续状态空间
夏林锋 钱徽 陈沈轶 金卓军
浙江大学计算机科学与技术学院,浙江杭州 310027
国内会议
深圳
中文
370-373
2011-11-11(万方平台首次上网日期,不代表论文的发表时间)