部分感知马氏决策过程的强化学习方法
强化学习是机器学习研究的重要方向之一,它可以通过和环境交互来学习马尔科夫决策过程(MDP)问题中的最优策略。部分感知马尔科夫决策过程(POMDP)模型引入了隐藏状态,是状态不确定情形下顺序任务的通用理论模型。本文介绍了以强化学习技术为基础解决POMDP的主要方法,包括基本原理、特点以及算法。此外,本文还实现了三种主要算法,并以迷宫问题为实验平台,比较了这些算法的性能。
人工智能 机器学习 强化学习 部分感知 马氏决策
葛屾 王巍巍 高阳 陈世福
南京大学软件新技术国家重点实验室 210093
国内会议
哈尔滨
中文
196-202
2007-11-20(万方平台首次上网日期,不代表论文的发表时间)