一种部分可感知系统的增强学习方法
对部分可感知系统的研究一直是增强学习领域的重点问题.针对agent知道自己的绝对位置,但不知感知范围之外的环境的情况,本文提出了”感知+位置”方法,不试图直接找出真实状态或者状态分布,而是以感知结合位置表示状态,以最大化感知价值函数和位置价值函数的加权和为目的进行策略选择,建立从位置-感知对到行为的映射,既避免了Memoryless方法无法准确区分状态的缺陷,又没有状态预测法的庞大计算.并以实例证明了方法在某些环境下的有效性.
学习机理论 可感知系统 人工智能 计算机数学
汤俏 赵凯
中国科学院自动化研究所复杂系统与智能科学实验室(北京)
国内会议
舟山
中文
162-165
2004-10-01(万方平台首次上网日期,不代表论文的发表时间)