基于强化学习的无人体系架构生成技术

摘要：

　　针对无人体系动态任务场景下架构自组织及功能涌现等关键问题，基于体系架构是受环境不断反馈的体系要素关系建立并调整的认识，提出基于强化学习的体系架构生成技术。首先，构建无人体系智能体，将其架构映射为智能体的动作空间，架构生成及演化问题即智能体的马尔科夫决策过程；然后，基于Actor-Critic基础模型构建基于强化学习的决策基本模型；最后针对未知任务场景下体系架构生成能力需求，设计智能体动作在线更新机制。该方法将体系复杂系统的特性与强化学习技术相结合，与传统体系架构人工设计等方法相比具有潜在优越性，可避免人工经验和训练样本规模不足带来的问题。

关键词：强化学习复杂无人体系架构生成渐进更新

作者: 孙科武丁季时雨曲徽魏琦王智斌冯杰鸿

作者单位: 中国航天科工二院未来实验室,北京100854

会议类型: 国内会议

会议名称: 第三届体系工程学术会议

会议地点: 珠海

会议语种:中文

页码: 23-29

在线出版日期: 2021-04-01（万方平台首次上网日期，不代表论文的发表时间）

会议专题

基于强化学习的无人体系架构生成技术