会议专题

基于深度强化学习的时间协同制导方法及仿真

  在讨论强化学习和深度强化学习基本原理的基础上,将协同工作的多枚导弹作为多智能体。分析了一种典型的时间协同制导算法CPPN,并将其中的主要设计参数作为智能体作用于环境的动作,构造了反映终端脱靶量及协同时间的奖励函数。基于深度强化学习算法MADDPG,建立了一种智能学习的时间协同制导算法。针对静止目标和机动目标,进行了大量仿真实验。结果表明,本文方法是合理、有效的,为研究深度强化学习时间协同制导问题探索了一条可行的技术路径。

深度强化学习 多智能体 时间协同 制导方法

蔡远利 闫明明 刘佳琪

西安交通大学自动化学院,陕西西安,中国,710049 北京长征飞行器研究所,北京,中国,100076

国内会议

第22届中国系统仿真技术及其应用学术年会(CCSSTA2021)

合肥

中文

361-365

2021-07-01(万方平台首次上网日期,不代表论文的发表时间)