基于预测编码的样本自适应行动策略规划
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于预测编码的样本自适应行动策略规划
梁星星;马扬;冯旸赫;张驭龙;张龙飞;廖世江;刘忠
【期刊名称】《软件学报》
【年(卷),期】2022(33)4
【摘要】军事行动、反恐突击等强对抗场景中,实时信息的碎片化、不确定性对制定具有博弈优势的弹性行动方案提出了更高的要求,研究具有自学习能力的智能行动策略规划方法已成为编队级强对抗任务的核心问题.针对复杂场景下行动策略规划状态表征困难、数据效率低下等问题,提出了基于预测编码的样本自适应行动策略规划方法.利用自编码模型压缩表示任务的原始状态空间,通过任务环境的状态转移样本,在低维度状态空间中使用混合密度分布网络对任务环境的动态模型进行学习,获得了表征环境动态性的预测编码;基于预测编码展开行动策略规划研究,利用时间差分敏感的样本自适应方法对状态评估值函数进行预测,改善了数据效率,加速了算法收敛.为了验证算法的有效性,基于全国兵棋推演大赛机机挑战赛的想定,构建了包含大赛获奖选手操作策略的5种规则智能体,利用消融实验验证编码方式、样本采样策略等不同因子组合对算法的影响,并使用Elo评分机制对各个智能体进行排序;实验结果表明:基于预测编码的样本自适应算法——MDN-AF得分排序最高,对战平均胜率为71%,其中大比分获胜局占比为67.6%,而且学习到了自主波次划分、补充侦察策略、“蛇形”打击策略、轰炸机靠后突袭等4种长时行动策略.该算法框架应用于2020年全国兵棋推演大赛的智能体开发,并获得了全国一等奖.
【总页数】24页(P1477-1500)
【作者】梁星星;马扬;冯旸赫;张驭龙;张龙飞;廖世江;刘忠
【作者单位】国防科技大学系统工程学院;31002部队
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于LMS的图像自适应预测编码
2.基于联想记忆的彩色图像自适应预测编码方法
3.空时自适应处理中基于知识的训练样本选择策略
4.基于自适应样本选择策略的两阶段CEBoosting方法
5.非平衡样本集下公私合作(PPP)可融资性评价——基于改进边界样本自适应算法
因版权原因,仅展示原文概要,查看原文内容请购买。