Ernest 2016 (部分翻译)模拟空战任务下无人作战飞机基于人工智能的遗传模糊控制

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

模拟空战任务下无人作战飞机基于人工智能的遗传模糊控制问题陈述

本文分析的任务特征为两个蓝色战士对抗四个红色战士。红色的飞机开始在一个保卫的海岸线,蓝方在正西处54海里。蓝方各有4个长中程导弹(LRMs)和4个短程导弹(SRMs),然而红方有4个中程导弹(MRMs)。红方的雷达具有广阔的范围内,其具有+/-70度的方位角和15度仰角。任务的初始状态显示下面的图1中,西北方的蓝方战士的预警和控制系统显示在屏幕上。

图1 AFSIM模拟环境的图形显示(飞机不按比例缩放)ALPHA成功的最初优点是能够始终如一地优于先前在AFSIM所利用AFRL的基准控制器。发展的第一个月内,这是一个里程碑式。本研究当前的目标是进一步推出系统如何能够有效对抗训练有素的战斗机飞行员的包络线。以人为对手的初步测试已经进行并且更加正式和通过ALPHA和人类的测试已经开展(图2)。

图2 活跃战斗过程的侧视图

(过去和现在的导弹爆炸地点标记,两辆蓝机对四辆红机,所有红机已成功回避导弹,一辆蓝机已被摧毁,蓝机的预警和控制系统在预警范围内) 技术与实现

GFT方法采用具有不同连接级别的模糊推理的集合系统。不同于一个标准的遗传模糊系统,在这里遗传算法或者其他学习系统,都被利用于在模糊树中训练每个系统。每个FIS具有为输入和输出的进行语言分类的隶属函数,比如“远”和“非常危险”,以及如果- 则规则的每个组合输入,如“如果导弹发射计算为命中率适中且使命射击精度是非常高的话,发射导弹”。通过分解问题成许多个子决定,解的空间显著降低。这种方法的成本具有不可容纳所有耦合来源的风险。通过优化设计,即便不是全部缓解,也可以最小化风险。不像在模糊决策树或模糊网络中,一个GFT模糊节点不是FISs的各个组件,而是是独特的FISs本身[9-11]。

这种方法的一个主要优势是灵活性和易于设计。虽然大多数复杂的决策是由FISs的集合确定的,其它的算法可以容易地包含在系统中,以及普通感知启发式技术。例如,过去Dr.Ernest 创建的GFTs,它包括一个协同任务分配算法,模糊聚类路线求解器,以及无通信火力控制系统[12-14]。其中,一个子问题的最佳解决方案是已知的,它可以被直接利用。图3为这种类型系统布局的一个例子。输入知识的能力来自于专业知识的了解,如电流学说和专家战斗机飞行员的教导,通过学习系统结合全面优化这些概念的能力是GFT成功的显著因素。这种结构中,模糊逻辑的利用率,以及Psibernetix使用的Python编程语言使这些系统发展迅速且非常具有成本效益[15]。

图3 一个模糊树布局的例子

ALPHA目前拥有高层次的战术,射击,逃避,SA和防御分支机构。作为这种结构的一个例子,该模糊树防御分支对每架飞机的防御以及其相对应面临

的每个威胁进行量化。该分支的主要输出为0%和100%之间的度量。这种防御措施是用来规划导弹规避机动,改变角度去接近(或退离)敌机,以及确定和调整更高层次的战术。

这个分支是一个两层FIS级联。第一层通过与敌机在二维距离和高度保持安全的的平台上,测量有效的威胁范围。它馈入到第二层,无论是否为敌机,均需要在有效范围内机结合它的威胁方位角和威胁在东北轴的转弯率。这些测量中的每一个均分成用于FIS的有用战术隶属函数。这些分类共同形成一个图像,使得ALPHA在这上面可以作出决定。该防御措施具有唯一责任决定哪些己方飞机应该开始对敌方导弹进行躲避动作,哪些目标是ALPHA在当前环境下未知的。这也是承担着确定何时防御导弹应该发射的全部责任。该SA分支将频繁利用这项措施,有效射程和FIS在许多其它领域的应用。

ALPHA具有基于任务的执行行为改变的输入。如果敌人成功打败攻击探测,ALPHA将调整该次攻击的范围以不浪费极其有限的弹药。如果对敌方导弹进行初步估计的能力是不准确的话,防御性因素会有所调整,使得ALPHA更加正确地防御当前的敌人。计划的其他在线学习功能,如为每一个武器类型和每个敌人的武器参与区(WEZ)而建的三维建模进行不断更新。

并不仅仅利用一个标准遗传算法作为学习系统,Psibernetix的专利申请EVE学习系统培养了ALPHA[16]。EVE已被证明在极其复杂的问题有不可比拟的学习能力,其中得到的绝对最优解是没有必要的或实际的[13]。例如,空对空导弹不需要完全穿透驾驶舱和在物理上撞击飞机飞行员,并且找到行动(coA)的过程中,利用较少的0.05毫克燃料来完成一个目标不是关键任务。一个学习系统,可以保证获得这些解决方案将是棘手的计算,绝不提供答案。EVE是一个GFT,其目标是创造和优化其他的GFT。通过多次递归应用,EXE 被训练成培训其他GFT的非常有效方式。

在AFSIM训练一个AI的计算成本和复杂性是许多替代方法的限制因素。该GFT的轻量级特性,结合Psibernetix高效的模糊逻辑模块,PsiberLogic和用Cython计算机语言的利用在计算成本高的程序上允许Psibernetix在经济的台式PC上完成这个任务[17-19]。虽然这是没有必要的,但EVE可以智能地分配工作,并利用异构计算网络。遗传算法和EVE是并行算法的最好例子;一系列的ALPHA控制器被开发,它们的性能能够完全彼此独立地测量,新的阿尔法种群被创建,并且该处理重复一段时间。

通过以前使用的AFRL,EVE对ALPHA的培训最初在和它与基线控制器对抗的发生,但现在出现针对它的不同静态版本。这里EVE的是优化FISs以及其他参数,例如阈值和编队。在EVE发生的过程中,每个ALPHA具有分配给每个平台唯一端口号,且调用AFSIM一个单独的实例。停止部分需落实到位,以防止在极长的任务中悬挂系统。每个ALPHA和AFSIM组合只占用一个

核心,缓解了执行这一过程的难度。AFSIM可以在事件推进的方式操作,在处理器允许速度下尽快运行任务。图4描绘了训练过程。

图4 EVE平行训练建立

测量ALPHA的每个实例性能的适应度函数或方程,已被设计为完全捕获的良好行为的含义。仅仅奖励便利的击杀射击行为和惩罚便利的失误和死亡可能会产生一个称职的控制器。这虽然可以得到改善,因为它是既可以在敌人刚好暂时无法射击时完成任务,另外在没有红色足够接近蓝色WEZ的情况下完成任务。ALPHA的两个版本产生这些行为应该给予不同显著的估值。为此,每一个红色飞机的防御性正在不断从控制器的性能指标中削弱。这使得EVE寻求ALPHAs在时间和安全性上最佳的完成任务时机,此时具有最佳的良好导弹的精度和最小化的敌方导弹发射威胁。今后的工作中可能包含不同传感器和任务,使得EVE训练ALPHA打败整个蓝军而没有被发现。

这个训练使得ALPHA具有良好的战术和性能的决策。更多的训练任务以形成一个计划的培训组合,以及ALPHA附加的静态蓝色变型,比如有的专注于与结合其他强调防守战术的侵略。该预期的对手是一个团队的人的事实是一个有趣的复杂问题,它很难考虑典型机器学习环境的设置。仅仅是用来迷惑或利用ALPHA,飞行员可以执行非常奇怪,错误的,和显然不理想的行为。通过EVE的培训,很长,效率低甚至自杀演习可以显著区别ALPHA以及其面临的对手。考虑到这一点,使培训后的测试和调整,一个简单的用户界面是为了让人类认识ALPHA内部。与ALPHA竞争的人类操作者已经能够实现对数量超过两个蓝色的飞机进行适度但合理的控制。

结果和结论

作为EVE训练的结果,执行从专家战斗机飞行员中学习的经验教训,并从初步的人类试验中不断调整,当前版本的ALPHA已经是一个需要去面对的致命对手。正式结果将在以后的出版物提出;本节将集中展示的初步能力和ALPHA的调查结果。另外,ALPHA目前正在受训去利用优越的数量条件,但

相关文档
最新文档