基于强化学习的全电推进卫星变轨优化方法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第４４卷　第５期系统工程与电子技术
Ｖｏｌ．４４　Ｎｏ．５
２０２２年５月ＳｙｓｔｅｍｓＥｎｇｉｎｅｅｒｉｎｇａ
ｎｄＥｌｅｃｔｒｏｎｉｃｓＭａｙ２
０２２文章编号：１００１５０６Ｘ（２０２２）０５１６５２１０　网址：ｗｗｗ．ｓｙ
ｓｅｌｅ．ｃｏｍ收稿日期：２０２１０７０９；修回日期：２０２１１１０７；网络优先出版日期：２０２２０１０１。

网络优先出版地址：ｈｔｔｐ
ｓ：∥ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／１１．２４２２．ＴＮ．２０２２０１０１．１７１２．００４．ｈｔｍｌ基金项目：国家自然科学基金（１１５０２０１７）资助课题通讯作者．
引用格式：韩明仁，王玉峰．基于强化学习的全电推进卫星变轨优化方法［Ｊ］．系统工程与电子技术，２０２２，４４（５）：１６５２１６６１．犚犲犳犲狉犲狀犮犲犳狅狉犿犪狋：ＨＡＮＭＲ，ＷＡＮＧＹＦ．Ｏｐｔｉｍｉｚａｔｉｏｎｍｅｔｈｏｄｆｏｒｏｒｂｉｔｔｒａｎｓｆｅｒｏｆａｌｌｅｌｅｃｔｒｉｃｐｒｏｐ
ｕｌｓｉｏｎｓａｔｅｌｌｉｔｅｂａｓｅｄｏｎｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ［Ｊ］．ＳｙｓｔｅｍｓＥｎｇｉｎｅｅｒｉｎｇａ
ｎｄＥｌｅｃｔｒｏｎｉｃｓ，２０２２，４４（５）：１６５２１６６１．基于强化学习的全电推进卫星变轨优化方法
韩明仁１，
２，王玉峰１，２，（１．北京控制工程研究所，北京１０００９４；２．空间智能控制技术重点实验室，北京１０００９４）
摘　要：采用电推力器实现自主轨道转移是全电推进卫星领域的关键技术之一。

针对地球同步轨道（ｇ
ｅｏｓｔａｔｉｏｎａｒｙｏｒｂｉｔ，ＧＥＯ）全电推进卫星的轨道提升问题，将广义优势估计（ｇｅｎｅｒａｌｉｚｅｄａｄｖａｎｔａｇ
ｅｅｓｔｉｍａｔｏｒ，ＧＡＥ）和近端策略优化（ｐｒｏｘｉｍａｌｐｏｌｉｃｙｏｐｔｉｍｉｚａｔｉｏｎ，ＰＰＯ）方法相结合，在考虑多种轨道摄动影响以及地球阴影约束的情况下，提出了基于强化学习的时间最优小推力变轨策略优化方法。

针对状态空间过大、奖励稀疏导致训练困难这一关键问题，提出了动作输出映射和分层奖励等训练加速方法，有效提升了训练效率，加快了收敛速度。

数值仿真和结果对比表明，所提方法更加简单、灵活、高效，与传统的直接法、间接法以及反馈控制法相比，能够保证轨道转移时间的最优性。

关键词：全电推进卫星；小推力变轨优化；强化学习；近端策略优化；训练加速方法
中图分类号：Ｖ４１２．４文献标志码：Ａ犇犗犐：１０．１２３０５／ｊ．
ｉｓｓｎ．１００１５０６Ｘ．２０２２．０５．２７犗狆狋犻犿犻狕犪狋犻狅狀犿犲狋犺狅犱犳狅狉狅狉犫犻狋狋狉犪狀狊犳犲狉狅犳犪犾犾犲犾犲犮狋狉犻犮狆狉狅狆
狌犾狊犻狅狀狊犪狋犲犾犾犻狋犲犫犪狊犲犱狅狀狉犲犻狀犳狅狉犮犲犿犲狀狋犾犲犪狉狀犻狀犵
ＨＡＮＭｉｎｇｒｅｎ１，２，ＷＡＮＧＹｕｆｅｎｇ１，２，
（１．犅犲犻犼犻狀犵犐狀狊狋犻狋狌狋犲狅犳犆狅狀狋狉狅犾犈狀犵犻狀犲犲狉犻狀犵，犅犲犻犼犻狀犵１０００９４，犆犺犻狀犪；２．犛犮犻犲狀犮犲犪狀犱犜犲犮犺狀狅犾狅犵狔狅狀犛狆犪犮犲犐狀狋犲犾犾犻犵犲狀狋犆狅狀狋狉狅犾犔犪犫狅狉犪狋狅狉狔，犅犲犻犼
犻狀犵１０００９４，犆犺犻狀犪）犃犫狊狋狉犪犮狋：Ｕｓｉｎｇｅｌｅｃｔｒｉｃｔｈｒｕｓｔｅｒｓｆｏｒａｕｔｏｎｏｍｏｕｓｏｒｂｉｔｔｒａｎｓｆｅｒｉｓｏｎｅｏｆｔｈｅｃｒｉｔｉｃａｌｔｅｃｈｎｏｌｏｇ
ｉｅｓｉｎｔｈｅｆｉｅｌｄｏｆａｌｌｅｌｅｃｔｒｉｃｐｒｏｐｕｌｓｉｏｎｓａｔｅｌｌｉｔｅｓ．Ｉｎｏｒｄｅｒｔｏｓｏｌｖｅｔｈｅｏｒｂｉｔｒａｉｓｉｎｇｐｒｏｂｌｅｍｏｆａｌｌｅｌｅｃｔｒｉｃｐｒｏｐｕｌｓｉｏｎｇｅｏｓｔａｔｉｏｎａｒｙｏ
ｒｂｉｔ（ＧＥＯ）ｓａｔｅｌｌｉｔｅｓ，ａｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｂａｓｅｄｏｐｔｉｍｉｚａｔｉｏｎｍｅｔｈｏｄｆｏｒｔｈｅｔｉｍｅｏｐｔｉｍａｌｌｏｗｔｈｒｕｓｔｏｒｂｉｔｔｒａｎｓｆｅｒｓｔｒａｔｅｇｙｉｓｆｏｒｍｕｌａｔｅｄｂｙｃｏｍｂｉｎｉｎｇｇｅｎｅｒａｌｉｚｅｄａｄｖａｎｔａｇ
ｅｅｓｔｉｍａｔｏｒ（ＧＡＥ）ａｎｄｐｒｏｘｉｍａｌｐｏｌｉｃｙｏｐ
ｔｉｍｉｚａｔｉｏｎ（ＰＰＯ）ｍｅｔｈｏｄｓ，ｔａｋｉｎｇｉｎｔｏａｃｃｏｕｎｔｔｈｅｉｎｆｌｕｅｎｃｅｏｆｍｕｌｔｉｐｌｅｏｒｂｉｔａｌｐｅｒｔｕｒｂａｔｉｏｎｓａｎｄｔｈｅｃｏｎｓｔｒａｉｎｔｓｏｆｔｈｅｅａｒｔｈ’ｓｓｈａｄｏｗ．Ａｉｍｉｎｇａｔｔｈｅｋｅｙｐｒｏｂｌｅｍｏｆｔｒａｉｎｉｎｇｄｉｆｆｉｃｕｌｔｙｃａｕｓｅｄｂｙｔｏｏｌａｒｇ
ｅｓｔａｔｅｓｐａｃｅａｎｄｓｐａｒｓｅｒｅｗａｒｄ，ｔｒａｉｎｉｎｇａｃｃｅｌｅｒａｔｉｏｎｍｅｔｈｏｄｓｓｕｃｈａｓａｃｔｉｏｎｏｕｔｐｕｔｍａｐｐｉｎｇａｎｄｈｉｅｒａｒｃｈｉｃａｌｒｅｗａｒｄａｒｅｐｒｏｐｏｓｅｄ，ｗｈｉｃｈｅｆｆｅｃｔｉｖｅｌｙｉｍｐｒｏｖｅｔｈｅｔｒａｉｎｉｎｇｅｆｆｉｃｉｅｎｃｙａｎｄａｃｃｅｌｅｒａｔｅｔｈｅｃｏｎｖｅｒｇｅｎｃｅｓｐｅｅｄ．Ｔｈｒｏｕｇ
ｈｎｕｍｅｒｉｃａｌｓｉｍｕｌａｔｉｏｎａｎｄｃｏｍｐａｒｉｓｏｎｏｆｔｈｅｒｅｓｕｌｔｓｗｉｔｈｔｈｅｄｉｒｅｃｔｍｅｔｈｏｄ，ｔｈｅｉｎｄｉｒｅｃｔｍｅｔｈｏｄａｎｄｔｈｅｆｅｅｄｂａｃｋｃｏｎｔｒｏｌｍｅｔｈｏｄ，ｉｔｓｈｏｗｓｔｈａｔｔｈｅｏｐｔｉｍｉｚａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｉ
ｓｍｏｒｅｓｉｍｐｌｅ，ｆｌｅｘｉｂｌｅ，ｅｆｆｉｃｉｅｎｔ，ａｎｄｔｉｍｅｏｐｔｉｍａｌｉｎｏｒｂｉｔｔｒａｎｓｆｅｒ．犓犲狔狑狅
狉犱狊：ａｌｌｅｌｅｃｔｒｉｃｐｒｏｐｕｌｓｉｏｎｓａｔｅｌｌｉｔｅ；ｌｏｗｔｈｒｕｓｔｏｒｂｉｔｔｒａｎｓｆｅｒｏｐｔｉｍｉｚａｔｉｏｎ；ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ；ｐｒｏｘｉｍａｌｐｏｌｉｃｙｏｐ
ｔｉｍｉｚａｔｉｏｎ（ＰＰＯ）；ｔｒａｉｎｉｎｇａｃｃｅｌｅｒａｔｉｏｎｍｅｔｈｏｄ０　引　言全电推进卫星目前主要应用于地球同步轨道（ｇ
ｅｏｓｔａｔｉｏｎａｒｙｏｒｂｉｔ，ＧＥＯ）相关任务中，使用电推力器实现全部的轨道转移、位置保持、角动量卸载等功能［１］。

得益于电推力
器的高比冲和高燃料利用率，全电推进卫星能够搭载更多
　第５期
韩明仁等：基于强化学习的全电推进卫星变轨优化方法·１６５３　· 的有效载荷。

然而，全电推进卫星由于推力小，依靠电推力器点火进入ＧＥＯ的时间要长达几个月或半年多的时间［２］。

因此，优化变轨策略，缩短变轨时间，是全电推进卫星研究中的关键问题之一。

全电推进卫星轨道优化问题属于最优控制问题的范畴，本文主要研究全电推进卫星在转移轨道段以时间最优为目标的变轨策略优化方法，初始轨道为星箭分离后的同步转移轨道（ｇｅｏｓｔａｔｉｏｎａｒｙｔｒａｎｓｆｅｒｏｒｂｉｔ，ＧＴＯ），目标轨道为ＧＥＯ。

该问题要求在满足系统约束和动力学约束的前提下，在整个转移过程中确定一个推力方向变化策略。

高度非线性和非凸动力学、空间环境摄动以及局部极小值的存在使优化过程十分复杂［３］。

连续小推力变轨问题目前已存在的研究成果主要包括解析方法和数值方法两大类［４］。

解析方法通过理论推导获得最优轨道的解析解［５６］，但对于大多数航天器的轨道优化问题，可行性得不到保证。

大多数研究者都致力于数值方法的研究，如直接法、间接法、反馈控制法等。

直接法的基本思想是将控制变量离散化，使最优控制问题转化成一个非线性规划问题，然后使用现有的优化方法对其进行求解，Ｒｉｃｃｉａｒｄｉ等采用结合有限元素全局多目标优化方法、启发式的进化算法以及基于梯度的约束非线性规划方法开发了用于空间系统任务设计、优化的多目标直接混合最优控制（ｍｕｌｔｉｏｂｊｅｃｔｉｖｅｄｉｒｅｃｔｈｙｂｒｉｄｏｐ
ｔｉｍａｌｃｏｎｔｒｏｌ，ＭＯＤＨＯＣ）工具箱［７］。

Ｐｒｉｔｃｈｅｔｔ等研究了基于配点法的小推力转移轨道的直接优化方法［８］，并设计
了轨道链叠加法来进行初值猜测，将初始轨道和目标轨道中间某些弧段的状态作为连接点，将初始猜测值引导到特定的解。

文献［９］介绍了空中客车防务及航天公司基于直接多重打靶法开发的小推力转移轨道优化软件ＯｐｔＥｌｅｃ，在考虑地球阴影区和部分摄动的情况下能够设计从近地轨道（ｌｏｗｅａｒｔｈｏｒｂｉｔ，ＬＥＯ）
或ＧＴＯ转移至ＧＥＯ的时间或燃料最优的变轨策略。

间接法依赖于庞特里亚金极小值原理，将原最优控制问题转化成多点边值问题，再利用微分方程边值问题的求解方法进一步得到最优解。

Ｍａｚｚｉｎｉ等在考虑摄动和地影的情况下采用平均轨道根数法简化动力学方程，通过打靶法求解了经间接法转化后的两点边值问题［１０］，得到了ＧＥＯ卫星依靠电推力器提升轨道的最优策略。

Ｂａｓｔａｎｔｅ等研究了基于序列梯度修复算法的ＧＴＯＧＥＯ小推力轨道转移间接优化方法［１１］，并讨论了如何处理推力方向变化的连续性、最大角速度等约束条件。

段传辉等则提出了推力同伦的方法求解两点边值问题［２］，简化了间接法中对于协态变量初值猜测的复杂度，并以ＧＴＯＧＥＯ
小推力轨道提升问题为例对算法进行了验证，通过５次推力缩减，最终得到了时间最优的转移策略。

文献［１２１４］中则采用了反馈控制法，设计了基于李雅普诺夫函数的近端商制导律（ｐｒｏｘｉｍｉｔｙｑ
ｕｏｔｉｅｎｔｇｕｉｄａｎｃｅｌａｗ，Ｑｌａｗ），作为小推力轨道转移的控制策略。

其中，文献［１２］和文献［１３］中对ＧＴＯＧＥＯ的小推力转移过程进行了仿真，表明了该方法能够实现时间次优的轨道转移闭环控制。

上述研究中所述的方法虽然均能够得到优化的小推力
变轨策略，
但是在复杂度、灵活性、最优性等方面却各有优劣，
直接法的变量规模巨大，计算复杂；间接法中协态变量初值猜测较为困难；反馈控制法则无法保证策略的最优性。

近年来有越来越多的研究者都采用强化学习方法来解决控
制与决策问题［１５１９］，Ｂｅｒｔｓｅｋａｓ更是全面研究和阐述了强化学习与最优控制的理论联系［２０］，
同时也有研究者采用强化学习方法解决行星际轨道优化问题［２１２４］。

可以得知，采用强化学习方法解决复杂的最优控制问题在简易性、灵活性和最优性方面均具有比较出色的表现，能够处理较为复杂的约束。

因此，本文采用了强化学习的方法，求解小推力变轨最优策略，在考虑摄动、地影等多种复杂约束的情况下，训练智能体的神经网络，得到轨道转移决策模型。

本文的主要贡献如下：①在演员评论家（ＡｃｔｏｒＣｒｉｔｉｃ）强化学习框架下建立连续小推力变轨决策模型，结合广义优势估计和近端策略优化方法训练深度神经网络，以其为非线性逼近器，探索小推力轨道转移的最优推力方向变化策略；②以轨道摄动方程、空间环境摄动、地球阴影区约束的数学模型为基础，建立可与智能体交互的环境模型；③针对由于状态空间过大而导致智能体探索困难的问题，提出了动作网络输出映射和分层奖励的方法，缩小了探索空间，显著地提高了智能体探索到目标轨道的效率，有效缩短了
训练时间。

最后，通过几组不同初始参数的结果对比，验证了求解得到的变轨策略的最优性。

１　问题描述１．１　预备知识连续小推力轨道转移问题中，作用于卫星的推力加速
度量级一般为１０－５～１０－７ｋｍ／ｓ
２，稍大于作用于卫星的空间摄动力的大小。

因此，若采用经典轨道六根数来描述卫
星的轨道，那么卫星的轨道动力学模型应采用高斯型拉格朗日行星摄动力方程［２５］表示：犪·＝２犪２犲ｓｉｎθμ槡狆犉狉＋２犪２狆狉μ槡狆犉狋犲·＝狆ｓｉｎθμ槡狆犉狉＋［（狆＋狉）ｃｏｓθ＋狉犲］μ槡狆犉狋犻·＝狉ｃｏｓ（ω＋θ）μ槡狆犉狀Ω·＝狉ｓｉｎ（ω＋θ）μ槡狆ｓｉｎ犻犉狀ω·＝－狆ｃｏｓθ犲μ槡狆犉狉＋（狆＋狉）ｓｉｎθ犲μ槡狆犉狋－狉ｓｉｎ（ω＋θ）ｃｏｓ犻μ槡狆ｓｉｎ犻犉狀θ·＝μ槡狆狉２＋１犲μ槡狆
［狆ｃｏｓ（θ）犉狉－（狆＋狉）ｓｉｎ（θ）犉狋烅烄烆］（１）
式中：狆＝犪（１－犲２）狉＝狆１＋犲ｃｏｓ烅烄烆
θ（２）
　·１
６５４　·系统工程与电子技术第４４卷
　犪为半长轴；犲为偏心率；犻为轨道倾角；Ω为升交点赤经；ω为近地点幅角；θ为真近点角；狆为轨道半通径；
狉为卫星质心到地心的距离；μ为地球引力常数；
犉狉、犉狋、犉狀分别为作用于卫星的合力在卫星轨道坐标系３个坐标轴方向产生的加速度，分别对应径向、轨道面内垂直于径向、轨道面法向３个方向。

本文采用强化学习的方法求解小推力变轨问题。

强化学习方法通过智能体与环境的交互过程获得回报，如图１所示，从而更新智能体的策略，在实现特定目标的同时使回报最大化，进而得到最优策略。

图１　智能体与环境交互图Ｆｉｇ．１　Ｉｎｔｅｒａｃｔｉｏｎｂｅｔｗｅｅｎａｇｅｎｔａｎｄｅｎｖｉｒｏｎｍｅｎｔ在智能体与环境的交互中，智能体需要多次重复从初始状态到目标状态的过程以获得训练数据，重复一次称为一回合，而一回合中又包含很多步，用狊狋和狌狋分别表示智
能体在第狋步的状态和动作，此过程将产生一组状态动作序列（狊０，狌０，…，狊犎，狌犎），其中（狊犎，狌犎）表示智能体探索到特
定目标前的最后一对状态动作，状态狊与动作狌既可以是标量，
也可以是矢量，需要根据实际问题定义。

该状态动作序列即代表了智能体在一回合中的轨迹，用τ表示。

可
以定义第犎步的累积回报函数为
犚犎（τ）＝∑犎狋＝０
犚（狊狋，狌狋）（３）式中：犚犎（τ）表示轨迹τ的回报；犚（狊狋，狌狋）表示在狊狋状态下采取动作狌狋的单步回报。

在基于策略的强化学习方法中，
目标函数［２６］可以表示为犑（φ）＝Ｅ∑犎狋＝０
犚（狊狋，狌狋）狘πφ（狊狋，狌狋［］
）＝∑τ
犘φ（狌狋狘狊狋）犚犎（τ）（４）式中：变量φ泛指智能体从状态到动作的映射中涉及到的参数，参数不同即代表不同的策略；Ｅ（·）表示期望；πφ表示在参数φ下的策略；犘φ（狌狋｜狊狋）表示在参数φ下的策略在狊狋条件下执行狌狋的概率。

强化学习的最终目标则是找到最优的参数φ，使得目标函数达到最大值，用公式描述为ｍａｘφ犑（φ）＝ｍａｘφ∑τ犘φ（狌狋狘狊狋）犚犎（τ）（５）实际上，强化学习问题变成了一个优化问题，采用文献［２７
］提出的策略梯度优化方法，即
φ犽＋１＝φ犽＋αΔ
φ犑（φ）
（６）式中：下标犽表示第犽回合；α为步长；Δ
为求梯度符号；Δ
φ犑（φ）
［２７］可以表示为Δ
φ犑（φ）
＝犈πφ
［Ψπ（狊，狌）Δ
φｌｎπφ（狊，狌）］（７）式中：Ψπ（狊，狌）为评价函数。

在ＡｃｔｏｒＣｒｉｔｉｃ框架下，πφ（
狊，狌）为Ａｃｔｏｒ，Ψπ（狊，狌）则为Ｃｒｉｔｉｃ，二者均采用神经网络来表示，
分别称为动作网络和评价网络。

Ａｃｔｏｒ的实际输出值为归一化的值，一般取值范围为［－１，１］，在与环境交互前需进行变换，映射到相应的动作空间中。

Ｃｒｉｔｉｃ的输出值为当前状态及动作的价值。

１．２　问题建模本文研究全电推进卫星转移至ＧＥＯ的时间最短变轨策略，卫星的动力学模型采用式（１）中的微分方程描述，式中的加速度项可以拆分为电推力器提供的加速度和摄动加速度两项，即
犉＝犜犿υ＋犉犱（８）
式中：犉为在卫星轨道坐标系中卫星的合加速度矢量，犉＝（犉狉，犉狋，犉狀）；犜为电推力器产生的合力大小；犿为当前时刻的质量；υ为推力在卫星轨道坐标系下的单位矢量；犉犱则为卫星所受的摄动加速度，包括地球非球形引力摄动、日月引力摄动、太阳光压摄动、大气阻力摄动等。

在变轨过程中，卫星质量随着工质的消耗而减小，变化
率为犿·＝－犜犐狊狆犵０（９）式中：犐狊狆为电推力器的比冲；犵０为重力加速度。

假设α表示推力单位矢量υ在轨道面内的投影与径向的夹角，β表示推力单位矢量υ与轨道面的夹角，则υ可以写为υ＝（ｃｏｓαｃｏｓβ，ｓｉｎαｃｏｓβ，ｓｉｎβ）（１０）卫星的推力指向即可用α和β两个参数表示，若不考虑工程上的推力指向范围约束，可取α∈［－９０°，２７０°］，β∈［－９０°，９０°］。

因此，全电推进卫星的变轨策略优化也就是对α、β两参数的变化策略进行优化。

因此，问题可转化为
如下优化指标：ｍｉｎ犑＝∫
狋犳狋０
１ｄ狋（１１）令狓＝（犪，犲，犻，Ω，狑，θ），则系统的状态方程［２８］可以写为狓·＝犕犜犿υ＋犉（）
犱＋犇犿·＝－犜
犐狊狆犵烅烄烆０（１２）式中：犕为６×３矩阵，犇为６×１矩阵，具体表达式见文献［２８］，狊＝（狓，犿）∈犚７为状态空间，狌＝（α，β）∈犚２为动作空间，优化目标为时间最短，任务目标轨道为ＧＥＯ。

２　轨道优化方法２．１　环境模型强化学习算法要求建立可供与智能体交互产生数据的环境模型，即图１中的环境模块，其输入是智能体的动作，输出为采取动作后达到的状态以及当前动作的奖励。

由于目标轨道是ＧＥＯ，其倾角为零且为圆轨道。

当达到目标轨道时，轨道的升交点赤经和近地点幅角产生了奇异。

为了避免这种奇异，本文采用改进的春分点轨道根数（狆，犳，犵，
　第５期
韩明仁等：基于强化学习的全电推进卫星变轨优化方法·１６５５　·
　犺，犽，犔）描述强化学习过程中的状态，与经典轨道六根数转换关系［２９］如下：狆＝犪（１－犲２）
犳＝犲ｃｏｓ（ω＋Ω）犵＝犲ｓｉｎ（ω＋Ω）犺＝ｔａｎ（犻／２）ｃｏｓΩ犽＝ｔａｎ（犻／２）ｓｉｎΩ犔＝Ω＋ω＋烅烄烆θ（１３）相应的状态转移方程［２９］为狆·＝狆槡μ２狆狑犉狋犳·＝狆槡烅烄烆μ犉狉ｓｉｎ犔＋［（１＋狑）ｃｏｓ犔＋犳］犉狋狑
－（犺ｓｉｎ犔－犽ｃｏｓ犔）犵犉狀烍
烌烎
狑犵·
＝狆槡
烅烄烆μ－犉狉ｃｏｓ犔＋［（１＋狑）ｓｉｎ犔＋犵］犉狋狑＋（犺ｓｉｎ犔－犽ｃｏｓ犔）犳犉狀烍烌烎狑犺·＝狆槡μ（１＋犺２＋犽２）犉狀２狑ｃｏｓ犔犽·＝狆槡
μ（１＋犺２＋犽２）犉狀２狑ｓｉｎ犔犔·＝μ槡狆狑（）狆２＋１狑狆槡
μ（犺ｓ
ｉｎ犔－犽ｃｏｓ犔）犉狀犿·＝－犜犐狊狆犵烅烄烆０（１４）式中：狑为辅助量，
定义如下：狑＝１＋犳ｃｏｓ犔＋犵ｓｉｎ犔（１５）
本文仅在智能体训练中采用式（１４）替代式（１２）作为与
智能体交互的状态转移模型，在分析问题时仍采用式（１）。

为更加贴近真实情况，使得到的策略更具工程意义，需要考虑摄动和地影的影响。

考虑的摄动包括地球非球形引力摄动［３０］、日月引力摄动［３１］、太阳光压摄动［３２］、大气阻力摄动［３３］等，其数学模型对应文献中一致，这里不过多赘述。

将得到的各种摄动加速度经过坐标变换并求和，可得到卫星轨道坐标系下的摄动加速度犉犱，代入式（８）中，即可得到卫星在空间中的合加速度。

此外，地球阴影区对全电推进卫星变轨的影响也需要考虑在内。

由于电推力器主要靠太阳能转化成的电能驱动，因此当进入地影区时，太阳帆板被遮挡，卫星须关闭电
推力器滑行。

本文采用圆锥形地影模型［３４］，
通过太阳矢量和卫星位置矢量计算出地球卫星太阳夹角θ犲狊、卫星上观察太阳的视半径ρ狊以及卫星上观察地球的视半径ρ犲。

通过三者关系即可得知卫星的地影情况，用可视因子γ狏犳表示太阳被地球遮挡的程度，有以下关系［３５］：
γ狏犳＝１－ρ２犲（２θ犲－ｓｉｎ（２θ犲））＋ρ２狊（２θ狊－ｓｉｎ（２θ狊））２πρ２狊
（１６）γ狏犳取值范围为［０，１］。

其中，θ犲与θ狊为中间变量：θ犲＝ａｒｃｃｏｓθ２犲狊＋ρ２犲－ρ２狊２θ犲狊ρ犲θ狊＝ａｒｃｃｏｓθ２犲狊－ρ２犲＋ρ２狊２θ犲狊ρ烅烄烆狊（１７）如图２所示，当γ狏
犳＝１时，卫星位于阳照区，地球对太阳无遮挡；当γ狏犳＝０时，卫星位于本影区，地球完全遮挡太阳
；当０＜γ狏犳＜１时，卫星位于半影区，地球对太阳的遮挡程
度随着γ狏犳的值减小而增加。

图２　圆锥形地影模型示意图
Ｆｉｇ．２　Ｓｃｈｅｍａｔｉｃｄｉａｇ
ｒａｍｏｆｃｏｎｉｃａｌｅａｒｔｈｓｈａｄｏｗｍｏｄｅｌ卫星位于半影区内太阳可视因子较大的区域时，电推
力器也能够点火。

本文假设γ狏犳＞０．１时，
电推力器可点火，当γ狏犳≤０．１时，电推力器关机，卫星滑行。

２．２　改进的近端策略优化方法本文采用结合广义优势估计（ｇｅｎｅｒａｌｉｚｅｄａｄｖａｎｔａｇｅｅｓｔｉｍａｔｏｒ，ＧＡＥ）的近端策略优化（ｐｒｏｘｉｍａｌｐｏｌｉｃｙｏｐ
ｔｉｍｉｚａｔｉｏｎ，ＰＰＯ）（ＧＡＥ＆ＰＰＯ）方法对所提出的问题进行求解。

ＰＰＯ属于强化学习方法的一种，基于ＡｃｔｏｒＣｒｉｔｉｃ
框架而提出，
其核心优化公式［３６］如下：犑φ犽ＰＰＯ（φ）≈∑（狊狋，狌狋
）ｍｉｎ｛ρ狋（φ）犃φ犽（狊狋，狌狋），ρ′狋（φ）犃φ犽（狊狋，狌狋）｝（１８）其中，
ρ狋（φ）＝犘φ（狌狋｜狊狋）犘φ犽（狌狋｜狊狋）ρ′狋（φ）＝ｃｌｉｐ［ρ狋（φ），１－ε，１＋ε烅
烄烆］（１９）式中：ρ狋（φ）
为概率比，表示新老策略的差异；ｃｌｉｐ（·）为剪切函数，用来将ρ狋（φ）
限制在［１－ε，１＋ε］之间，如果超过边界值则取边界值；ε为剪切率，限制ρ狋（φ）的剪切范围，代表了更新策略的探索性，ε越大
，算法越容易探索到新的状态，但影响稳定性。

优势函数［３１］定义为
犃φ犽（狊狋，狌狋）＝犙犽（狊狋，狌狋）－犞犽（狊狋）
（２０）犃φ犽（狊狋，狌狋）表示当前步状态动作值函数犙犽（狊狋，狌狋）与状态值函数犞犽（狊狋）之差，由评价网络产生，用来评价在狊狋步时采取动作狌狋的优劣，犽为值函数的相关参数。

值函数的参数犽属于评价网络中的参数，其更新方法同样采用策略梯度法：
犽＋１＝犽＋αΔ
φ犔犅犔（）（２１）犔犅犔（）＝∑犜狋＝０
（犚狋－犞（狊狋））２（２２）
　·１６５６　·系统工程与电子技术第４４卷式中：犔犅犔（）为值函数的目标函数；犚狋为第狋步的累积奖
励值。

在评价网络估计优势函数时，常常用逼近算法近似计
算值函数，因此会引入偏差，文献［３７］中提出了广义优势函
数估计：
犃＾ＧＡＥ（γ，λ）
狋＝∑∞犾＝０（γλ）犾δ犞狋＋犾（２３）
式中：γ为折扣因子；λ为指数加权系数，δ犞狋＝犚（狊狋＋１，狌狋＋１）＋γ犞犽（犛狋＋１）－犞犽（犛狋）是一步时序差分误差。

通过引入γ和λ，改进了对优势函数的估计，将偏差控制在了一定范围内。

ＧＡＥ＆ＰＰＯ算法流程如下。

算法１　ＧＡＥ＆ＰＰＯ算法
１初始化动作网络πφ（狊，狌）和评价网络Ψπ（狊，狌）的参数φ０和０
Ｆｏｒ犽＝０，１，２，…，犕
２策略πφ犽（狊，狌）与环境交互，收集轨迹集合犇犽＝｛τ犻｝３计算每一步累积奖励｛犚狋｝
４通过式（２３）计算每一步优势值｛犃＾狋｝
５采用策略梯度方法，最小化式（１８），更新动作网络参数φ犽６采用策略梯度方法，最小化式（２２），更新评价网络参数犽Ｅｎｄｆｏｒ
由于采用了概率分布和采样的方式确定下一步动作，因此ＧＡＥ＆ＰＰＯ算法的稳定性和收敛性更好，算法具体流程如图
所示。

图３　ＧＡＥ＆ＰＰＯ算法流程图
Ｆｉｇ．３　ＧＡＥ＆ＰＰＯａｌｇｏｒｉｔｈｍｆｌｏｗｄｉａｇｒａｍ３　训练加速方法
本文中智能体要在七维状态空间中探索到目标状态，寻找这一过程中时间最优推力指向序列，而目标状态仅为ＧＥＯ附近能够进行轨道捕获的小范围区域。

智能体在状态空间中很难探索到目标状态，导致有效训练数据不足，训练过程十分缓慢甚至难以完成训练，这是强化学习方法解决小推力变轨问题的难点之一。

本文提出了以下方法解决这一难点。

３．１　动作输出映射
轨道转移的目标状态限制了半长轴、偏心率和轨道倾角３个参数，卫星从初始轨道到目标轨道需要完成提高半长轴、减小偏心率、压低轨道倾角３方面内容。

本文通过分析轨道动力学方程，提炼出能够实现这３方面内容的推力指向角α、β的粗略变化规律。

根据提炼出来的先验知识，对动作网络的输出进一步设计，使半长轴、偏心率和轨道倾角３个参数始终向目标值靠近，从而缩小探索空间。

由前文可知，动作网络的实际输出值需要做线性变换才能与环境交互，因此可以在这一过程中引入先验知识。

暂时忽略式（８）中摄动加速度犉犱的影响，将式（１０）代入式（８），得到推力加速度矢量三维分量关于β的表达式
犉狉＝犜犿ｃｏｓαｃｏｓβ
犉狋＝犜犿ｓｉｎαｃｏｓβ
犉狀＝犜犿ｓｉｎ
烅
烄
烆β
（２４）
将式（２４）代入式（１）中的半长轴、偏心率和轨道倾角微分方程，整理得到：
犪·＝２犪２犜ｃｏｓβ
犿μ槡狆犲ｓｉｎθｃｏｓα＋
狆狉ｓｉｎ
（）α
犲·＝犜ｃｏｓβ
犿μ槡狆（狆ｓｉｎθｃｏｓα＋［（狆＋狉）ｃｏｓθ＋狉犲］ｓｉｎα）
犻·＝狉犜
犿μ槡狆ｃｏｓ（ω＋θ）ｓｉｎ
烅
烄
烆β
（２５）若使犪、犲、犻尽可能向目标值靠近，须满足以下条件：
犪·≥０
犲·≤０
犻·≤
烅
烄
烆０
（２６）
由于，β∈［－９０°，９０°］，ｃｏｓβ≥０，因此，将式（２５）代入式（２６）可以得到
犲ｓｉｎθｃｏｓα＋（１＋犲ｃｏｓθ）ｓｉｎα≥０
狆ｓｉｎθｃｏｓα＋［（狆＋狉）ｃｏｓθ＋狉犲］ｓｉｎα≤０
ｃｏｓ（ω＋θ）ｓｉｎβ≤
烅
烄
烆０
（２７）
　第５期
韩明仁等：基于强化学习的全电推进卫星变轨优化方法·１６５７　· 由式（２７）可知，半长轴、偏心率的增减与θ∈［０°，１８０°］有关，轨道倾角的增减与θ∈［０°，１８０°］有关，
因此可以通过式（２７）
得到：（１）当θ∈［０°，１８０°］时，若使半长轴增大，则α∈［０°，９０°］；若使偏心率减小，则α∈［－９０°，－θ］∪［１８０°－θ，３６０°－θ］。

（２）当θ∈（１８０°，３６０°］时，若使半长轴增大，则α∈［９０°，１８０°］；若使偏心率减小，则α∈［１８０°－θ，３６０°－θ］∪［
５４０°－θ，２７０°］。

（３）当ω＋θ∈［０°，９０°］∪（２７０°，３６０°］时，
若使轨道倾角减小，则β∈［－９０°，０°］。

（４）当ω＋θ∈（９０°，２７０°］
时，若使轨道倾角减小，则β∈［０°，９０°］。

对轨道摄动情况进行分析，可以得知在变轨前期轨道高度较低的弧段，地球非球形引力摄动和大气阻力产生的摄动加速度相对较大，
因此变轨前期主要提升半长轴。

综合以上分析可以得知，能够实现轨道转移任务的策略具有以下几个特点：①变轨前期主要增大半长轴，推力
在轨道面内分量主要分布在速度方向附近；②变轨后期进一步提升半长轴，同时减小偏心率，推力在轨道面内分量随真近点角程周期变化；③整个变轨过程中推力矢量在轨道面法向的分量在升交点侧的一半弧段指向负法向，在降交点侧的一半弧段指向正法向。

假设动作网络的实际输出为（α′，β′），根据上述特点对其做以下变换：α＝π２１－（α′＋１）６ｓｉｎ（
）θ，犪≤犪狊π２１＋（α′＋１）ｃｏｓθ（）（
）
２，犪＞犪烅烄烆狊（２８）β＝π４（β′＋１）ｃｏｓ（ω＋θ）（２９）式（２８）和式（２９）在最优策略的必要条件下对α、β进行粗略约束，不影响策略最优性的同时使卫星更容易探索到目标轨道，从而获得更多的有效训练数据。

其中，变轨阶段临界点α狊的最优值在强化学习训练循环中采用随机搜索的方法求解。

３．２　分层奖励设计在强化学习中，奖励通过环境传递给智能体，智能体的训练目标是使总收益最大化，因此奖励函数的设计尤为重要。

当前的优化目标是时间最优，一般的时间最优奖励函数形式为
犚（狊狋，狌狋）＝η，达到任务目标－ζ，烅烄烆其他（３０）式中：ζ为一个较小值，代表耗时惩罚；η为一个较大值，代
表完成任务目标的奖励。

上述奖励函数虽然能够保证优化目标的实现，但是训练过程中可能达不到任务目标，导致很多无效的训练。

因此，根据本文实际问题，设计奖励函数如下：犚１（狊狋，狌狋）＝η，达到任务目标－ζ１＋犪狋－犪犳犪（）犳２
＋（犲狋－犲犳）２＋（犻狋－
犻犳）槡
烄烆烌烎２，烅烄烆其他（３１）式中：犪狋、犲狋、犻狋和犪犳、犲犳、犻犳分别为当前时间步和目标的半长轴、偏心率和轨道倾角。

其他情况中包括耗时惩罚和偏离任务目标惩罚。

前文中奖励函数虽然引入了偏离任务目标的惩罚项，但是智能体中神经网络由于采用了随机初始化参数，训练
效率受神经网络初始化影响较大，
在训练初期仅通过犚１的奖励值首次探索到目标轨道的用时不稳定。

因此，在犚１的基础上，
设计了更加有利于探索到目标的奖励函数：犚２（狊狋，狌狋）＝η，达到任务目标－ζ犪狋－犪犳犪（）犳２
＋（
犲狋－犲犳）２＋（犻狋－犻犳）槡
２，狋＼２０００＝００，烅烄烆其他（３２）式中：＼为取余符号。

犚２中每隔２０００个时间步计算一次当前状态与目标的偏差，其余情况奖励为０，取消对时间的寻
优，只探索目标状态，提高任务成功率。

结合犚１和犚２的优势，本文设计了分层奖励方法，将训练过程分为两个层次，下层训练采用犚２作为奖励，上层训练采用犚１作为奖励，训练初期从下层训练开始，优先探索能够达到目标状态的策略，当某一回合智能体成功达到目标状态时，则在此基础上开始上层训练，进行时间最短策略
寻优。

采用上述方法优化后的智能体与环境交互模型如图４所示。

图４　改进的智能体与环境交互模型Ｆｉｇ．４　Ｉｍｐｒｏｖｅｄａｇ
ｅｎｔｅｎｖｉｒｏｎｍｅｎｔｉｎｔｅｒａｃｔｉｏｎｍｏｄｅｌ
　·１
６５８　·系统工程与电子技术
第４４卷
４　结果分析及对比
４．１　训练结果
采用前文所提到的强化学习及训练加速方法对全电推进
卫星轨道转移问题进行求解，
验证方法的可行性和最优性。

假设在协调世界时（ｕｎｉｖｅｒｓａｌｔｉｍｅｃｏｏｒｄｉｎａｔｅｄ，ＵＴＣ）下的历元时刻２０２１年１月１日１２：００：００，卫星位于初始轨道，其初始轨道和目标轨道参数如表１所示，卫星初始质量为１６００ｋｇ，
携带两台装有矢量调节机构的离子电推力器，可产生推力合力大小为４００ｍ·Ｎ，比冲为２０００ｓ，太阳光压反射率为１，光压等效面积为２０ｍ２，在低轨道时的大气阻力系数为２．２，迎风面积为２０ｍ２。

表１　卫星轨道根数初始值和目标值犜犪犫犾犲１　犐狀犻狋犻犪犾犪狀犱狅犫犼犲犮狋犻狏犲狅狉犫犻狋犪犾犲犾犲犿犲狀狋狊狅犳狊犪狋犲犾犾犻狋犲轨道参数初始值目标值初始历元２０２１．１．１１２：００：００无约束半长轴／ｋｍ１７１６９．８４２１６５偏心率０．６０８７０轨道倾角／（°）２８．５０
升交点赤经／（°）０
无约束近地点幅角／（°）０
无约束真近点角／（°）１８０
无约束当卫星达到目标轨道附近且半长轴偏差小于０．５ｋｍ、偏心率小于０．１、轨道倾角小于０．１°时，即认为当前回合成功达到任务目标。

当卫星半长轴大于４２１７０ｋｍ、偏心率大于１、轨道倾角大于９０°时，
则认为探索超出边界，任务失败。

算法中动作网络和评价网络均采用三隐层平行结构，每层神经元节点数为１２８个，学习率均设置为１０－４，激活函数采用ＲｅＬｕ和Ｈａｒｄｓｗｉｓｈ两种函数，
具体结构如图５所示。

图５　智能体包含的神经网络结构示意图Ｆｉｇ．５　Ｓｃｈｅｍａｔｉｃｄｉａｇｒａｍｏｆｎｅｕｒａｌｎｅｔｗｏｒｋｃｏｎｔａｉｎｅｄｉｎａｇ
ｅｎｔ训练过程中还涉及到前文中提到的一些其他参数，具
体参数值如表２所示。

由于算法的稳定性和收敛性较好，因此超参数设置在合理的范围内即可，选取较为容易。

表２　其余参数选取
犜犪犫犾犲２　犛犲犾犲犮狋犻狅狀狅犳狅狋犺犲狉狆犪狉犪犿犲狋犲狉狊超参数取值剪切率ε０．２５折扣因子γ０．９９９３指数加权系数λ０．９８耗时惩罚ζ０．０１任务成功奖励η５５０
采用Ｐｙｔｈｏｎ语言实现网络结构并训练，用每回合累积奖励的变化来表示训练效果，得到的训练曲线如图６所示。

图６　学习曲线
Ｆｉｇ．６　Ｌｅａｒｎｉｎｇｃ
ｕｒｖｅ由图６可知，在训练初期，智能体未能探索到目标状态，
奖励函数为犚２，此时奖励为状态与目标状态偏差所产生的惩罚项，因此累积奖励为负值。

随后，智能体通过最小化偏
差探索到任务目标，
获得任务目标奖励，因此累计奖励产生了较大的阶跃，同时开始对转移时间优化。

在此阶段中，由
于策略的探索性，
智能体会探索到目标状态之外，因此会产生累计奖励突然下降的情况，由于犚１中同样存在偏差项，智
能体能够重新找到目标状态，
从而继续优化任务时间，最终累积奖励稳定到一个范围内，从中选取最大累积奖励对应的参数，得到动作网络模型，即可得到时间最优的转移策略。

最大累积奖励为１７６．８４，对应的轨道转移时间为１４２．１１ｄ。

将得到的动作网络与环境交互，即可得到时间最优的推力方向变化序列以及相应的轨道变化序列，其中半长轴、偏心率、轨道倾角变化曲线如图７所示。

图７　卫星轨道根数变化曲线
Ｆｉｇ．
７　Ｏｒｂｉｔｅｌｅｍｅｎｔｓｃｕｒｖｅｏｆｓａｔｅｌｌｉｔｅ。