基于强化学习的卫星通信智能抗干扰决策探讨

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第5期2021年3月No.5March，2021
0 引言
卫星通信的覆盖范围非常大，而且卫星通信还能够在不受地理环境限制的同时保证通信质量，所以卫星通信在很多领域中都得到了广泛的应用。

在使用卫星通信时，只有避免受到干扰，才能够使卫星通信效果持续保持稳定。

因此，有必要对基于强化学习的卫星通信智能抗干扰决策展开研究。

1 卫星通信综述
卫星通信作为现代通信的主要手段，其在各个领域都有着良好的发展前景。

不同于其他通信方式，卫星通信在实际应用过程中不仅覆盖范围更广，而且还可以有效保证通信传输质量。

将人造卫星作为通信中转站的想法来自于英国，如今地球之外的卫星中继站已经成了现实。

现如今，地面通信网络的构建已经逐渐变得完善，但是因为每个区域的地理条件以及经济条件各不相同，所以地面蜂窝系统很难真正意义上的完成全球覆盖。

所以卫星通信才会因为不受地域影响成为一种主要的通信手段。

2 卫星通信系统面对的干扰种类
根据链路不同，卫星通信系统通常需要面对上行、星间、下行干扰三种不同的干扰类别。

因为卫星运行轨迹以及高度不容易发生改变，所以上行链路容易实施干扰。

而地面站则因为分布范围更加广泛且部分可以移动，所以下行链路不容易实施干扰。

而星间干扰则是对空间段卫星实施干扰，各类
反卫星武器都会对卫星通信系统带来威胁[1]。

在卫星通信系统中，电磁干扰通常可以分为压制、灵巧、欺骗干扰3种。

其中压制干扰是通过对卫星接收机发出同频率大功率信号使卫星误码率上升，影响卫星通信。

或是通过使接收机饱和令其无法正常开展通信工作。

通常情况下，常见的干扰信号可以分为单音、噪声调制等形式。

欺骗干扰指的是掌握卫星信息数据格式之后通过接收、生成等方式产生相近的信号来干扰卫星的信号接收。

若卫星信号格式被完全破解，还有可能对卫星发送指令完成卫星控制。

3 强化学习
强化学习指的是一种智能学习算法，这种学习算法与人
作者简介：孔景娜（1989— ），女，山东菏泽人，本科；研究方向：无线卫星。

摘要：随着科技的进步，通信方式越来越发达。

卫星能够将卫星作为中转站，在其电波覆盖范围以内，可以直接完成通信传
输，而且通信过程中并不会受到各类地质灾害的影响。

文章通过对卫星通信进行分析，并结合实际对基于强化学习的卫星通信智能抗干扰决策提出个人观点，希望为关注卫星通信智能抗干扰的人群带来参考。

关键词：强化学习；卫星通信；智能抗干扰技术基于强化学习的卫星通信智能抗干扰决策探讨
孔景娜
（69224部队，新疆阿克苏 842000）
类的学习过程非常接近，通过与环境之间进行交互来掌握
所需知识。

强化学习的最终目标就是通过最优方案完成目标。

在与环境交互期间，智能体需要对实时状态进行合理评估，通过值函数进行评估时能够判断当前状态的好与坏。

某一方案下的值函数如式（1）：V π（s ）=E [G t 丨S t =s ]=E π
【∑∞
=0
k r k R t +k +1丨S t =s 】（1）
式中s ∈S 、π=策略、R =短期收益、s =状态、r =折扣因子。

通过强化学习能够找到最优方案，即回报函数期望最大的方案策略，最优方案有可能并不唯一。

在强化学过程中如果找到了最优状态值函数，则在此函数的基础之上，所有状态都选定为最优动作，则可以获得最优方案，这种方法为值迭代。

4 智能抗干扰模型
强化学习作为无须大量数据信息支持的机器学习算法，机器在与环境进行交互的同时能够获得所需的数据信息并对现有的算法进行优化、更新，所以强化学习非常适合在通信期间应用。

系统由通信、智能决策两部分组成，在干扰出现时便会随之做出决策，对通信系统中的各种通信参数进行调整，通过这种方式能够使通信状态得到改善。

当通信系统将通信效果反馈至智能决策系统时，就可以完成相应的训练与学习，从而使学习在面对更加复杂的情况时能够发挥出应有的作用。

4.1 通信模型
WGS 采用了Ka 频段以及X 频段来进行通信，X 、Ka 频段中分别有9个、10个波束。

X 频段中的可用频谱为500 MHz 而Ka 频段则为1 GHz 。

在卫星通信系统中，通信部分融合了蜂窝小区频率复用方案，其中每一个小区都会占用1 MHz 的子信道。

在通信无干扰时，采用频分复用方案进行正常通信，而在受到卫星信号受到干扰之后，就可以令相邻的7个蜂窝小区形成大区，在组成整体之后交由智能决策系统进行调配使用，为了避免因个别小区通信需求而忽略其他小区，特定小区的频谱可以调整为正常通信期间的7倍，以此来提升
无线互联科技
Wireless Internet Technology
第5期2021年3月
No.5March，2021
整体抗干扰能力[2]。

4.2 强化学习模型
误比特率是评价通信系统的重要指标之一。

能够对通信过程中传输数据准确度进行衡量，而在通信期间还存在通信速率指标。

通信系统需要在误比特率相对较低的情况下增加通信速率，而通信速率则会受到信道容量带来的限制。

在通信系统中，通过增加信号功率能够增加信噪比，此时误比特率将会降低。

只有协调好误比特率、发射功率与通信速率间的关系，才能够使抗干扰能力进一步增加。

4.3 强化学习动作选择
在卫星通信系统中，干扰信号能够对各种有用信号带来影响。

通常情况下，干扰信号会通过以下几点来影响到通信信号：第一，相同的信号频率。

相同频率的信号会在信道中出现叠加的情况，叠加后的信号将会对信号波形带来影响，这种干扰无法利用滤波器来消除。

第二，干扰信号存在的频带范围较宽。

能够使用降低信噪比的方式来对通信信号造成影响。

强化学习动作能够从调制方式、功率、频域多种角度来合理选择抗干扰方式。

4.4 强化学习状态定义
在通信系统中，智能体就是为了增加智能抗干扰能力而添加的，所以智能体能够将通信系统看作环境，以此来考虑强化学习动作。

强化学习则通过改变频段、功率、调制方式来做出相应动作，整个过程能够满足马尔科夫决策的定义。

5 仿真、结果
通常情况下，干扰一般可以分为单一干扰与复合干扰两种，两种干扰类型的仿真参数各有不同，复合干扰便是由两种不同干扰相互叠加之后形成的。

在强化学习过程中，累计回报作为短期、长期回报二者之和，是一个非常重要的概念。

其中短期回报指的是强化学习由当前动作产生的回报，
而长期回报则是当前动作在未来有可能得到的回报。

在拥有
终止态的模型中，长期回报便是自当前动作开始直到终止之前所有动作共同的短期回报之和。

如果模型并没有终止态，则在计算长期回报时，就无法将每一次短期回报进行叠加，因为这种叠加方式得到的累计回报是属于发散性质的，所以在这种模型中应该尽量考虑短期回报。

误比特率与速率、功率进行加权后能够得到目标函数，所以对于卫星通信而言，应该在降低误比特率的同时尽量增加速率、降低功率，因此在选取权重时可以考虑将误比特率权重设置为0.8，而速率、功率权重则为0.1。

强化学习在使用过程中需要通过动态规划进行迭代处理，所以在使用期间应该优先判断决策是否收敛，当收敛结果得到之后再对仿真结果进行验证。

在单一干扰中，若通信系统受到了音频干扰，则值函数大约可以在经过30迭代之后逐渐趋于稳定并进入收敛状态。

通过强化学习完成交互、收敛之后，在函数便可以计算出最佳解决方案。

除了音频干扰以后，面对窄带、扫频等干扰时，将强化学习作为核心的抗干扰决策系统同样能够发挥出相对较好的抗干扰效果。

而在面对符合干扰时，无论是音频+窄带还是其他种类的符合干扰，都能够通过强化学习来解决干扰问题。

决策系统同样会通过交互学习来找出最优解，运算过程中同样在30次迭代左右便能够进入到收敛状态中，所以智能决策系统能够在实际应用过程中有效降低卫星通信期间的误码率[3]。

6 结语
总而言之，在卫星通信过程中，抗干扰技术的效果非常重要。

通过高质量的抗干扰决策，能够使卫星通信在变得更加稳定的同时提升传输效率。

基于强化学习的智能抗干扰决策便拥有非常优秀的抗干扰效果。

相信随着更多人了解到卫星通信抗干扰的重要性，卫星通信抗干扰能力一定会变得更好。

Research on intelligent anti-interference decision of satellite communication
based on reinforcement learning
Kong Jingna
（Armed forces of 69224, Aksu 842000, China ）
Abstract：
With the progress of science and technology, communication is more and more developed. The satellite can take the satellite as a transfer station, which can directly complete the communication transmission within its radio wave coverage, and the communication process will not be aﬀected by various geological disasters. In this paper, through the analysis of satellite communication, combined with the actual situation, this paper puts forward personal views on the intelligent anti-jamming decision-making of satellite communication based on reinforcement learning, hoping to bring reference for the people who pay attention to the intelligent anti-jamming of satellite communication.
Key words：
reinforcement learning; satellite communication; intelligent anti-jamming technology [参考文献]
[1]张越，韩志钢，张颂.卫星通信中的抗干扰技术分析[J].集成电路应用，2020（10）：180-181.[2]张任楠，王志涛.卫星通信抗干扰技术及其发展趋势分析[J].数字通信世界，2020（9）：79-80.[3]李新科，朱英军.基于星上处理的卫星通信抗干扰技术探究[J].网络安全技术与应用，2020（8）：87-88.
（编辑傅金睿）
无线互联科技·通信观察。