【CN109729528A】一种基于多智能体深度强化学习的D2D资源分配方法【专利】
基于深度强化学习的D2D通信网络抗干扰资源调度方法

基于深度强化学习的D2D通信网络抗干扰资源调度方法安宁;张之栋
【期刊名称】《电力信息与通信技术》
【年(卷),期】2022(20)9
【摘要】针对现有学习方法在设备到设备(device-to-device,D2D)通信网络资源调度时,抗干扰能量效率和传输速率协调分配效果不理想的问题,文章提出了基于深度强化学习的D2D通信网络抗干扰资源调度方法。
分析功率控制最佳策略,建立D2D通信网络抗干扰资源调度模型;采用深度学习Q网络求解模型,构造传输速率最大化的深度神经网络(deep neural networks,DNN);以能量效率作为奖惩标准反向训练DNN,实现D2D通信网络抗干扰资源的最佳调度。
实验结果表明,应用该方法后传输速率达到30 bit/s,能量效率达到3.0 Mbit/s,资源调度数为
5×10^(2)~6×10^(2)个,网络吞吐量稳定在41~45 kbit/s,说明该方法能够提高传输速率和能量效率,调度性能好且网络吞吐量大。
【总页数】7页(P108-114)
【作者】安宁;张之栋
【作者单位】国家电网公司东北分部
【正文语种】中文
【中图分类】TP311
【相关文献】
1.基于强化学习的定向无线通信网络抗干扰资源调度算法
2.基于深度强化学习的应急通信网络规划方法
3.一种基于深度强化学习的通信抗干扰智能决策方法
4.一种基于深度强化学习的资源调度方法
5.基于强化学习的D2D通信网络低能耗路由算法
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于深度强化学习的无人机辅助资源分配方法[发明专利]
![一种基于深度强化学习的无人机辅助资源分配方法[发明专利]](https://img.taocdn.com/s3/m/01585b24876fb84ae45c3b3567ec102de2bddf30.png)
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202010644395.4(22)申请日 2020.07.07(71)申请人 广东工业大学地址 510060 广东省广州市越秀区东风东路729号(72)发明人 郑镐 蒋丽 陈彬 薛龙男 (74)专利代理机构 广州粤高专利商标代理有限公司 44102代理人 张金福(51)Int.Cl.G06Q 10/06(2012.01)G06N 3/04(2006.01)G06K 9/62(2006.01)(54)发明名称一种基于深度强化学习的无人机辅助资源分配方法(57)摘要本发明提供一种基于深度强化学习的无人机辅助资源分配方法,包括以下步骤:S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;S2:获取智能设备产生的计算任务信息并整合成系统状态S t ;S3:输入系统状态S t 对神经网络进行训练,得到系统动作A t ;S4:根据系统动作A t 计算得到相应的总开销C total ;S5:根据总开销C total 训练神经网络,得到使总开销最小化的系统动作;S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配。
本发明提供一种基于深度强化学习的无人机辅助资源分配方法,解决了目前工业物联网智能设备的计算任务时间延迟和能量消耗都比较高的问题。
权利要求书3页 说明书8页 附图2页CN 111915142 A 2020.11.10C N 111915142A1.一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,包括以下步骤:S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;S2:获取智能设备产生的计算任务信息并整合成系统状态S t;其中,t表示决策时隙;S3:输入系统状态S t对神经网络进行训练,得到系统动作A t;S4:根据系统动作A t计算得到相应的总开销C total;S5:根据总开销C total训练神经网络,得到使总开销最小化的系统动作;S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配。
一种基于强化学习的任务分配方法[发明专利]
![一种基于强化学习的任务分配方法[发明专利]](https://img.taocdn.com/s3/m/f45d4d34e97101f69e3143323968011ca300f71d.png)
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202010634907.9(22)申请日 2020.07.03(71)申请人 武汉实为信息技术股份有限公司地址 430000 湖北省武汉市江汉区江汉经济开发区汉口创业中心智慧大厦412室(72)发明人 徐连 王薇 (74)专利代理机构 武汉科皓知识产权代理事务所(特殊普通合伙) 42222代理人 胡琦旖(51)Int.Cl.G06Q 10/06(2012.01)(54)发明名称一种基于强化学习的任务分配方法(57)摘要本发明属于强化学习技术领域,公开了一种基于强化学习的任务分配方法,包括收集获取员工信息、任务信息;根据员工信息、任务信息建立强化学习模型,初始化Q矩阵、状态向量S、行动向量A、奖励矩阵R,设置超参数,进行Q矩阵的迭代计算;利用强化学习模型更新员工的当前任务分配阈值;根据每个员工的当前任务分配阈值、当前分配到的任务数量得到每个员工的权重信息;根据待分配任务的所有员工的权重信息进行新任务的分配。
本发明解决了现有技术中基于人力成本的任务分配方法无法高效合理地进行任务分配的问题,能够通过强化学习的方法在线自动地进行任务分配,解决人工任务分配存在的弊端。
权利要求书2页 说明书7页 附图1页CN 111861159 A 2020.10.30C N 111861159A1.一种基于强化学习的任务分配方法,其特征在于,包括以下步骤:步骤1、收集获取员工信息、任务信息;步骤2、根据所述员工信息、所述任务信息建立强化学习模型,初始化Q矩阵、状态向量S、行动向量A、奖励矩阵R,设置超参数,进行Q矩阵的迭代计算;步骤3、利用强化学习模型更新员工的当前任务分配阈值;步骤4、根据每个员工的当前任务分配阈值、当前分配到的任务数量得到每个员工的权重信息;根据待分配任务的所有员工的权重信息进行新任务的分配。
移动边缘计算系统中基于多智能体强化学习的资源分配方法[发明专利]
![移动边缘计算系统中基于多智能体强化学习的资源分配方法[发明专利]](https://img.taocdn.com/s3/m/7f63cf5aa55177232f60ddccda38376baf1fe02d.png)
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910680954.4(22)申请日 2019.07.26(71)申请人 东南大学地址 210096 江苏省南京市玄武区四牌楼2号(72)发明人 夏玮玮 张雅雯 燕锋 成华清 胡静 宋铁成 沈连丰 (74)专利代理机构 南京众联专利代理有限公司32206代理人 张伟(51)Int.Cl.H04W 72/04(2009.01)H04L 29/08(2006.01)(54)发明名称移动边缘计算系统中基于多智能体强化学习的资源分配方法(57)摘要本发明公开了移动边缘计算系统中基于多智能体强化学习的资源分配方法,包括:(1)将无线信道划分成若干个子载波,每个用户仅仅可以选择一个子载波;(2)每个用户随机选择信道以及计算资源,然后计算用户卸载产生的时延和能耗;(3)将用户在本地计算产生的时延能耗和卸载到边缘云的进行对比,判断卸载是否成功;(4)通过多智能体强化学习得到当前卸载动作的奖励值,并计算价值函数;(5)用户根据策略函数进行动作选择;(6)改变用户的学习速率进行策略更新,得到最优动作集合。
本发明基于可变速率的多智能体强化学习,充分利用移动边缘服务器的计算资源和无线资源,在考虑了用户卸载的必要性的同时,得到各智能终端效用函数的最大值。
权利要求书2页 说明书6页 附图2页CN 110418416 A 2019.11.05C N 110418416A1.一种移动边缘计算系统中基于多智能体强化学习的资源分配方法,其特征在于包括如下步骤:(1)移动边缘云计算系统环境下将无线信道划分成K个子载波,假设每个子载波之间是正交的,选择不同子载波的用户之间互不干扰,并且每个用户只能选择一个子信道;(2)移动边缘云计算系统中的终端随机选择子信道以及云服务器中计算资源,并建立终端的任务卸载开销函数;其中该任务卸载开销函数包含能耗开销和时延开销,能耗开销是终端进行任务卸载时消耗的能量,时延开销是终端进行任务卸载过程中上传到服务器的时延以及计算的时延;(3)计算用户在本地计算产生的开销,其中该开销函数包括本地计算所需要的时延开销和本地计算所产生的能量开销;将本地开销和卸载到云服务器的开销进行对比,由此来判断本次卸载是否有必要性,只有当卸载的开销小于本地计算开销时本次卸载才算是成功的;(4)通过多智能体强化学习算法,计算当前智能体在无线资源和计算资源选择后的奖励值,然后计算当前状态下的动作价值函数;(5)用户采取策略ε-贪心重新选择无线资源和计算资源,每当智能体进行一次动作选择后,该智能体的动作价值函数就会变化,总体上时向着动作价值函数更大的方向进行动作选择;(6)通过当前策略的预期价值和平均策略价值进行比较,改变用户的学习速率,进行策略更新,从而得到最优动作集合,即各个终端获得的边缘云服务器的计算资源和无线资源。
基于强化学习的D2D通信资源分配系统研究

基于强化学习的D2D通信资源分配系统研究
张湘婷;张福鼎
【期刊名称】《通信电源技术》
【年(卷),期】2022(39)3
【摘要】D2D通信可以实现距离相近的两个设备,不需要基站中继而通过复用通信资源进行直接通信,这种方式尽管能够提高传输速率,但是用户之间存在的干扰也不能忽略。
为解决这一问题,提出一种基于强化学习的D2D通信资源分配的系统,利用Q学习的方法,在动态环境下将动作-状态构建成Q值表,系统通过执行的动作产生回报值,不断更新Q值表,最终趋于收敛,获得最大化效益。
系统通过Q值表选择使得利益最大化的动作执行,给蜂窝小区内的用户分配信道和功率等级,减少干扰。
从仿真来看,在算法的控制下,资源利用率获得了大大提高,降低了干扰。
【总页数】3页(P67-69)
【作者】张湘婷;张福鼎
【作者单位】江苏第二师范学院物理与电子工程学院
【正文语种】中文
【中图分类】TN9
【相关文献】
1.基于D2D的C-V2V车载协作通信资源分配算法
2.基于不完美CSI的D2D通信网络鲁棒能效资源分配算法
3.一种基于Q-Learning的蜂窝网络中D2D通信资源
分配策略4.5G网络中基于设备的D2D通信资源分配方案5.基于并行CNN的RIS 辅助D2D保密通信系统资源分配算法
因版权原因,仅展示原文概要,查看原文内容请购买。
一种多智能体深度强化学习方法、系统及应用[发明专利]
![一种多智能体深度强化学习方法、系统及应用[发明专利]](https://img.taocdn.com/s3/m/66fc0674bf1e650e52ea551810a6f524cdbfcb63.png)
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202110216405.9(22)申请日 2021.02.26(71)申请人 中国人民解放军陆军工程大学地址 210014 江苏省南京市秦淮区后标营路88号(72)发明人 张婷婷 董会 张赛男 (74)专利代理机构 南京纵横知识产权代理有限公司 32224代理人 何春廷(51)Int.Cl.G06N 3/08(2006.01)(54)发明名称一种多智能体深度强化学习方法、系统及应用(57)摘要本发明公开了一种基于分区经验与多线程交互的多智能体深度强化学习算法。
首先,该算法使用分区缓存区的经验重放形式,通过划分奖励空间来区分正面经验、负面经验与中性经验,并在训练时使用分层随机的采样方式抽取这些经验数据。
其次,算法运用多线程的交互方式促进了智能体与环境的试错过程,通过智能体的多个克隆体并行的学习并整合它们的学习经验来训练网络模型的参数。
优点是:本发明提出的基于缓存区重放与多线程交互的多智能体深度强化学习算法,结合分区经验缓存区及多线程交互方式的优势,引入到多智能体的深度强化学习算法中;在收敛速度与训练效率上均优于现有的模型,在多智能体环境中具有更高的可用性,可用于解决多智能体的协同追踪目标问题。
权利要求书2页 说明书10页 附图4页CN 112801290 A 2021.05.14C N 112801290A1.一种多智能体深度强化学习方法,其特征在于,包括:获取预先构建的智能体与外界环境交互式时进行动作回馈的奖励函数,根据奖励函数获取整个奖励空间,并依据奖励的属性将奖励空间划分为若干层缓存区;为每个智能体构建多个克隆体,多个克隆体一一对应多个线程,通过线程获取对应克隆体每次与环境副本进行交互后的样本经验;汇总所有线程的样本经验;对于每个所述样本经验,关联它的奖励的属性,并根据奖励的属性将所述样本经验放入对应的缓存区中;通过分层随机抽样的采样方式从所有缓存区中抽取经验样本,训练多智能体深度强化学习神经网路。
D2D网络中基于强化学习的路由选择与资源分配算法研究.doc

D2D网络中基于强化学习的路由选择与资源分配算法研究随着通信网络的发展,终端直连通信技术(Device-to-Devic,D2D)被广泛关注,它的应用将满足用户日益增长的流量需求。
然而,D2D技术的引入使得蜂窝网络内部的干扰冲突加剧,用户难以满足服务质量(Quality-of-Service,QoS)的需求。
一些传统算法基于网络“抓拍”信息可以计算得到各采样时刻的网络控制策略,却难以适应复杂多变、高度动态的网络环境。
因此,本文着手于动态环境下的D2D网络中的通信问题进行了深入地研究,并结合正在兴起的机器学习技术,提出了更加智能化的解决方案。
在本文中我们将分别研究“多跳D2D网络”与“D2D直连通信”两类D2D应用场景的通信问题,提出了在两种场景下基于强化学习的在线学习方法,从而解决多跳网络中的路由问题与D2D直连网络中的资源分配问题。
而随着问题复杂程度的增加,强化学习算法也相应由浅入深。
在路由问题中,因问题复杂程度较低,我们利用传统强化学习算法中的值迭代算法求解,而在资源分配问题中因问题规模变大,本文依次提出了基于深度Q 学习(Deep Q-Learning,DQN)的资源分配算法和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的资源分配算法分别解决了问题中状态空间连续与动作空间连续的问题,而这两种算法都是深度强化学习(Deep Reinforcement Learning,DRL)中的经典算法。
在多跳D2D网络路由问题中,我们考虑了三类随网络动态变化的QoS指标,并利用值迭代算法求解,同时提出了分布式的强化学习算法解决了集中式算法学习周期过长的问题。
仿真发现,在动态环境中,所提算法在性能与时间复杂度方面相较于传统算法有着更好的表现。
在D2D资源分配问题中,我们考虑单信道与多信道两类资源复用场景,在用户移动构成的动态环境中,利用DRL算法智能体可以通过自身探索与环境反馈实现网络自学习、自优化的智能化控制。
基于容量最优化的D2D资源分配方法的研究

基于容量最优化的D2D资源分配方法的研究宋苗苗;罗汉文【摘要】D2D (Device-to-Device)通信是一种在基站的控制下,允许终端之间通过复用小区资源直接通信的新型技术.它能够增加蜂窝通信系统频谱效率,降低终端发射功率,在一定程度上解决了无线通信系统频谱资源匮乏的问题.由于在未来的移动网络中有越来越多的异构设备,一个高效的资源分配方案必须最大限度地提高系统的吞吐量,并实现更高的频谱效率.资源分配方案是在保证小区用户吞吐量的前提下,使D2D用户获得最大的吞吐量,并在文献[7]的基础上给出了一个算法来解决这个问题.通过仿真表明,算法具有较低的时间复杂度,能够有效地提高系统的吞吐量.【期刊名称】《上海师范大学学报(自然科学版)》【年(卷),期】2015(044)001【总页数】5页(P6-10)【关键词】蜂窝网络;D2D通信;资源分配【作者】宋苗苗;罗汉文【作者单位】上海师范大学信息与机电工程学院,上海200234;上海师范大学信息与机电工程学院,上海200234;上海交通大学电子信息与电气工程学院,上海200240【正文语种】中文【中图分类】TN929.50 引言随着移动通信的快速发展,带宽的需求也越来越大,但是可用于移动通信的频谱资源十分有限[1].如何在有限的带宽资源中实现高速率和大容量成为世界研究的重点.D2D技术,是指两个设备不经由基站转接而直接进行数据通信的技术.D2D技术可以实现本地通信或对等的点对点通信,而无需接入核心网络,所以其能够大大减轻基站的负载.由于D2D通信的距离相对较近,故相关设备的发射功率较小,这对延长移动终端电池的使用时间有积极作用.一般而言,D2D通信工作在蜂窝网络的许可频段,其通过复用小区的频率资源可以提高整个网络的通信速率和质量.D2D通信最蜂窝网络也会产生干扰,可以通过基站对D2D通信的资源和发射功率的调整进行控制.文献[1-6]对蜂窝通信和D2D通信的功率控制、资源分配以及模式选择做了一定的研究.文献[2]表明D2D通信技术相对于工作在非许可频段的其他技术(如蓝牙、WLAN等),能够提供干扰可控,稳定可靠的通信服务,这对QoS较高的用户是很重要的优势.文献[3]研究了蜂窝覆盖下的D2D用户多播传输问题,通过合作重传来改善通信质量,并提出了一个簇内D2D重传方案,提高了系统的吞吐量.文献[4]在保证D2D用户和蜂窝用户的服务质量(QoS)的情况下,提出了最大权重匹配算法,进而可以选择合适的D2D对,并使整个网络的吞吐量最大化.文献[5]使用几何规划的方法使整个网络的吞吐量最大化,同时保证了D2D 用户的信干噪比(SINR)的最小化.文献[6]提出了在蜂窝网络覆盖下D2D用户和蜂窝用户共享频谱的协议,该协议允许D2D的用户彼此进行双向通信,而他们中的一个辅助基站和蜂窝用户之间的双向通信.1 系统模型1.1 网络模型讨论宏基站覆盖下的蜂窝用户的通信和D2D用户对通信的资源分配问题,仅考虑基于OFDMA的小区系统,采用频分双工模式.所讨论的系统模型如图1所示,在宏基站的覆盖下共有两种用户,一种是蜂窝用户,表示为Am(m=1,2,…,M),可以与基站之间直接通信;另一种是 D2D 对用户,分别表示为 Dn,t,Dn,r(n=1,2,…,N),Dn,t表示 D2D 对的发送者,Dn,r表示 D2D 对的接收者,令 Dn={Dn,t,Dn,r}.D2D 对用户是点对点的直接通信,D2D对中的用户Dn,t能与基站之间交换控制信息,但是用户SUE则不能,用户 SUE听从用户PUE的命令.图1 系统模型1.2 小区用户和D2D用户收到的干扰每个资源块(RB Resource Block)包含一定数量的子载波,根据3GPP LTE中物理层的标准,每个RB包括12个子载波.共有K个RB,表示为R={RB1,RB2,…,RBK}.所有的RB只能由小区用户使用或者D2D对使用,所以RB可以分为两类,即小区用户专用的RB和D2D对专用的RB.假设基站和D2D对发送者的功率分别为pb,pd,基站分配给每个RB的发射功率相等,则每个RB上的发射功率为pb/K.假定D2D组内的每个用户与源终端之间的通信链路的信道信息相互独立,服从准静态平坦瑞利衰落,即在一个时隙内,用户的信道条件保持不变,在下一个时隙开始时,每个用户的信道条件都会独立地变化.设基站到Am的信道增益表示为,同样地,D2D 对中 Dn,t到 Dn,r,基站到Dn,r,Dn,t到 Am 的信道增益可以表示为假设信道增益由大尺度衰落和频率选择性衰落决定,其中,大尺度衰落由两个用户之间的距离d以及路径损耗系数α决定,瑞利随机变量f决定两个用户之间的小尺度衰落,即h=f2.假设信道增益可以表示为g=d-αh,则通信系统中的噪声满足均值为 0,方差为σ2 的高斯分布.假设使用同一个RB k的D2D对的集合为Ck.由于蜂窝用户与D2D对不能同时共享同一个RB,所以D2D对与蜂窝用户之间是没有干扰的.小区用户Am使用RB k进行数据传输的时受到到的信干噪比(SINR)表示为当D2D对Dn使用RB k进行数据传输时,Dn,r的SINR表示为2 资源分配问题为了合理地解决资源分配的问题,根据3GPP标准化的共识,提出了一个RB的资源分配方案,在满足蜂窝用户的速率的情况下,使D2D用户获得的速率最大化,来满足D2D用户的需求.所建立的模型如(3)、(4)所示.其中式(3)表示所优化的目标函数,目的是使D2D对所获得的速率最大化.限制条件(4.1)保证了蜂窝用户的所需的速率.限制条件(4.2)、(4.3)表示每个RB不允许2个或者多个蜂窝用户共享.(4.4)每个D2D对不能占用2个或者多个RB.为了解决这个问题,研究了基于贪心算法的资源分配方法.具体的解决过程如算法1~算法3所示.算法11.初始化:U为M*K矩阵,U(i,j)表示小区用户i在RB j上的速率,V 为1*K 的全零矩阵 i,j,m,n ← 0.2.for i=1∶M3.S←04.for j=1∶K5.if U(i,j)> S6.S←U(i,j)7.m←j8.end if9.V(m)←S10.end for11.for i*=1∶M12.U(i* ,m)← 013.end for14.end for15.end for16.return V算法21.初始化:X表示N*K矩阵,X(i,j)表示PUE i在RB j上的R,V 表示1*K 的全零矩阵 i,j,J*← 0.2.for i=1∶N3.S←04.for j=1∶K5.if X(i,j)> S6.S←X(i,j)7.j*←j8.end if9.end for10.Y(j*)=Y(j*)+S11.j←j+112.end for13.return Y算法31.call algorithm 12.call algorithm 23.for i=1∶K4.while RA<R5.if V(i)> =Y(i)6.RA←RA+V(i)7.else RD←RD+Y(i)8.end if9.end while10.RD←RD+Y(i)11.end for算法1是挑选出用户A在所有RB上的速率的最大值,并使蜂窝用户A使用该RB,其他用户不能复用该RB.算法1中的11~13行是把其他用户在该RB上的速率置为0,保证再次循环的时候,其他用户不再使用已经被占用的RB.算法2可以实现多个D2D对共享同一个RB.在与蜂窝用户争夺RB时,D2D对联合起来会获得较高的速率,从而能够成功获得RB的概率就越大.算法3是在每个RB上根据蜂窝用户和D2D用户的速率来争夺RB,速率大的可以获得该RB.当小区用户的总速率达到了其所需的速率之后,则剩余的RB全都给D2D对使用,从而满足D2D用户速率的最大化.3 仿真结果为了验证所提出方法的有效性,对该方案进行了仿真.仿真参数是根据LTE系统选取的.考虑一个独立的蜂窝小区,小区用户和D2D对在蜂窝小区的覆盖下随机分布.该系统共有20/15个小区用户,N个D2D对,D2D对的发送者和接收者之间的距离小于25 m.蜂窝小区的半径为300 m.信道带宽为20 MHZ,一共有30个RB.基站的发射功率为46 dBm,蜂窝用户的发射功率为24 dBm.RB随机分配与所提方案的对比图如图2所示.图2 在不同方案下系统总速率对比图由图2可以看出,所提的方案实现的总速率优于随机分配RB的总速率,且随着D2D对数量的增加,系统的总速率也是随之增加的.但D2D对的数量不能无限增加,因为系统中引入D2D通信,只能作为蜂窝通信的辅助手段,大量的D2D通信会对蜂窝通信产生较大的干扰,进而影响整个蜂窝网络的通信.4 结论本文作者首先给出了D2D通信系统模型和信道模型,最优化问题的目标是在满足蜂窝用户速率的前提下,使D2D用户的总速率达到最大化.为了解决这个最优化问题,研究了一个基于贪心算法的资源分配方法,并对该算法进行详细的描述.通过仿真结果表明,所提出的方案在满足蜂窝用户资源的前提下,能够有效地提高系统的总吞吐量,且随着D2D对数量的增加,系统总的吞吐量也是随之而增加.但是由于算法的复杂度较高,需要进一步研究,从而获得更好的效益.参考文献:[1]PHUNCHONGHARN P,HOSSAIN E.Resource allocation for device-to-device communications underlaying LTE-advanced networks:IEEE Wireless Communications[C].Sydney:IEEE,2013.[2]DOPPLER K,RINNE M,WIJTING C.Device-to-Device communication as an underlay to LTE-advanced Networks[J].IEEE Communications Magazine,2009,12:42 -49.[3]ZHOU B,HU H L,HUANG SQ.Intracluster Device-to-Device relay algorithm with optimal resource utilization[J].IEEE transactions on vehicular technology,2013,62(5):2315 -2326.[4]FENG D Q,WU Y Y.Device-to-Device communications underlaying cellular networks[J].IEEE Transactions on communications,August 2013,61(8):3541 -3551.[5]TADROUSJ,et al.Power control for constrained throughout maximization in spectrum shared networks:IEEE Global Telecommun conference[C].Miami:IEEE,2010.[6]YI Y P,LIANG Y C.Resource Allocation for Device-to-Device Communications Overlaying Two-Way Cellular Networks[J].IEEE Transactions on Wireless Communications,2013,12(7):3611 -3621.[7]ZHANG R Q,et al.Distributed Resource Allocation for Device-to-Device Communications Underlaying Cellular Networks:2013 IEEE International Conference on Communications[C].Budapest:IEEE,2013.。
基于多智能体强化学习的目标探测与分配方法及装置[发明专利]
![基于多智能体强化学习的目标探测与分配方法及装置[发明专利]](https://img.taocdn.com/s3/m/0691eecdaff8941ea76e58fafab069dc5022479a.png)
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202010959038.7(22)申请日 2020.09.14(71)申请人 中国人民解放军军事科学院评估论证研究中心地址 100089 北京市海淀区厢红旗东门外1号申请人 航天科工系统仿真科技(北京)有限公司(72)发明人 伊山 魏晓龙 鹿涛 黄谦 齐智敏 蔡春晓 赵昊 张帅 亢原平 (74)专利代理机构 北京细软智谷知识产权代理有限责任公司 11471代理人 谭承世(51)Int.Cl.G06F 30/27(2020.01)G06F 119/14(2020.01)(54)发明名称基于多智能体强化学习的目标探测与分配方法及装置(57)摘要本发明涉及一种基于多智能体强化学习的目标探测与分配方法及装置,包括构建作战行为模型和强化学习训练环境;采用强化学习训练环境对所述作战行为模型进行训练至模型收敛,获取人工智能行为模型;采用作战仿真引擎对所述人工智能行为模型进行训练,输出优化模型。
本发明将强化学习算法MADDPG集成到兵棋推演系统中,构建从简单到复杂的仿真环境,优化强化学习收敛速度,有效的解决了兵棋推演系统中智能体优化收敛速度的问题。
权利要求书2页 说明书7页 附图2页CN 112131786 A 2020.12.25C N 112131786A1.一种基于多智能体强化学习的目标探测与分配方法,其特征在于,包括:构建作战行为模型和强化学习训练环境;采用强化学习训练环境对所述作战行为模型进行训练至模型收敛,获取人工智能行为模型;采用作战仿真引擎对所述人工智能行为模型进行训练,输出优化模型。
2.根据权利要求1所述的方法,其特征在于,构建强化学习训练环境,包括:采用MADDPG算法将作战仿真引擎与强化学习训练环境进行映射。
3.根据权利要求2所述的方法,其特征在于,所述采用MADDPG算法将作战仿真引擎与强化学习训练环境进行映射,包括:将所述作战仿真引擎中的作战行为模型映射为所述强化学习训练环境中的多个智能体,所述智能体作为训练的对象;将所述作战仿真引擎中的感知模型映射为所述强化学习训练环境中的感知代理模块,用于获取当前战场态势;将所述作战仿真引擎中的决策模型映射为所述强化学习训练环境中的决策代理模块,用于根据当前战场态势选择要执行的行动;将所述作战仿真引擎中的行动模型映射为所述强化学习训练环境中的行动代理模块,用于执行选择的行动;将所述作战仿真引擎中的记忆模型映射为所述强化学习训练环境中的记忆代理模块,用于存储战场态势。
一种基于深度强化学习的多星自主任务分配方法[发明专利]
![一种基于深度强化学习的多星自主任务分配方法[发明专利]](https://img.taocdn.com/s3/m/1d762c88fc0a79563c1ec5da50e2524de518d0b8.png)
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 202011140091.0(22)申请日 2020.10.22(71)申请人 北京控制工程研究所地址 100080 北京市海淀区北京2729信箱(72)发明人 王云鹏 袁利 朱琦 张聪 张斯航 郝策 孙栋 (74)专利代理机构 中国航天科技专利中心11009代理人 高志瑞(51)Int.Cl.G06Q 10/04(2012.01)G06Q 10/06(2012.01)G06N 3/04(2006.01)G06N 3/08(2006.01)(54)发明名称一种基于深度强化学习的多星自主任务分配方法(57)摘要本发明公开了一种基于深度强化学习的多星自主任务分配方法,该方法包括如下步骤:步骤一:将地球轨道上由N个卫星组成的星群构建为主从结构星群步骤二:根据步骤一中的主从结构星群,地面建立深度强化学习多星任务自主分配模型;步骤三:利用地面计算机对步骤二中的深度强化学习多星任务自主分配模型进行训练;步骤四:将训练成熟的深度强化学习多星任务自主分配模型上传至主从结构星群中的主星,主星利用训练成熟的深度强化学习多星任务自主分配模型对接收到待分配的任务进行分配。
本发明使得任务分配求解过程的复杂度就降低到了多项式级,大幅提高了计算效率,适应星上计算能力有限的环境。
权利要求书3页 说明书9页 附图3页CN 112270435 A 2021.01.26C N 112270435A1.一种基于深度强化学习的多星自主任务分配方法,其特征在于,所述方法包括如下步骤:步骤一:将地球轨道上由N个卫星组成的星群构建为主从结构星群,其中,主星负责接收任务和分配任务,从星接收主星分配的任务并负责执行;步骤二:根据步骤一中的主从结构星群,地面建立深度强化学习多星任务自主分配模型,其中,深度强化学习多星任务自主分配模型包括5层神经网络;其中,第一层为输入层,第二层和第三层均为卷积层,第四层和第五层均为全连接层,最后一层是输出层;步骤三:利用地面计算机对步骤二中的深度强化学习多星任务自主分配模型进行训练;步骤四:将训练成熟的深度强化学习多星任务自主分配模型上传至主从结构星群中的主星,主星利用训练成熟的深度强化学习多星任务自主分配模型对接收到待分配的任务进行分配。
一种基于多智能体深度强化学习与最小二乘的定位方法[发明专利]
![一种基于多智能体深度强化学习与最小二乘的定位方法[发明专利]](https://img.taocdn.com/s3/m/f889510bcec789eb172ded630b1c59eef8c79afa.png)
专利名称:一种基于多智能体深度强化学习与最小二乘的定位方法
专利类型:发明专利
发明人:郭贤生,李彤,张妍,段林甫,张玉坤,李林,黄健
申请号:CN202210207643.8
申请日:20220303
公开号:CN114578335A
公开日:
20220603
专利内容由知识产权出版社提供
摘要:本发明属于无人机辅助轨迹定位的方法,具体涉及一种基于多智能体深度强化学习与最小二乘算法的定位方法。
本发明建模一个无人机群与目标机器人相互通信的场景,利用有标签的无人机群和目标机器人的轨迹数据,以及二者之间的接收信号强度进行定位。
首先使用最小二乘算法对目标位置进行定位,然后基于多智能体深度强化学习算法对无人机群进行自主定位,同时评估对目标位置的估计。
训练过程中,使用深度神经网络处理高维状态输入,借助标签位置信息计算奖赏值,并考虑到多个智能体之间的异构性,进行了相关的仿真实验。
通过训练可以得到一个自适应的网络模型,对处理高维异构数据也有一定的鲁棒性。
因此,本发明是一种良好的定位替代技术。
申请人:电子科技大学长三角研究院(衢州)
地址:324000 浙江省衢州市柯城区芹江东路288号创新大厦1号楼18楼
国籍:CN
代理机构:成都点睛专利代理事务所(普通合伙)
代理人:孙一峰
更多信息请下载全文后查看。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910161391.8
(22)申请日 2019.03.04
(66)本国优先权数据
201811572168.4 2018.12.21 CN
(71)申请人 北京邮电大学
地址 100876 北京市海淀区西土城路10号
(72)发明人 郭彩丽 李政 宣一荻 冯春燕
(74)专利代理机构 北京永创新实专利事务所
11121
代理人 冀学军
(51)Int.Cl.
H04W 16/14(2009.01)
H04W 24/02(2009.01)
H04W 76/14(2018.01)
(54)发明名称
一种基于多智能体深度强化学习的D2D资源
分配方法
(57)摘要
本发明公开了一种基于多智能体深度强化
学习的D2D资源分配方法,属于无线通信领域。
首
先构建蜂窝网络与D2D通信共享频谱的异构网络
模型,基于其存在的干扰,建立D2D接收用户的信
干噪比SINR以及蜂窝用户的SINR,然后分别计算
蜂窝链路和D2D链路的单位带宽通信速率后,以
将最大化系统容量为优化目标,构建异构网络中
的D2D资源分配优化模型;针对时隙t,在D2D资源
分配优化模型的基础上,构建每一个D2D通信对
的深度强化学习模型;分别对后续时隙中的每个
D2D通信对提取各自的状态特征矢量,输入训练
好的深度强化学习模型中,得到各个D2D通信对
的资源分配方案。
本发明优化了频谱分配和传输
功率,最大化了系统容量,提供了低复杂度的资
源分配算法。
权利要求书3页 说明书10页 附图5页CN 109729528 A 2019.05.07
C N 109729528
A
1.一种基于多智能体深度强化学习的D2D资源分配方法,其特征在于,具体步骤包括:步骤一、构建蜂窝网络与D2D通信共享频谱的异构网络模型;
异构网络模型包括蜂窝基站BS、M个蜂窝下行用户以及N个D2D通信对;
设定第m个蜂窝用户为C m ,其中1≤m≤M;第n个D2D通信对为D n ,其中1≤n≤N;D2D通信对D n 中的发射用户和接收用户分别用和表示;
蜂窝下行通信链路和D2D链路通信都采用正交频分复用技术,每个蜂窝用户占用一个通信资源块RB,任意两个蜂窝链路之间没有干扰;同时允许一个蜂窝用户与多个D2D用户共享相同的RB,由D2D用户自主选择通信资源块RB和传输功率;
步骤二、基于异构网络模型中存在的干扰,建立D2D接收用户的信干噪比SINR以及蜂窝用户的SINR;
蜂窝用户C m
接收到的来自基站的第k个通信资源块RB上的信号SINR为:
P B 表示基站的固定发射功率;为基站到蜂窝用户C m 的下行目标链路的信道增益;D k 代表共享第k个RB的所有D2D通信对组成的集合;表示D2D通信对D n 中发射用户的发射功率;为当多个链路共享RB时,D2D通信对D n 中发射用户到蜂窝用户C m 的干扰链路的信道增益;N 0代表加性高斯白噪声的功率谱密度;
D2D通信对D n
的接收用户在第k个RB上的接收信号的SINR为:
为D2D通信对D n 的发射用户到接收用户的D2D目标链路的信道增益;为当多个链路共享RB时,基站到D2D通信对D n 的接收用户的干扰链路的信道增益;表示D2D通信对D i 中发射用户的发射功率;
为当多个链路共享RB时,D2D通信对D i 中发射用户到接收用户的干扰链路的信道增益;
步骤三、利用蜂窝用户的SINR以及D2D接收用户的SINR分别计算蜂窝链路和D2D链路的单位带宽通信速率;蜂窝链路的单位带宽通信速率计算公式为:D2D链路的单位带宽通信速率计算公式为:
步骤四、利用蜂窝链路和D2D链路的单位带宽通信速率计算系统容量,并将最大化系统容量为优化目标,构建异构网络中的D2D资源分配优化模型;
优化模型如下所示:
权 利 要 求 书1/3页2CN 109729528 A。