D2D网络中基于强化学习的路由选择与资源分配算法研究.doc
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
D2D网络中基于强化学习的路由选择与资源分配算法研究
随着通信网络的发展,终端直连通信技术(Device-to-Devic,D2D)被广泛关注,它的应用将满足用户日益增长的流量需求。
然而,D2D技术的引入使得蜂窝网络内部的干扰冲突加剧,用户难以满足服务质量(Quality-of-Service,QoS)的需求。
一些传统算法基于网络“抓拍”信息可以计算得到各采样时刻的网络控制策略,却难以适应复杂多变、高度动态的网络环境。
因此,本文着手于动态环境下的D2D网络中的通信问题进行了深入地研究,并结合正在兴起的机器学习技术,提出了更加智能化的解决方案。
在本文中我们将分别研究“多跳D2D网络”与“D2D直连通信”两类D2D应用场景的通信问题,提出了在两种场景下基于强化学习的在线学习方法,从而解决多跳网络中的路由问题与D2D直连网络中的资源分配问题。
而随着问题复杂程度的增加,强化学习算法也相应由浅入深。
在路由问题中,因问题复杂程度较低,我们利用传统强化学习算法中的值迭代算法求解,而在资源分配问题中因问题规模变大,本文依次提出了基于深度Q 学习(Deep Q-Learning,DQN)的资源分配算法和深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的资源分配算法分别解决了问题中状态空间连续与动作空间连续的问题,而这两种算法都是深度强化学习(Deep Reinforcement Learning,DRL)中的经典算法。
在多跳D2D网络路由问题中,我们考虑了三类随网络动态变化的QoS指标,并利用值迭代算法求解,同时提出了分布式的强化学习算法解决了集中式算法学习周期过长的问题。
仿真发现,在动态环境中,所提算法在性能与时间复杂度方面相较于传统算法有着更好的表现。
在D2D资源分配问题中,我们考虑单信道与多信道两类资源复用场景,在用
户移动构成的动态环境中,利用DRL算法智能体可以通过自身探索与环境反馈实现网络自学习、自优化的智能化控制。
在单信道的资源复用场景,我们单独解决单信道上的D2D功率控制问题,而在多信道的资源复用场景,D2D的总发射功率可以以不均等的方式分配在各信道资源上,从而优化蜂窝网络整体的吞吐量。
仿真发现DQN与DDPG两种算法均具备智能性,并在性能上优于传统算法。
同时在仿真中我们发现DQN算法易出现“伪收敛”问题,因此本文又提出了“样本加权”的优化方法并有效的解决了该问题。