【CN110049018A】基于增强学习的SPMA协议参数优化方法、系统及介质【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910229439.4(22)申请日 2019.03.25
(71)申请人 上海交通大学
地址 200240 上海市闵行区东川路800号 申请人 中国航天电子技术研究院(72)发明人 俞晖 杨明 高思颖 卢超
徐鹏杰 (74)专利代理机构 上海汉声知识产权代理有限
公司 31236
代理人 庄文莉(51)Int.Cl.
H04L 29/06(2006.01)G06N 20/00(2019.01)
(54)发明名称
基于增强学习的SPMA协议参数优化方法、系统及介质
(57)摘要
本发明提供了一种基于增强学习的SPMA协议参数优化方法、系统及介质,包括:参数选取及划分步骤:选取SPMA协议的参数集,将参数集中的各个参数以预设的颗粒度划分为不同的当前参数状态,获得当前参数状态集;时延及成功率获取步骤:根据获得的当前参数状态集及预设场景,将获得的当前参数状态集带入预设场景,获得SPMA协议的各个优先级业务时延和成功率。
本发明将不同的应用场景下的SPMA协议参数优化问题与增强学习算法相结合,相对于原有SPMA通信系统的参数选择方法,大大简化了参数计算过程,并且更容易达到要求的性能指标,可以更有效率的完成SPMA协议的相关设置,具有广泛的应
用前景。
权利要求书4页 说明书12页 附图2页
CN 110049018 A 2019.07.23
C N 110049018
A
1.一种基于增强学习的SPMA协议参数优化方法,其特征在于,包括:
参数选取及划分步骤:选取SPMA协议的参数集,将参数集中的各个参数以预设的颗粒度划分为不同的当前参数状态,获得当前参数状态集;
时延及成功率获取步骤:根据获得的当前参数状态集及预设场景,将获得的当前参数状态集带入预设场景,获得SPMA协议的各个优先级业务时延和成功率;
参数评分步骤:根据获得的各个优先级业务时延和成功率,采用预设的评分准则进行评分,判断是否符合预设评分标准:若是,则结束流程;否则,则进入参数优化步骤继续执行;
参数优化步骤:根据ε-greedy策略对当前参数状态进行更新,以概率ε根据Q值表中的最大Q值选择新的参数集,以概率1-ε随机选择参数集,返回时延及成功率获取步骤继续执行。
2.根据权利要求1所述的基于增强学习的SPMA协议参数优化方法,其特征在于,所述参数集选取步骤:
所述参数集包括以下任一种或任多种:SPMA协议的各优先级阈值、生存周期、统计窗口长度、回退窗口长度;
所述Q值为在系统状态下依据行动策略采取动作之后的累积衰减奖励。
3.根据权利要求2所述的基于增强学习的SPMA协议参数优化方法,其特征在于,所述参数评分步骤:
根据获得的各个优先级业务时延和成功率计算总评分,计算公式如下:
当和大于评分阈值时:
将更新为更新为
当和小于评分阈值时:
将更新为更新为
其中,
表示第i个优先级业务的成功率;
表示第i个优先级业务的时延。
score表示总评分;
表示第i个优先级业务成功率的得分;
表示第i个优先级业务时延的得分。
及为的权重,根据预设场景决定;
及为的权重,根据预设场景决定;
判断总评分score是否大于或等于目标分数G:若是,若是,则结束流程;否则,则进入参数优化步骤继续执行。
4.根据权利要求3所述的基于增强学习的SPMA协议参数优化方法,其特征在于,所述参数优化步骤:
根据ε-greedy策略从动作集合A中选取动作a,对当前参数状态进行更新,获得更新后的当前参数状态,所述更新后的当前参数状态不小于预设的最小值,且不大于预设的最大值;
根据获得的总评分score,获得当前奖励r,更新Q值表;
当前奖励r表示如下:
其中,
score before表示上一次迭代过程中得到的总评分;
Q值表更新公式如下:
将Q(s,a)更新为Q(s,a)+α[r+γmax a′Q(s′,a′)-Q(s,a)]
其中,
Q(s,a)表示在当前时刻下,在状态s、动作a条件下的Q值;
α表示学习率;
γ表示对未来奖励的衰减值;
max a′Q(s′,a′)表示在状态s′选取动作a′可以获得的最大Q值。
5.根据权利要求4所述的基于增强学习的SPMA协议参数优化方法,其特征在于,所述动作集合A为:
A={±θ1,±θ2,…,±θn}
θn表示每次动作的调整步长;
n表示不同参数;
所述根据ε-greedy策略从动作集合A中选取动作a指:
以预设概率ε选取动作时需要选取对应Q值表的最大Q值的动作,即按照Q值表的最大Q 值从动作集合A中选取可以获得所述最大Q值的动作a,或者;
以概率1-ε随机从动作集合A中选取动作a;
ε大于0且小于1。
6.一种基于增强学习的SPMA协议参数优化系统,其特征在于,包括:
参数选取及划分模块:选取SPMA协议的参数集,将参数集中的各个参数以预设的颗粒度划分为不同的当前参数状态,获得当前参数状态集;
时延及成功率获取模块:根据获得的当前参数状态集及预设场景,将获得的当前参数状态集带入预设场景,获得SPMA协议的各个优先级业务时延和成功率;
参数评分模块:根据获得的各个优先级业务时延和成功率,采用预设的评分准则进行评分,判断是否符合预设评分标准:若是,则结束流程;否则,则调用参数优化模块;
参数优化模块:根据ε-greedy策略对当前参数状态进行更新,以概率ε根据Q值表中的最大Q值选择新的参数集,以概率1-ε随机选择参数集,调用时延及成功率获取模块。
7.根据权利要求6所述的基于增强学习的SPMA协议参数优化系统,其特征在于,所述参数集选取模块:
所述参数集包括以下任一种或任多种:SPMA协议的各优先级阈值、生存周期、统计窗口长度、回退窗口长度;
所述Q值为在系统状态下依据行动策略采取动作之后的累积衰减奖励。
8.根据权利要求7所述的基于增强学习的SPMA协议参数优化系统,其特征在于,所述参数评分模块:
根据获得的各个优先级业务时延和成功率计算总评分,计算公式如下:
当和大于评分阈值时:
将更新为更新为
当和小于评分阈值时:
将更新为更新为
其中,
表示第i个优先级业务的成功率;
表示第i个优先级业务的时延。
score表示总评分;
表示第i个优先级业务成功率的得分;
表示第i个优先级业务时延的得分。
及为的权重,根据预设场景决定;
及为的权重,根据预设场景决定;
判断总评分score是否大于或等于目标分数G:若是,若是,则结束流程;否则,则调用参数优化模块。
9.根据权利要求8所述的基于增强学习的SPMA协议参数优化系统,其特征在于,所述参数优化模块:
根据ε-greedy策略从动作集合A中选取动作a,对当前参数状态进行更新,获得更新后的当前参数状态,所述更新后的当前参数状态不小于预设的最小值,且不大于预设的最大值;
根据获得的总评分score,获得当前奖励r,更新Q值表;
当前奖励r表示如下:
其中,
score before表示上一次迭代过程中得到的总评分;
Q值表更新公式如下:
将Q(s,a)更新为Q(s,a)+α[r+γmax a′Q(s′,a′)-Q(s,a)]
其中,
Q(s,a)表示在当前时刻下,在状态s、动作a条件下的Q值;
α表示学习率;
γ表示对未来奖励的衰减值;
max a′Q(s′,a′)表示在状态s′选取动作a′可以获得的最大Q值;
所述动作集合A为:
A={±θ1,±θ2,...,±θn}
θn表示每次动作的调整步长;
n表示不同参数;
所述根据ε-greedy策略从动作集合A中选取动作a指:
以预设概率ε选取动作时需要选取对应Q值表的最大Q值的动作,即按照Q值表的最大Q 值从动作集合A中选取可以获得所述最大Q值的动作a,或者;
以概率1-ε随机从动作集合A中选取动作a;
ε大于0且小于1。
10.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的基于增强学习的SPMA协议参数优化方法的步骤。
基于增强学习的SPMA协议参数优化方法、系统及介质
技术领域
[0001]本发明涉及通信协议技术领域,具体地,涉及基于增强学习的SPMA协议参数优化方法、系统及介质。
背景技术
[0002]SPMA(Statistic Priority Multiple Access)协议主要针对具有高优先级时敏业务的场景。
为应对不同优先级的高实时性业务需求,如TTNT的协同瞄准信息传输,就采用了SPMA作为接入协议。
基于优先级概率统计的多址接入协议由若干个优先级队列、优先级竞争回退窗口、优先级门限、信道占用统计量、收发天线以及相应的分布式控制算法组成。
不同优先级的业务对应不同的MAC层优先级队列,并且通过MAC层与物理层的交互,获得信道占用统计量,来决定分组的发送。
信道占用统计值用来统计预定时间段内一个通信信道的活动等级,所述信道占用统计值指:在设定的信道统计窗口内一个通信信道的忙闲程度。
[0003]当高层有分组传输或接收到转发分组时,分组按照一定的规则进入相应的优先级队列,然后由信道占用统计值与相应的优先级门限进行比较,如果信道占用统升值低于优先级门限,则发送分组;如果信道占用统计值商于优先级门限,该优先级分组等待一个随机回退时间,回退时间减为零后,节点再检查信道占用统计值进行发送。
当在回退时间内有高优先级数据到法时,回退定时器暂停,信道占用统计值立即与相应高优先级门限进行比较,来决定新到达的高优先级分组的传输。
在SPMA协议中,仿真参数主要包括回退窗口长度、信道统计窗口长度与优先级阈值。
在参数与性能指标的对应方面,端到端单跳传输时延与回退窗口长度有关;而丢包率与回退窗口长度、统计窗口长度、优先级阈值的设定都有关。
[0004]经过对相关文献的检索发现,AbdellatifSerhani,Najib Naja和Abdellah Jamali于2016年在AICCSA(IEEE/ACS 13th International Conference of Computer Systems and Applications)上发表了“QLAR:A Q-learning based adaptive routing for MANETs”(2016年IEEE/ACS第13届国际计算机系统与应用大会,“QLAR:基于Q学习的MANET自适应路由”),文章利用增强学习的方法,对于路由算法中多组互相制约的参数进行优化,以选择最佳路径进行传输。
同样的,在SPMA通信系统中,存在多组相互制约的参数,且对系统的性能指标有不同程度的影响,这种关系无法通过数学表达式具体表征。
针对不同的应用场景,随机选择一组参数往往无法达到要求的性能指标,又无法通过数学方法直接给出参数集的取值,所以需要采取增强学习的方法得到适用于当前场景的最佳参数(集)。
[0005]专利文献CN106954229A(申请号:201710136147.7)公开了一种基于SPMA的混合式信道负载统计方法,分别从物理层获取信道负载和从网络层获取信道负载,在轻负载情况下,使用物理层获得的信道负载统计值,在重负载情况下,通过网络层获得的信道负载统计值进行校准,若两者统计结果之间的差距超过一定容限,则使用网络层获得的信道负载统计值进行校准。
发明内容
[0006]针对现有技术中的缺陷,本发明的目的是提供一种基于增强学习的SPMA协议参数优化方法、系统及介质。
[0007]根据本发明提供的一种基于增强学习的SPMA协议参数优化方法,包括:[0008]参数选取及划分步骤:选取SPMA协议的参数集,将参数集中的各个参数以预设的颗粒度划分为不同的当前参数状态,获得当前参数状态集;
[0009]时延及成功率获取步骤:根据获得的当前参数状态集及预设场景,将获得的当前参数状态集带入预设场景,获得SPMA协议的各个优先级业务时延和成功率;
[0010]参数评分步骤:根据获得的各个优先级业务时延和成功率,采用预设的评分准则进行评分,判断是否符合预设评分标准:若是,则结束流程;否则,则进入参数优化步骤继续执行;
[0011]参数优化步骤:根据ε-greedy策略对当前参数状态进行更新,以概率ε根据Q值表中的最大Q值选择新的参数集,以概率1-ε随机选择参数集,返回时延及成功率获取步骤继续执行。
[0012]优选地,所述参数集选取步骤:
[0013]所述参数集包括以下任一种或任多种:SPMA协议的各优先级阈值、生存周期、统计窗口长度、回退窗口长度;
[0014]所述Q值为在系统状态下依据行动策略采取动作之后的累积衰减奖励。
[0015]优选地,所述参数评分步骤:
[0016]根据获得的各个优先级业务时延和成功率计算总评分,计算公式如下:
[0017]当和大于评分阈值时:
[0018]将更新为更新为
[0019]当和小于评分阈值时:
[0020]将更新为更新为
[0021]
[0022]其中,
[0023]表示第i个优先级业务的成功率;
[0024]表示第i个优先级业务的时延。
[0025]score表示总评分;
[0026]表示第i个优先级业务成功率的得分;
[0027]表示第i个优先级业务时延的得分。
[0028]及为的权重,根据预设场景决定;
[0029]及为的权重,根据预设场景决定;[0030]判断总评分score是否大于或等于目标分数G:若是,若是,则结束流程;否则,则进入参数优化步骤继续执行。
[0031]优选地,所述参数优化步骤:
[0032]根据ε-greedy策略从动作集合A中选取动作a,对当前参数状态进行更新,获得更新后的当前参数状态,所述更新后的当前参数状态不小于预设的最小值,且不大于预设的最大值;
[0033]根据获得的总评分score,获得当前奖励r,更新Q值表;
[0034]当前奖励r表示如下:
[0035]
[0036]其中,
[0037]score before表示上一次迭代过程中得到的总评分;
[0038]Q值表更新公式如下:
[0039]将Q(s,a)更新为Q(s,a)+α[r+γmax a′Q(s′,a′)-Q(s,a)]
[0040]其中,
[0041]Q(s,a)表示在当前时刻下,在状态s、动作a条件下的Q值;
[0042]α表示学习率;
[0043]γ表示对未来奖励的衰减值;
[0044]max a′Q(s′,a′)表示在状态s′选取动作a′可以获得的最大Q值。
[0045]优选地,所述动作集合A为:
[0046]A={±θ1,±θ2,…,±θn}
[0047]θn表示每次动作的调整步长;
[0048]n表示不同参数;
[0049]所述根据ε-greedy策略从动作集合A中选取动作a指:
[0050]以预设概率ε选取动作时需要选取对应Q值表的最大Q值的动作,即按照Q值表的最大Q值从动作集合A中选取可以获得所述最大Q值的动作a,或者;
[0051]以概率1-ε随机从动作集合A中选取动作a;
[0052]ε大于0且小于1。
[0053]根据本发明提供的一种基于增强学习的SPMA协议参数优化系统,包括:[0054]参数选取及划分模块:选取SPMA协议的参数集,将参数集中的各个参数以预设的颗粒度划分为不同的当前参数状态,获得当前参数状态集;
[0055]时延及成功率获取模块:根据获得的当前参数状态集及预设场景,将获得的当前参数状态集带入预设场景,获得SPMA协议的各个优先级业务时延和成功率;
[0056]参数评分模块:根据获得的各个优先级业务时延和成功率,采用预设的评分准则进行评分,判断是否符合预设评分标准:若是,则结束流程;否则,则调用参数优化模块;[0057]参数优化模块:根据ε-greedy策略对当前参数状态进行更新,以概率ε根据Q值表
中的最大Q值选择新的参数集,以概率1-ε随机选择参数集,调用时延及成功率获取模块。
[0058]优选地,所述参数集选取模块:
[0059]所述参数集包括以下任一种或任多种:SPMA协议的各优先级阈值、生存周期、统计窗口长度、回退窗口长度;
[0060]所述Q值为在系统状态下依据行动策略采取动作之后的累积衰减奖励。
[0061]优选地,所述参数评分模块:
[0062]根据获得的各个优先级业务时延和成功率计算总评分,计算公式如下:
[0063]当和大于评分阈值时:
[0064]将更新为更新为
[0065]当和小于评分阈值时:
[0066]将更新为更新为
[0067]
[0068]其中,
[0069]表示第i个优先级业务的成功率;
[0070]表示第i个优先级业务的时延。
[0071]score表示总评分;
[0072]表示第i个优先级业务成功率的得分;
[0073]表示第i个优先级业务时延的得分。
[0074]及为的权重,根据预设场景决定;
[0075]及为的权重,根据预设场景决定;[0076]判断总评分score是否大于或等于目标分数G:若是,若是,则结束流程;否则,则调用参数优化模块。
[0077]优选地,所述参数优化模块:
[0078]根据ε-greedy策略从动作集合A中选取动作a,对当前参数状态进行更新,获得更新后的当前参数状态,所述更新后的当前参数状态不小于预设的最小值,且不大于预设的最大值;
[0079]根据获得的总评分score,获得当前奖励r,更新Q值表;
[0080]当前奖励r表示如下:
[0081]
[0082]其中,
[0083]score before表示上一次迭代过程中得到的总评分;
[0084]Q值表更新公式如下:
[0085]将Q(s,a)更新为Q(s,a)+α[r+γmax a′Q(s′,a′)-Q(s,a)]
[0086]其中,
[0087]Q(s,a)表示在当前时刻下,在状态s、动作a条件下的Q值;
[0088]α表示学习率;
[0089]γ表示对未来奖励的衰减值;
[0090]max a′Q(s′,a′)表示在状态s′选取动作a′可以获得的最大Q值;
[0091]所述动作集合A为:
[0092]A={±θ1,±θ2,…,±θn}
[0093]θn表示每次动作的调整步长;
[0094]n表示不同参数;
[0095]所述根据ε-greedy策略从动作集合A中选取动作a指:
[0096]以预设概率ε选取动作时需要选取对应Q值表的最大Q值的动作,即按照Q值表的最大Q值从动作集合A中选取可以获得所述最大Q值的动作a,或者;
[0097]以概率1-ε随机从动作集合A中选取动作a;
[0098]ε大于0且小于1。
[0099]根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中任一项所述的基于增强学习的SPMA协议参数优化方法的步骤。
[0100]与现有技术相比,本发明具有如下的有益效果:
[0101]本发明将不同的应用场景下的SPMA协议参数优化问题与增强学习算法相结合,相对于原有SPMA通信系统的参数选择方法,大大简化了参数计算过程,并且更容易达到要求的性能指标,可以更有效率的完成SPMA协议的相关设置,具有广泛的应用前景。
附图说明
[0102]通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0103]图1本发明提供的基于Q-learning的具体流程示意图;
[0104]图2本发明提供的SPMA和强化学习的系统框示意图
具体实施方式
[0105]下面结合具体实施例对本发明进行详细说明。
以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。
应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。
这些都属于本发明的保护范围。
[0106]根据本发明提供的一种基于增强学习的SPMA协议参数优化方法,包括:
[0107]参数选取及划分步骤:选取SPMA协议的参数集,将参数集中的各个参数以预设的
颗粒度划分为不同的当前参数状态,获得当前参数状态集;
[0108]时延及成功率获取步骤:根据获得的当前参数状态集及预设场景,将获得的当前参数状态集带入预设场景,获得SPMA协议的各个优先级业务时延和成功率;
[0109]参数评分步骤:根据获得的各个优先级业务时延和成功率,采用预设的评分准则进行评分,判断是否符合预设评分标准:若是,则结束流程;否则,则进入参数优化步骤继续执行;
[0110]参数优化步骤:根据ε-greedy策略对当前参数状态进行更新,以概率ε根据Q值表中的最大Q值选择新的参数集,以概率1-ε随机选择参数集,返回时延及成功率获取步骤继续执行。
[0111]具体地,所述参数集选取步骤:
[0112]所述参数集包括以下任一种或任多种:SPMA协议的各优先级阈值、生存周期、统计窗口长度、回退窗口长度;
[0113]所述Q值为在系统状态下依据行动策略采取动作之后的累积衰减奖励。
[0114]具体地,所述参数评分步骤:
[0115]根据获得的各个优先级业务时延和成功率计算总评分,计算公式如下:
[0116]当和大于评分阈值时:
[0117]将更新为更新为
[0118]当和小于评分阈值时:
[0119]将更新为更新为
[0120]
[0121]其中,
[0122]表示第i个优先级业务的成功率;
[0123]表示第i个优先级业务的时延。
[0124]score表示总评分;
[0125]表示第i个优先级业务成功率的得分;
[0126]表示第i个优先级业务时延的得分。
[0127]及为的权重,根据预设场景决定;
[0128]及为的权重,根据预设场景决定;[0129]判断总评分score是否大于或等于目标分数G:若是,若是,则结束流程;否则,则进入参数优化步骤继续执行。
[0130]具体地,所述参数优化步骤:
[0131]根据ε-greedy策略从动作集合A中选取动作a,对当前参数状态进行更新,获得更新后的当前参数状态,所述更新后的当前参数状态不小于预设的最小值,且不大于预设的最大值;
[0132]根据获得的总评分score,获得当前奖励r,更新Q值表;
[0133]当前奖励r表示如下:
[0134]
[0135]其中,
[0136]score before表示上一次迭代过程中得到的总评分;
[0137]Q值表更新公式如下:
[0138]将Q(s,a)更新为Q(s,a)+α[r+γmax a′Q(s′,a′)-Q(s,a)
[0139]其中,
[0140]Q(s,a)表示在当前时刻下,在状态s、动作a条件下的Q值;
[0141]α表示学习率;
[0142]γ表示对未来奖励的衰减值;
[0143]max a′Q(s′,a′)表示在状态s′选取动作a′可以获得的最大Q值。
[0144]具体地,所述动作集合A为:
[0145]A={±θ1,±θ2,…,±θn}
[0146]θn表示每次动作的调整步长;
[0147]n表示不同参数;
[0148]所述根据ε-greedy策略从动作集合A中选取动作a指:
[0149]以预设概率ε选取动作时需要选取对应Q值表的最大Q值的动作,即按照Q值表的最大Q值从动作集合A中选取可以获得所述最大Q值的动作a,或者;
[0150]以概率1-ε随机从动作集合A中选取动作a;
[0151]ε大于0且小于1。
[0152]本发明提供的基于增强学习的SPMA协议参数优化系统,可以通过本发明给的基于增强学习的SPMA协议参数优化方法的步骤流程实现。
本领域技术人员可以将所述基于增强学习的SPMA协议参数优化方法,理解为所述基于增强学习的SPMA协议参数优化系统的一个优选例。
[0153]根据本发明提供的一种基于增强学习的SPMA协议参数优化系统,包括:[0154]参数选取及划分模块:选取SPMA协议的参数集,将参数集中的各个参数以预设的颗粒度划分为不同的当前参数状态,获得当前参数状态集;
[0155]时延及成功率获取模块:根据获得的当前参数状态集及预设场景,将获得的当前参数状态集带入预设场景,获得SPMA协议的各个优先级业务时延和成功率;
[0156]参数评分模块:根据获得的各个优先级业务时延和成功率,采用预设的评分准则进行评分,判断是否符合预设评分标准:若是,则结束流程;否则,则调用参数优化模块;[0157]参数优化模块:根据ε-greedy策略对当前参数状态进行更新,以概率ε根据Q值表中的最大Q值选择新的参数集,以概率1-ε随机选择参数集,调用时延及成功率获取模块。
[0158]具体地,所述参数集选取模块:
[0159]所述参数集包括以下任一种或任多种:SPMA协议的各优先级阈值、生存周期、统计窗口长度、回退窗口长度;
[0160]所述Q值为在系统状态下依据行动策略采取动作之后的累积衰减奖励。
[0161]具体地,所述参数评分模块:
[0162]根据获得的各个优先级业务时延和成功率计算总评分,计算公式如下:
[0163]当和大于评分阈值时:
[0164]将更新为更新为
[0165]当和小于评分阈值时:
[0166]将更新为更新为
[0167]
[0168]其中,
[0169]表示第i个优先级业务的成功率;
[0170]表示第i个优先级业务的时延。
[0171]score表示总评分;
[0172]表示第i个优先级业务成功率的得分;
[0173]表示第i个优先级业务时延的得分。
[0174]及为的权重,根据预设场景决定;
[0175]及为的权重,根据预设场景决定;[0176]判断总评分score是否大于或等于目标分数G:若是,若是,则结束流程;否则,则调用参数优化模块。
[0177]具体地,所述参数优化模块:
[0178]根据ε-greedy策略从动作集合A中选取动作a,对当前参数状态进行更新,获得更新后的当前参数状态,所述更新后的当前参数状态不小于预设的最小值,且不大于预设的最大值;
[0179]根据获得的总评分score,获得当前奖励r,更新Q值表;
[0180]当前奖励r表示如下:
[0181]
[0182]其中,。