基于强化学习理论的网络拥塞控制算法研究(李鑫)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

针对多瓶颈网络,学习过程中采用合作奖赏值 r i = i r i sk j r j sk 1
j i
(4.14)
基于Metropolis规则的动作选择策略
动作选择策略 搜索(exploration) 利用(exploitation) 基于Metropolis规则的策略
AT PC R T F B T PC E T F C T PC F T F
令 Q x, u, v 对 u , v 的偏导数为0,根据矩阵H的定义
1 1 1 L H H j (23) H j (33) H j (32) H j (23) H (33) H j (31) H j (21) j (22) j j 1 (3.17) 1 1 1 K j 1 H j (33) H j (32) H (22) H j (23) H j (32) H (22) H j (21) H j (31) j j
}
k k 1 ;
exp E s E s T random 0,1


Length ( Lk ); Control ( Tk ); } While (Stop Circle)
2. 基于模拟退火的分层强化学习ABR流量控制器的设计
系统仿真
80 (a) 70 60
0 2 4 Time (s) 6 8 10
-3
-3
-3
-4
-5
-5
-5
-6
-6
-6
-7
-7
-7
0
2
4 Time (s)
6
8
10
0
2
4 Time (s)
6
8
10
图2.2 模糊神经网络 仿真结果
图2.3 梯度下降-强化 学习仿真结果
图2.4 模拟退火-强化 学习仿真结果
2. 基于模拟退火的分层强化学习ABR流量控制器的设计
(3.18)
定义3.2 令 H 为关于矩阵H的向量函数, H 是一个含 有 n(n 1) / 2 个元素的向量,其中n个元素为矩阵H的n个对角 线元素 H ii ,另外 n(n 1) / 2 n 个元素为矩阵H非对角线上对称 位置上元素的和 (Hij H ji ) 。
呼叫允许控制
流量控制
路由选择
ATM网络ABR流量控制
TCP网络队列管理算法
显示速率反馈
主动队列管理
1 绪论
基于数学模型的拥塞控制方法
精确的数学模型难以得到
基于强化学习理论的拥塞控制方法
环境(Environment)
rk 1 ak rk
学习单元(Agent)
sk 1
sk
图1.1 强化学习单元与环境关系图
T k T k T k T k 1 T k 1 T T k 1
kT
T
(3.20)
基于递归最小二乘对向量 进行估计,迭代计算如下 ˆ U j i 1k rk kT j i 1 ˆ ˆ j i j i 1 1 kTU j i 1k
基于强化学习理论的网络拥塞控制 算法研究
答辩人: 李 鑫 导 师: 张嗣瀛 院士
绪论
主要工作
结论与展望
1 绪论
网络拥塞控制
计算机网络飞速发展 存储空间不足 网络拥塞的发生 网络负载超出了网络资源 容量和处理能力 基于控制理论的拥塞控制方法
原因
带宽容量不足 处理器速度慢
无限增加网络资源
1 绪论
网络拥塞控制
(3.12)
3 基于递归最小二乘的Q-学习多瓶颈ABR流量控制器的设计
T 将Q-函数展开,得 Q x, u , v y Hy
AT PA R T R AT PB R T E 其中 H B T PA E T R B T PB E T E C T PA F T R C T PB F T E
(3.1) (3.2)
采用反馈控制策略
uk Lxk , vk Kxk
定义ATM网络系统的性能指标为每一步学习的强化值
rk Rxk Euk Fvk Rxk Euk Fvk
T
(3.6)
对于稳定的控制策略(L,K),Q-函数可以通过递归形式定义如下
Q xk , uk , vk r xk , uk , vk Q xk 1 , Lxk 1 , Kxk 1
50 40 30 20 10
0
0
2
4 Time (s)
6
8
10 10
0
-1
0
2
4 Time (s) (b)
6
8
10
10 10 10 10 10 10 10
-1
-1
(b)
-2
-2
10 10 10 10 10 10
-2
cell lose ratio (%)
cell lose ratio (%)
-4
-4
cell lose ratio (%)
输出:建议ABR发送速率 ub
对子网络的输出 ub 和 u p加权求和得到建议ABR发送速率
u bub pu p
(2.14) (2.15)
其中
e 3b ep b 3b p , p 3b p e e e e
2. 基于模拟退火的分层强化学习ABR流量控制器的设计
SAM的设计
控制器的结构
BP算法
r
AEN
v
r 内部强化
信号算法
r
SA(b ) ASN(b) ASN(p)
u
ub
SAM
ATM 网络
u
up
SA(p) ASN 状态向量
图2.1 ABR流量控制器的结构
2. 基于模拟退火的分层强化学习ABR流量控制器的设计
AEN的设计
AEN是具有一个隐含层的三层神经网络 输入:ATM网络的状态 b, b, p, p 输出:状态评价信号 v 内部强化信号 r
小结
动作选择单元利用分层机制分别考虑了缓冲区队列长度 和信元丢失率对ABR发送速率的影响; 基于模拟退火方法改进了动作选择单元参数的学习过程, 加快了学习速度。
3 基于递归最小二乘的Q-学习多瓶颈ABR流量控制器的设计
控制器的设计
考虑如下ATM网络模型
单瓶颈节点
多瓶颈节点
xk 1 f xk , uk , vk Axk Buk Cvk
3 基于递归最小二乘的Q-学习多瓶颈ABR流量控制器的设计
小结
通过Q-函数的设计将最优控制策略的学习转化为最优H 矩阵的学习; 基于递归最小二乘实现了H矩阵的学习过程。
4 基于Metropolis规则的Q-学习AQM控制器的设计
控制器的结构
ATM网络
TCP网络
S:有限的状态集,即TCP网络的状态 s(b, b) 的集合; A:有限的动作集,即丢弃概率调节值 p的集合; r:即时奖赏值。
2. 基于模拟退火的分层强化学习ABR流量控制器的设计
基于模拟退火的ASN参数学习
模拟退火的性能指标为
2 2 1 2 * * E s b b p p u umax 2
(2.19)
模拟退火的伪代码为
Initial ( L0 , T0 , s0 ); Do { for L 1 to Lk { Generate ( s from s ); if E s E s then s s ; else if then s s
奖赏值r是学习单元和网络环境联系的桥梁,取为如下形式
1 b b* 1.1b* b b* b 1.1b* 0.1b* r b 0.9b* 0.9b* b b* 0.1b* 0 1.1b* b bc or b 0.9b* 1 b bc
主要工作
基于模拟退火的分层强化学习ABR流量控制 基于递归最小二乘的Q-学习多瓶颈ABR流量控制 基于Metropolis规则的Q-学习AQM算法
基于遗传算法的模糊Q-学习AQM算法 基于价格机制的Nash Q-学习流量控制 基于Q-学习的路由算法
2. 基于模拟退火的分层强化学习ABR流量控制器的设计


(3.21)
U j i U j i 1
U j i 1kkTU j i 1 1 U j i 1k
T k
(3.22) (3.23)
U j 0 U0
3 基于递归最小二乘的Q-学习多瓶颈ABR流量控制器的设计
系统仿真
30 25 20
Queue level (cells) Queue level (cells)
80 (a) 70 60 50 40 30 20 10 0 2 4 Time (s)
10 (b) 10 10 10 10 10 10
80 (a) 70 60
Queue level (cells)
50 40 30 20 10 0 6 8 10
通过对向量 y 和 元素位置的合理排列,可以得到
Q x, u , v Q y y T Hy y H
(3.19)
3 基于递归最小二乘的Q-学习多瓶颈ABR流量控制器的设计
据此,改写性能指标为
r xk , uk , vk x , u , v x , Lx , Kx
为了扩展搜索空间,SAM对ASN的输出进行修正。
u k u k u k
(2.17)
2
其中
u K v k 1 v k


(2.18)
式(2.17)中正负号的选取规则为 •如果 r k 1 r k 2 ,则k时刻符号与k-1时刻符号相同; •如果 r k 1 r k 2 ,则k时刻符号与k-1时刻符号相反。
20 10 0 20 10 0
the state x 1
-10 -20 -30 -40 -50 0
the state x 2
200 400 600 the time step 800 1000
-10 -20 -30 -40 -50 0
200
400 600 the time step
800
1000
图3.2 状态 x1和 x2的仿真结果
30 25 20
the control u
15 10 5 0 0
the control v
2000 4000 6000 the time step 8000 10000
15 10 5 0 0
2000
4000 6000 the time step
8000
10000
图3.1 控制 ቤተ መጻሕፍቲ ባይዱ 和 v 的仿真结果
0 r k 1 r k 1 v k , k r k 1 v k , k 1 v k , k 初始状态 错误状态 正常状态
(2.4)
2. 基于模拟退火的分层强化学习ABR流量控制器的设计
ASN的设计
ASN采用分层机制,以b-ASN为例,为五层模糊神经网络 输入:ATM网络的状态 b, b
4 基于Metropolis规则的Q-学习AQM控制器的设计
动作选择过程 依据动作策略选择动作 p1 随机选择动作 p2 如果 Q(s, p1 ) Q(s, p2 ) ,则 p1 p
如果 Q(s, p1 ) Q(s, p2 ) ,则计算概率
(4.2)
4 基于Metropolis规则的Q-学习AQM控制器的设计
为每个状态-动作对分配一个Q-函数值,作为动作选择的依据 Q-函数值的更新迭代过程如下
Qk 1 sk , pk 1 Qk sk , pk rk max Qk sk 1 , p (4.8) p
最优控制策略 ( L* , K * ) 的学习转化为最优矩阵 H *的学习
3 基于递归最小二乘的Q-学习多瓶颈ABR流量控制器的设计
基于递归最小二乘的控制器学习算法
定义3.1 令 y 为 y 的元素按如下形式构成的向量,即
2 2 2 y ( y12 ,, y1 yn , y2 , y2 y3 ,, yn1 , yn1 yn , yn )
相关文档
最新文档