基于值迭代的MDP算法求解最优策略
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
a' s'
8 DeltaOneIt eration : 0
9 for each s in StateSpace
do
10
for each a in ActionSpac e do
11
QHistory(s , a) : Q(s, a)
12
max Q(s, a) : P s' |s, a R(s' | s, a) γ
7 for each s except state 9 and 10 in StateSpace
do
8
VHistory(s ) : V(s)
9
max V(s) : R(s) γ
P s' |s, a V(s' )
a
s'
10
DeltaOneIt eration (VHistory( s) V(s)) 2
❖ (2)动作空间 A:{ N, E, S, W },小机器人有北, 东,南,西四个可选动作。
❖ (3)状态转移概率模型 { P }:每个动作以0.8的概率 到达动作期望状态,分别以0.1的概率到达动作的 两个侧向状态。
❖ (4)状态转移回报模型R:R((10)) = +1.0,
R((9)) = -1.0,R(其他状态) = -0.02。
算法设计
LOGO
0 algrithm Value Iteratin
1 for each s in StateSpace
do
2 V(s) : 0
3 end // foreach
4 initialize V[9] : 1 . 0 , V[10] : 1.0
5 while ( true )
6 DeltaOneIt eration : 0
11 end // foreach
12 if ( DeltaOneIt eration THRESHOLD)
13
return
14 end //if
15 end //while
16 end algrithm VI
一轮迭代后,当各状 态的V值变化量小于 阀值时,我们称此时 找到问题的最优策略 ;
实验结果
值函数
LOGO
❖ 值函数:指对于特定策略和某一状态,执行该策 略直到达到吸收状态,所获得的累计回报的期望。
❖ 值函数为:V:(R s) (γsm ) aP s|s'ax ,V)(s' a s'
❖ 其中γ为折扣因子,其目标是让期望值有界.
问题陈述
LOGO
❖ (1)状态空间 S:小机器人有11个活动状态,编号 0~10;
ML
基于值迭代的MDP算法求解最优 策略
姓名:陈丽 学号:E13301110
参考文献
LOGO
❖ 石轲,基于马尔可夫决策过程理论的Agent决策问 题研究,中国科学技术大学,2010
❖ 孙湧,仵博, 冯延蓬,基于策略迭代和值迭代的 POMDP算法,计算机 研究与发展,2008年
❖ 刘克,实用马尔可夫决策过程[M] .北 京 :清华 大学出版社 ,2004
回报函数
4
Q(s, a) : 0
5 end ..// inner foreach
动作值函数:
6 end // outer foreach 7 while ( true )
m ax Q a : ()s P s |s, 'R ,a|sa (, s γ )'
P s |s'Q ,a,a ) ('s
s'
马尔可夫决策过程(MDP)
LOGO
❖ 基本的MDP模型是一个四元组:< S, A, { P } ,R >
。
P(s|s' ,a)1
s ' S
❖ 例如P(s’|s,a),显然 0≤P(s’|s,a)≤1,并且
❖ 策略 Π:指决策者对于特定状态,应选择的动作。
❖ MDP决策的策略是将状态映射到动作,同时满足 使Agent选择的动作能够获得环境报酬的累计值最 大。
❖ 鲁庆,基于栅格法的移动机器人路径规划研究, 电脑与信息技术,2007年
问题背景描述
LOGO
❖ 利用栅格法对空间划分,搜索一条从起始栅格到 终点栅格的路径,构成机器人运动的可行路径。
障碍 物
目标、 吸收状态
禁止、 吸收状态
实验内容: 基于值迭代的MDP 算法,找出从某状 态到达目标状态时, 使状态值函数达到 最大值的最优策略。
LOGO
❖设立阈值THRESHOLD为0.0001,算 法经过12轮迭代结束;
结果分析
❖ 方格中显示对应状态的V值。
LOGO
ห้องสมุดไป่ตู้
算法改进
LOGO
1 algrithm Q - offline learing
2 for each s in StateSpace
do
3 for each a in ActionSpac e do
17
return
18 end //if
19 end //while
20 end algrithm Q - offline learning
实验结果
LOGO
实验结果
LOGO
结果分析
LOGO
ML
❖ (5)γ=0.99
❖ (6)定义状态10和9为吸收状态,第一次到达吸收 状态时,获得对应吸收状态回报;
问题陈述
LOGO
目标、 吸收状态 禁止、 吸收状态
❖ 例如P(6)|(5),N = 0.8,P(8)|(5),N = 0.1,P(3)|(5),N = 0.1, P(其他状态)|(5),N = 0.0。
P s' |s, a Q(s' , a' )
s'
a'
s'
13
DeltaOneIt eration (QHistory( s, a) Q(s, a)) 2
14
end // inner foreach
15 end // outer foreach
16 if ( DeltaOneIt eration THRESHOLD)