动态规划基本理论推广(函数迭代与策略迭代法)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 i 5
d12 f1 (2), d13 f1 (3), d14 f1 (4), d15 f1 (5)]
管理科学与系统工程
min[0 2,6 7,5 5, 2 3, 2 0] 2 u2 (1) 5
注:不取含dij 0 的地方作为最优决策u (i)
管理科学与系统工程
1.函数迭代法的步骤是: ) (1)选初始函数 f 0 ( x(一般取 (2)用迭代公式
);0 ( x) 0 f
opt fk 及 f k ( x) uU ( x ) v( x, u )计算1 (T ( x, u )), x X f k ( x), k f ( x), x X n 其中k ( x) 为当前阶段的状态和决策, 1, 2,, 为 ( x) 已知终止函数, 为迭代步数, v为指标函数 x, u k (3)当 或 f k 1 ( x) f k ( x) f k 1 ( x) f k ( x), x X , f k ( x) 管理科学与系统工程
管理科学与系统工程
策略迭代法的基本思想是:先选定一初始策 略{uk (i) i 1, 2,, n 1} 然后按某种方式求得新策 略 u1 (i), u2 (i),, 直至最终求出最优策略。若对某 u 一k,对所有i有:k 1 (i) uk (i) ,则称 u1 (i ), u2 (i ), 收敛,此时,策略{uk (i) i 1, 2,, n 1} 就是最优 策略。
一般来说,选定初始策略要比选定初始目标 最优值函数容易得多,且策略迭代的收敛速度稍 快,但其计算量要大些。
管理科学与系统工程
x X ( 是事先给定的数)时迭代停止,最优值函 数 f ( x) f k ( x) ,最优策略u ( x) uk ( x) 。 2.策略迭代法的步骤是: (1)选初始策略u1 ( x) ,令k=1; (2)用 uk ( x) 求解 f k ( x) , f k ( x) v( x, uk ( x)) f k (T ( x, uk ( x))), x X .
管理科学与系统工程
说明: 函数迭代法和策略迭代法中,序列{( f k ( x)} 和 {(uk ( x)} 的收敛性在相当广泛的条件下是可以 保证的,一般来说它与U ( x), T ( x), v( x, u ), X n 等 的具体形式有关。 函数迭代法的基本思想是以步数(段数)作为参 数,先求在各个不同步数下的最优策略,然后从 这些最优解中再选出最优者,从而同时确定了最 优步数。
管理科学与系统工程
(2)假设从i点走两步到靶点5的最优距离为f 2 (i), 根据最优化原理得:
f 2 (i) min dij f1 ( j ) , i 1, 2,3, 4 1i 5 f 2 (5) 0
具体计算如下: f 2 (1) min d1 j f1 ( j ) min[d11 f1 (1),
管理科学与系统工程
例1:段数不定的最短路线问题(不定期决策过程)
n个点相互连接组成 一 个连通图(右图中n=5),各点
标号为1,2,…,n。任意两点
i,j之间的距离(费用)记作
dij 。求任意一点i到点n(靶
点)的最短路线(距离)。
管理科学与系统工程
5
2 7 5 1 2 用函数迭代法求解例1 6 5 5 只求1,2,3,4各点到点5的最优路线,其余类似。 2 0.5 解:(1)假设从i点走一步到靶点5的最优距离为 , 则显然有: f1 (1) d15 2 最优决策为: u (1) 5 u (2) 5 f1 (2) d 25 7 f1 (i ) u (3) 5 f1 (3) d35 5 u (4) 5 f1 (4) d 45 3 u (5) 5 f1 (5) d55 0
——函数迭代法与策略迭代法
管理科学与系统工程
举例简单说明不定期与无期决策过
程的形式和概念;以不定期和无期决策
过程为例,介绍函数迭代法和策略迭代
法。
管理科学与系统工程
定义:多阶段的决策过程的阶段数N确定,
称为定期决策过程,当N不确定时,
称此类决策过程为不定期决策过程,
当N趋向无穷时称为无期决策过程。
u2 (2) 3ቤተ መጻሕፍቲ ባይዱ
管理科学与系统工程
(3)假设从i点走三步到靶点5的最优距离为f3 (i), 则得:
f3 (i) min dij f 2 ( j ) , i 1, 2,3, 4 1i 5 f3 (5) 0
计算结果如下: f3 (1) 2, u3 (1) 5
管理科学与系统工程
距离,它是阶段指标之和, 并满足可分离性要 求,有
V (i, u( x)) dij V ( j, u( x))
最优值函数ƒ(i)为由i出发到达n的最短距离,即
f (i) min V (i, u ( x)) V (i, u ( x))
* u ( x)
式中u*(x)是最优策略,满足基本方程
例1:段数不定的最短路线问题(不定期决策过程)
n个点相互连接组成 一 个连通图(右图中n=5),各点 5
标号为1,2,…,n。任意两点
i,j之间的距离(费用)记作
2 7 5 3 1 4 2 6 5 5 1
2 0.5 3
dij 。求任意一点i到点n(靶
点)的最短路线(距离)。
管理科学与系统工程
例2:无限期决策过程
1 i 5
d32 f1 (2), d33 f1 (3), d34 f1 (4), d35 f1 (5)]
min[5 2,0.5 7,0 5,1 3,5 0] 4
u2 (3) 4
f 2 (4) min d 4 j f1 ( j ) min[d 41 f1 (1),
1 i 5
d42 f1 (2), d43 f1 (3), d 44 f1 (4), d 45 f1 (5)]
min[2 2,5 7,1 5,0 3,3 0] 3
u2 (4) 5
管理科学与系统工程
由于只有5个点,因而从任一点出发到达靶点, 其间最多有4步(否则,有回路),这样就不需继续 下去了。将计算结果列成表:
管理科学与系统工程
例1:段数不定的最短路线问题(不定期决策过程)
n个点相互连接组成 一 个连通图(右图中n=5),各点 5
标号为1,2,…,n。任意两点
i,j之间的距离(费用)记作
2 7 5 3 1 4 2 6 5 5 1
2 0.5 3
dij 。求任意一点i到点n(靶
点)的最短路线(距离)。
管理科学与系统工程
i 1 2 3 4
u1 (i) f 2 (i) u2 (i) f1 (i ) 2 5 2 5 7 5 5.5 3 5 5 4 4 3 5 3 5 u3 (i) f 4 (i) f3 (i) 2 5 2 4.5 3 4.5 4 4 4 3 5 3 u4 (i)
5 3 4 5
管理科学与系统工程
分析上面的结果可得: ①从点1到点5走一步为最优,最优距离为2,最 优路线 1 u1 (1) 5; 从点2到点5走三步为最优,最优距离为4.5,最 优路线 2 u3 (2) 3 u2 (3) 4 u1 (4) 5 ; 从点3到点5走两步为最优,最优距离为4,最优 路线 3 u2 (3) 4 u1 (4) 5 ; 从点4到点5走一步为最优,最优距离为3,最 优路线4 u1 (4) 5。
f 2 (2) min d 2 j f1 ( j ) min[d 21 f1 (1),
1 i 5
d22 f1 (2), d23 f1 (3), d 24 f1 (4), d 25 f1 (5)]
min[6 2,0 7,0.5 5,5 3,7 0] 5.5
f3 (2) 4.5, u3 (2) 3 f3 (4) 3, u3 (4) 5
f3 (3) 4, u (3) 4
3
管理科学与系统工程
(4)假设从i点走四步到靶点5的最优距离为f 4 (i), 则得:
f 4 (i) min dij f3 ( j ) , i 1, 2,3, 4 1i 5 f 4 (5) 0
f (i) min dij f ( j ) , i 1, 2,, n 1.
1 j n
管理科学与系统工程
该式记为(﹡)式,它不是一个递推方程,而是一
个关于ƒ(i)的函数方程,对固定的i使(﹡)右端 [dij+ƒ(j)] 达到极小的j即为最优决策u*(i),对所有 的i求解(﹡)式得到最优策略u*(x)。
管理科学与系统工程
例1的求解:(策略迭代法) 解:①第一步,先选取初始策略u1 (i ) 。如取: u1 (1) 5, u1 (2) 4, u1 (3) 5, u1 (4) 3. 即 ,但必需没有回路,每点 {u1 ( 可达靶点。i)} {5, 4,5,3} 第二步,由 求 ,由策略迭代法的方 u1 (i ) 程组可得: f1 (i ) f1 (i ) di ,u1 ( i ) f1 (u1 (i )) f1 (5) 0 因策略 直达靶点,应先计算: 管理科学与系统工程 u1 (1), u1 (3)
计算结果如下: f 4 (1) 2, u4 (1) 5
f 4 (2) 4.5, u4 (2) 3 f 4 (4) 3, u4 (4) 5
f 4 (3) 4, u (3) 4
4
管理科学与系统工程
f 2 (3) min d3 j f1 ( j ) min[d31 f1 (1),
本问题路线的段数事先不固定,而是随着最 优策略确定的,然而状态、决策、状态转移、指 标函数与以前的最短路线问题的相同. 状态记作x=i,i=1,2,…,n,决策记作u(i).策略 是对任意状态x的决策函数,记作u(x)。阶段指标 是任意两状态i,j间的距离dij,指标函数V(i,u(x))是 由状态i出发,在策略u(x)下到达状态n的路线的
模型 min z j2 x 2 lim V0k,状态变换函数 j k
j 0
为 j 1 j x j 。( 存在明显的级变量,但级 数是无限的 )
管理科学与系统工程
求解这类问题如果仍使用以前的逐级递推方法,
将遇到极大的计算量,为此必需寻找新方法。 函数方程可以用迭代法求解,通常有函数迭代法 和策略迭代法两种迭代方法。
管理科学与系统工程
②最优决策最多走4步,多于此步数,会出现走 回头路或回路,显然这些不是最优路线。 ③从任一点出发到靶点,走m(m=1,2,…)步与走 m+1步的最优距离一样,决策函数也一样,如果 继续计算走m+2步、m+3步、……,其结果仍一样, f m (i) f m1 (i) , um (i) um1 (i) , 也就说明 即 { f m (i)} 一致收敛于 f (i ) ,um (i)} 一致收敛于u (i) 。 { 故当这种一出现,计算便可停止。
f k ( x) ( x), x X n . (3)用 f k ( x) 求改进策略 uk 1 ( x) ,
uk 1 ( x) (u opt v( x, u ) f k (T ( x, u )) ).
uU ( x )
管理科学与系统工程
例1的求解:
分析:可以不考虑回路,因为含有回路的路线一定 不是最短的.
(4)当 或
uk 1 ( x) uk ( x), x X ,
f k 1 ( x) f k ( x) ,x X f k ( x)
时迭代停止,最优值函数 f ( x) f k ( x) ,最优策 略 u ( x) uk ( x) ;否则以k+1代替k重复(2),(3).
d12 f1 (2), d13 f1 (3), d14 f1 (4), d15 f1 (5)]
管理科学与系统工程
min[0 2,6 7,5 5, 2 3, 2 0] 2 u2 (1) 5
注:不取含dij 0 的地方作为最优决策u (i)
管理科学与系统工程
1.函数迭代法的步骤是: ) (1)选初始函数 f 0 ( x(一般取 (2)用迭代公式
);0 ( x) 0 f
opt fk 及 f k ( x) uU ( x ) v( x, u )计算1 (T ( x, u )), x X f k ( x), k f ( x), x X n 其中k ( x) 为当前阶段的状态和决策, 1, 2,, 为 ( x) 已知终止函数, 为迭代步数, v为指标函数 x, u k (3)当 或 f k 1 ( x) f k ( x) f k 1 ( x) f k ( x), x X , f k ( x) 管理科学与系统工程
管理科学与系统工程
策略迭代法的基本思想是:先选定一初始策 略{uk (i) i 1, 2,, n 1} 然后按某种方式求得新策 略 u1 (i), u2 (i),, 直至最终求出最优策略。若对某 u 一k,对所有i有:k 1 (i) uk (i) ,则称 u1 (i ), u2 (i ), 收敛,此时,策略{uk (i) i 1, 2,, n 1} 就是最优 策略。
一般来说,选定初始策略要比选定初始目标 最优值函数容易得多,且策略迭代的收敛速度稍 快,但其计算量要大些。
管理科学与系统工程
x X ( 是事先给定的数)时迭代停止,最优值函 数 f ( x) f k ( x) ,最优策略u ( x) uk ( x) 。 2.策略迭代法的步骤是: (1)选初始策略u1 ( x) ,令k=1; (2)用 uk ( x) 求解 f k ( x) , f k ( x) v( x, uk ( x)) f k (T ( x, uk ( x))), x X .
管理科学与系统工程
说明: 函数迭代法和策略迭代法中,序列{( f k ( x)} 和 {(uk ( x)} 的收敛性在相当广泛的条件下是可以 保证的,一般来说它与U ( x), T ( x), v( x, u ), X n 等 的具体形式有关。 函数迭代法的基本思想是以步数(段数)作为参 数,先求在各个不同步数下的最优策略,然后从 这些最优解中再选出最优者,从而同时确定了最 优步数。
管理科学与系统工程
(2)假设从i点走两步到靶点5的最优距离为f 2 (i), 根据最优化原理得:
f 2 (i) min dij f1 ( j ) , i 1, 2,3, 4 1i 5 f 2 (5) 0
具体计算如下: f 2 (1) min d1 j f1 ( j ) min[d11 f1 (1),
管理科学与系统工程
例1:段数不定的最短路线问题(不定期决策过程)
n个点相互连接组成 一 个连通图(右图中n=5),各点
标号为1,2,…,n。任意两点
i,j之间的距离(费用)记作
dij 。求任意一点i到点n(靶
点)的最短路线(距离)。
管理科学与系统工程
5
2 7 5 1 2 用函数迭代法求解例1 6 5 5 只求1,2,3,4各点到点5的最优路线,其余类似。 2 0.5 解:(1)假设从i点走一步到靶点5的最优距离为 , 则显然有: f1 (1) d15 2 最优决策为: u (1) 5 u (2) 5 f1 (2) d 25 7 f1 (i ) u (3) 5 f1 (3) d35 5 u (4) 5 f1 (4) d 45 3 u (5) 5 f1 (5) d55 0
——函数迭代法与策略迭代法
管理科学与系统工程
举例简单说明不定期与无期决策过
程的形式和概念;以不定期和无期决策
过程为例,介绍函数迭代法和策略迭代
法。
管理科学与系统工程
定义:多阶段的决策过程的阶段数N确定,
称为定期决策过程,当N不确定时,
称此类决策过程为不定期决策过程,
当N趋向无穷时称为无期决策过程。
u2 (2) 3ቤተ መጻሕፍቲ ባይዱ
管理科学与系统工程
(3)假设从i点走三步到靶点5的最优距离为f3 (i), 则得:
f3 (i) min dij f 2 ( j ) , i 1, 2,3, 4 1i 5 f3 (5) 0
计算结果如下: f3 (1) 2, u3 (1) 5
管理科学与系统工程
距离,它是阶段指标之和, 并满足可分离性要 求,有
V (i, u( x)) dij V ( j, u( x))
最优值函数ƒ(i)为由i出发到达n的最短距离,即
f (i) min V (i, u ( x)) V (i, u ( x))
* u ( x)
式中u*(x)是最优策略,满足基本方程
例1:段数不定的最短路线问题(不定期决策过程)
n个点相互连接组成 一 个连通图(右图中n=5),各点 5
标号为1,2,…,n。任意两点
i,j之间的距离(费用)记作
2 7 5 3 1 4 2 6 5 5 1
2 0.5 3
dij 。求任意一点i到点n(靶
点)的最短路线(距离)。
管理科学与系统工程
例2:无限期决策过程
1 i 5
d32 f1 (2), d33 f1 (3), d34 f1 (4), d35 f1 (5)]
min[5 2,0.5 7,0 5,1 3,5 0] 4
u2 (3) 4
f 2 (4) min d 4 j f1 ( j ) min[d 41 f1 (1),
1 i 5
d42 f1 (2), d43 f1 (3), d 44 f1 (4), d 45 f1 (5)]
min[2 2,5 7,1 5,0 3,3 0] 3
u2 (4) 5
管理科学与系统工程
由于只有5个点,因而从任一点出发到达靶点, 其间最多有4步(否则,有回路),这样就不需继续 下去了。将计算结果列成表:
管理科学与系统工程
例1:段数不定的最短路线问题(不定期决策过程)
n个点相互连接组成 一 个连通图(右图中n=5),各点 5
标号为1,2,…,n。任意两点
i,j之间的距离(费用)记作
2 7 5 3 1 4 2 6 5 5 1
2 0.5 3
dij 。求任意一点i到点n(靶
点)的最短路线(距离)。
管理科学与系统工程
i 1 2 3 4
u1 (i) f 2 (i) u2 (i) f1 (i ) 2 5 2 5 7 5 5.5 3 5 5 4 4 3 5 3 5 u3 (i) f 4 (i) f3 (i) 2 5 2 4.5 3 4.5 4 4 4 3 5 3 u4 (i)
5 3 4 5
管理科学与系统工程
分析上面的结果可得: ①从点1到点5走一步为最优,最优距离为2,最 优路线 1 u1 (1) 5; 从点2到点5走三步为最优,最优距离为4.5,最 优路线 2 u3 (2) 3 u2 (3) 4 u1 (4) 5 ; 从点3到点5走两步为最优,最优距离为4,最优 路线 3 u2 (3) 4 u1 (4) 5 ; 从点4到点5走一步为最优,最优距离为3,最 优路线4 u1 (4) 5。
f 2 (2) min d 2 j f1 ( j ) min[d 21 f1 (1),
1 i 5
d22 f1 (2), d23 f1 (3), d 24 f1 (4), d 25 f1 (5)]
min[6 2,0 7,0.5 5,5 3,7 0] 5.5
f3 (2) 4.5, u3 (2) 3 f3 (4) 3, u3 (4) 5
f3 (3) 4, u (3) 4
3
管理科学与系统工程
(4)假设从i点走四步到靶点5的最优距离为f 4 (i), 则得:
f 4 (i) min dij f3 ( j ) , i 1, 2,3, 4 1i 5 f 4 (5) 0
f (i) min dij f ( j ) , i 1, 2,, n 1.
1 j n
管理科学与系统工程
该式记为(﹡)式,它不是一个递推方程,而是一
个关于ƒ(i)的函数方程,对固定的i使(﹡)右端 [dij+ƒ(j)] 达到极小的j即为最优决策u*(i),对所有 的i求解(﹡)式得到最优策略u*(x)。
管理科学与系统工程
例1的求解:(策略迭代法) 解:①第一步,先选取初始策略u1 (i ) 。如取: u1 (1) 5, u1 (2) 4, u1 (3) 5, u1 (4) 3. 即 ,但必需没有回路,每点 {u1 ( 可达靶点。i)} {5, 4,5,3} 第二步,由 求 ,由策略迭代法的方 u1 (i ) 程组可得: f1 (i ) f1 (i ) di ,u1 ( i ) f1 (u1 (i )) f1 (5) 0 因策略 直达靶点,应先计算: 管理科学与系统工程 u1 (1), u1 (3)
计算结果如下: f 4 (1) 2, u4 (1) 5
f 4 (2) 4.5, u4 (2) 3 f 4 (4) 3, u4 (4) 5
f 4 (3) 4, u (3) 4
4
管理科学与系统工程
f 2 (3) min d3 j f1 ( j ) min[d31 f1 (1),
本问题路线的段数事先不固定,而是随着最 优策略确定的,然而状态、决策、状态转移、指 标函数与以前的最短路线问题的相同. 状态记作x=i,i=1,2,…,n,决策记作u(i).策略 是对任意状态x的决策函数,记作u(x)。阶段指标 是任意两状态i,j间的距离dij,指标函数V(i,u(x))是 由状态i出发,在策略u(x)下到达状态n的路线的
模型 min z j2 x 2 lim V0k,状态变换函数 j k
j 0
为 j 1 j x j 。( 存在明显的级变量,但级 数是无限的 )
管理科学与系统工程
求解这类问题如果仍使用以前的逐级递推方法,
将遇到极大的计算量,为此必需寻找新方法。 函数方程可以用迭代法求解,通常有函数迭代法 和策略迭代法两种迭代方法。
管理科学与系统工程
②最优决策最多走4步,多于此步数,会出现走 回头路或回路,显然这些不是最优路线。 ③从任一点出发到靶点,走m(m=1,2,…)步与走 m+1步的最优距离一样,决策函数也一样,如果 继续计算走m+2步、m+3步、……,其结果仍一样, f m (i) f m1 (i) , um (i) um1 (i) , 也就说明 即 { f m (i)} 一致收敛于 f (i ) ,um (i)} 一致收敛于u (i) 。 { 故当这种一出现,计算便可停止。
f k ( x) ( x), x X n . (3)用 f k ( x) 求改进策略 uk 1 ( x) ,
uk 1 ( x) (u opt v( x, u ) f k (T ( x, u )) ).
uU ( x )
管理科学与系统工程
例1的求解:
分析:可以不考虑回路,因为含有回路的路线一定 不是最短的.
(4)当 或
uk 1 ( x) uk ( x), x X ,
f k 1 ( x) f k ( x) ,x X f k ( x)
时迭代停止,最优值函数 f ( x) f k ( x) ,最优策 略 u ( x) uk ( x) ;否则以k+1代替k重复(2),(3).