动态规划基本理论推广函数迭代与策略迭代法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
策略。
一般来说,选定初始策略要比选定初始目标最 优值函数容易得多,且策略迭代的收敛速度稍快, 但其计算量要大些。
管理科学与系统工程
函数迭代法百度文库策略迭代法
x X ( 是事先给定的数)时迭代停止,最优值函
数 f (x) fk (x) ,最优策略u (x) uk (x)。 2.策略迭代法的步骤是: (1)选初始策略u1 ( x),令k=1; (2)用uk (x)求解 fk (x) ,
管理科学与系统工程
函数迭代法与策略迭代法
1.函数迭代法的步骤是: (1)选初始函数 f0 (x()一般取 (2)用迭代公式
);f0 (x) 0
及 fk (x) opt v(x,u)计 算fk1(T (x,u)), x X uU ( x)
其中 为fk当(x前) 阶段(x)的, x状态X n和决策,fk (x)为, k 1, 2, , 已知终止x,函u 数, 为k迭代步数, v为指标函数(x)
管理科学与系统工程
不定期与无期决策过程
例1:段数不定的最短路线问题(不定期决策过程)
n个点相互连接组成 一 个连通图(右图中n=5),各点 标号为1,2,…,n。任意两点 i,j之间的距离(费用)记作 dij 。求任意一点i到点n(靶 点)的最短路线(距离)。
5 2753 1 24 6 55 1
2 0.5 3
管理科学与系统工程
不定期与无期决策过程
例1:段数不定的最短路线问题(不定期决策过程) n个点相互连接组成 一 个连通图(右图中n=5),各点 标号为1,2,…,n。任意两点 i,j之间的距离(费用)记作 dij 。求任意一点i到点n(靶 点)的最短路线(距离)。
管理科学与系统工程
函数迭代法与策略迭代法
f
(i)
min
1 jn
dij
f
(
j) ,i
1, 2,
, n 1.
管理科学与系统工程
函数迭代法与策略迭代法
该式记为(﹡)式,它不是一个递推方程,而是一 个关于ƒ(i)的函数方程,对固定的i使(﹡)右端 [dij+ƒ(j)] 达到极小的j即为最优决策u*(i),对所有 的i求解(﹡)式得到最优策略u*(x)。
管理科学与系统工程
不定期与无期决策过程
例2:无限期决策过程
模型
min
z
2 j
j0
x
2 j
,lkim状V态0k 变换函数
为 j1 j x j 。( 存在明显的级变量,但级
数是无限的 )
管理科学与系统工程
不定期与无期决策过程
求解这类问题如果仍使用以前的逐级递推方法, 将遇到极大的计算量,为此必需寻找新方法。 函数方程可以用迭代法求解,通常有函数迭代法 和策略迭代法两种迭代方法。
fk (x) v(x,uk (x)) fk (T (x,uk (x))), x X .
fk (x) (x), x X n.
(3)用 fk (x) 求改进策略 uk1(x) ,
uk1(x) (u opt v(x,u) fk (T (x,u))).
uU ( x)
管理科学与系统工程
函数迭代法与策略迭代法
管理科学与系统工程
函数迭代法与策略迭代法
距离,它是阶段指标之和, 并满足可分离性要 求,有
V (i, u(x)) dij V ( j, u(x))
最优值函数ƒ(i)为由i出发到达n的最短距离,即
f (i) minV (i,u(x)) V (i,u*(x)) u(x)
式中u*(x)是最优策略,满足基本方程
例1的求解: 分析:可以不考虑回路,因为含有回路的路线一定
不是最短的. 本问题路线的段数事先不固定,而是随着最优策略
确定的,然而状态、决策、状态转移、指标函数 与以前的最短路线问题的相同. 状态记作x=i,i=1,2,…,n,决策记作u(i).策略是对任 意状态x的决策函数,记作u(x)。阶段指标是任意 两状态i,j间的距离dij,指标函数V(i,u(x))是由状态i 出发,在策略u(x)下到达状态n的路线的
(3)当
或
fk1(x) fk (x), x X ,
管理科学与系统工程
fk1(x) fk (x)
fk (x)
函数迭代法与策略迭代法
(4)当
uk1(x) uk (x), x X ,
或
fk1(x) fk (x) , x X
fk (x)
时迭代停止,最优值函数 f (x) fk (x) ,最优策 略 u (x) uk (x) ;否则以k+1代替k重复(2),(3).
管理科学与系统工程
不定期与无期决策过程
例1:段数不定的最短路线问题(不定期决策过程)
n个点相互连接组成 一 个连通图(右图中n=5),各点 标号为1,2,…,n。任意两点 i,j之间的距离(费用)记作 dij 。求任意一点i到点n(靶 点)的最短路线(距离)。
5 2753 1 24 6 55 1
2 0.5 3
管理科学与系统工程
函数迭代法与策略迭代法
说明: 函数迭代法和策略迭代法中,序列 {( fk (x)} 和 {(uk (x)}的收敛性在相当广泛的条件下是可以 保证的,一般来说它与 U (x),T (x),v(x,等u), X n 的具体形式有关。 函数迭代法的基本思想是以步数(段数)作为参数, 先求在各个不同步数下的最优策略,然后从这些最 优解中再选出最优者,从而同时确定了最优步数。
管理科学与系统工程
函数迭代法与策略迭代法
策略迭代法的基本思想是:先选定一初始策略
{uk (i) i 1, 2, , n 1}然后按某种方式求得新策
略 u1(i),u2 (i), , 直至最终求出最优策略。若对某
一k,对所有i有: uk1(i) ,uk则(i)称
u1(i),u2 (i),
收敛,此时,策略 {uk (i) i 1, 2, , n 1} 就是最优
动态规划基本理论推广函数 迭代与策略迭代法
动态规划基本理论推广
——函数迭代法与策略迭代法
管理科学与系统工程
本章内容
举例简单说明不定期与无期决策过程 的形式和概念;以不定期和无期决策过程 为例,介绍函数迭代法和策略迭代法。
管理科学与系统工程
不定期与无期决策过程
定义:多阶段的决策过程的阶段数N确定, 称为定期决策过程,当N不确定时, 称此类决策过程为不定期决策过程, 当N趋向无穷时称为无期决策过程。