10-1动态规划基本概念与基本原理1
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
当k=3时,若从C1出发,则有两个选择,一个是 至D1一个是至D2,则:
f3(C 1 ) m in d d 3 3( (C C 1 1 ,,D D 1 2 )) ff4 4 ((D D 1 2 )) m in 6 4 3 4 8
C1到最终点最短距离为8,最短路线: C1——D1——E 相应决策为 u3*(C1)= D1
各阶段状态的变量称为状态变量,常用sk表 示第k阶段的状态变量,状态变量的取值集 合称为状态集合,用Sk表示。
动态规划的基本概念和基本原理
动态规划中的状态具有如下性质: 某阶段的状态,只对该阶段该状态以后过程的演变 起作用,而不受以前各阶段状态的影响。即:过程 的过去历史只能通过当前状态去影响它未来的发展, 这称为无后效性。如果所选定的变量不具备无后效 性,就不能作为状态变量来构造动态规划模型。
从边界条件开始,按逆(或顺)过程行进 方向,逐段递推寻优。
贝尔曼(Ballman)最优化原理
作为整个过程的最优策略具有这样的性质, 即无论过去的状态和决策如何,对前面的决策所 形成的状态而言,余下的诸决策必须构成最优策 略。这就是说,不管引导到这个现时状态的头一 个状态和决策是什么,所有的未来决策应是最优 的。
动态规划的基本概念和基本原理
指标函数 用于衡量所选定策略优劣的数量指标称为 指标函数。最优指标函数记为fk(sk)。
V1,n(s1, p1,n)
指标函数
——表示初始状态为 s 1 且采取策略 p 1, n 时 ,
原(全)过程的指标函数
Vk,n(sk, pk,n)
——表示第k阶段状态为s k 且采取策略 p k , n 时,
d1(A,B1)f2(B1) 214 f1(A)m in d1(A,B2)f2(B2) m in 411 15
d1(A,B3)f2(B3) 313
即从A到E的最短距离15,本段决策为 u1*(A)= B2。 再按计算顺序反推可得最优决策序列{uk},即u1*(A)= B2, u2*(B2)= C1, u3*(C1)= D1, u4*(D1)= E
动态规划的基本概念和基本原理
各个阶段决策确定后,整个问题的决策序 列就构成一个策略,用p1,n(u1,u2,…un)表示。 对每个实际问题,可供选择的策略有一定 的范围,称为允许策略集合,用P表示。使 整个问题达到最优效果的策略就是最优策 略。
动态规划的基本概念和基本原理
状态转移方程 动态规划中本阶段的状态往往是上一阶段 的决策结果。如果给定了第k段的状态sk , 本阶段决策为uk(sk) ,则第k+1段的状态sk+1 由公式: sk+1=Tk( sk, uk)确定,称为状 态转移方程。
动态规划
(Dynamic Programming)
多阶段决策过程的最优化(简介) 动态规划的基本概念和基本原理 动态规划模型的解题步骤
动态规划简介
动态规划——解决多阶段决策过程最优化的一种 数学方法。
“动态”——随着“时间”过程的发展而决定各时段的 决策,产生一个决策序列。
1951年,R.Bellman《动态规划》提出:“最优化原 理”------ 把多阶段过程转化为一系列相互联系的单阶 段问题,逐个求解。
B到C的最短路
逆序递推法
用逆序递推法求 例1的最短路
k 1
2 A4
3
k 2
7
B1 7
8
3
B2
5 6
6
B3
8 7
k 3
k 4
C1 4
6 D1 4
3 C2 5
E
23
C3
D2 3
用逆序递推方法求解,逐步求出各段各点到E的 最短路线,最后求得A点到E点的最短路线。
当k=4时,f4(D1)表示在第4段由D1到E的最短距 离,故有f4(D1)=4 。同理, f4(D2)=3。
后部子过程的指标函数
fk (sk ) ——表p示k ,第n k到阶终段止状时态的为最s佳k 效且益采值取。最优策略
fk(sk) V k,n (sk,p k ,n )op V k,n ( tsk,p k,n )
p k,n P k,n
动态规划的基本思想与基本原理
最短路的重要性质:
逆
序
C
递
推
B
法
A A到C的最短路
动态规划中的状态变量满足如下3个特性: (1)代表性。能够反映过程的演变特性。 (2)可知性。能够通过某种方式,直接或间接地确定 (3)无后效性。
动态规划的基本概念和基本原理
决策和策略 (Decision and Policy)
当各段的状态确定以后,就可以做出不同 的决定(或选择),从而确定下一阶段的 状态,这种决定称为决策。决策变量用 uk(sk)表示,允许决策集合用Dk(Sk)表示。
动态规划的模型的建立
动态规划模型的构成 正确选择阶段变量 正确选择状态变量,状态变量需满足条件:
(1)代表性; (2)可知性; (3)无后效性。
正确选择决策变量 列出状态转移方程 列出指标函数,它具有按阶段可加性 列出函数基本方程。
增加产量
成本降低 库存费增加
按月分阶段,全年分 为12个阶段逐次决策
一年总费用最低
?
动态规划的基本概念和基本原理
动态规划的基本概念
无后效性即 未来与过去无关
阶段 k ,( k 1 ,2 , ,n )
状态、状态变量 s k 、状态空间 S k
决策 uk (sk )、允许决策集合 Dk (sk ) 策略 p 1 ,n { u 1 ( s 1 )u 2 ,( s 2 ) ,,u n ( s n )}
f3 (C 2 ) m in d d 3 3 ( (C C 2 2 ,,D D 1 2 ) ) ff4 4 ( (D D 1 2 )) m in 5 3 3 4 7
C2到最终点最短距离为7,最短路线: C2——D1——E 相应决策为 u3*(C2)= D1
f3(C 3) m in d d 3 3( (C C 3 3 ,,D D 1 2 )) ff4 4 ((D D 1 2 )) m in 3 2 3 4 6
状态转移(方程)sk1Tk(sk,uk) 指标函数
动态规划的基本概念和基本原理
阶段(Stage) 将所给问题的过程,按时间或空间特征分
解成若干个相互联系的阶段,以便按次序 去求每阶段的解,常用k表示阶段变量。
动态规划的基本概念和基本原理
状态(State) 各阶段开始时的客观条件叫做状态。描述
C3到最终点最短距离为6,最短路线: C3—D1(D2)—E 相应决策为 u3*(C3)= D1(D2)
依此类推,可得: k=2时,有 f2(B1)= 14 u2*(B1)= C2 (C3 ) f2 (B2)=11 u2*(B2)= C1 f2 (B3)=13 u2*(B3)= C3 k=1时,只有一种状态A,则
动态规划模型分类
1、离散确定型; 2、离散随机型; 3、连续确定型; 4、离散随机型;
应用
最短路问题 资源分配问题 生产调度问题 库存问题 排序问题 设备更新问题 生产过程最优控制问题
多阶段决策过程最优化
多阶段决策过程是指这样一类特殊的活动 过程,他们可以按时间顺序分解成若干相 互联系的阶段,在每个阶段都要做出决策, 全部过程的决策是一个决策序列,所以多 阶段决策问题也称为序贯决策问题。
所以最优路线:
A— B2 —C1—D1—E
7
A
2 4 3
B1 7
B2
385 6
6
B3
8 7
C1 4
Байду номын сангаас
6 3 C2 5
D1 4
E
23
C3
D2 3
动态规划的函数基本方程
动 f态k(s规k)本 划m 方的程函d ik数(s n k基,u f{ 5 k()s 5)f k 0 1(sk 1)}k 边 界4 条,3 件,2 ,1
这种递推关系称为动态规划的函数基本方程。其一般 形式为:
fk(s k) m in { d k(s k,u k f) n 1 ( fs k n 1 1 ( ) s k 1 0 )} k n ,n 1 ,......,1
动态规划方法基本思想总结
将多阶段决策过程划分为阶段,恰当选取 状态变量、决策变量及定义最优指标函数, 从而把问题化为一族同类型的子问题,逐 个求解。
多阶段决策过程最优化问题举例
1、最短路问题:运输网络如下图,求从A到E的最短路。
第2 A 14
阶3 段
7
B1 7
B2
3第285 阶6
6段
B3
8 7
C1 4
C2
第6 阶335
2段3
C3
D1 第4 4 阶
D2 段3
第 E5
阶 段
2、生产与存储问题
某厂每月供应市场一定数量的产品,如 何安排每月的产量?
f3(C 1 ) m in d d 3 3( (C C 1 1 ,,D D 1 2 )) ff4 4 ((D D 1 2 )) m in 6 4 3 4 8
C1到最终点最短距离为8,最短路线: C1——D1——E 相应决策为 u3*(C1)= D1
各阶段状态的变量称为状态变量,常用sk表 示第k阶段的状态变量,状态变量的取值集 合称为状态集合,用Sk表示。
动态规划的基本概念和基本原理
动态规划中的状态具有如下性质: 某阶段的状态,只对该阶段该状态以后过程的演变 起作用,而不受以前各阶段状态的影响。即:过程 的过去历史只能通过当前状态去影响它未来的发展, 这称为无后效性。如果所选定的变量不具备无后效 性,就不能作为状态变量来构造动态规划模型。
从边界条件开始,按逆(或顺)过程行进 方向,逐段递推寻优。
贝尔曼(Ballman)最优化原理
作为整个过程的最优策略具有这样的性质, 即无论过去的状态和决策如何,对前面的决策所 形成的状态而言,余下的诸决策必须构成最优策 略。这就是说,不管引导到这个现时状态的头一 个状态和决策是什么,所有的未来决策应是最优 的。
动态规划的基本概念和基本原理
指标函数 用于衡量所选定策略优劣的数量指标称为 指标函数。最优指标函数记为fk(sk)。
V1,n(s1, p1,n)
指标函数
——表示初始状态为 s 1 且采取策略 p 1, n 时 ,
原(全)过程的指标函数
Vk,n(sk, pk,n)
——表示第k阶段状态为s k 且采取策略 p k , n 时,
d1(A,B1)f2(B1) 214 f1(A)m in d1(A,B2)f2(B2) m in 411 15
d1(A,B3)f2(B3) 313
即从A到E的最短距离15,本段决策为 u1*(A)= B2。 再按计算顺序反推可得最优决策序列{uk},即u1*(A)= B2, u2*(B2)= C1, u3*(C1)= D1, u4*(D1)= E
动态规划的基本概念和基本原理
各个阶段决策确定后,整个问题的决策序 列就构成一个策略,用p1,n(u1,u2,…un)表示。 对每个实际问题,可供选择的策略有一定 的范围,称为允许策略集合,用P表示。使 整个问题达到最优效果的策略就是最优策 略。
动态规划的基本概念和基本原理
状态转移方程 动态规划中本阶段的状态往往是上一阶段 的决策结果。如果给定了第k段的状态sk , 本阶段决策为uk(sk) ,则第k+1段的状态sk+1 由公式: sk+1=Tk( sk, uk)确定,称为状 态转移方程。
动态规划
(Dynamic Programming)
多阶段决策过程的最优化(简介) 动态规划的基本概念和基本原理 动态规划模型的解题步骤
动态规划简介
动态规划——解决多阶段决策过程最优化的一种 数学方法。
“动态”——随着“时间”过程的发展而决定各时段的 决策,产生一个决策序列。
1951年,R.Bellman《动态规划》提出:“最优化原 理”------ 把多阶段过程转化为一系列相互联系的单阶 段问题,逐个求解。
B到C的最短路
逆序递推法
用逆序递推法求 例1的最短路
k 1
2 A4
3
k 2
7
B1 7
8
3
B2
5 6
6
B3
8 7
k 3
k 4
C1 4
6 D1 4
3 C2 5
E
23
C3
D2 3
用逆序递推方法求解,逐步求出各段各点到E的 最短路线,最后求得A点到E点的最短路线。
当k=4时,f4(D1)表示在第4段由D1到E的最短距 离,故有f4(D1)=4 。同理, f4(D2)=3。
后部子过程的指标函数
fk (sk ) ——表p示k ,第n k到阶终段止状时态的为最s佳k 效且益采值取。最优策略
fk(sk) V k,n (sk,p k ,n )op V k,n ( tsk,p k,n )
p k,n P k,n
动态规划的基本思想与基本原理
最短路的重要性质:
逆
序
C
递
推
B
法
A A到C的最短路
动态规划中的状态变量满足如下3个特性: (1)代表性。能够反映过程的演变特性。 (2)可知性。能够通过某种方式,直接或间接地确定 (3)无后效性。
动态规划的基本概念和基本原理
决策和策略 (Decision and Policy)
当各段的状态确定以后,就可以做出不同 的决定(或选择),从而确定下一阶段的 状态,这种决定称为决策。决策变量用 uk(sk)表示,允许决策集合用Dk(Sk)表示。
动态规划的模型的建立
动态规划模型的构成 正确选择阶段变量 正确选择状态变量,状态变量需满足条件:
(1)代表性; (2)可知性; (3)无后效性。
正确选择决策变量 列出状态转移方程 列出指标函数,它具有按阶段可加性 列出函数基本方程。
增加产量
成本降低 库存费增加
按月分阶段,全年分 为12个阶段逐次决策
一年总费用最低
?
动态规划的基本概念和基本原理
动态规划的基本概念
无后效性即 未来与过去无关
阶段 k ,( k 1 ,2 , ,n )
状态、状态变量 s k 、状态空间 S k
决策 uk (sk )、允许决策集合 Dk (sk ) 策略 p 1 ,n { u 1 ( s 1 )u 2 ,( s 2 ) ,,u n ( s n )}
f3 (C 2 ) m in d d 3 3 ( (C C 2 2 ,,D D 1 2 ) ) ff4 4 ( (D D 1 2 )) m in 5 3 3 4 7
C2到最终点最短距离为7,最短路线: C2——D1——E 相应决策为 u3*(C2)= D1
f3(C 3) m in d d 3 3( (C C 3 3 ,,D D 1 2 )) ff4 4 ((D D 1 2 )) m in 3 2 3 4 6
状态转移(方程)sk1Tk(sk,uk) 指标函数
动态规划的基本概念和基本原理
阶段(Stage) 将所给问题的过程,按时间或空间特征分
解成若干个相互联系的阶段,以便按次序 去求每阶段的解,常用k表示阶段变量。
动态规划的基本概念和基本原理
状态(State) 各阶段开始时的客观条件叫做状态。描述
C3到最终点最短距离为6,最短路线: C3—D1(D2)—E 相应决策为 u3*(C3)= D1(D2)
依此类推,可得: k=2时,有 f2(B1)= 14 u2*(B1)= C2 (C3 ) f2 (B2)=11 u2*(B2)= C1 f2 (B3)=13 u2*(B3)= C3 k=1时,只有一种状态A,则
动态规划模型分类
1、离散确定型; 2、离散随机型; 3、连续确定型; 4、离散随机型;
应用
最短路问题 资源分配问题 生产调度问题 库存问题 排序问题 设备更新问题 生产过程最优控制问题
多阶段决策过程最优化
多阶段决策过程是指这样一类特殊的活动 过程,他们可以按时间顺序分解成若干相 互联系的阶段,在每个阶段都要做出决策, 全部过程的决策是一个决策序列,所以多 阶段决策问题也称为序贯决策问题。
所以最优路线:
A— B2 —C1—D1—E
7
A
2 4 3
B1 7
B2
385 6
6
B3
8 7
C1 4
Байду номын сангаас
6 3 C2 5
D1 4
E
23
C3
D2 3
动态规划的函数基本方程
动 f态k(s规k)本 划m 方的程函d ik数(s n k基,u f{ 5 k()s 5)f k 0 1(sk 1)}k 边 界4 条,3 件,2 ,1
这种递推关系称为动态规划的函数基本方程。其一般 形式为:
fk(s k) m in { d k(s k,u k f) n 1 ( fs k n 1 1 ( ) s k 1 0 )} k n ,n 1 ,......,1
动态规划方法基本思想总结
将多阶段决策过程划分为阶段,恰当选取 状态变量、决策变量及定义最优指标函数, 从而把问题化为一族同类型的子问题,逐 个求解。
多阶段决策过程最优化问题举例
1、最短路问题:运输网络如下图,求从A到E的最短路。
第2 A 14
阶3 段
7
B1 7
B2
3第285 阶6
6段
B3
8 7
C1 4
C2
第6 阶335
2段3
C3
D1 第4 4 阶
D2 段3
第 E5
阶 段
2、生产与存储问题
某厂每月供应市场一定数量的产品,如 何安排每月的产量?