最优化原理与动态规划
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
wk.baidu.com4 C2
2010年5月
管理工程学院
《运筹学》 15
5.状态转移方程(状态转移律) :多阶段决策过程的 发展就是用阶段状态的相继演变来描述的。
或简写为
2010年5月
管理工程学院
《运筹学》 16
6.指标函数 (1)阶段指标函数(也称阶段收益) vk(sk,xk) 简记为vk 。
《运筹学》 4 – 3.动态规划方法就是从终点逐段向始点方向寻找 最短路线的方法。解题步骤如下: ●把问题划分为几个阶段。 ●按阶段顺序首先考虑最后阶段如第四阶段的最 优决策,也就是走哪条路线最短。 ●按阶段顺序依次考虑第三、第二,第一阶段的 最优决策,为此只需确定每一阶段上各初始点 的最优决策即可。
2010年5月
管理工程学院
《运筹学》 5
◆用动态规划方法逐段求解时,每个阶段上的求优 方法基本相同,而且比较简单,每一阶段的计算 都要利用上一阶段的计算结果,因而减少了很多 计算量。阶段数愈多,这种效果愈明显。
2010年5月
管理工程学院
《运筹学》 6
二、动态规划解题
标号法: 11,B1 ,B2
11,A3 2 Q4 3
所取决策必是Q→ A1→ B2→ C2→T,全程长度
是13。
A1 7
B1 1
2
4 6
4
C1 3
Q4 3
4 A2 2
4
4 2
6 B2
3 3
T 4 C2
A3 5
B3 3
2010年5月
管理工程学院
《运筹学》 3
◆全枚举法计算工作量将会十分庞大。 ◆局部最优求出的解不一定是最优解。
2010年5月
管理工程学院
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
4 C2
2010年5月
管理工程学院
《运筹学》 12
(2)决策变量:xk=xk(sk) 决 xk(s策k)∈变D量k(skx)k允(sk许) 的决策允集许合决实策际是集决用策D的k(s约k)束表条示件,。
2010年5月
管理工程学院
《运筹学》 18
◆常见有:
和
2010年5月
管理工程学院
《运筹学》 19
7.最优指标函数:fk(sk)
相应的子策略称为sk状态下的最优子策略, 记为pk*(sk) ;而构成该子策赂的各段决策称 为该过程上的最优决策,记为
有 简记为
2010年5月
管理工程学院
《运筹学》 20
A1 7 4
8,B1
6 4
A2 2
4
8,B1 4 2
A3 5
阶段1
阶段2
4,C1 B1 1 4
7,C2 6
B2 3
6,C1 3 B3 3
3,T C1 3
4,T 4
C2
0,T
T
阶段3
阶段4
最短路径:Q→ A3→ B1→ C1→T
2010年5月
管理工程学院
《运筹学》 7
三、动态规划的基本概念。
1.阶段(stage)和阶段变量。 把所给问题恰当地划分为若干个相互联系又有 区别的子问题,称之为多段决策问题的阶段。
(2)过程指标函数(指标函数)。
Vk,n(sk,xk, sk+1,xk+1,…, sn,xn)。简记为Vk,n 。
2010年5月
管理工程学院
《运筹学》 17
◆动态规划求解的问题的过程指标函数(指标函数), 必须具有关于阶段指标的可分离形式(和、积或其 他形式) :
表示某种运算,可为加、减、乘、除、开方等。
管理工程学院
《运筹学》 10
(2)动态规划维数。 (3)可能状态集:用S(sk)表示。
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
4 C2
2010年5月
管理工程学院
《运筹学》 11
3.决策(decision)、决策变量和允许决策集合 (1)决策。
k后部子过程策略,表示为pk(xk)
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
2010年5月
C1 3 T
4 C2
管理工程学院
《运筹学》 14
(2)允许策略集合记作P。
最优策略:从允许策略集中,找出的具有最 优效果的策略。
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
4 C2
2010年5月
管理工程学院
《运筹学》 9
2.状态(state)、状态变量和可能状态集 (1)状态与状态变量。
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
4 C2
2010年5月
8. 概念的关系。
决策xk(sk)
决策xk+1(sk+1)
状态 阶段k 状态 阶段k+1 状态
sk
T(sk,xk) sk+1 T(sk+1,xk+1) sk+2
vk(sk,xk)
vk+1(sk+1,xk+1)
2010年5月
管理工程学院
《运筹学》 21
四、最优化原理与动态规划的数学模型 1. 最优化原理 (贝尔曼最优化原理) 若某一全过程最优策略为:
《运筹学》 1
一、动态规划方法导引 1.全枚举法或穷举法。共有18条可能路线,进 行比较,求得最优路线Q→ A3→ B1→ C1→T。
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
4 C2
2010年5月
管理工程学院
《运筹学》 2
2.“局部最优路径”法:选择当前最短途径, “逢近便走”。
则
2010年5月
管理工程学院
《运筹学》 22
2.动态规划的数学模型(逆序法时)
(8.3a) (8.3b)
2010年5月
管理工程学院
《运筹学》 23
或 (8.3b)和(8.3d)称为边界条件。
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
4 C2
2010年5月
管理工程学院
《运筹学》 13
4.策略和允许策略集合策略(Policy) 全过程策略指具有n个阶段全部过程,简称策 略。表示为 {x1(s1),x2(s1),…,xn(sn)}。
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
4 C2
2010年5月
管理工程学院
《运筹学》 8
用以描述阶段的变量叫作阶段变量,一般以 k表示阶段量.
阶段数k的编号法有两种:
(1)顺序编号;(2)逆序编号法。
2 Q4
3
A1 7 4
6 4 A2 2 4
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
wk.baidu.com4 C2
2010年5月
管理工程学院
《运筹学》 15
5.状态转移方程(状态转移律) :多阶段决策过程的 发展就是用阶段状态的相继演变来描述的。
或简写为
2010年5月
管理工程学院
《运筹学》 16
6.指标函数 (1)阶段指标函数(也称阶段收益) vk(sk,xk) 简记为vk 。
《运筹学》 4 – 3.动态规划方法就是从终点逐段向始点方向寻找 最短路线的方法。解题步骤如下: ●把问题划分为几个阶段。 ●按阶段顺序首先考虑最后阶段如第四阶段的最 优决策,也就是走哪条路线最短。 ●按阶段顺序依次考虑第三、第二,第一阶段的 最优决策,为此只需确定每一阶段上各初始点 的最优决策即可。
2010年5月
管理工程学院
《运筹学》 5
◆用动态规划方法逐段求解时,每个阶段上的求优 方法基本相同,而且比较简单,每一阶段的计算 都要利用上一阶段的计算结果,因而减少了很多 计算量。阶段数愈多,这种效果愈明显。
2010年5月
管理工程学院
《运筹学》 6
二、动态规划解题
标号法: 11,B1 ,B2
11,A3 2 Q4 3
所取决策必是Q→ A1→ B2→ C2→T,全程长度
是13。
A1 7
B1 1
2
4 6
4
C1 3
Q4 3
4 A2 2
4
4 2
6 B2
3 3
T 4 C2
A3 5
B3 3
2010年5月
管理工程学院
《运筹学》 3
◆全枚举法计算工作量将会十分庞大。 ◆局部最优求出的解不一定是最优解。
2010年5月
管理工程学院
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
4 C2
2010年5月
管理工程学院
《运筹学》 12
(2)决策变量:xk=xk(sk) 决 xk(s策k)∈变D量k(skx)k允(sk许) 的决策允集许合决实策际是集决用策D的k(s约k)束表条示件,。
2010年5月
管理工程学院
《运筹学》 18
◆常见有:
和
2010年5月
管理工程学院
《运筹学》 19
7.最优指标函数:fk(sk)
相应的子策略称为sk状态下的最优子策略, 记为pk*(sk) ;而构成该子策赂的各段决策称 为该过程上的最优决策,记为
有 简记为
2010年5月
管理工程学院
《运筹学》 20
A1 7 4
8,B1
6 4
A2 2
4
8,B1 4 2
A3 5
阶段1
阶段2
4,C1 B1 1 4
7,C2 6
B2 3
6,C1 3 B3 3
3,T C1 3
4,T 4
C2
0,T
T
阶段3
阶段4
最短路径:Q→ A3→ B1→ C1→T
2010年5月
管理工程学院
《运筹学》 7
三、动态规划的基本概念。
1.阶段(stage)和阶段变量。 把所给问题恰当地划分为若干个相互联系又有 区别的子问题,称之为多段决策问题的阶段。
(2)过程指标函数(指标函数)。
Vk,n(sk,xk, sk+1,xk+1,…, sn,xn)。简记为Vk,n 。
2010年5月
管理工程学院
《运筹学》 17
◆动态规划求解的问题的过程指标函数(指标函数), 必须具有关于阶段指标的可分离形式(和、积或其 他形式) :
表示某种运算,可为加、减、乘、除、开方等。
管理工程学院
《运筹学》 10
(2)动态规划维数。 (3)可能状态集:用S(sk)表示。
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
4 C2
2010年5月
管理工程学院
《运筹学》 11
3.决策(decision)、决策变量和允许决策集合 (1)决策。
k后部子过程策略,表示为pk(xk)
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
2010年5月
C1 3 T
4 C2
管理工程学院
《运筹学》 14
(2)允许策略集合记作P。
最优策略:从允许策略集中,找出的具有最 优效果的策略。
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
4 C2
2010年5月
管理工程学院
《运筹学》 9
2.状态(state)、状态变量和可能状态集 (1)状态与状态变量。
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
4 C2
2010年5月
8. 概念的关系。
决策xk(sk)
决策xk+1(sk+1)
状态 阶段k 状态 阶段k+1 状态
sk
T(sk,xk) sk+1 T(sk+1,xk+1) sk+2
vk(sk,xk)
vk+1(sk+1,xk+1)
2010年5月
管理工程学院
《运筹学》 21
四、最优化原理与动态规划的数学模型 1. 最优化原理 (贝尔曼最优化原理) 若某一全过程最优策略为:
《运筹学》 1
一、动态规划方法导引 1.全枚举法或穷举法。共有18条可能路线,进 行比较,求得最优路线Q→ A3→ B1→ C1→T。
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
4 C2
2010年5月
管理工程学院
《运筹学》 2
2.“局部最优路径”法:选择当前最短途径, “逢近便走”。
则
2010年5月
管理工程学院
《运筹学》 22
2.动态规划的数学模型(逆序法时)
(8.3a) (8.3b)
2010年5月
管理工程学院
《运筹学》 23
或 (8.3b)和(8.3d)称为边界条件。
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
4 C2
2010年5月
管理工程学院
《运筹学》 13
4.策略和允许策略集合策略(Policy) 全过程策略指具有n个阶段全部过程,简称策 略。表示为 {x1(s1),x2(s1),…,xn(sn)}。
2 Q4
3
A1 7 4
6 4 A2 2 4
4 2
A3 5
B1 1 4
6 B2
3
3 B3 3
C1 3 T
4 C2
2010年5月
管理工程学院
《运筹学》 8
用以描述阶段的变量叫作阶段变量,一般以 k表示阶段量.
阶段数k的编号法有两种:
(1)顺序编号;(2)逆序编号法。
2 Q4
3
A1 7 4
6 4 A2 2 4