第七章动态规划(肖健华)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
动态规划问题的复杂性在于各阶段之间的 相互联系,由此使得各阶段局部最优不能保证 全局最优。 用动态规划方法解题的基本思路:将一个 n阶段的决策问题转化为依次求解n个具有递推 关系的单阶段决策问题,从而简化计算过程。
19
两种基本求解方法
动态规划问题的求解有两种基本方法。
逆序解法:从问题的最后一个阶段开始,逆多 阶段决策的实际过程反向寻优。 顺序解法:从问题的最初阶段开始,同多阶段 决策的实际过程顺序寻优。
28
(2)决策变量是对过程进行控制的 手段,复杂的问题中决策变量也可以 是多维的向量,它的取值可能是离散 的,也可能是连续的,允许决策集合 相当于线性规划问题的约束条件。
29
30
31
§7.2 确定性动态规划
确定性动态规划是阶段的输出状态完 全由其输入状态和决策所决定的动态 规划。确定性动态规划解决的问题可 能包含经济管理的方方面面,可以说 最短路线问题,可以是资源配置问题, 也可以是其他的规划问题。
20
将一个多阶段的决策问题转化为依次求解 多个单阶段的决策问题时,一个重要特征 是将前面的解传递,并纳入下一阶段一并 考虑,即做到求解的各阶段具有递推性。
21
二、动态规划的数学模型:最优化原理
思路:从某一状态出发,寻找最优选择 时,它是从下述所有可能的组合中进行 优化选取的:将本阶段决策的指标效益 值加上从下阶段开始采取最优策略时的 指标效益值。这是一种递推关系式,按 逆序算法时可以从最后一个阶段反推到 过程的开始。
22
最优化原理
美国的贝尔曼(Bellman)由上述思路提 出求解动态规划的最优化原理:作为整个 过程的最优策略具有这样的性质,无论过 去的状态和决策如何,对先前决策形成的 状态而言,余下的诸决策必须构成最优策 略。
23
动态规划的基本方程
24
25
边界条件
26
为构造和求解动态规划的数学模型,需要 明确模型中有关阶段的划分、状态变量、 决策变量、允许决策集合和状态转移方程 的确定等,并注意以下各点。
静态非线性规划问题的动态求解
5
例1:最短路线问题
设有一个旅行者从下图中的A点出发,途中要经过B、 C、D等处,最后到达终点E。从A到E有很多条路线可 以选择,各点之间的距离如图中所示,问该旅行者应 选择哪一条路线,使从A到E的总路线最短?
B1
2
A 5
3
7 6 5 3 B2 2 4 5 1 B3 5
32
7.2.1 最短路线问题
例1:
M31
10
8
M21
8
12
7 6 M32 7 7 5 11
4
6 4 3
P1
M11
6
9 M22
C
10
9
7 6 M33 5 3
6
P2
M12
11
M23 M34
P3
4
33
7.2.2 资源分配问题
所谓资源分配问题是指:将数量一定的某 些资源(例如资金、机器设备、原材料、 物资、劳力等)恰当地分配给若干个使用 者,而使总的目标函数值为最优。 资源分配问题本身是线性规划或非线性 规划的一类静态问题 人为引入时间因素,将其视为按阶段进 行的多阶段决策问题,再按动态规划方 法求解。
41
7.2.3 存贮控制问题
目的:平衡供给与需求双方的矛盾, 寻找最佳的采购批量和存贮量,以期 达到最佳的经济效果。
42
43
27
(1)状态变量的确定是构造动态规划模型中最 关键的一步,要求:
Fra Baidu bibliotek
① 状态变量首先应描述反映研究过程的演变特征; ② 状态变量应包含到达这个状态前的足够信息,并 无后效性; ③ 状态变量还应具有可知性,即规定的状态变量的 值可通过直接或间接的方法测知。 注:状态变量可以是连续的或离散的,单个数据或 多个数据。
34
35
36
37
38
例2
某公司拟将500万元资本投入所属的甲、乙、丙三个 工厂进行技术改造,各工厂获得投资后年利润将有相 应的增长,增长额如表所示,试确定500万元资本的 分配方案,以使公司总的年利润增长额最大?
39
例3:机器负荷分配问题。
40
例4
某一警卫部门共有12支巡逻队,负责4个要害部 门A、B、C、D的警卫巡逻。对每个部门可以分别派 出2~4支巡逻队,并且由于派出巡逻队数的不同,各 部位预期在一段时期内可能造成的损失有差别,具体 数字见下表。问该警卫部门应往各部门分别派多少支 巡逻队,使总的预期损失为最小。
第七章 动态规划
1
动态规划(dynamic programming) 是运筹学的一个分支,是求解多阶段 决策过程的最优化数学分支。 动态规划的“动态性”主要体现在研 究对象的时序性上。
2
所谓多阶段决策问题是指这样一类活动 过程:它可以分解为若干个相互联系的 阶段,在每一阶段分别对应着一组可供 选取的决策集合,即构成过程的每个阶 段都需要进行一次决策的决策问题。 将各阶段的决策综合起来构成一个决策 序列,称为一个策略。
决策 输入 输出 Sn dn Sn+1
阶段
Stage n
pn=r(Sn,dn)
阶段指标函数
10
7.1.2 动态规划的基本概念
1. 阶段:是过程中需要作出决策的决策点,描述阶段 的变量称为阶段变量,常用k表示,具有N个阶段的决 策过程,其阶段变量k=1,2,…,N
2. 状态:是动态规划中最关键的一个参数,第k阶段的 状态变量用Sk表示,它既反映前面各阶段决策的结局, 又是本阶段作出决策的出发点和依据。
3
动态规划模型的分类
决策过程的演变是否确定:确定性动态 规划和随机性动态规划 状态变量的取值是否连续:连续性动态 规划和离散性动态规划 动态规划分为四大类:
连续确定性 离散确定性 连续随机性 离散随机性
4
§7.1 动态规划的基本理论
动态规划三个例子
最短路线问题
资源分配问题
Sk应包含该阶段之前决策过程的全部信息,做到从 该阶段后做出的决策同之前的状态决策相互独立。 这种性质在本书中被称为无后效性或健忘性。
11
12
4. 状态转移律
13
5. 策略与子策略
14
6. 指标函数
15
16
17
7. 最优指标函数
18
7.1.3 动态规划的数学模型
一、动态规划问题的解题思路
阶段1
阶段2
……
阶段n
阶段指标函数
阶段指标函数
阶段指标函数
9
任何一个阶段(Stage,即决策点)都是由输入(Input)、 决策(Decision)、阶段指标函数(Payoff Function)和输 出(Output)构成的,其中输入输出也称为状态(State), 输入称为输入状态,输出称为输出状态。 前一个阶段的输出状态为后一个阶段的输入状态。
C1 4 6 3 3 C3
1
D1
3
E
C2
D2
4
3
6
例2:资源分配问题
7
例3:静态非线性规划问题的动态求解
8
7.1.1 多阶段决策过程的数学描述
多阶段决策问题的示意图 下图表明:多阶段决策过程可分为若干个相互联系的 阶段,每一个都要求作出相应的决策,以使整个过程 达到最佳的活动效果。
决策1 状态1 决策2 状态2 决策n 状态3 状态n 状态(n+1)
19
两种基本求解方法
动态规划问题的求解有两种基本方法。
逆序解法:从问题的最后一个阶段开始,逆多 阶段决策的实际过程反向寻优。 顺序解法:从问题的最初阶段开始,同多阶段 决策的实际过程顺序寻优。
28
(2)决策变量是对过程进行控制的 手段,复杂的问题中决策变量也可以 是多维的向量,它的取值可能是离散 的,也可能是连续的,允许决策集合 相当于线性规划问题的约束条件。
29
30
31
§7.2 确定性动态规划
确定性动态规划是阶段的输出状态完 全由其输入状态和决策所决定的动态 规划。确定性动态规划解决的问题可 能包含经济管理的方方面面,可以说 最短路线问题,可以是资源配置问题, 也可以是其他的规划问题。
20
将一个多阶段的决策问题转化为依次求解 多个单阶段的决策问题时,一个重要特征 是将前面的解传递,并纳入下一阶段一并 考虑,即做到求解的各阶段具有递推性。
21
二、动态规划的数学模型:最优化原理
思路:从某一状态出发,寻找最优选择 时,它是从下述所有可能的组合中进行 优化选取的:将本阶段决策的指标效益 值加上从下阶段开始采取最优策略时的 指标效益值。这是一种递推关系式,按 逆序算法时可以从最后一个阶段反推到 过程的开始。
22
最优化原理
美国的贝尔曼(Bellman)由上述思路提 出求解动态规划的最优化原理:作为整个 过程的最优策略具有这样的性质,无论过 去的状态和决策如何,对先前决策形成的 状态而言,余下的诸决策必须构成最优策 略。
23
动态规划的基本方程
24
25
边界条件
26
为构造和求解动态规划的数学模型,需要 明确模型中有关阶段的划分、状态变量、 决策变量、允许决策集合和状态转移方程 的确定等,并注意以下各点。
静态非线性规划问题的动态求解
5
例1:最短路线问题
设有一个旅行者从下图中的A点出发,途中要经过B、 C、D等处,最后到达终点E。从A到E有很多条路线可 以选择,各点之间的距离如图中所示,问该旅行者应 选择哪一条路线,使从A到E的总路线最短?
B1
2
A 5
3
7 6 5 3 B2 2 4 5 1 B3 5
32
7.2.1 最短路线问题
例1:
M31
10
8
M21
8
12
7 6 M32 7 7 5 11
4
6 4 3
P1
M11
6
9 M22
C
10
9
7 6 M33 5 3
6
P2
M12
11
M23 M34
P3
4
33
7.2.2 资源分配问题
所谓资源分配问题是指:将数量一定的某 些资源(例如资金、机器设备、原材料、 物资、劳力等)恰当地分配给若干个使用 者,而使总的目标函数值为最优。 资源分配问题本身是线性规划或非线性 规划的一类静态问题 人为引入时间因素,将其视为按阶段进 行的多阶段决策问题,再按动态规划方 法求解。
41
7.2.3 存贮控制问题
目的:平衡供给与需求双方的矛盾, 寻找最佳的采购批量和存贮量,以期 达到最佳的经济效果。
42
43
27
(1)状态变量的确定是构造动态规划模型中最 关键的一步,要求:
Fra Baidu bibliotek
① 状态变量首先应描述反映研究过程的演变特征; ② 状态变量应包含到达这个状态前的足够信息,并 无后效性; ③ 状态变量还应具有可知性,即规定的状态变量的 值可通过直接或间接的方法测知。 注:状态变量可以是连续的或离散的,单个数据或 多个数据。
34
35
36
37
38
例2
某公司拟将500万元资本投入所属的甲、乙、丙三个 工厂进行技术改造,各工厂获得投资后年利润将有相 应的增长,增长额如表所示,试确定500万元资本的 分配方案,以使公司总的年利润增长额最大?
39
例3:机器负荷分配问题。
40
例4
某一警卫部门共有12支巡逻队,负责4个要害部 门A、B、C、D的警卫巡逻。对每个部门可以分别派 出2~4支巡逻队,并且由于派出巡逻队数的不同,各 部位预期在一段时期内可能造成的损失有差别,具体 数字见下表。问该警卫部门应往各部门分别派多少支 巡逻队,使总的预期损失为最小。
第七章 动态规划
1
动态规划(dynamic programming) 是运筹学的一个分支,是求解多阶段 决策过程的最优化数学分支。 动态规划的“动态性”主要体现在研 究对象的时序性上。
2
所谓多阶段决策问题是指这样一类活动 过程:它可以分解为若干个相互联系的 阶段,在每一阶段分别对应着一组可供 选取的决策集合,即构成过程的每个阶 段都需要进行一次决策的决策问题。 将各阶段的决策综合起来构成一个决策 序列,称为一个策略。
决策 输入 输出 Sn dn Sn+1
阶段
Stage n
pn=r(Sn,dn)
阶段指标函数
10
7.1.2 动态规划的基本概念
1. 阶段:是过程中需要作出决策的决策点,描述阶段 的变量称为阶段变量,常用k表示,具有N个阶段的决 策过程,其阶段变量k=1,2,…,N
2. 状态:是动态规划中最关键的一个参数,第k阶段的 状态变量用Sk表示,它既反映前面各阶段决策的结局, 又是本阶段作出决策的出发点和依据。
3
动态规划模型的分类
决策过程的演变是否确定:确定性动态 规划和随机性动态规划 状态变量的取值是否连续:连续性动态 规划和离散性动态规划 动态规划分为四大类:
连续确定性 离散确定性 连续随机性 离散随机性
4
§7.1 动态规划的基本理论
动态规划三个例子
最短路线问题
资源分配问题
Sk应包含该阶段之前决策过程的全部信息,做到从 该阶段后做出的决策同之前的状态决策相互独立。 这种性质在本书中被称为无后效性或健忘性。
11
12
4. 状态转移律
13
5. 策略与子策略
14
6. 指标函数
15
16
17
7. 最优指标函数
18
7.1.3 动态规划的数学模型
一、动态规划问题的解题思路
阶段1
阶段2
……
阶段n
阶段指标函数
阶段指标函数
阶段指标函数
9
任何一个阶段(Stage,即决策点)都是由输入(Input)、 决策(Decision)、阶段指标函数(Payoff Function)和输 出(Output)构成的,其中输入输出也称为状态(State), 输入称为输入状态,输出称为输出状态。 前一个阶段的输出状态为后一个阶段的输入状态。
C1 4 6 3 3 C3
1
D1
3
E
C2
D2
4
3
6
例2:资源分配问题
7
例3:静态非线性规划问题的动态求解
8
7.1.1 多阶段决策过程的数学描述
多阶段决策问题的示意图 下图表明:多阶段决策过程可分为若干个相互联系的 阶段,每一个都要求作出相应的决策,以使整个过程 达到最佳的活动效果。
决策1 状态1 决策2 状态2 决策n 状态3 状态n 状态(n+1)