第七章动态规划(肖健华)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
65
3 A 5 B2 2
4
3
5
1
B3
5
C1
1
4
D1
6
3
C2
E
3
4
3 3 D2
C3
6
例2:资源分配问题
7
例3:静态非线性规划问题的动态求解
8
7.1.1 多阶段决策过程的数学描述
多阶段决策问题的示意图 下图表明:多阶段决策过程可分为若干个相互联系的
阶段,每一个都要求作出相应的决策,以使整个过程 达到最佳的活动效果。
23
动态规划的基本方程
24
25
边界条件
26
为构造和求解动态规划的数学模型,需要 明确模型中有关阶段的划分、状态变量、 决策变量、允许决策集合和状态转移方程 的确定等,并注意以下各点。
27
(1)状态变量的确定是构造动态规划模型中最 关键的一步,要求:
① 状态变量首先应描述反映研究过程的演变特征; ② 状态变量应包含到达这个状态前的足够信息,并
41
7.2.3 存贮控制问题
目的:平衡供给与需求双方的矛盾, 寻找最佳的采购批量和存贮量,以期 达到最佳的经济效果。
42
43
19
两种基本求解方法
动态规划问题的求解有两种基本方法。
逆序解法:从问题的最后一个阶段开始,逆多 阶段决策的实际过程反向寻优。
顺序解法:从问题的最初阶段开始,同多阶段 决策的实际过程顺序寻优。
20
将一个多阶段的决策问题转化为依次求解 多个单阶段的决策问题时,一个重要特征 是将前面的解传递,并纳入下一阶段一并 考虑,即做到求解的各阶段具有递推性。
34
35
36
37
38
例2
某公司拟将500万元资本投入所属的甲、乙、丙三个 工厂进行技术改造,各工厂获得投资后年利润将有相 应的增长,增长额如表所示,试确定500万元资本的 分配方案,以使公司总的年利润增长额最大?
39
例3:机器负荷分配问题。
40
例4
某一警卫部门共有12支巡逻队,负责4个要害部 门A、B、C、D的警卫巡逻。对每个部门可以分别派 出2~4支巡逻队,并且由于派出巡逻队数的不同,各 部位预期在一段时期内可能造成的损失有差别,具体 数字见下表。问该警卫部门应往各部门分别派多少支 巡逻队,使总的预期损失为最小。
21
二、动态规划的数学模型:最优化原理
思路:从某一状态出发,寻找最优选择 时,它是从下述所有可能的组合中进行 优化选取的:将本阶段决策的指标效益 值加上从下阶段开始采取最优策略时的 指标效益值。这是一种递推关系式,按 逆序算法时可以从最后一个阶段反推到 过程的开始。
22
最优化原理
美国的贝尔曼(Bellman)由上述思路提 出求解动态规划的最优化原理:作为整个 过程的最优策略具有这样的性质,无论过 去的状态和决策如何,对先前决策形成的 状态而言,余下的诸决策必须构成最优策 略。
动态规划三个例子
最短路线问题 资源分配问题 静态非线性规划问题的动态求解
5
例1:最短路线问题
设有一个旅行者从下图中的A点出发,途中要经过B、 C、D等处,最后到达终点E。从A到E有很多条路线可 以选择,各点之间的距离如图中所示,问该旅行者应 选择哪一条路线,使从A到E的总路线最短?
B1
7
29
30
31
§7.2 确定性动态规划
确定性动态规划是阶段的输出状态完 全由其输入状态和决策所决定的动态 规划。确定性动态规划解决的问题可 能包含经济管理的方方面面,可以说 最短路线问题,可以是资源配置问题, 也可以是其他的规划问题。
32
7.2.1 最短路线问题
例1:
M31
10
8
M21 7
第七章 动态规划
1
➢ 动态规划(dynamic programming) 是运筹学的一个分支,是求解多阶段 决策过程的最优化数学分支。
➢ 动态规划的“动态性”主要体现在研 究对象的时序性上。
2
所谓多阶段决策问题是指这样一类活动 过程:它可以分解为若干个相互联系的 阶段,在每一阶段分别对应着一组可供 选取的决策集合,即构成过程的每个阶 段都需要进行一次决策的决策问题。
决策1
决策2
决策n
状态1
阶段1 状态2
阶段2 状态3
状态nBaidu Nhomakorabea……
阶段n 状态(n+1)
阶段指标函数 阶段指标函数
阶段指标函数
9
任何一个阶段(Stage,即决策点)都是由输入(Input)、 决策(Decision)、阶段指标函数(Payoff Function)和输 出(Output)构成的,其中输入输出也称为状态(State), 输入称为输入状态,输出称为输出状态。
6
P1
8
6
M11
12
6
9
4 M32 3
C 10
M22 7
9
5
7
7
P2
6
M12
M33
11
11 4
5
M23
3
P3
6
4
M34
33
7.2.2 资源分配问题
所谓资源分配问题是指:将数量一定的某 些资源(例如资金、机器设备、原材料、 物资、劳力等)恰当地分配给若干个使用 者,而使总的目标函数值为最优。 资源分配问题本身是线性规划或非线性 规划的一类静态问题 人为引入时间因素,将其视为按阶段进 行的多阶段决策问题,再按动态规划方 法求解。
13
5. 策略与子策略
14
6. 指标函数
15
16
17
7. 最优指标函数
18
7.1.3 动态规划的数学模型
一、动态规划问题的解题思路 动态规划问题的复杂性在于各阶段之间的
相互联系,由此使得各阶段局部最优不能保证 全局最优。
用动态规划方法解题的基本思路:将一个 n阶段的决策问题转化为依次求解n个具有递推 关系的单阶段决策问题,从而简化计算过程。
2. 状态:是动态规划中最关键的一个参数,第k阶段的 状态变量用Sk表示,它既反映前面各阶段决策的结局, 又是本阶段作出决策的出发点和依据。 Sk应包含该阶段之前决策过程的全部信息,做到从 该阶段后做出的决策同之前的状态决策相互独立。 这种性质在本书中被称为无后效性或健忘性。
11
12
4. 状态转移律
将各阶段的决策综合起来构成一个决策 序列,称为一个策略。
3
动态规划模型的分类
决策过程的演变是否确定:确定性动态 规划和随机性动态规划
状态变量的取值是否连续:连续性动态 规划和离散性动态规划
动态规划分为四大类:
连续确定性 离散确定性 连续随机性 离散随机性
4
§7.1 动态规划的基本理论
无后效性; ③ 状态变量还应具有可知性,即规定的状态变量的
值可通过直接或间接的方法测知。 注:状态变量可以是连续的或离散的,单个数据或
多个数据。
28
(2)决策变量是对过程进行控制的 手段,复杂的问题中决策变量也可以 是多维的向量,它的取值可能是离散 的,也可能是连续的,允许决策集合 相当于线性规划问题的约束条件。
前一个阶段的输出状态为后一个阶段的输入状态。
决策
dn
输入
阶段 输出
Sn Stage n Sn+1
阶段指标函数
pn=r(Sn,dn)
10
7.1.2 动态规划的基本概念
1. 阶段:是过程中需要作出决策的决策点,描述阶段 的变量称为阶段变量,常用k表示,具有N个阶段的决 策过程,其阶段变量k=1,2,…,N