动态规划
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
=7,x3 * (C2) = C2D2
Back
f3(x3=C3)= min
C3D1+ f4(D1) C3D2+ f4(D2)
= min
3+ 3 3+ 4
=6,x3 * (C3) = C3D1
3)k=2, f2(x2)=min{v2(s2,x2) + f3(x3)}, B1C1+ f3(C1) 7+4
§1 多阶段的决策问题 §2 最优化原理与动态规划的数学模型 §3 离散确定性动态规划模型的求解 §4 离散随机性动态规划模型的求解 §5 一般数学规划模型的动态规划解法
§1 多阶段的决策问题
【例1】从A至E需经B、C、D,问如何行走,路程最短?
7 6 5 3 5
B1
C1
1
4 6
D1
3
3
A
B2
2
4 5
要点: ① 决策变量是对活动过程控制的手段; ② 决策变量取值可以是连续型的,也可以是离散型的; ③ 允许决策集合相当于可行域。
(4)策略(policy)与子策略(subpolicy):各阶段决策组成的序列 总体称为策略;从某一阶段开始到过程最终的决策序列称为子策略。 n 阶段策略可记为 {x1(s1), x2(s2) , … , xn(sn)}, 子策略可记为 {xk(sk), xk+1(sk+1) , … , xn(sn)}。 (5)状态转移律:状态参数变化的规律。从第k阶段的某一状态值sk出 发,当决策变量xk的取值确定之后,下一阶段的状态值sk+1按某种规律 T(sk , xk)确定。 第k+1阶段状态是第k阶段状态sk和变量xk的函数 sk+1 = T(sk , xk), 又称状态转移方程。
200
3
500
4
300
5
200
6
100
交货数量(件) 100
可看成6个阶段的决策:
生 产 库存
生 产
生 产
1
月
库存
2
月
库存
库存
6
月
费用
费用
费用
【例3】某公司承担一种新产品试制任务,合同要求三 个月内交出一台合格的样品,否则将负担1500元的赔 偿费。试制时投产一台成功的概率为1/3,投产一批的 准备费用为250元,每台试制费用为100元。若投产一 批后全部不合格,可再投产一批试制,但每投产一批需 要一个月的周期。问每批应该投产多少台,可使总的费 用(包括可能发生的赔偿费用)期望值最小?
逆序求解
1)k=4,由递推方程知 f4(x4)=min{v4(s4,x4) + f5(x5)}, 而 f5(x5) =0 为边界条件
∴
f4(x4=D1)=min {D1E+ f5(x5) }=3,x4* (D1) = D1E f4(x4=D2)=min{D2E+ f5(x5) }=4 ,x4 * (D2) = D2E
sk——第k阶段状态变量。
特征: ① 反映研究对象的演变特征; ② 包含到达这个状态前的足够信息,并具有无后效性; 或称决策的相互独立性; ③ 状态变量具有可知性,当决策确定后,到达的状态是 可以测知的。 描述状态所必须使用的变量数,称动态规划的维数。
(3)决策(decision):指在某阶段初从给定的状态出发,决策者在 面临的若干种不同的方案中所做出的选择。 决策变量xk(sk) ∈Dk(sk)——允许决策集合, xk(sk)取值范围。
Back
B3C1+ f3(C1) f2(x2=B3)= min B3C2+ f3(C2) B3C3+ f3(C3) = min
5+4 1+7 5+6 =8,x2 * (B3) = B3C2
4)k=1, f1(x1)=min{v1(s1,x1) + f2(x2)}, AB1+ f2(B1) f1(x1=A)= min AB2+ f2(B2) AB3+ f2(B3) = min 2+11 5+7 3+8 =11,x1 * (A) = AB3
∴
最优策略:A——B3——C2——D2——E, 最短距离:f(A)=11 Back
2-2 动态规划的基本概念
(1)阶段(stage):指一个问题需要做出决策的步数。 k——阶段变量。 (2)状态(state):某阶段初始状况。既反映前面各阶段决策的 结局,又是本阶段作出决策的出发点和依据。是动态规划中各阶 段信息的传递点和结合点。
第1月
试制
合格否? N Y STOP
第2月
试制
合格否? N Y STOP
第3月
试制
合格否? N
赔偿费
Y
STOP
多阶段决策问题的特点:
① 决策过程可划分为若干个互相联系的阶段; ② 在每一阶段分别对应着一组可以选取的决策; ③ 当每个阶段决策选定以后,活动过程也随之确定。
许多多阶段决策问题表现出明显的时序性,故体 现出“动态”的特点,所以是动态规划研究的主要对 象。某些静态问题,当采用动态规划的方法求解时, 也会使问题的处理变得简单。
f2(x2=B1)= min B1C2+ f3(C2)
B1C3+ f3(C3) B2C1+ f3(C1) f2(x2=B2)= min B2C2+ f3(C2) B2C3+ f3(C3)
= min
5+7 6+6 3+4
=11,x2 * (B1) = B1C1
= min
2+7 1+6
=7, x2 * (B2) = B2C1 , 或 x2 * (B2) = B2C3
2)k=3, f3(x3)=min{v3(s3,x3) + f4(x4)}, f3(x3=C1)= min C1D1+ f4(D1) C1D2+ f4(D2) f3(x3=C2)= min C2D1+ f4(D1) C2D2+ f4(D2) = min = min 1+ 3 4+ 4 6+ 3 3+ 4 =4,x3 * (C1) = C1D1
C2
3
E
4
B3
wenku.baidu.com
1 5
D2
3
C3
【例2】某工厂根据合同要求在未来半年中需提供货物数 量如表中所示,表中数字为月底交货数量。该厂的生产 能力为每月400件,其仓库的存货能力为3百件。已知每 百件货物的生产费用为10千元,在进行生产的月份,工 厂要支出固定费用4千元,仓库保管费用为每百件货物每 月1千元,假定开始及6月底交货后均无存货,试问每个 月应该生产多少件产品,才能既满足交货任务又使总费 用最小? 月 份 1 2
§2 最优化原理与动态规划的数学模型
2-1 动态规划的解题思路
将一个n阶段的决策问题转化为依次求解n个具有递 推关系的单阶段的决策问题。 动态规划问题的计算中较多采用逆序算法
B1
6 5
7 5
C1
1
4
6
D1
3
3
3
A
B2
2
4
5
C2
3
E
4
B3
1 5
D2
3
C3
Next Solv1
Next Solv2
Next Solv3