管理运筹学第六章动态规划

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

* x4 s4

当k=3时
2 f 3 ( s3 ) min {x3 f 4 ( s4 )} 2 2 min {x3 s4 } 2 min {x3 ( s3 x3 ) 2 } x3 s3 x3 s3 x3 s3
ຫໍສະໝຸດ Baidu s3
1 2
2
* x3
1 s3 2
动态规划求解连续问题
f1 ( s1 12) min {x12 f 2 ( s2 )}
min {x12 1 3 s2 }
x1 12
x1 12
2
2 min {x12 1 ( 12 x ) 1 } 3 x1 12
36
x1 3
*
6.3 应用举例

例6.5 （不确定价格采购问题）某厂必须在5周内采购一批原料，其浮动价格和概率已测得，试求在哪一周以什么价格购入，使采购价格的数学期望值最小，并求出期望值。周浮动价格及概率如下表：
聘请几名专家并如何分配，可使得所创造的总利润最大？
盈利商店专家数 0 1 2 3 4 5 6
甲 0 1 4 8 7 7 6
乙 0 3 4 6 7 8 9
丙 0 2 4 5 6 5 4
资源分配问题

解：阶段数n=3，3个阶段分别决定甲、乙、丙三个商店的专家数；状态变量sk：第k阶段初还剩余的专家数；决策变量xk：分配给第k个商店的专家数；可行决策集合：Xk={xk|0 ≤ xk ≤ sk} 状态转移方程：sk+1=sk-xk 阶段效益函数vk(xk)：给第k个商店xk个专家能够获得的盈利；最优过程效益函数fk(sk):第k阶段初还剩余sk个专家能够获得的总利润。动态规划基本方程为：
不确定价格采购问题
k = 3：y3E = 0.3 f4(500) + 0.3 f4(600) + 0.4 f4(700) = 574 f3 (y3 )=min {y3, y3E} = 500， y3 = 500(采购) = 574， y3 = 600 (等待) = 574， y3 = 700 (等待) k = 2：y2E = 0.3 f3(500) + 0.3 f3(600) + 0.4 f3(700) = 551.8 f2 (y2 )=min {y2, y2E} = 500， y2 = 500(采购) = 551.8， y2 = 600 (等待) = 551.8， y2 = 700 (等待) k = 1：y1E = 0.3 f2(500) + 0.3 f2(600) + 0.4 f2(700) = 536.3 f1 (y1 )=min {y1, y1E} = 500， y1 = 500(采购) = 536.3， y1 = 600 (等待) = 536.3， y1 = 700 (等待)
如果一个策略是最优策略，则其子策略也一定是最优策略；
如果两段子策略都是最优策略，则连起来是否是最优策略呢？
动态规划求解问题的基本思路

首先划分阶段n 定义状态变量sk、写出各阶段的可选状态集合Sk；定义决策变量uk 、写出各阶段各状态下的可选决策集合Dk(sk)；写出状态转移方程sk+1=Tk(sk,uk)。定义阶段效益函数和效益函数，建立基本方程按照基本方程递推地寻求最优策略。
动态规划求解连续问题

例6.4 用动态规划方法求解
min z x1 x2 x3 x4 x1 x2 x3 x4 12 s.t. xi 0

2
2
2
2
解：首先将问题划分为4个阶段，第i个阶段决策变量xi的取值;

状态变量s4= x4 , s3 = x3+x4, s2= x2+x3+x4, s1= x1+x2+x3+x4=12；
f1 ( s1 ) V1,n ( s1 , p *1,n ) 全过程的最优效益函数

解：当k=5时，f5(E)=0。当k=4时
f 4 ( D1 ) 7 0 7
u* ( D1 ) E 4
f 4 ( D2 ) 6 0 6
f 4 ( D3 ) 8 0 8
无后效性：如果某阶段的状态给定，这阶段以后过程的发展不受这阶段以前各阶段状态的影响
3、决策某阶段状态确定后，为确定下一阶段的状态，所作出的决定（选择）。决策变量：u k(s k) 表示第k阶段状态为s k时的决策允许决策集合：D k ( s k )
4、策略：由决策组成的序列称为策略。 p 1 , n ={ u 1(s 1) , u 2(s 2) , … , u n(s n) } 允许策略集合：P1 , n 最优策略： p* 1 , n 子策略： pkn (sk ) {uk (sk ),uk 1 (sk 1 ),...,un (sn )} 5、状态转移方程 s k+1 = T k ( s k , u k ) 6、效益(指标)函数: Vkn(sk,pkn(sk)) 阶段效益函数：wk(sk,uk (sk)) * 最优效益函数： f k (sk ) Vkn (sk , pkn ) optVkn (sk , pkn ) pkn 最优策略:pkn*
决策变量xk；可选决策集合D4(s4) =｛s4｝; Dk(sk) =｛xk| xk <= sk｝, 当k < 4 时; 状态转移方程sk+1= sk - xk；

动态规划求解连续问题

开始运用动态规划方程求解当k=4时
2 f 4 ( s4 ) min {x4 } s4 x4 s 4 2

当k=2时
S2 {0,1,2,3,4,5,6}
x2 s2
资源分配问题

当k=1时
S1 {4,5,6}
x1 s1
资源分配问题

当k=2时
S2 {0,1,2,3,4,5,6}
x2 s2
资源分配问题

当k=3时
S3 {0,1,2,3,4,5,6}
不确定价格采购问题

即最优采购策略为：第1，2，3周若价格为500就购入，否则等待；第4周若价格为500，600时应购入，否则等待；第5周无论什么价格均要购入。
资源分配问题

例6.6 某公司拟聘请4-6名商业专家，分配给其甲、乙、丙三个商店任用。各商店分的不同数量的专家后，预测可创造的利润如表所示，问该公司
u* ( D2 ) E 4
u* ( D3 ) E 4

当k=3时
f 3 (C1 ) 9 f 4 ( D1 ) 9 7 16
8 f 4 ( D1 ) 8 7 f 3 (C2 ) min min 14 8 6 8 f 4 ( D2 ) 8 f 4 ( D2 ) 8 6 f 3 (C3 ) min min 14 8 8 8 f 4 ( D3 ) f 3 (C4 ) 9 f 4 ( D3 ) 9 8 17
* u3 (C1 ) D1
* u3 (C2 ) D2
* u3 (C3 ) D2 * u3 (C4 ) D3

当k=2时
7 f 3 (C1 ) 7 16 * u f 2 ( B1 ) min min 21 2 ( B1 ) C2 7 14 7 f 3 (C2 ) 6 f 3 (C2 ) 6 14 * u f 2 ( B2 ) min min 20 2 ( B2 ) C2 or C3 6 14 6 f 3 (C3 ) 8 f 3 (C3 ) 8 14 f 2 ( B3 ) min min 22 8 17 8 f 3 (C4 )
第六章动态规划
广东工业大学管理学院
第六章动态规划
6.1 动态规划的基本概念
6.2 最优化原理 6.3 经济管理问题举例
多阶段决策过程
动态规划的分类：
离散确定型
连续确定型
状态1 状态2
离散随机型
连续随机型
状态3 状态n
决策1
决策2
……
决策n
动态规划的基本概念
例 6.1
动态规划的基本概念
1、阶段，阶段数阶段变量：k; 阶段数记作n。 2、状态每个阶段开始时所处的自然状态或客观条件状态变量：s k 状态集合：S k

一个过程的最优策略具有这样的性质, 即无论其初始状态与初始决策如何, 对于先前决策形成的状态而言, 其以后的所有决策应构成最优策略.
基本方程
动态规划的基本方程（逆序法）：
f k ( sk ) min{ wk ( sk , uk ) f k 1 ( sk 1 )} f5 (s 5 ) 0
f k ( sk)表示从第k阶段状态sk到终点sn+1的最优效益函数动态规划的基本方程（顺序法）：
f k 1 ( sk 1 ) min{ wk ( sk , uk ) f k ( sk )}, uk ( sk ) sk 1 f1 ( s1) 0
顺序解法中fk(sk)表示从第一阶段到第k阶段的最优效益函数值，且第k阶段的状态由第k+1阶段的状态与决策决定。
周浮动价格 500 概率 0.3
600 0.3
700 0.4
不确定价格采购问题
阶段：k = 1, 2, 3, 4, 5表示各周状态： yk 代表第k周的实际价格决策变量：xk =1代表第k周决定采购 xk =0代表第k周决定等待 ykE ：第k周决定等待，对应最优子策略采购价格的期望值最优指标函数： fk (yk )=min {yk, ykE} ykE = E [fk+1(yk+1 )] = 0.3 fk+1(500) + 0.3 fk+1(600) + 0.4 fk+1(700) fk (yk )=yk 时 xk = 1，代表以价格yk采购； fk (yk )=ykE 时 xk = 0，代表等待。
不确定价格采购问题

最优化原理逆序法求解
k = 5：对于最后一周，如果所需的原料尚未买入，则无论市场价格如何都必须采购，因此有： f5(500) = 500， f5(600) = 600， f5(700) = 700 k = 4： y4E = 0.3 f5(500) + 0.3 f5(600) + 0.4 f5(700) = 610 f4 (y4 )=min {y4, y4E} = 500， y4 = 500(采购) = 600， y4 = 600 (采购) = 610， y4 = 700 (等待) 同理可求得:
* u2 ( B3 ) C3

当k=1时
5 f 2 ( B1 ) 5 21 f1 ( A) min 7 f 2 ( B2 ) min 7 20 26 5 f ( B ) 5 22 2 3
* u1 ( A) B1
所以最优策略为：
u1 *( A) B1 , u2 *( B1 ) C2 , u3 *(C2 ) D2 , u4 *( D2 ) E
最短路长为26 。
标号法求解最短路问题
16 21 14 7 6 14 22 16
所以最短路为A—B1—C2—D2—E，最短路长为26。
26
20
0
8
最优化原理

当k=2时
2 f 2 ( s2 ) min {x2 f 3 ( s3 )}
2 2 min {x2 1 s 2 3} x2 s 2 2 2 min {x2 1 ( s x ) 2 2 } 2 x2 s 2
x2 s 2
s2
1 3

2
x2 * 1 3 s2
当k=1时
* f 4 ( s4 ) 0 f * ( s ) max {v ( x ) f * ( s )}, k 3,2,1 k k k k 1 k 1 0 xk s k k

资源分配问题

当k=3时
S3 {0,1,2,3,4,5,6}
x3 s3
资源分配问题

管理运筹学 第六章 动态规划

管理运筹学第六章动态规划