管理运筹学 第六章 动态规划
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
* x4 s4
当k=3时
2 f 3 ( s3 ) min {x3 f 4 ( s4 )} 2 2 min {x3 s4 } 2 min {x3 ( s3 x3 ) 2 } x3 s3 x3 s3 x3 s3
ຫໍສະໝຸດ Baidu s3
1 2
2
* x3
1 s3 2
动态规划求解连续问题
f1 ( s1 12) min {x12 f 2 ( s2 )}
min {x12 1 3 s2 }
x1 12
x1 12
2
2 min {x12 1 ( 12 x ) 1 } 3 x1 12
36
x1 3
*
6.3 应用举例
例6.5 (不确定价格采购问题)某厂必须在5周内采购一批原料,其浮动 价格和概率已测得,试求在哪一周以什么价格购入,使采购价格的数学 期望值最小,并求出期望值。周浮动价格及概率如下表:
聘请几名专家并如何分配,可使得所创造的总利润最大?
盈利 商店 专家数 0 1 2 3 4 5 6
甲 0 1 4 8 7 7 6
乙 0 3 4 6 7 8 9
丙 0 2 4 5 6 5 4
资源分配问题
解:阶段数n=3,3个阶段分别决定甲、乙、丙三个商店的专家数; 状态变量sk:第k阶段初还剩余的专家数; 决策变量xk:分配给第k个商店的专家数; 可行决策集合:Xk={xk|0 ≤ xk ≤ sk} 状态转移方程:sk+1=sk-xk 阶段效益函数vk(xk):给第k个商店xk个专家能够获得的盈利; 最优过程效益函数fk(sk):第k阶段初还剩余sk个专家能够获得 的总利润。 动态规划基本方程为:
不确定价格采购问题
k = 3:y3E = 0.3 f4(500) + 0.3 f4(600) + 0.4 f4(700) = 574 f3 (y3 )=min {y3, y3E} = 500, y3 = 500(采购) = 574, y3 = 600 (等待) = 574, y3 = 700 (等待) k = 2:y2E = 0.3 f3(500) + 0.3 f3(600) + 0.4 f3(700) = 551.8 f2 (y2 )=min {y2, y2E} = 500, y2 = 500(采购) = 551.8, y2 = 600 (等待) = 551.8, y2 = 700 (等待) k = 1:y1E = 0.3 f2(500) + 0.3 f2(600) + 0.4 f2(700) = 536.3 f1 (y1 )=min {y1, y1E} = 500, y1 = 500(采购) = 536.3, y1 = 600 (等待) = 536.3, y1 = 700 (等待)
如果一个策略是最优策略,则其子策略也一定是最优策略;
如果两段子策略都是最优策略,则连起来是否是最优策略呢?
动态规划求解问题的基本思路
首先划分阶段n 定义状态变量sk、写出各阶段的可选状态集合Sk; 定义决策变量uk 、写出各阶段各状态下的可选决策集 合Dk(sk); 写出状态转移方程sk+1=Tk(sk,uk)。 定义阶段效益函数和效益函数, 建立基本方程 按照基本方程递推地寻求最优策略。
动态规划求解连续问题
例6.4 用动态规划方法求解
min z x1 x2 x3 x4 x1 x2 x3 x4 12 s.t. xi 0
2
2
2
2
解:首先将问题划分为4个阶段,第i个阶段决策变量xi的取值;
状态变量s4= x4 , s3 = x3+x4, s2= x2+x3+x4, s1= x1+x2+x3+x4=12;
f1 ( s1 ) V1,n ( s1 , p *1,n ) 全过程的最优效益函数
解: 当k=5时,f5(E)=0。 当k=4时
f 4 ( D1 ) 7 0 7
u* ( D1 ) E 4
f 4 ( D2 ) 6 0 6
f 4 ( D3 ) 8 0 8
无后效性:如果某阶段的状态给定,这阶段以后过程的发展不受 这阶段以前各阶段状态的影响
3、决策 某阶段状态确定后,为确定下一阶段的状态,所作出 的决定(选择)。 决策变量:u k(s k) 表示第k阶段状态为s k时的决策 允许决策集合:D k ( s k )
4、策略: 由决策组成的序列称为策略。 p 1 , n ={ u 1(s 1) , u 2(s 2) , … , u n(s n) } 允许策略集合:P1 , n 最优策略: p* 1 , n 子策略: pkn (sk ) {uk (sk ),uk 1 (sk 1 ),...,un (sn )} 5、状态转移方程 s k+1 = T k ( s k , u k ) 6、效益(指标)函数: Vkn(sk,pkn(sk)) 阶段效益函数:wk(sk,uk (sk)) * 最优效益函数: f k (sk ) Vkn (sk , pkn ) optVkn (sk , pkn ) pkn 最优策略:pkn*
决策变量xk; 可选决策集合D4(s4) ={s4}; Dk(sk) ={xk| xk <= sk}, 当k < 4 时; 状态转移方程sk+1= sk - xk;
动态规划求解连续问题
开始运用动态规划方程求解 当k=4时
2 f 4 ( s4 ) min {x4 } s4 x4 s 4 2
当k=2时
S2 {0,1,2,3,4,5,6}
x2 s2
资源分配问题
当k=1时
S1 {4,5,6}
x1 s1
资源分配问题
当k=2时
S2 {0,1,2,3,4,5,6}
x2 s2
资源分配问题
当k=3时
S3 {0,1,2,3,4,5,6}
不确定价格采购问题
即最优采购策略为:第1,2,3周若价格为500就购入,否则 等待;第4周若价格为500,600时应购入,否则等待;第5周 无论什么价格均要购入。
资源分配问题
例6.6 某公司拟聘请4-6名商业专家,分配给其甲、乙、丙三个商店任用。 各商店分的不同数量的专家后,预测可创造的利润如表所示,问该公司
u* ( D2 ) E 4
u* ( D3 ) E 4
当k=3时
f 3 (C1 ) 9 f 4 ( D1 ) 9 7 16
8 f 4 ( D1 ) 8 7 f 3 (C2 ) min min 14 8 6 8 f 4 ( D2 ) 8 f 4 ( D2 ) 8 6 f 3 (C3 ) min min 14 8 8 8 f 4 ( D3 ) f 3 (C4 ) 9 f 4 ( D3 ) 9 8 17
* u3 (C1 ) D1
* u3 (C2 ) D2
* u3 (C3 ) D2 * u3 (C4 ) D3
当k=2时
7 f 3 (C1 ) 7 16 * u f 2 ( B1 ) min min 21 2 ( B1 ) C2 7 14 7 f 3 (C2 ) 6 f 3 (C2 ) 6 14 * u f 2 ( B2 ) min min 20 2 ( B2 ) C2 or C3 6 14 6 f 3 (C3 ) 8 f 3 (C3 ) 8 14 f 2 ( B3 ) min min 22 8 17 8 f 3 (C4 )
第六章 动态规划
广东工业大学管理学院
第六章 动态规划
6.1 动态规划的基本概念
6.2 最优化原理 6.3 经济管理问题举例
多阶段决策过程
动态规划的分类:
离散确定型
连续确定型
状态1 状态2
离散随机型
连续随机型
状态3 状态n
决策1
决策2
……
决策n
动态规划的基本概念
例 6.1
动态规划的基本概念
1、阶段 ,阶段数 阶段变量:k; 阶段数记作n。 2、状态 每个阶段开始时所处的自然状态或客观条件 状态变量:s k 状态集合:S k
一个过程的最优策略具有这样的性质, 即无论 其初始状态与初始决策如何, 对于先前决策形 成的状态而言, 其以后的所有决策应构成最优 策略.
基本方程
动态规划的基本方程(逆序法):
f k ( sk ) min{ wk ( sk , uk ) f k 1 ( sk 1 )} f5 (s 5 ) 0
f k ( sk)表示从第k阶段状态sk到终点sn+1的最优效益函数 动态规划的基本方程(顺序法):
f k 1 ( sk 1 ) min{ wk ( sk , uk ) f k ( sk )}, uk ( sk ) sk 1 f1 ( s1) 0
顺序解法中fk(sk)表示从第一阶段到第k阶段的最优效益函数值,且第k阶段的 状态由第k+1阶段的状态与决策决定。
周浮动价格 500 概率 0.3
600 0.3
700 0.4
不确定价格采购问题
阶段:k = 1, 2, 3, 4, 5表示各周 状态: yk 代表第k周的实际价格 决策变量:xk =1代表第k周决定采购 xk =0代表第k周决定等待 ykE :第k周决定等待,对应最优子策略采购价格的期望值 最优指标函数: fk (yk )=min {yk, ykE} ykE = E [fk+1(yk+1 )] = 0.3 fk+1(500) + 0.3 fk+1(600) + 0.4 fk+1(700) fk (yk )=yk 时 xk = 1,代表以价格yk采购; fk (yk )=ykE 时 xk = 0,代表等待。
不确定价格采购问题
最优化原理逆序法求解
k = 5: 对于最后一周,如果所需的原料尚未买入,则无论市场价格 如何都必须采购,因此有: f5(500) = 500, f5(600) = 600, f5(700) = 700 k = 4: y4E = 0.3 f5(500) + 0.3 f5(600) + 0.4 f5(700) = 610 f4 (y4 )=min {y4, y4E} = 500, y4 = 500(采购) = 600, y4 = 600 (采购) = 610, y4 = 700 (等待) 同理可求得:
* u2 ( B3 ) C3
当k=1时
5 f 2 ( B1 ) 5 21 f1 ( A) min 7 f 2 ( B2 ) min 7 20 26 5 f ( B ) 5 22 2 3
* u1 ( A) B1
所以最优策略为:
u1 *( A) B1 , u2 *( B1 ) C2 , u3 *(C2 ) D2 , u4 *( D2 ) E
最短路长为26 。
标号法求解最短路问题
16 21 14 7 6 14 22 16
所以最短路为A—B1—C2—D2—E,最短路长为26。
26
20
0
8
最优化原理
当k=2时
2 f 2 ( s2 ) min {x2 f 3 ( s3 )}
2 2 min {x2 1 s 2 3} x2 s 2 2 2 min {x2 1 ( s x ) 2 2 } 2 x2 s 2
x2 s 2
s2
1 3
2
x2 * 1 3 s2
当k=1时
* f 4 ( s4 ) 0 f * ( s ) max {v ( x ) f * ( s )}, k 3,2,1 k k k k 1 k 1 0 xk s k k
资源分配问题
当k=3时
S3 {0,1,2,3,4,5,6}
x3 s3
资源分配问题