运筹学—第七章 动态规划
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
u3(C2)=D2 u3(C3)=D1 u3(C4)=D2
f3(C4)= d3(C4,D2)+ f4(D2)=7+5=12
k=2时,
d 2 ( B1 , C1 ) + f 3 (C1 ) 5 + 5 f 2 ( B1 ) = min = min = 10 u2(B1)=C1 4 + 8 d 2 ( B1 , C 2 ) + f 3 (C 2 ) d 2 ( B2 , C1 ) + f 3 (C1 ) 7 + 5 d ( B , C ) + f (C ) 6 + 8 2 2 2 3 2 f 2 ( B2 ) = min = min = 10 u2(B2)=C3 d 2 ( B2 , C3 ) + f 3 (C3 ) 5 + 5 d 2 ( B2 , C 4 ) + f 3 (C 4 ) 3 + 12 d 2 ( B3 , C3 ) + f 3 (C3 ) 2 + 5 f 2 ( B3 ) = min = min = 7 u2(B3)=C3 2 + 12 d 2 ( B3 , C 4 ) + f 3 (C 4 )
常见的指标函数形式有两种: (1)任一后部子过程的指标函数是它所包含的各阶Leabharlann Baidu指标 的和,即: n Vk,n(sk,uk,…,sn+1)= ∑ v j ( s j , u j )
j =k
写成递推关系:
Vk,n(sk,uk,…,sn+1)= vk(sk,uk)+ Vk+1,n(sk+1,uk+1,…,sn+1)
第七章 动态规划 第一节 多阶段决策问题
例7.1 最短路问题 如图所示,要从A地到E地铺设管线,中间需要经过三个中间 站,两点之间的连线上的数字表示距离,问应该选择什么路 线,使总距离最短?
B1 2 A 3 1 B2 3 2 B3 2 C4 7 C3 1 7 5 4 C1 5 6 6 5 C2 2 D
同理,从C2,C3,C4出发,有:
d 3 (C 2 , D1 ) + f 4 ( D1 ) 6 + 3 f 3 (C 2 ) = min = min =8 3 + 5 d 3 (C 2 , D2 ) + f 4 ( D2 ) d 3 (C3 , D1 ) + f 4 ( D1 ) 2 + 3 f 3 (C3 ) = min = min =5 1 + 5 d 3 (C3 , D2 ) + f 4 ( D2 )
(2)任一后部子过程的指标函数是它所包含的各阶段指标 的积,即: n Vk,n(sk,uk,…,sn+1)= ∏ v j ( s j , u j )
j =k
写成递推关系:
Vk,n(sk,uk,…,sn+1)= vk(sk,uk)·Vk+1,n(sk+1,uk+1,…,sn+1)
指标函数的最优值记为fk(sk),它表示从第k阶段状态sk 出发,采取最优策略p*k,n(sk)到第n阶段的终止状态时 的最佳指标函数值,即: f k (sk ) =
3.决策(decision) 当各阶段的状态选定以后可以做出不同的决定(或选择)从 而确定下一个阶段的状态,这种决定(或选择)称为决策。 表述决策的变量称为决策变量,常用uk(sk)表示第k阶段当 状态为sk时的决策变量。 实际问题中,决策变量的取值往往限制在某一范围内,此范 围称为允许决策集合,常用Dk(sk)表示第k阶段从状态sk出发 的允许决策集合,uk(sk)∈Dk(sk)。 从B2出发,可以选择C1,C2,C3,C4,即允许决策集合为: D2(B2)={C1,C2,C3,C4} 当决定选择C3时,可以表示为:u2(B2)=C3
{uk ,L,un }
opt Vk ,n ( s k , u k ,L, s n+1 )
当k=1时,f1(s1)就是从初始状态s1出发到终止状态的最 优函数。 二、动态规划的基本思想与基本原理
最优性原理:“作为整个过程的最优策略具有这样 的性质:无论过去的状态和决策如何,相对于前面 的决策所形成的状态而言,余下的决策序列必然构 成最优子策略。”
3 5 D 1
2
2 B3 2
2.状态(state) 状态表示各阶段开始所处的自然状况或客观条件,它既是 某阶段过程演变的起点,又是前一阶段某种决策的结果。 描述状态的变量称为状态变量(sk) 。 状态变量sk的取值集合称为状态集合,第k阶段的状态集合 记为Sk ,
C4 7
各阶段状态集合分别为: S1={A} S3={C1,C2,C3,C4} S2={B1,B2,B3} S4={D1,D2}
B1 2 A 3 1 B2 3 2 B3 2 7
5 4 6 5
C1 5 6 C2 2 C3
2 D
1
3 E
3 5 D 1
2
C4 7
k=4时,状态变量s4可取两种状态D1,D2: f4(D1)= d4(D1,E)=3 u4(D1)=E f4(D2)= d4(D2,E)=5 u4(D2)=E k=3时,状态变量s3可取四种状态C1,C2,C3,C4, 当s3= C1时, d 3 (C1 , D1 ) + f 4 ( D1 ) 2 + 3 f 3 (C1 ) = min = 5 u3(C1)=D1 = min 5 + 5 d 3 (C1 , D2 ) + f 4 ( D2 )
4.策略(policy) 当各个阶段的决策确定以后,各阶段的决策形成一个决策序 列,称此决策序列为一个策略。 使系统达到最优效果的策略称为最优策略。 在n阶段决策过程中,从第k阶段到终止状态的过程,称为k 后部子过程(或称为k子过程),k后部子过程相应的决策序 列称为k后部子过程策略,简称子策略,记为pk,n(sk): pk,n(sk)={uk(sk),uk+1(sk+1),…,un(sn)} 当k=1时,即由第一阶段某个状态出发做出的决策序列称为 全过程策略,简称策略,记为p1,n(s1): p1,n(s1)={u1(s1),u2(s2),…,un(sn)}
2
2 D
1
3 E
3 5
例7-2 机器负荷问题 某工厂有100台机器,拟分四个周期使用,在每一个周期有 两种生产任务。据经验,把机器x1台投入第一种生产任务,则 在一个生产周期中将有1/3台机器报废;余下的机器全部投入 第二种生产任务,则有1/10的机器报废,如果干第一种生产任 务每台机器可以收益10,干第二种生产任务每台机器可以收益 7,问怎样分配机器使总收益最大? 例7-3 资源分配问题 假设有一种资源其数量为a,现将它分配给n个使用者。若分 配给第i个使用者的数量为xi(i=1,…,n),产生的相应收益 为gi(xi),问如何分配使总收益最大? 投资决策问题、生产存贮问题、采购问题、设备更新问题等 都具有多阶段决策问题的特征,都可以用动态规划方法求解。
5 4 7 B2 3 2 B3 2 C4 7 C3 1 C1 5 6 1 3 6 5 C2 2 D
2
2 D
1
B1 2 A
3 E
3 5
状态转移方程为:sk+1= uk(sk)
6.指标函数和最优指标函数 衡量所选策略优劣的数量指标称为指标函数。它定义在全 过程和所有后部子过程,常用Vk,n表示,即: Vk,n=Vk,n(sk,uk,sk+1,…,sn+1) 当k=1时,V1,n表示初始状态为s1,采用策略p1,n时的指标 函数值。 V1,n=V1,n(s1,u1,s2,…,sn+1) 动态规划数学模型的指标函数应该具有可分离性,并满足 递推关系,即: Vk,n(sk,uk,sk+1,…,sn+1)=Ψk[sk,uk,Vk+1,n(sk+1,…,sn+1)] 在阶段k状态为sk,决策为uk(sk)时得到的反映第k阶段的 数量指标vk(sk,uk)称为k阶段的指标函数。在最短路线问 题中,第k阶段指标函数vk(sk,uk)通常也用dk(sk,uk)表 示。
u1(A)=B3
按计算顺序反向追踪,得到最优决策序列{uk} u1(A)=B3,u2(B3)=C3,u3(C3)=D1, u4(D1)=E; 最优路线为:A→B3→C3→D1→E。
动态规划的基本思想: 1、 将多阶段决策问题按照空间或时间顺序划分 成相互联系的阶段,即把一个大问题分解成一族同 类型的子问题,选取恰当的状态变量和决策变量, 写出状态转移方程,定义最优指标函数,写出递推 关系式和边界条件。 2、 从边界条件开始,由后向前逐段递推寻找最 优,在每一个阶段的计算中都要用到前一阶段的最 优结果,依次进行,求得最后一个子问题的最优解 就是整个问题的最优解。 3、 在多阶段决策过程中,确定阶段k的最优决策 时,不是只考虑本阶段最优,而是要考虑本阶段及 其所有后部子过程的整体最优,也就是说,它是把 当前效益和未来效益结合起来考虑的一种方法。
x1 + x 2 + x3 ≤ c xi ≥ 0 i = 1,2,3
按问题的变量个数划分阶段,k=1,2,3 设状态变量为s1,s2,s3,s4并记s1≤c 取问题中的变量x1,x2,x3为决策变量 状态转移方程为:s3=x3 s3+x2=s2 s2+x1=s1≤c 允许决策集合为:x3=s3 0≤x2≤s2 0≤x1≤s1 阶段指标函数为:v1(x1)=x1 v2(x2)=x22 v3(x3)=x3 最优指标函数fk(sk)表示从第k阶段初始状态sk出发到第3 阶段所得到的最大值,则动态规划基本方程为: k = 3,2, ,1 f k ( s k ) = max [v k ( x k ) ⋅ f k +1 ( s k +1 )] xk ∈Dk ( sk ) f 4 (s4 ) = 1
k=1时,有:
d1 ( A, B1 ) + f 2 ( B1 ) 2 + 10 f1 ( A) = min d1 ( A, B2 ) + f 2 ( B2 ) = min 1 + 10 = 10 d ( A, B ) + f ( B ) 3 + 7 3 2 3 1
第三节 动态规划模型及求解方法 一、动态规划的数学模型 1. 动态规划的基本方程 设第k阶段处于状态sk,决策是uk(sk),状态转移方程为 sk+1=Tk(sk,uk),k阶段和k+1阶段的递推关系式可写为:
f k ( s k ) = opt [v k ( s k , u k ) ∗ f k +1 ( s k +1 )] u k ∈Dk ( s k ) f n +1 ( s n +1 ) = 0或1 k = n, n − 1, L ,1
5.状态转移方程(state transfer equation) 设第k阶段状态为sk,做出的决策为uk(sk),则第k+1阶段 的状态sk+1随之确定,他们之间的关系可以表示为: sk+1=Tk(sk,uk) 表示从第k阶段到第k+1阶段状态转移规律的方程称为状态 转移方程,它反映了系统状态转移的递推规律。
2. 建立动态规划模型的步骤 (1)划分阶段 (2)正确选择状态变量sk (3)确定决策变量uk及允许决策集合Dk(sk) (4)确定状态转移方程sk+1=Tk(sk,uk) (5)确定阶段指标函数和最优指标函数,建立动态规 划基本方程。
二、动态规划的求解方法 例7.4 用动态规划方法解下列非线性规划问题 2 max z = x1 ⋅ x 2 ⋅ x3
第二节 动态规划的基本概念和基本原理 一、动态规划的基本概念 动态规划的基本概念 1.阶段(stage) 描述阶段的变量称为阶段变量(k) C 2
B1 5 4
1
5 6 D
1
k=1,A——B; k=2,B——C; k=3,C——D; k=4,D——E。
3 E
2 A 3 1 B2 3
7
6 5
C2 2 C3
状态的选取应当满足无后效性 无后效性:系统从某个阶段往后的发 无后效性 展演变,完全由系统本阶段所处的状态及决策所决定,与 系统以前的状态及决策无关。也就是说,过去的历史只能 通过当前的状态去影响未来的发展,当前的状态是过去历 史的一个完整总结。只有具有无后效性的多阶段决策过程 只有具有无后效性的多阶段决策过程 才适合于用动态规划方法求解。 才适合于用动态规划方法求解。