第6章_动态规划

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第五步,指标函数。第k阶段的指标函数为第k年可 得的利润:
v k ( s k , x k ) 10 x k 6( s k x k ) 4 x k 6 s k
第六步,函数基本方程
v k ( sk , x k ) f k 1 ( sk 1 ) 0maxs 4 x k 6sk f k 1 ( 4 sk 3 x k ) k 1,,5 f k ( s k ) max xk xk k 5 10 f 6 ( s6 ) 0
第三部分 动态规划
第一章 动态规划的基本方法 §1 动态规划的研究对象 特征:包含有随时同变化的因素和变量, 整个过程可以分为若干个相互联系的阶段, 而且每个阶段都要做出决策。
应用: 企业管理:动态规划可以用来解决最优路径问题、 资源分配问题、生产调度问题、库存问题、装载 问题、排序问题、设备更新问题、生产过程最优 控制问题等等。
x2 阶 段 s2 0 1 2 3 4 5 0 0+0 0+4 0+6 0+11 0+12 0+12
P2(x2)+f3(s2-x2) 1 2 3 4 5 f2(s2) X2* 0 5 10 14 16 21 0 1 2 2 1,2 2
5+0 5+4 10+0 5+6 10+4 11+0 5+11 10+6 11+4 5+12 10+11 11+6
x k ( s k ) Dk ( s k )
在实际过程中,可供选择的策略有一定的范围,此 范围称为允许策略集合,用P表示,从允许策略集合 中找出达到最优效果的策略称为最优策略。 五、状态转移方程 在多阶段决策过程中,第k阶段到第(k+1)阶段 的演变规律,称为状态转移方程。当给定了第K阶段 的状态变量sk和决策变量xk时,根据状态转移方程, 第(k+1)阶段的状态Sk+1的值也随之而定。也就是 说, sk+1将依某种函数关系与(sk,xk(sk))相对应, 这种对应关系常记为:
f k ( sk ) opt vk ( sk , xk ( sk )) f k 1 ( sk 1 ) xk Dk ( sk ) f n1 ( sn1 ) 0
其中“opt”是最优化的意思,视具体的问题可能是 求“max”,也可能是求“min”。 动态规划最优化原理:“作为整个过程的最优策略 具有这样的性质:即无论过去的状态和决策如何, 对前面的决策所形成的状态而言,余下的诸决策必 须构成最优策略。” 动态规划最优化原理:“作为整个过程的最优策 略具有这样的性质:即无论过去的状态和决策如何, 对前面的决策所形成的状态而言,余下的诸决策必须 构成最优策略。” 三、动态规划的解题步骤 1.划分阶段; 2.确定状态变量及其取值范围; 3.确定决策变量及其取值范围;
11+0 11+4 11+0
x1 阶 段 s1
P1(x1)+f2(5-x1)
0
1
2
3
4
5
f1(s1)
x1 *
5
0+11 3+16 7+14 9+10 12+5 13+0
21
0,2
§2 机器负荷分配问题

例1:某港口有某种装卸设备125台,据估 计,这种设备5年后将被其他新设备所代替, 此设备如在高负荷下工作,年损坏率为1/2, 年利润为10万元;如在低负荷下工作,年 损坏率为1/5,年利润为6万元。问应如何安 排这些装卸设备的生产负荷,才能使5年内 获得最大的利润?
K=5时
f 5 ( s 5 ) max (4 x 5 6 s 5 )
0 x 5 s5
因f5是线性单调增函数,故得最优解x5*=s5,相 应的有f5(s5)=10s5
K=4时
f 4 ( s 4 ) max [4 x 4 6 s 4 f 5 ( s5 )] max (4 x 4 6 s4 10s 5 )
因f1是x1线性单调下降函数,故得最优解 x1*=0,相应的有
8 f 1 ( s1 ) 22 s1 25
解:第一步,划分阶段。每一年为一个阶段,5 年分为5个阶段,k=1,2,3,4,5。
第二步,确定状态变量:状态变量sk为第k年年 初拥有的完好设备数,且
s1 125
0 s k 125 k 2,3,4,5
第三步,确定决策变量。决策变量xk为第k阶段安排 在高负荷下工作的设备数,且
0 xk sk
多阶段决策过程及实例
在生产和科学实验中,有一类活动的过程,由 于它的特殊性,可将过程分为若干相互联系的阶段。 在它的每一个阶段都需要作出决策,从而使整个过 程达到最好的活动效果,因此,各个阶段决策的选 取不是任意确定的,它依赖于当前面临的状态,又 影响以后的发展,当各个阶段决策确定后,就组成 了一个决策系列,因而也就确定了整个过程的一条 活动路线,这种把一个问题可看作是一个前后关联 具有链状结构的多阶段过程(如图1所示)就称为 多阶段决策过程,也称序贯决策过程,这种问题就 称为多阶段决策问题。
K=3时
f 3 ( s 3 ) max [4 x 3 6 s 3 f 4 ( s 4 )] max (4 x 3 6 s 3 15s 4 )
0 x 3 s 3 0 x 3 s 3
4 3 1 max 4 x 3 6 s 3 15( s 3 x 3 ) max (18s 3 x 3 ) 0 x 3 s3 5 10 2 0 x 3 s3
K=1时
2 f 1 ( s1 ) max [4 x1 6 s1 f 2 ( s 2 )] max (4 x1 6 s1 20 s 2 ) 0 x1 s1 0 x1 s1 5 2 4 3 558 106 max 4 x1 6 s1 20 ( s1 x1 ) max ( s1 x1 ) 0 x1 s1 5 5 10 50 0 x1 s1 25
4.建立状态转移方程。 写出状态转移方法: s k 1 Tk ( s k , x k ( s k )) 的具体形式 5.确定指标函数 6.建立动态规划基本方程
四、最短路问题的标号法 具体步骤: 1.给终点标号0。 2.再标离终点最近的一段,将距离数字分别写在该点 上方的方格内。 3.在标下一段时,正要标号的某点到该段已标号的各 点的各段长,分别加上已标号点的数字而取其中最小 者,就是某点到终点的最短距离,将距离数字填入某 点上方方格内,并且直线连接起来表示某点到终点的 最短路线。 4.继续按逆推过程一直计算到起点(初始点),该点 标的数即为起点到终点的最短距离。 此解法称为逆序解法,也可用顺序解法,即从起点逐步 计算到终点。
2 D1 2 1 D2 3 D3 2 E2 6 E3 E1 5 2 6 F2 3 3
5
F1 4 G
3
C3
3
4
6 C4
8
3
wenku.baidu.com
图2
例2:机器负荷分配问题 某种机器可以在高低两种不同的负荷下进行 生产。在高负荷下进行生产时,产品的年 产量g和投入生产的机器数量u1的关系为
g g(u1 )
这时,机器的年完好率为a,即如果年初完好 机器的数量为u,到年终时完好的机器就为au, 0<a<1。在低负荷下进行生产时,产品的年 产量和投入生产的机器数量u2的关系为
则第k阶段安排在低负荷下工作的设备数为:
sk xk
第四步,状态转移方程。由于在两种负荷下工作的设 备损坏率分别为1/2和1/5,则第k+1年年初拥有的 完好设备数为:
s k 1
1 1 4 3 (1 ) x k (1 )( s k x k ) s k xk 2 5 5 10
0 x 4 s4 0 x 4 s4
4 3 max 4 x 4 6 s4 10( s4 x 4 ) max (14s 4 x 4 ) 0 x 4 s4 5 10 0 x4 s4
因f4是x4线性单调增函数,故得最优解 x4*=s4,相应的有f4(s4)=15s4
4 3 2 7 max 4 x 2 6 s 2 18( s 2 x 2 ) max ( 20 s 2 x 2 ) 0 x 2 s2 5 10 5 5 0 x 2 s2
因f2是x2线性单调下降函数,故得最优解 x2*=0,相应的有f2(s2)=20.4s2
因f3是x3线性单调下降函数,故得最优解 x3*=0,相应的有f3(s3)=18s3
K=2时
f 2 ( s 2 ) max [4 x 2 6 s 2 f 3 ( s 3 )] max (4 x 2 6 s 2 18s 3 )
0 x 2 s 2 0 x 2 s 2
第二章 动态规划的应用
§1 资源分配问题
资源分配问题,是指将供应量有限的一种或若干种资源 (如原材料、资金、机器设备、劳力、食品等),恰 当地分配给若干个使用者,而使目标函数最优。 设有某种原料,总量为M,拟用来进行n种生产活 动。若分配数量为Xi的原料用于第i种生产活动,其 收益为gi(xi),问应如何分配,才能使n种生产活 动的总收益最大?
决策
决策
决策
状态
1
状态
2
状态
状态
n
状态
图1
链状结构的多阶段过程
多阶段决策问题很多,现举例如下: 例1:最短路问题 如图2,给定一个线路网络,两点之间连线上 的数字表示两点间的距离(或费用),试求一条 由A到G的铺管线路,使总距离为最短(或总费用 最小)。
1
5
A 3
B1 3 6 8 7 B2
C1 6 8 3 C2 5
2.在多阶段决策过程中,动态规划方法是既把前 一段和未来各段分开,又把当前效益和未来效益 结合起来考虑的一种最优化方法。因此,每段决 策的选取是从全局来考虑的,与该段的最优选择 答案一般是不同的。 3.在求整个问题的最优策略时,由于初始状态是 已知的,而每段的决策都是该段状态的函数,故 最优策略所经过的各段状态便可逐次变换得到, 从而确定了最优路线。 二、动态规划的基本方程 动态规划函数基本方程的一般形式为:
h h(u2 )
这时,机器的年完好率为b,0<b<1 。 假定开始生产时完好的机器数量为s, 要求制定一个五年计划,在每年开始时,决 定如何重新分配完好的机器在两种不同的负 荷下生产的数量,使在五年内产品的总产量 达到最高?
§2 动态规划的基本概念
一、阶段和阶段变量 在多阶段决策过程中,为了表示决策 和过程的发展而引入阶段的概念,一个阶 段就是需要作出决策的子问题。通常阶段 是按照决策进行的时间或空间上的先后顺 序划分的,用阶段变量k表示。
二、状态和状态变量 状态表示某一阶段初所处的位置或状况,通常 一个阶段包含若干个状态,描述状态的变量称为状 态变量。常用sk表示第k阶段的某一状态。所有状态 变量组成的集合,称为状态变量集合。常用Sk表示 第k阶段的状态变量集合。 三、决策和决策变量 决策就是某阶段状态给定以后,从该状态演变 到下一阶段某状态的选择。描述决策的变量,称为 决策变量。常用xk(sk)表示第k阶段当状态处于sk 时的决策变量,在实际问题中,决策变量的取值往 往限制在某一范围内,此范围称为允许决策集合, 通常用Dk(sK)表示第k阶段的允许决策集合,显然 有:
s k 1 Tk ( s k , x k ( s k ))
§3 动态规划的基本方法
一、动态规划方法的基本原理 动态规划方法的基本思想: 1.动态规划方法的关键在于正确地写出基本的递推关 系式和恰当的边界条件(简言之为基本方程),要 做到这一点,必须先将问题的过程分成几个相互联 系的阶段,恰当的选取状态变量和决策变量及定义 最优值函数,从而把一个大问题化成一族同类型的 子问题,然后逐个求解,即从边界条件开始,逐段 递推寻优,在每一个子问题的求解中,均利用了它 前面的子问题的最优化结果,依次进行,最后一个 子问题所得的最优解,就是整个问题的最优解。
相关文档
最新文档