最优控制6-1

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(6-6) (6-7)
其工作特点是:最大限度地提高该阶段的收益,不考 虑回收问题。
17
若阶段数N=2,则第二阶段的工作方式与N=1时相同,即 不需考虑回收。 为使两个阶段的总收益最大,对第二阶段来说,不论在 第一阶段资源如何分配,即 y0 如何选取,要求其回收 量 ay0 b(x0 y0 ) 在第二阶段发挥最大效用 也就是说,第二阶段的最大收益应是:
解 由(6-3)式可以看出,这是一个求N元函数极值点的问 题。
1)若整体最大值位于(6-4)式限定的区域内部,即所有 yi 满足不等式 0 yi xi ,且g和h存在导数,则所有可通 过解下列方程组求出:
g( yN1) g( yN1) h(xN1 yN1)
13
希望通过合理选择使N个阶段的总收益最大,即:
max RN (x0 , y0 , y1,, yN1)
( y0 , y1,, yN 1 )
max g( y0 ) h(x0 y0 ) g( y1) ( y0 , y1,, yN 1 ) h(x1 y1) g( yN1) h(xN1 yN1)
6-1 所示。
5
站与站各地间凡有连线者,表示相应两地可铺设管 道,线间数字表示两地距离;凡无连线者,表示相应两 地不能铺设管道。现需选择一条由A0 到A6 的铺管线路, 使其总距离最短。
6
解 这一问题可用两种方法求解。 第一种:穷举法 即列出所有可能的组合方案,计算每 一方案的起迄距离,从中选出其总距离最短者,即得最 短铺管线路。
(6-1)
现设以y0与x0-y0投入生产A与B后,可以部分回收,其回 收率分别是 0 a 1 与 0 b 1 ,则经第一阶段生产 后回收的资源总共是:
x1 ay0 b(x0 y0 )
(6-2)
12
如把再投入生产A与B,其分配量是y1与x1-y1,则第二阶 段的收益为
g( y1) h(x1 y1) 因此,两个阶段的总收益是:
具体说来,在第一段,线路有两种选择: ( A0 A1) 和 ( A0 B1) 。在第二段,如起点在 A1 ,线路有( A1 A2 ) ,
( A1 B2 ) , ( A1 C2 ) 三 种 选 择 ; 如 起 点 在 B1 , 线 路 有
(B1 B2 ),(B1 C2 ) ,(B1 D2 ) 三种选择。这两段合起来,
穷举法当段数较多,而各段可供选择的地点也较 多时,其计算量很大,且容易出差错。
8
第二种:动态规划法 解题步骤: 第一步,计算自终点站 A6 至倒数第二站各地的最短距离: 从 A5 到 A6 只有一条通路A5 A6 ,其距离为 4,把A5 和A6 两 地用直线连接起来,并在A5 处的圆圈内填上数字 4,用以 表示由 A5 到 A6 的最短距离; 类似地,把 B5 和 A6 两地用直线相连,并在B5 处的圆圈内 填上数字 3,表示由B5 到A6 的最短距离。
在图上用双线表示,其最短距离是18。
11
例 6-2 多阶段资源分配问题
设有数量x0的某种资源,将它投入两种产品A与B。若以 数量y0投入A,剩下的量x0-y0投入生产B,其收益分别是 g(y0)和h(x0-y0),g和h都是单调上升函数,则这一阶段的收 益为:
R1(x0, y0 ) g( y0 ) h(x0 y0 )
显然,新的状态xi+1完全取决于原来的状态xi和所采取的 决策ui。
也可以把这种转移看成是在决策ui作用下状态xi到xi+1的 一个变换,并用 xi1 Ti1(xi ,ui ) 表示。
在每个阶段,通常有若干个决策可供选择,我们用带下 标的i表示各个阶段的决策集合,以表示全部决策的 集合。 一般来说,阶段不同,其决策集合也不相同。
16
动态规划求解:
用 RˆN (x0 ) 表示N个阶段的最大总收益,其中
x0 0, N 1,2,, 则
RˆN (x0 ) max RN (x0 , y0 ,, yN1) ( y0 ,, yN 1 )
若阶段值N=1,则存在关系式
Rˆ1(x0 ) max g( y0 ) h(x0 y0 ) 0 y0 x0
(6-3)
其约束条件是:
x1 ay0 b(x0 y0 )
x2

ay1 b(x1

y1 )
0 y0 x0 0 y1 x1

(6-4)
xN1 ayN2 b(xN2 yN2 )
0 yN2 xN2
14

0 yN1 xN1
9
第二步,计算倒数第三站各地到终点站的最短距离:从A4 到 A6 有两条道路可供选择,即 A4 A5 A6 和 A4 B5 A6 ,前 一通路的距离是 A4 A5的距离 3 加上A5 处圆圈内的数字 4, 即 3+4=7;后一通路的距离是 A4 B5的距离 5 加上B5 处圆 圈内的数字 3,即 5+3=8。易见从 A4 到A6 的最短线路是 A4 A5 A6,其最短距离是 7,用直线连接A4 、A5 两地,并 在 A4处的圆圈内填上数字 7。
24
6-2 动态规划的基本原理
25
概念与定义
状态向量x:表示过程任一时刻所处的状态; 决策向量u:把过程从某一状态转变为另一状态 的动因,相当于前几章中的控制向量; 策略:各个阶段的决策所组成的总体(容许控 制); 收益或效益:由于状态在决策作用下发生了转 移,所获得的效益(性能指标)。
26
设在决策ui的作用下,发生了状态从xi到xi+1的转移。
把系统由初态x0 经x1,, xN1 转移到终态xN ,与 N 次变 换相应的总收益为
N 1
R1,N (x0 ,u0 ,u1,, uN 1) ri1(xi , ui )
i0
寻找一个决策序列uˆ0 ,uˆ1,,uˆN1 Q ,使 N 阶段决策
过程的总收益最大。
28
动态规划是求解这类多阶段决策问题的一种最优 化方法,其精髓是所谓最优性原理:
Rˆ1(ay0 b(x0 y0 ))
18
因N=2时的总收益是第一阶段收益与第二阶段收益之和, 故有: R2 (x0 , y0 , y1) g( y0 ) h(x0 y0 ) Rˆ1(ay0 b(x0 y0 )) (6-8)
为使总收益最大,还须合理选择 y0 ,使得(6-8)式达最大 值,即:
共有2 3 6 种不同线路可供选择。依此类推,可知由A0
到 A6 这六段中,总共有 2 3 2 2 2 1 48 种不同线路
7
可供选择。
计算这48种不同线路的起迄距离,从中选出总距离最短 的一条,这样找出的最短线路是
A0 A1 B2 A3 B4 B5 A6 其最短起迄距离为18。
Rˆ1(x0 ) max g( y0 ) h(x0 y0 ) 0 y0 x0
N 2 N 1
(6-10)
21
动态规划方法特点:
(1)把一个N阶段过程问题化为N个单阶段过程问题: 如例6-1本来是一个经五个中间站,即六阶段最短铺 管线路问题,我们采用逐段倒推的方法,把问题化成 了六个单阶段最短铺管线路问题,结果不但找出了从 起点站A0到终点站A6的最短铺管线路,而且还求出了 从每个中间站任一地点通向终点站A6的最短线路, 为进一步发展管网提供了有参考价值的数据。
Rˆ3 (x0 ) max g( y0 ) h(x0 y0 ) Rˆ2 (ay0 b(x0 y0 )) 0 y0 x0
这便是函数 Rˆ3 与 Rˆ2 之间的递推关系式。
依此类推,即可求得N阶段过程的基本函数方程:
RˆN (x0 ) max g( y0 ) h(x0 y0 ) RˆN1(ay0 b(x0 y0 )) 0 y0 x0
3
第1节 基本概念
4
例6-1:最短管线问题
从 A0 地铺设一条天然气管道到A6 地,其间需经五个 中间站,第一站可在 A1、 B1两地中任选其一;类似地, 第二、三、四、五站可供选择的地点分别是
A2 , B2 ,C2 , D2,A3, B3,C3,A4 , B4 ,C4,A5 , B5 ,如图
对地点B4 和C4 进行类似的分析,可知其通向终点站的 最短线路分别是 B4 B5 A6 和C4 B5 A6 ,其相应的最短距
离是 5 和 9。
10
用同样的方法一步一步往前推,即可求得如图6-2所示的 结果。
显见由A0通向的最短铺管线路是 A0 A1 B2 A3 B4 B5 A6
R2 (x0, y0, y1) g( y0 ) h(x0 y0 ) g( y1) h(x1 y1)
若上述过程共进行N个阶段,则N个阶段的总收益是: RN (x0 , y0 , y1,, yN1) g( y0 ) h(x0 y0 ) g( y1) h(x1 y1)
27
问题6-1 N阶段决策问题
设系统可经变换 xi1 Ti1(xi ,ui ) 把状态 xi 转到 xi1, 其相应的收益为 ri1(xi ,ui ),(i 0,1,, N 1) 。
现须通过一变换序列 T1(x0 ,u0 ) ,T2 (x1, u1),,TN (xN 1, uN 1) ,
Rˆ2 (ay0 b(x0 y0 )) 这时三个阶段的总收益是第一阶段的收益与后二阶段的 收益之和,即
R3 (x0 , y0 , y1, y2 ) g( y0 ) h(x0 y0 ) Rˆ2 (ay0 b(x0 y0 ))
20
而为使总收益最大,还须合理选择 y0 ,使 R3(x0, y0, y1, y2 ) 达最大值:
22
也就是说,我们不但找出了某一特定起点A0和特定阶段 数6时的答案,而且还求出了从每个中间站任一起点和任 一阶段数时的方案。
23
(2)为了求得多阶段过程的最优解,无论其过去经历 的状况如何,对于从现时到终了所包含的若干个阶段来 说,其过程必须是最优的。
如例6-2的N阶段资源分配问题,若生产已完成了i个 阶段,则对于从第i+1到第N个阶段来说,各阶段对回收 资源的分配,务使这N-i个阶段的总收益最大。
Rˆ2 (x0 ) max g( y0 ) h(x0 y0 ) Rˆ1(ay0 b(x0 y0 )) (6-9) 0 y0 x0
这样一来,我们便确定了函数 Rˆ2 与 Rˆ1 之间的递推关系。
19
若阶段数N=3,则后两个阶段终了时不再考虑回收,因而 其资源分配方式应与N=2时的两个阶段相同, 也就是说,对于后两个阶段,不论在第一阶段资源如何分 配,要求其回收量在后两个阶段产生最大的收益,即
第六章 动态规划
1
前五章中,我们借助于变分的方法,详细阐述 了最小值原理及其应用。 应用最小值原理,可以卓有成效地求解各种最 优控制问题。 介绍一种求解动态最优化问题的重要方法:
动态规划
2
动态规划是研究决策过程最优化的一种方法。 最初应用于时间离散问题,即所谓多阶段过程, 随后又推广到了时间连续问题。 连续系统的动态规划,是在经典哈密顿-雅谷 比理论的基础上发展起来的。
)
h(xN
2

yN 2 )

(a

b)h(xN
1

yN 1)

0
g( y0) h(x0 y0) (a b)h(x1 y1) 0
(6-5)
15
显然,如函数g和h比较复杂,且阶段数N比较大,则求解 方程组(6-5)并不容易。 2)若事先不能判定整体最大值位于区域内部,则还须 检验所有 yi 取边界值,即 yi 0 和 yi xi (i 0,1,, N 1) 的情形。 3)某些 yi 取边界值,而另一些 yi 取域内值时的种种 组合情形,问题就更为复杂。
相关文档
最新文档