最优控制-第七章-动态规划法

合集下载

华中科技大学现代控制理论--动态规划与离散系统最优控制(可编辑)

华中科技大学现代控制理论--动态规划与离散系统最优控制(可编辑)

华中科技大学现代控制理论--动态规划与离散系统最优控制Ch.7 最优控制原理目录 1/1 目录 7.1 最优控制概述 7.2 变分法 7.3 变分法在最优控制中的应用 7.4 极大值原理7.5 线性二次型最优控制 7.6 动态规划与离散系统最优控制 7.7 Matlab问题本章小结动态规划与离散系统最优控制 1/3 7.6 动态规划与离散系统最优控制前面讨论了连续系统最优控制问题的基于经典变分法和庞特里亚金的极大值原理的两种求解方法。

所谓连续系统,即系统方程是用线性或非线性微分方程描述的动态系统。

该类系统的控制问题是与传统的控制系统和控制元件的模拟式实现相适应的,如模拟式电子运算放大器件、模拟式自动化运算仪表、模拟式液压放大元件等。

随着计算机技术的发展及计算机控制技术的日益深入,离散系统的最优控制问题也必然成为最优控制中需深入探讨的控制问题,而且成为现代控制技术更为关注的问题。

动态规划与离散系统最优控制 2/3 离散系统的控制问题为人们所重视的原因有二。

1 有些连续系统的控制问题在应用计算机控制技术、数字控制技术时,通过采样后成为离散化系统, 如许多现代工业控制领域的实际计算机控制问题。

2 有些实际控制问题本身即为离散系统, 如某些经济计划系统、人口系统的时间坐标只能以小时、天或月等标记; 再如机床加工中心的时间坐标是以一个事件如零件加工活动的发生或结束为标志的。

动态规划与离散系统最优控制 3/3 本节将介绍解决离散系统最优控制的强有力工具--贝尔曼动态规划,以及线性离散系统的二次最优控制问题。

内容为最优性原理与离散系统的动态规划法线性离散系统的二次型最优控制最优性原理与离散系统的动态规划法 1/3 7.6.1 最优性原理与离散系统的动态规划法基于对多阶段决策过程的研究,贝尔曼在20世纪50年代首先提出了求解离散多阶段决策优化问题的动态规划法。

如今,这种决策优化方法在许多领域得到应用和发展,如在生产计划、资源配置、信息处理、模式识别等方面都有成功的应用。

动态规划(完整)

动态规划(完整)
第七章 动态规划
主要内容:
§7.1多阶段决策问题 §7.2 动态规划的基本概念和基本原理
§7.3 动态规划应用举例
例 求解最短路问题
A1 2 Q 4 3 A3 A2 6 3 7 4 B1 1 4 2 4 4 1 5 6 B2 3 B3 3 3 C2 C1 3 4 T




分阶段的最短路径
• • • • • • • Ⅳ : C1—T Ⅲ --Ⅳ : B1—C1—T Ⅱ--Ⅲ--Ⅳ :A2—B1—C1—T Ⅰ--Ⅱ--Ⅲ --Ⅳ: Q—A2—B1—C1—T Q--A3—B1—C1—T Q--A3—B2—C2—T 3 4 7
决策为 xk 时的指标,则它就是第 k 段指标函
数,简记为vk 。 (2)过程指标函数(也称目标函数) 用f(sk , xk)表示第k子过程的指标函数。表
示处于第 k 段 sk 状态且所作决策为xk时,
从 sk 点到终点的距离。由此可见, f(sk , xk)
不仅跟当前状态 sk 有关,
还跟该子过程策略 pk(sk) 有关,严格说来,应
(6) 指标函数
用来衡量策略或子策略或决策的效果的 某种数量指标,就称为指标函数。它是定义 在全过程或各子过程或各阶段上的确定数量 函数。对不同问题,指标函数可以是诸如费 用、成本、产值、利润、产量、耗量、距离、 时间、效用,等等。
(1)阶段指标函数(也称阶段效应)
用vk(sk , xk)表示第 k 段处于状态 sk且所作
资规划, 排序问题和生产过程的最优控制
等问题;
§7.2 动态规划的基本概念和基本思想
一、基本概念
使用动态规划方法求解决策问题首先要将 问题改造成符合动态规划求解要求的形式, 要涉及以下概念: (1)阶段 (3)决策与策略 (2)状态 (4)状态转移方程

动态规划(完整)

动态规划(完整)

(3) 决策、决策变量
所谓决策就是确定系统过程发展的方案,
决策的实质是关于状态的选择,是决策者从
给定阶段状态出发对下一阶段状态作出的选
择。
用以描述决策变化的量称之决策变量, 和状态变量一样,决策变量可以用一个数, 一组数或一向量来描述.也可以是状态变量
的函数,记以 xk xk (sk ) ,表示于 k 阶段状
阶段变量描述当前所处的阶段位置,一 般用下标 k 表示;
(2) 确定状态
每阶段有若干状态(state), 表示某一阶段决策 面临的条件或所处位置及运动特征的量,称为 状态。反映状态变化的量叫作状态变量。 k 阶段的状态特征可用状态变量 sk 描述;
每一阶段的全部状态构成该阶段的状态集合Sk ,并有skSk。每个阶段的状态可分为初始状 态和终止状态,或称输入状态和输出状态, 阶段的初始状态记作sk ,终止状态记为sk+1 ,也是下个阶段的初始状态。
状态转移方程在大多数情况下可以由数学公 式表达, 如: sk+1 = sk + xk;
(6) 指标函数
用来衡量策略或子策略或决策的效果的 某种数量指标,就称为指标函数。它是定义 在全过程或各子过程或各阶段上的确定数量 函数。对不同问题,指标函数可以是诸如费 用、成本、产值、利润、产量、耗量、距离、 时间、效用,等等。
• 2、在全过程最短路径中,将会出现阶段的最优路
径;-----递推性
• 3、前面的终点确定,后面的路径也就确定了,且 与前面的路径(如何找到的这个终点)无关;----
-无后效性
• 3、逐段地求解最优路径,势必会找到一个全过程
最优路径。-----动态规划
§7.1多阶段决策问题
• 动态规划是解决多阶段最优决策的方法, 由美国数学家贝尔曼(R. Bellman) 于 1951年首先提出;

动态规划原理与最优控制

动态规划原理与最优控制

J *[x(2)] min {x2 (2) u2 (2) J *[x(3)]} u(2) min {x2 (2) u2 (2) [x(2) u(2)]2} u(2)
上述最优化问题的解为
u *(2) 1 x(2) 2
最优目标函数为
J *[x(2)] x2 (2) [ 1 x(2)]2 [x(2) 1 x(2)]2 3 x2 (2)

min L[x(k),u(k),k] J *[x(k 1),k 1] u(k)
J *[x(N), N] min {L[x(N),u(N), N]} u(k) 23
例1
设离散系统的状态方程为
x(k 1) x(k) u(k) k 0,1,, N 1
已知 x(0) x0
5
2
5
5
27
K=0时
J *[x(0)] min {x2 (0) u2 (0) J *[x(1)]} u(0)
min
{x2 (0) u2 (0) 8 [x(0) u(0)]2}
u(0)
5
求解可得
u *(0) 8 x(0) 13
最优目标函数为
J *[x(0)] x2 (0) [ 8 x(0)]2 8 [x(0) 8 x(0)]2 21 x2 (0)
使目标泛函
N 1
J L[x(k), u(k), k] k 0
取极小值
17
动态规划的目的
使 J 最小
即 min J
将以 x( j)为初态的 N-j(=k) 级最优决策
N
J *[x(k), k)] min{ L[x( j), u( j), j]} jk

动态最优化控制

动态最优化控制

连续时间的最优控制
• 5、横截条件 • 所谓横截条件,就是可以把状态变量的最优路径 与其他允许路径区别开来的条件。类似于微分方 程中的初始条件,横截条件确定了状态变量的具 体路径,即决定了状态变量和控制变量的最优轨 线(optimal trajectory)。 • 最简单的横截条件是固定始点和固定终点条件, 即: x(t0)=x0,x(T)=xT 许多经济问题都有一个给定的出发点x0,当其终 点值xT本身就是优化问题的一部分。
连续时间的最优控制
• 11、庞特里雅金(Pontryagin)最大值原理 • 由上述一阶条件和状态变量的运动方程,还可导出控 制变量的运动方程。一阶条件方程对时间求导,得: fuuu'+fuxx'+λguuu'+λguxx'+λׂgu+fut+λgut=0
将x'=g(x,u,t)代入,并解出λׂ,得: λׂ=-[(fuu+λguu)ċ+(fux+λgux)g+(fut+λgut)]/gu
连续时间的最优控制
• 1、跨期效用函数 • 如此设定的跨期效用函数具有可加性 (additivity)或称可分离性(separability)的性 质。 • 可分离性的条件为: Mij/ck=0 其中Mij为不同时期消费的边际替代率 (marginal rate of substitution between consumption in period i and j),即: Mij=Ui(.)/Uj(.)=(U/ci)/(U/cj)
连续时间的最优控制
12、边界解 如果控制域是一个闭区间 au(t)b,则汉密尔顿函数 H的最大值可能出现在控制 域的一个内部点(曲线1), 也可能出现在边界点如u=a 或u=b处(曲线2和3)。对 于边界点,一阶条件 H/u=0将不再适用。此时, 最大值原理可以表述为: Maxu H(x,u,t,λ) x'=Hλ=g(x,u,t) λׂ=-Hx=-(fx+λgx) a 这时,需要对边界点进行考察。

最优控制问题的时间规划算法

最优控制问题的时间规划算法

最优控制问题的时间规划算法最优控制问题是研究如何在给定的约束条件下,使得系统状态达到最佳状态的一种数学模型。

时间规划算法是用于解决最优控制问题的一种算法。

本文将探讨最优控制问题的时间规划算法及其在实际问题中的应用。

一、问题描述最优控制问题是在给定的系统状态和约束条件下,寻找一种控制策略,使得系统状态达到最佳状态,同时满足约束条件。

具体来说,我们需要确定系统的控制输入函数,使系统从初始状态汇总经过一段时间达到最佳状态或者达到一个特定的目标。

二、时间规划算法时间规划算法是解决最优控制问题的一种常用方法。

它通过对时间的划分,将最优控制问题转化为一系列子问题的求解。

常用的时间规划算法包括动态规划、贝尔曼方程、最优性原理等。

1. 动态规划动态规划是一种通过将问题分解为子问题的方式来求解最优解的方法。

在最优控制问题中,动态规划可以表示为一个递归的方程,通过逐步向前推进,求解问题的最优解。

动态规划算法的基本思想是将问题划分为相互重叠的子问题,并使用一个状态函数来存储这些子问题的解,从而减少计算量,提高求解效率。

2. 贝尔曼方程贝尔曼方程是最优控制问题中的基本方程之一,它描述了系统在给定控制输入下的状态转移规律。

贝尔曼方程可以用递归的方式表示为:V(x) = min_u { C(x, u) + ∫ [ V(f(x, u, t))·P(dt | x, u) ] }其中,V(x)表示系统在状态x下的最优价值函数,C(x, u)表示给定控制输入u情况下从状态x到达最优状态的成本函数,f(x, u, t)表示系统在状态x下,在时间间隔[t, t+dt]内的状态转移方程,P(dt | x, u)表示在给定状态和控制输入下,时间间隔 [t, t+dt]内的概率密度函数。

3. 最优性原理最优性原理是最优控制问题中的重要原理之一,它可以将一个复杂的最优控制问题转化为一个较简单的问题。

最优性原理的基本思想是,如果一个控制策略是最优的,那么在给定初始状态和约束条件下,该策略的部分路径也是最优的。

动态规划(完整)ppt课件

动态规划(完整)ppt课件

3
• Ⅲ --Ⅳ :
B1—C1—T
4
• Ⅱ--Ⅲ--Ⅳ :A2—B1—C1—T
7
• Ⅰ--Ⅱ--Ⅲ --Ⅳ:

Q—A2—B1—C1—T
11

Q--A3—B1—C1—T
11

Q--A3—B2—C2—T
11
最新版整理ppt
3
最短路径
11
4
7
A1
4
2
6
11
47
3 2
Q
A2
4
B1
1
4 76
3
C1
3
B2 3
最新版整理ppt
16
(4)策略和允许策略集合
策略(Policy)也叫决策序列.策略有全过程 策略和 k 部子策略之分,全过程策略是指具 有n 个阶段的全部过程,由依次进行的 n 个 阶段决策构成的决策序列,简称策略,表示
为 p1,n{x1,x2, ,xn}。从 k 阶段到第 n 阶段,
依次进行的阶段决策构成的决策序列称为 k
新分支的创立。
最新版整理ppt
6
• 动态规划将复杂的多阶段决策问题分解为 一系列简单的、离散的单阶段决策问题, 采用顺序求解方法, 通过解一系列小问题 达到求解整个问题目的;
• 动态规划的各个决策阶段不但要考虑本阶 段的决策目标, 还要兼顾整个决策过程的 整体目标, 从而实现整体最优决策.
最新版整理ppt
第七章 动态规划
主要内容:
§7.1多阶段决策问题 §7.2 动态规划的基本概念和基本原理 §7.3 动态规划应用举例
最新版整理ppt
1
例 求解最短路问题
2
Q
4

控制系统最优控制法

控制系统最优控制法

控制系统最优控制法控制系统是现代工程领域中的一个关键领域,它涉及到对物理或工程系统的管理和调节。

控制系统的目标是通过在系统中引入控制信号,以使系统在给定的条件下达到最佳性能。

在控制系统中,最优控制法起着重要的作用。

本文将介绍控制系统最优控制法的概念、应用和实现方式。

一、最优控制法的概念最优控制法是指在给定的约束条件下,通过优化目标函数,确定最优控制策略的方法。

最优控制法可以帮助工程师在设计控制系统时做出最佳选择,以达到系统稳定性、鲁棒性和性能的最优化。

二、最优控制法的应用领域最优控制法广泛应用于很多领域,例如机械控制系统、电力系统、化工过程、交通运输等。

在机械控制系统中,最优控制法可以优化机器人的运动轨迹,提高生产效率和准确性。

在电力系统中,最优控制法可以优化电网的输电效率,提高能源利用率。

在化工过程中,最优控制法可以实现精确的温度和压力控制,提高生产效益。

在交通运输中,最优控制法可以优化车辆的行驶路线,减少交通拥堵和能源消耗。

三、最优控制法的实现方式最优控制法可以基于不同的数学原理和算法来实现。

其中最常用的方法包括动态规划法、最优性原理、线性二次调节器和模型预测控制等。

1. 动态规划法动态规划法是一种通过将问题划分成子问题并递归地求解这些子问题的方法。

在最优控制中,动态规划法可以用来确定最优控制策略。

通过构建动态规划的状态转移方程,可以优化系统的控制性能。

2. 最优性原理最优性原理是最优控制法的一种基本原理,它可以用来解决连续时间和离散时间系统的最优控制问题。

最优性原理的核心思想是通过对一组控制变量的函数进行优化,找到最优的控制策略。

3. 线性二次调节器线性二次调节器是一种常用的最优控制方法,适用于线性系统。

线性二次调节器通过优化目标函数和约束条件,确定最优控制策略。

它在实际控制系统中有广泛的应用,可以通过数学工具和计算算法进行求解。

4. 模型预测控制模型预测控制是一种基于系统模型的最优控制方法。

最优控制理论

最优控制理论
L x 0,
x(t)
tf
0
t0
x(t)
tf
t
x t f xt f
t0
L x
tf
tf
t
t0
0
Page: 20
Modern Control Theory
§7-3 无约束条件的泛函极值问题
现 代 控 制 理 论 (4)自由始端和自由终端 横截条件为:
L x
t0

1
0
x 2 (t )dt
[2 x x]dx
0
Page: 15
1
§7-2 最优控制中的变分法
现 代 控 制 理 论
二、泛函的极值
* J x t 在 x t 上达到极小值的必要条件:
J x(t ) 0
Modern Control Theory
Page: 16
t
四.主要数学方法
<1> 解析法
<2> 数值法
控制无约束 采用变分法 控制有约束 采用极小值原理,动态 规划
<3> 梯度型法
Modern Control Theory
Page: 9
§7-2 最优控制中的变分法
现 代 一.泛函与变分的基本概念 控 制 1.泛函与变分的基本概念 理 论 (1)泛函 如果对于自变量t , 存在一类函数 x t , 对于每个函数x t , 有一J 值 与之对应,则变量J 称为依赖于函数x t 的泛函数,简称泛函, 记作J x t (2)函数的变分
[例]已知:
1 J u 2 t dt 20
2
x1 (0) 1
x1 ( 2) 0

现代控制理论-第七章 最优控制_动态规划

现代控制理论-第七章 最优控制_动态规划
t
V (x(t),t) min (L(x(t t),u(t t),t t)t) u (t )U V (x(t), t) ( V )T dx t V t o(t)2 x dt t
第七章 最优控制
V min (L(x(t t),u(t t),t t) (V )T dx o(t)2 )
x02
第七章 最优控制
7.4.3 连续系统的动态规划
x f (x,u,t), x(t0 ) x0
u(t) U
性能指标
T
J (x(T )) L(x,u,t)dt
t
目标集
S {s | (x(T )) 0}
引进记号 V (x,t) J (x*(t),u*(t)) min J (x(t),u(t)) u(t )U
u0
第七章 最优控制
7.4.2 离散系统动态规划
n 阶离散系统
xk1 f (xk ,uk ), k 0, , N 1
性能指标
N 1
J L(xk ,uk ) k 0
求决策向量
u0 , , uN 1
使 J 有最小值(或最大值),其终点可自由,
也可固定或受约束。
第七章 最优控制

x12
(
1 2
x1 )2
(x1

1 2
x1 ) 2

3 2
x12
J (x0 ) x02 u02 J *(x1)

x02
u02

3 2
x12

x02
u02

3 2
( x0
u0 )2
J (x0 ) u0

现代控制理论最优控制.

现代控制理论最优控制.

情况下,线性调节器或状态调节器是最常 见的一类线性二次型问题.
最优控制的目的是:当线性系统由于某种 原因偏离出原来的平衡状态,控制的目的是 使系统的状态x(t)尽量接近平衡状态,而所用 的量又不能太大,控制能量一般描述为控制 变量的二次型.
因此目标函数选为:
1 tf T J (u ) ( x Qx u T Ru )dt 2 t0
(5)跟踪问题.
5. 线性二次型最优控制问题
所谓二次型最优控制问题,实际上是指 目标函数是状态变量和控制变量的二次 型.
如状态调节器问题,而线性二次型最优 控制问题:则是除目标函数是状态变量和控 制变量的二次型,而且它的状态方程是线性 微分方程,即
x A(t ) x B(t )u, x(t0 ) x0
0
由于A-Bk是稳定矩阵,因此 x 0 , 故而 J 1 xT 0 Px 0 2 显然性能指标可由初始条件和P算得。
5.以下求k 由于R为正定实对称阵,故 R T T T ,其中 T为非奇异矩阵,于是方程式(5)可以写 成 T T T T T A k B P P A Bk Q k T Tk 0 (6)
明显地两者之间的差异和相同处在于: 相同: 都要在给定目标函数条件下,求使目标 函数取极值的函数式变量. 相异: 一个是求函数的极值时的变量取值问题, 另一个是求函数极值时求控制函数的问题.
由于最优控制中,目标函数依赖于控制 函数u(t),因而也称目标函数为目标泛函.
因此最优控制问题实际上是求使目标泛 函取极值的控制规律问题.
1 T
例2. 考虑如图所表示的系统.假如控制信号 为 u(t ) Kx(t )
试确定最优反馈增益 K ,使得下列性能指标 达到最小

第7章 最优控制

第7章 最优控制

第七章 最优控制(Optimal Control )最优化(Optimization ):生产过程的控制,企业的生产调度,对资金、材料、设备的分配,经济政策的制定等都与最优化有关。

最优控制:通常是针对控制系统本身而言的,目的是使一个机组、一台设备、或一个生产过程实现局部最优。

7-1概述1.最优分配问题:仓库(水泥) 运费(元/包) 工地(需要水泥)问应怎样发送这些水泥,才能使运费最省?设:从甲仓库运往A 、B 、C 工地的水泥数分别为1x 、2x 、3x ;从乙仓库运往A 、B 、C 工地的水泥数分别为4x 、5x 、6x 目标函数()x f (总运费):()65432195442x x x x x x x f +++++= 最优化的任务:确定[]Tx x x x x x x 654321=的值,使()x f 为最小。

约束条件:⎪⎪⎪⎩⎪⎪⎪⎨⎧=+=+=+≤++≤++1200600900180********241654321x x x x x x x x x x x x该问题称为具有不等式约束条件的线性最优化问题,属于静态最优化问题,变量x 与时间无关2.动态最优化问题动态最优化问题:在最优控制系统中,受控对象是一个动态系统,所有变量都是时间的函数。

目标函数:是时间函数的函数,称为泛函数(简称泛函) 例:目标泛函 ()()[]⎰=ft t dt t t u t x L J 0,,基本约束条件(受控对象的状态方程):()()()[]t t u t x f t x ,,= J----标量L----标量函数()t x ----n 维状态矢量 ()t u ----r 维控制矢量f ----n 维矢量函数最优控制问题:在满足约束条件下,寻求最优控制函数()t u ,使目标泛函J 取极值(最小或最大),即()max min =J 。

3.求解动态最优化问题的方法古典变分法、极小(大)值原理、动态规划法7-2研究最优控制的前提条件1.给出受控系统的动态描述,即状态方程()()()[]t t u t x f t x,,= 2.明确控制作用域控制集:()(){}0,≤=u x j t u U ϕ()()r m m j u x j ≤=≤;,,2,10, ϕ----()t u 满足的约束条件容许控制:()U t u ∈ 3.明确始端条件 固定始端:()0t x 给定 自由始端:()0t x 任意可变始端:()00Ω∈t x 始端集:()()[]{}0000==Ωt x j t x ρ()[]()n m m j t x j ≤==;,2,100 ρ----()0t x 必须满足的约束条件 4. 明确终端条件固定终端:f t 、()f t x 给定 自由终端:f t 给定、()f t x 任意可变终端:()f f t x Ω∈ 目标集:()()[]{}0==Ωf j t x ff t x ϕ()[]()n m m j t x f j ≤==;,2,10 ϕ----()f t x 必须满足的约束条件5. 给出目标泛函(即性能指标) 对于连续时间系统,一般表示为:()[]()()[]⎰+Φ=ft t f dt t t u t x L t x J 0,, (综合型或鲍尔扎型)()[]f t x Φ----终端指标函数,反映对终端性能的要求;()()[]⎰ft t dt t t u t x L 0,,----动态指标函数,L 为状态控制过程中对动态品质及能量或燃料消耗的要求等。

最优控制(动态求解)

最优控制(动态求解)

06
最优控制在现实生活中的应 用
经济问题
投资组合优化
通过最优控制理论,投资者可以 确定最佳的投资组合策略,以最 大化收益或最小化风险。
生产调度
在生产过程中,企业可以使用最 优控制理论来优化生产调度,以 提高生产效率并降低成本。
商业决策
商业决策者可以使用最优控制理 论来制定最佳的商业策略,例如 定价、库存管理和营销策略。
内点法
内点法是一种基于梯度下降的求解方法,通过迭代逼近最优解,适用 于大规模的优化问题。
最优控制的线性规划问题
最优控制问题可以转化为线性规划问 题,通过建立状态方程、目标函数和 约束条件,利用线性规划求解方法找 到最优控制策略。
在实际应用中,最优控制的线性规划 问题广泛应用于生产调度、物流优化、 金融投资等领域。
03
其中,V(x)表示状态x的价值函数,R(x,a)表示在状态x采取 行动a的即时奖励,p(x′∣x,a)表示从状态x采取行动a转移到 状态x′的概率。
递归求解方法
01
02
03
递归求解方法是动态规划的常用求解 方法,通过递归地求解子问题来得到 原问题的最优解。
递归求解方法的基本步骤是:将原问 题分解为若干个子问题,分别求解每 个子问题的最优解,然后利用子问题 的最优解来求解原问题的最优解。
03
状态方程的解可以给出系统在 任意时刻的状态,是进行最优 控制的基础。
性能指标函数
01
性能指标函数用于衡量控制策略的效果,通常表示为系统状态 和控制输入的函数。
02
性能指标函数的目标是最小化或最大化,例如控制能量、时间、
误差等。
性能指标函数的选取应根据具体问题的需求来确定,不同的性
03

7 最优控制

7 最优控制

(7.13)

其中,残值函数 S () 满足: A8. S () 定义在开凸集上, S ( ) C1
24

定理 7.2 带残值问题的必要条件 设 x* , u* 是问题(7.13)的容许对,Hamilton 函数
H t, x, u, =f (t, x, u) g(t, x, u) ,若 x* , u* 产生 J S x( ), u( ) 的全局最大值,则对 t [t0 , t1 ] ,
t0
t1

上式是变分法(calculus of variations)的目标泛函的 原型

注意: 1.
J [] 并非积分 x(t )dt
t0
t1
2.
t 有关 在多数问题中, F () 只与 x
8
7.1.2 最优控制问题的典型表示
最优控制理论的优势 最优控制理论是变分法的推广和一般化 最优控制理论更容易反映经济直觉
17
7.2.1 自由端点问题
u ( ), x1
max J x(), u () f t , x(t ), u (t ) dt
t1 t0
(t ) g t , x(t ), u (t ) s.t. x u (t ) U , x(t0 ) x0, x(t1 )自由
10

典型的最优控制问题:
u ( ), x1
max J x(), u() f t , x(t ), u(t ) dt
t1 t0
(t ) g t , x(t ), u(t ) s.t. x x(t0 ) x0 , x(t1 )自由

x t0 给定的, x t1 可自由选择

动态规划最优控制 现代控制理论 教学PPT课件

动态规划最优控制 现代控制理论 教学PPT课件
减少。级数 N 越大,每级的状态变量越多,则动态规划计算量比穷举法计算量减少越多。
2021年4月30日
第7章第11页
对于本例,求解时采用的递推方程的一般形式为
J
N
(
x)
min
SN ( x)
d x, SN ( x) JN1 SN ( x)
以及
J1( x) d ( x, F )
在动态规划中,上述两式称为函数方程。当选择第一个决策 SN ( x) 时,其结果不但影
响第一级的距离 d x, SN (x) ,而且影响后面 N 1级的初始状态,因而也影响后面 N 1
级的最短距离。因此,最优策略(各阶段的决策组成的最佳集合)的选择应在递推过程结 束后进行,不能在各级分散决定。
2021年4月30日
第7章第12页
从本例的分析过程可知,一个 N 级最优过程(如从 A 至 F 的 J5 ( A) ),不论第一级决 策如何(如 S5 ( A) B1, B2 , B3 ),其余 N 1级决策过程(如从 B 至 F ),至少必须依据第 一级决策所形成的状态(如 B1 ,B2 ,B3 )组成一个 N 1最优过程(如 J4 (B1) 、J4 (B2 ) 、 J4 (B3) )。在此基础上选择第一级决策(如选择 S5 ( A) B2 ),必可使总的 N 级过程最优 (如求出 J5 ( A) 14 )。在多级决策问题中,这种递推思想的核心,是贝尔曼提出的最优
动态规划
2021年4月30日
第7章第1页
动态规划又称为多级决策理论,是贝尔曼提出的一种非线性规划方法。动态规划的核心是 贝尔曼的最优性原理,它将一个多级决策问题化为一系列单级决策问题,从最后一级状态 开始到初始状态为止,逆向递推求解最优决策。
动态规划是求解最优化问题的重要方法,在应用动态规划时,有一个前提条件是系统的状

动态规划与最优控制模型

动态规划与最优控制模型

第四章 最优控制模型(管理、决策方面应用,因此可说管理决策模型)§1 最优控制的问题提法: §1.1 最优控制问题举例 §1.2 最优控制数学模型一、例,详见最优控制课听课笔记第一节; 二、问题的数学描述――最优控制模型.寻找U )t (*u ∈(开,闭)[]f f 0t ,t ,t 可以固定或自由,使得: [][])t ( u J min )t (*u J Uu∈= (){()()0t ),t ( x g 0 t ),t ( x g ,R )t (x )t (x M x )t (x x )t ( x t ),t ( u ),t (x f dt (t) x d :t .s f f 2f f1f f f f 00≤=∈=∈==其中: n R )t (x ∈ ,且1C )t (x ∈ (一个连续可微), R U )t (u m ≤∈,[] t ,u (t), x f:向量值函数,且)( f ⋅ 对t ),t ( u ),t ( x 连续,对t ),t ( x 连续可微. []()()()[]。

都可微 t (t), x 对 t (t), u (t), x L ,t ),t ( x,dt t ),t ( u ),t ( x L t ),t ( x )t ( u J f f tt f f fϕ+ϕ=⎰最优控制问题的求解方法:1. 古典变分法:U 开集;2. 极大值原理:U 闭集;现代变分法,把古典变分法看作特例 3. 动态规划:便于数值计算,并有通用算法; 发展了变分法,结果要充分条件.§2 最优控制模型的动态规划解法 §2.1 动态规划方法概述§2.2 生产——库存——销售管理系统的解法§2.1 动态规划方法概述某一类管理问题的数学模型(状态方程)是一个差分方程:()⎩⎨⎧∈==+M )(k x x )0( x k ),k ( u ),k ( x f )1k ( x f 0 使 ()∑-==1N 0i i ),i ( u ),i ( x L J 达到最小. 此为一个N 阶决策问题:动态规划法是求这一决策问题的有效办法,具有明显优点:(ⅰ)将一个N 阶决策问题转化为多次一步决策问题,即数学上的嵌入原理——将求一条极值曲线问题,嵌入到求一族极值曲线的更广泛的类似问题中;(ⅱ)大大简化了计算量;(ⅲ)具有局部优,就是整体优的最优性原理:可广泛应用于运输系统、生产库存管理系统、生产计划制定及最优投资分配问题、最优价格制定问题.下面以最短路问题举例说明这种方法: 一、最短路问题(最小时间问题)1.问题:若有一辆汽车以S 城出发经过若干城市到达F 城,如图:3 ,2 ,1i ,Q ,P i i =,是一些可以通过的城镇.·P 1 6 ·P 2 1 ·P 3 4 4 1 2 4S · ·F 5 6 3 ·Q 1 7 · Q 2 2 ·Q 3图中两点间的数字:可以表示两城镇之间的距离(单位10公里),也可以表示行驶两城镇所用时间(应综合考虑:距离远近,路面好坏,是否拥挤等情况).于是:汽车从S 到F 可经多种途径选择到达F . 问题是:从多种途径选择方案中,决定一种使S 到F 所走路线最短.或者若图中数字表示时间,则决定一种路径使从S 到F 所用时间最短.2.方法:Ⅰ决策树法(穷举法):决策树法是最容易想到的一种方法,但运算量很大——即把所有可能选择的路途所用的时间都求出来,然后取最小值,即有最优策略(最优决策).即: {}3 ,2 ,1i F Q SP min F *Q *SP i i i i == 因此有:1 P 3 4 F 15P 26 1 Q 3 3 F 14P 1 62 P34 F 164 Q 22 Q3 3 F 15S1 P 3 4 F 145 P 24 1 Q 3 3 F 13Q 1 7 2 P 3 4 F 18Q 22 Q3 3 F 17因此,最终得出:{}3 ,2 ,1i F Q SP min F P P SQ i i 321== 困难:这样共有8条线路可选择,每条线路要作3次运算.第1次:22211Q Q /P Q /P S →→→;第2次:3322Q /P Q /P →; 第3次:F Q P 33→或因此,共需24次运算:2438=⨯次,若阶段更多,则计算量更大. 2.“走一步瞧一步”(瞎子爬山?)法:第一步:从S 到1P 或1Q :显然 5SQ 4SP 11=<=,因此取决策1SP ;第二步:从1P 到2P 或2Q :显然 2121Q P 6P P ==,因此取2121Q Q ,P P 均可,但从2P 到3P 或3Q 距离为1,而2Q 到32P P 距离为2,因此,第2步决策为2P ,因此取21P P ;第三步:2P 到3P 或2P 到3Q ,均有1Q P P P 3232==,但3Q 到F 的距离为3,因此第3步取路线32Q P .因此使用这种方法得到的决策为:143164F Q P SP 321=+++= 显然不是“最优决策”,同时还有:14F P P SQ 321=问题出现在“局部优不能代替整体优”的问题. 3.动态规划:即可把每一步决策都看成一个状态的转移,而每一种状态的转移又影响到下一阶段的状态,因此又是动态的,故称为动态规划法.将上述问题分为四个阶段的多阶决策问题,故可将问题分为四阶段问题来考虑:第一阶段问题:11Q /P S →; 第二阶段问题:2211Q /P Q /P →; 第三阶段问题:3322Q /P Q /P →; 第四阶段问题:F Q /P 33→ 解题方法从最后一个阶段开始:1° 分别计算33Q ,P 到F 的最小代价,此处花费代价为时间,记为J ,用[][]33Q J ,P J 分别表示3P 或3Q 到F 的代价,则显然有:[][]3Q *J 4P *J 33==2° 由后往前,考虑倒数第二阶段(即第三阶段),再把第三阶段和第四阶段联合作为一个子问题来考虑,若从2P 出发到F ,则有两种可能:[][]431Q *J 2J F Q P 541P *J 1J F P P 332332=+=+==+=+=∴ 线路F Q P 32最短,且[]4P *J 2=,故将线路F Q P 32记成P 2④Q 3.类似以2Q 出发到F ,则有两种可能:[][]532Q J 2J F Q Q 642P J 2J F P Q 332332=+=+==+=+=∴ 线路F Q Q 32最短,则[]5Q *J J 2==,故将线路F Q Q 32记成2Q ⑤3Q .3° 再由2、3、4这三个阶段构成的子问题:若从1P 出发到F 有两种可能:[][]1156Q *J 6J F Q P 61046P *J 6J F P P 221221=+=+==+=+=∴ 有线路F P P 21最短,且[]10P *J 1=,故将F P P 21记成:1P ⑩2P若从1Q 出发到F 有两种可能:[][]1257Q *J 7J F Q Q 844P *J 4J F P Q 221221=+=+==+=+=∴ 有线路F P Q 21最短,则[]8Q *J 1=,故将F P Q 21记成:1Q ⑧2P4° 把由1、2、3、4阶段作为子问题来考虑:从S 出发到F 有两种可能:[][]1385Q *J 5J F SQ 14104P *J 4J F SP 1111=+=+==+=+=且且故: F SQ 1最短,且[]13S *J = 5° 因此有最优策略:F SQ 1即: []13S *J F Q P SQ F SQ 3211==,除“二决一”比较之外,且运算只用了10次,而穷举法则算了24次,上次这种动态规划的办法:是将把一个四阶段决策问题化为四个互相嵌入子问题,逐一进行简化的计算方法,即数学上嵌入定理. 3.最优性原理“最优策略的一部分也是最优策略”例如:上例中知:F Q P SQ 321是最优决策,则F Q P Q 321也一定是从Q 1出发到F 的最优决策:证明[反证法]:设SQ 1P 2Q 3F 是最优决策,则Q 1P 2Q 3F 不是最优决策,则必存在另一个最优决策,不妨设为Q 1Q 2Q 3F 为最优决策.因而,SQ 1Q 2Q 3F 是整体最优决策,因而与SQ 1P 2.)1N (*u , ),1(*- 是N 阶决策问题的最优策略序列,那么:)1N (*u , ),1(*u - 也是一个最优策略序列,其初始状态为:())0(*u ),0(x f )1(x =证明:同最短路4. 多阶决策问题的一般想法:设某系统的状态方程为:()⎩⎨⎧==+0x )0(x )i (u ),i (x f )1i (x目标函数为:()∑-==1N 0i N i ),i (u ),i (x L J ,NJ表示控制N 步时的目标函数值.最优控制问题,即:求最优决策序列{}{})1N (u , ),0(*u )i (*u -= ,使N J 取最小(大)值.为简化假定为定常状态,即L 不明显还有时间变量i因而有:()⎩⎨⎧==+0x )0( x )i (u ),i (x f )1i ( x()∑-==1N 0i N )i (u ),i ( x L J对目标函数(3)逐次应用(1)式有:()()()()()()()()()()())1N (u ),2N (u ,u(1) ,)0(u ),0(x f f f L ,u(1) ,)0(u ),0(x f L )0(u ),0(x L ,)1N ( u ),1N ( x L )1(u ),1(x L )0(u ),0(x L J N --+++=--+++=因此,可以由上式看出:N J 只依赖于)1N (u , ),1(u ),0(x - 因而可写成:())1N (u , ),1(u ),0(x J J N N -=又若用某种方法求出了最优决策)1N (*u , ),0(*u - ,则N J 的最小值只依赖于初始值)0(x ,记为() )0( x *J N ,它可用下式来定义:()())1N (u , ),1(u ),0( x J min)0(x *J N )1N (u ,),1(u ),0(u N -=-初始值是可变化的,因此:() )0( x *J N 表示初始状态为)0(x 时,控制N 步的目标函数最小值.5.动态规划的基本方程:动态规划的基本方程,给出N 阶决策问题的目标函数最优值与它的子问题)1N (阶决策问题-目标函数最优值之间的递推关系式,它是用动态规划解一切多阶决策问题的基础.设)0(*u 已求出,则求序列{})1N (*u , ),2(*u ),1(*u - 的问题,构成一个以() )0(u ),0( x f )1( x =为初始条件的1N -阶决策问题,若记这一子问题的目标函数最小值为:() )1(x *J 1N -;又若记() )0( x *J N 为N 阶决策问题最小值,则我们可以导出() )0( x *J N 与() )1(x *J 1N -之间的关系:()()() (k)u (k), x L ) )1(u ),0(x ( L min u(k) x(k),L min )0(x *J 1-N 1k 1)-u(N -u(0)1-N 0k )1N (u ,),1(u ),0(u N ⎭⎬⎫⎩⎨⎧+=⎭⎬⎫⎩⎨⎧=∑∑==- 由于则第一项:()())0(u ),0(x L min )0(u ),0(x L min)0(u )1N (u , ),0(u =-第二项: ()⎭⎬⎫⎩⎨⎧∑-=-1N 1k )1N (u , u(1) ),0(u )k ( u ),k ( x L min 并不明显依赖)0(u ,()())2N (u ),2N (x f )1N (x )0(u ),0(x f )1(x --=-=但由状态方程:可知:实际上第二项仍依赖于)1N (u , ),1(u ),0(u - ,因此,第二项可写成:()()(){})1( x J min (k)u (k), x L min min (k)u (k),x L min *1N )0(u 1-N 1k )1N (u ,),1(u )0(u 1-N 0k )1N (u ,),0(u ---=-=⎭⎬⎫⎩⎨⎧=⎭⎬⎫⎩⎨⎧∑∑此给出了())1(x J *1N -与())0(x J*N 之间的递推关系.它是动态规划的基本方程.类似有动态规划更一般的基本方程:(**) 因此依据基本递推方程的递推关系:可以把一个多阶决策问题化为若干个子问题,而在决策的每一个阶段中只须对一个变量进行最优化决策即可.例如:()(){})1N (u ),1N (x L min )1N (x J )1N (u *1--=-- 是对一个单变量)1N (u -的优化问题,当())1N (x J *1-求出后,由基本递推方程(**)式可得:()()(){})1N (x J )2N (u ),2N (x L min )2N (xJ *1)2N (u *2-+--=--这又是对)2N (u -的最优化决策问题,因而把原来N 阶决策问题化成一系列对单变量的最优化决策问题,从而使问题简化.§2.2 生产库存——库存管理决策问题的解设某工厂生产某种产品,四个季度定货量为:生产费用与产品平方成正比,即比例系数为0.005,)( u 005.0)x (C 2元= 库存费每件每季为:1.0元. 第i 季度库存量为:)i (x 件; 第i 季度生产量为:)i (u 件; 第i 季度销售量为:定货量=)i (s 因此有:下季度库存是 :)i (S )i (u )i (x )1i (x -本季销售量本季生产量本季度库存量是+=+且要求年初、年终都没有存货即销售已空.x (0)=x (5)=0最优管理问题:求每季度的最优生产量)4(u ),3(u ),2(u ),1(u ,使之能正好完成订货计划且使生产费与库存费总和最小.即:求 {})i (*u 使[][][]∑=+=≤41i 240)i (x )i (u005.0)i (u J )i (*u J (1)⎪⎩⎪⎨⎧===+=+ (4) 0x(5)(3) 0x(0)(2) ,4 1,2,3is(i)-u(i)x(i)1)x(i t .s解:使用动态规划的办法:1. 先由最后一个季度考虑起:)4(x )4(u 005.0J 21+=由(2) 0 x(5))4)4(s )4(u )4(x )14(x =-+=+及(得 200u(4)-(4)-1x(4)0+=得 )4(x 1200)4(*u -=代入(1)[]())4(x 005.0)4(x 117200)4(x )4(x 1200005.0)4(x J 22*4+-=+-= 2. 再考虑3-4两个季度,由基本递推方程知:()()[]{}(){}{})4(x 005.0)4(x 117200)3(x )3(u005.0min )4(x J )3(x )3(u 005.0min )4(x J )3(u ),3(x L min )3(x J 22)3(u *12)3(u *1)3(u *2+-++=++=+=其中 500)3(u )3(x )3(s )3(u )3(x )4(x -+=-+= 代入上式 即有:()()(){}22)3(u *2500)3(u )3(x 005.0500)3(u )3(x 117200)3(x )3(u 005.0min )3(x J -++-+-++=而)3(u 应使上式取最小值,因此有: {}0)3(u /=∂∙∂即:{}0)3(x 01.016)3(u 02.0)3(u =+-=∂∙∂即有: )3(x 5.0800)3(*u -= 为使0)3(*u ≥,必须有1600)3(x ≤,把)3(*u 代入())3(x J *2()()())3(x 0025.0)3(x 77550500)3(*u )3(x 005.0500)3(*u )3(x 117200)3(x )3(*u 005.0)3(x J 22*2+-=-++-+-++=3.再考虑2-3-4,由递推基本方程知:()()(){}{})3(x 0025.0)3(x 77550)2(x )2(u005.0min )3(x J )2(u ),2(x L min )2(x J 22)2(u *2)2(u *3+-++=+=其中 700)2(u )2(x )3(x -+= 代入上式 ())2(x J *3()()(){}22)2(u *3700)2(u )2(x 0025.0700)2(u )2(x 77550)2(x )2(u 005.0min )2(x J --+---++= 令 ()0)2(u /)2(x J *3=∂∂ 得(){}()0700)2(x 005.07)2(u 015.0)2(u )2(u )2(x J *3=-+-=∂∙∂=∂∂得 )2(x 31700)2(*u -= 再代 ())2(x J *3 得 ())2(x 3005.0)2(x 6000,10)2(x J 2*3+-= 4.再考虑1-2―3―4季度,由递推基本方程知:()()(){}⎭⎬⎫⎩⎨⎧+-++=+=)2(x 3005.0)2(x 6000,10)1(x )1(u 005.0min )2(x J )1(u ),1(x L min )1(x J 22)1(u *3)1(u *4 又由于 600)1(u 600)1(u 0)1(s )1(u )1(x )2(x -=-+=-+=并代入上式 ())1(x J *4得:()()()⎭⎬⎫⎩⎨⎧-+--++=22*4600)1(u 3005.0600)1(u 6000,10)1(x )1(u 005.0min )1(x J 令 ()0)1(u )1(x J *4=∂∂ 得()0600)1(u 301.06)1(u 01.0=-+- 得 600)1(*u =得 ()800,11)1(x J *4=(即四个季度总和的生产费用库存费) 于是:由)1(x ),1(*u 代入 )1(s )1(u )1(x )2(x -+=可得 )2(x ,由)2(x 可得 )2(x 31700)2(*u -= 于是由600)1(*u0)1(x == 及方程 )i (s )i (u )i (x )1i (x -+=+ 及 )4(x 1200)4(*u )3(x 5.0800)3(*u )2(x 31700)2(*u -=-=-=可得900)4(*u ,800)3(*u ,700)2(*u ,600)1(*u 0)5(x ,300)4(x ,0)3(x ,0)2(x ,0)1(x =========即有以上最优决策序列:{})i (*u 若不按以上最优决策,按每季销售量生产1200)4(s )4(u 500)3(s )3(u 700)2(s )2(u ,100)1(s )1(u ========则显然总有存为总量0,但总费用: ()∑=+=4124700,12)i (x )i (u005.0J 要多用900元.。

动态规划原理与最优控制

动态规划原理与最优控制
J*[X1(2) ] = 4, J*[X2(2) ] = 5
10
③ 倒数第三级
路线 X1(1) — X1(2) — F J * = 6 + 4 = 10
X1(1) — X2(2) — F J = 6 + 5 = 11 X2 (1) — X1(2) — F J* = 4 + 4 = 8 X2(1) — X2(2) — F J = 7 + 5 = 12
5
根据最优性原理
确定了一个从后向前的递推过程 基于最优性原理的动态规划方法
成为解决最优控制问题的有力工具
6
动态规划原理
求从S — F 点路程最短的方法
7
•枚举法
① S — X1(1) — X1(2) — X1(3) — F 4+6+1+4=15 ② S — X1(1) — X2(2) — X1(3) — F 4+6+2+4=16 ③ S — X1(1) — X2(2) — X2(3) — F 4+6+2+3=15 ④ S — X1(1) — X1(2) — X2(3) — F 4+6+1+3=14 ⑤ S — X2(1) — X1(2) — X1(3) — F 5+4+1+4=14 ⑥ S — X2(1) — X1(2) — X2(3) — F 5+4+1+3=13 ⑦ S — X2(1) — X2(2) — X1(3) — F 5+7+2+4=18 ⑧ S — X2(1) — X2(2) — X2(3) — F 5+7+2+3=17
9
• 动态规划法

现代控制理论-第7章-最 优 控 制

现代控制理论-第7章-最 优 控 制



代入式(7-11)则得:
* * * * F x , x , t F x , x ,t tf dJ d dt t0 d x dt x
(7-12)

* * F x , x ,t
§7.1 无约束条件的性能指标(泛函)
极值问题
(从最简单的情况开始) 设性能指标为积分型(拉格朗日问题)
t ,t J F x t ,x dt t0
tf
(7-1)
x t
t0
tf
xf
A
B
x* t
固定或自由
x t0 x t f
x0

t0
tf
t
航天飞机最小能量控制
⑷ 线性调节器问题:
J x t dt
tf i 1 t0 2 i
n
tf
t0
2 x i t dt i 1
n
特别要注意以下的指标形式:
tf
导弹滚动通道调节问题
1 T T J x t Qx t u t Ru t dt t0 2 1 T T F x t , u t , t x t Qx t u t Ru t 2
2
2
(7-20)
(3) 泛函 J x 在 x* t 处达到极小值的必要条件为:
J x* , x 0
其充分条件为:
(7-21)
2 J x* , x 0
(7-22)
仍然讨论固定边界的泛函极值,即设泛函为积分型(拉 格朗日问题): tf (7-23) J F x t , x t , t dt
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

当∆t很小时,有

t t
t
Lx, u, t d t Lx, u, t t
J x, t min
*
min
uU

uU

tf
t0
Lx, u, t d t Φ xt f
tf t t

t t
t
Lx, u, t d t
Lx, u, t d t Φ xt f
P1 11
7
P2 4 2
P3 4 4
12 A 4 8 Q1
4 3 2 2 Q3 B
5 Q2
第一段:P1、Q1的前站是始发站A。显见从
A到B的最优值为12,故得最优路线为AQ1P2Q3B。
综上可见,动态规划法的特点是: 1) 与穷举算法相比,可使计算量大大减少。如
上述最优路线问题,用动态规划法只须做10次
J x, t min Lx, u, t t J xt t , t t
* * uU


(8)
* J x , t J x, t * * J x x, t t J x, t t (12) x t x * T
A城出发到B城的行车时间最短。
P1 3 A 4 Q1 1
7
P2
2
P3 4
4
6 8 2 Q2
3 3 3
2 Q3 4
2
B
现将A到B分成四段,每一段都要作一最优决 策,使总过程时间为最短。所以这是一个多段最 优决策问题。 由图2可知,所有可能的行车路线共有8条。 如果将各条路线所需的时间都一一计算出来,并 作一比较,便可求得最优路线是AQ1P2Q3B,历时 12。这种一一计算的方法称为穷举算法。这种方 法计算量大,如本例就要做3×23=24次加法和7次 比较。如果决策一个n段过程,则共需(n-1)2n-1次 加法和(2n-1-1)次比较。可见随着段数的增多,计 算量将急剧增加。
根据最优性原理,如果x*(t)是以x(t0)为初始
状态的最优轨线。如图6所示。
x2
x( t′) x*( t) x( t0)
x(t f)
0
图6 连续系统最优轨线
x1
设t = t′ ( t0 < t′< tf)时,状态为x(t′),它将轨 线分成前后两半断。那么以x(t′)为初始状态的后 半段也必是最优轨线。而与系统先前如何到达 x(t′)无关。
若取t0= t, t′= t + ∆t,式(4)可写成
J x, t min
* uU

tf
t0
Lx, u, t d t Φ xt f
tf

min
uU

t t
t
Lx, u, t d t
t t
Lx, u, t d t Φ xt f


(5)

*
t t
t
Lx, u, t d t Lx, u, t t
J xt t , t t min
uU

tf
t t
Lx, u, t d t Φ xt f


(8)
式(5)可近似表示为
J * x, t min Lx, u, t t J * xt t , t t
uU

将x(t + ∆t)进行泰勒展开,取一次近似,有
dx xt t x t x x dt
(9) (10) (11)
dx x t f x, u, t t dt
J * xt t , t t J * x x, t t
P1 11
7
P2 4 2
P3 4 4
12 A 4 8 Q1
4 3 2 2 Q3 B
5 Q2
第二段: P2、Q2的前站是P1、Q1。同样不管 汽车是如何到达的P1、Q1,重要的是保证从P1或 Q1到B要构成最优路线。从P1到B的两条路线中, P1P2Q3B,历时为11;P1Q2Q3B,历时为11,取最 短历时11,标注在P1旁。从Q1到B的也有两条路 线中,Q1P2Q3B,历时为8;Q1Q2Q3B,历时为 13,取最短历时8,标注在Q1旁。比较P1与Q1的 最优值,可知这一段的最优路线是Q1P2Q3B。
状态来说,必定也是一个最优策略。这个性质称为最优
性原理。
u0 x0 1 x1
u1 2 x2 xk
uk k+1 xk +1 xN-1
uN-1 N xN
前k段子过程
后N- k段子过程
图4 N段决策过程
设图5中x*(t)是连续系统的一条最优轨线。x(t1) 是最优轨线上的一点,那么最优性原理说明,不管
应用动态规划法可使计算量减少许多。动态规 划法遵循一个最优化原则:即所选择的最优路线必 须保证其后部子路线是最优的。
例如在图2中,如果AQ1P2Q3B是最优路线,那么
从这条路线上任一中间点到终点之间的一段路线必 定也是最优的。否则AQ1P2Q3B就不能是最优路线
了。
根据这一原则,求解最优路线问题,最好的办 法就是从终点开始,按时间最短为目标,逐段向前
加法和6次比较。如果过程为n段,则需做加 法。以上例为例,用穷举法需作4608次加法,
而后者只需做34次加法。
2) 最优路线的整体决策是从终点开始,采用逆推方 法,通过计算、比较各段性能指标,逐段决策逐步 延伸完成的。
全部最优路线的形成过程已充分表达在图3中。 从最后一段开始,通过比较P3、Q3,得到Q3B; 倒数第二段,通过比较P2、Q2,得到P2Q3B; 倒数第三段,通过比较P1、Q1,得到最优决策 为Q1P2Q3B; 直至最后形成最优路线AQ1P2Q3B。
xN也就被完全确定。全部“决策”的总体,称为 “策
u0 x0 1 x1
u1 2 x2 xk
uk k+1 xk +1 xN-1
uN-1 N xN
图1 多段决策过程示意图 当然,如果对每一段的决策都是按照使某种性
能指标为最优的原则作出的,那么这就是一个多段
最优决策过程。
容易理解,在多段决策过程中,每一段(如第 k+1段)的输出状态(xk+1)都仅仅与该段的决策(uk)及
(5)
根据最优性原理,如果t到tf的过程是最优的, 则从t + ∆t到tf的后部子过程也是最优的,其中
t< t + ∆t <tf。因此可写成
J xt t , t t min
* uU

tf
t t
Lx, u, t d t Φ xt f

(6)
(7)
象这样将一个多段决策问题转化为多个单段决 策的简单问题来处理,正是动态规划法的重要特点 之一。
3) 动态规划法体现了多段最优决策的一个重要
规律,即所谓最优性原理。它是动态规划的理 论基础。
对图4所示的N段决策过程,如果在第k+1段处把全
过程看成前k段子过程和后N-k段子过程两部分。对于后
部子过程来说,xk可看作是由x0及前k段初始决策(或控 制) u0,u1,…, uk-1所形成的初始状态。那么,多段决策的 最优决策略具有这样的性质:不论初始状态和初始决策 如何,其余(后段)决策(或控制)对于由初始决策所形成的
动态最优的核心是最优性原理,它首先将一个 多段决策问题转化为一系列单段决策问题,然后从 最后一段状态开始逆向递推到初始段状态为止的一 套求解最优策略的完整方法。 下面先介绍动态规划的基本概念,然后讨论连
续型动态规划。
一、多段决策问题
动态规划是解决多段决策过程优化问题的一 种强有力的工具。所谓多段决策过程,是指把一
*
x(t f)
t
图5 连续系统的状态转移过程
应用最优性原理可以将一个N段最优决策问题转
化为N个一段最优决策问题,从而大大减少求解最优 决策问题的计算量。
x x ( t) x(t 1) x( t0) 0
*
x(t f)
t
图5 连续系统的状态转移过程
二、连续系统的动态规划
利用动态规划最优性原理,可以推导出性能 泛函为极小应满足的条件——哈密尔顿-雅可比 方程。它是动态规划的连续形式,解此方程可求 得最优控制u*(t)。现在来推导这一方程。
设连续方程为
f x, u, t x
初始状态
(1)
xt 0 x0
N xt f , t f 0
(2)
终端约束


(3)
使性能泛函 J x0 , t min



tf
t0
Lx, u, t d t Φ xt f
(4)
求最优控制u*(t), u U 或u任意。
t=t1, t0< t1< tf时,系统是怎样转移到状态x(t1)的,但
从x(t1)到x(tf)这段轨线必定是最优的。因为最优轨线 的后一段从x(t1)到x(tf)如果还有另一条轨线是最优的
话,那么原来从x(t0)到x(tf)的轨线就不是最优的,这
与假设矛盾。因此,最优性原理成立。
x x ( t) x(t 1) x( t0) 0
个过程按时间或空间顺序分为若干段,然后给每
一步作出“决策”(或控制),以使整个过程取得最 优 的效果。
如图1所示,对于中间的任意一段,例如第k+1
段作出相应的“决策”(或控制)uk后,才能确定该段 输 入状态与输出状态间的关系,即从xk变化到xk+1的状
态转移规律。在选择好每一段的“决策”(或控制) uk 以后,那么整个过程的状态转移规律从x0经xk一直到
逆推。依次计算出各站至终点之间的时间最优值,
相关文档
最新文档