运筹学第六章 动态规划

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第六章 动态规划

主要内容:1、动态规划的基本概念

2、动态规划的最优性原理和基本方程

3、动态规划的模型及其应用

重点与难点:动态规划的状态转移方程、基本方程;动态规划的建模思路与方法;运用递推原理确定最优解的方法与技巧。

要 求:理解动态规划的基本概念,掌握动态规划的建模步骤和求解方法,能够创造性地建立数学模型,并能运用动态规划方法解决实际问题。

§1 动态规划的基本概念

例1 最短线路问题。给定一个运输网络(如图),两点之间的数字表示两点间的距离,试求一条从A 0到A 4的运输线路,使总距离为最短?

1、阶段

对于一给定的多阶段过程,恰当地分为若干个相互联系的阶段,以便能按一定的次序去求解。描述阶段的变量称为阶段变量,常用K 表示。

1)阶段数固定的问题称为定期多阶段决策问题;如例1,可分为四个阶段。 2)阶段数不固定的问题称为不定期多阶段决策问题。如

2、状态

状态表示某阶段的出发位置。它既是某阶段过程演变的起点,又是前一阶段决策的结果。例1中,第一阶段有一种状态即A 0点,第二阶段有三个状态,即点集合{A 1,B 1,C 1},一般第K 阶段的状态就是第K 阶段所有始点的集合。

描述过程状态的变量称为状态变量。第K 阶段的状态变量,记为k x 。 3、决策

决策表示当过程处于某一阶段的某个状态时,可以作出不同的决定(或选择),从而确定下一阶段的状态,这种决

A 0

A 1

B 1

C 1

A 2

B 2

C 2

B 3

A 3

A 4

20 40 30

70 50

30 20

40 40 10

50 10 40

60 30

30 30

30 40

B A

C

D

E

4 7

2

4 2

6

2

1 1

定称为决策。描述决策的变量称为决策变量,常用)(k k x u 表示处于状态k x 时的决策变量,它是状态变量的函数。 如: 21A B → , 记为()212A B U =

决策变量可取值的全体,称为允许决策集合。常用()k k x D 表示状态k x 的允许决策集合。如:(){}22212,,C B A B D = ,(){}2212,C A A D =

4、策略

全过程的各个阶段上所选择的决策组成的全体称之为全过程策略,记为n P ,1。 若43210A A A A A →→→→为一决策,则全过程策略()()(){}442211,1,,,x u x u x u P n =

由过程的第K 阶段开始到终止状态为止的过程,称为问题的后子过程(或K 子过程)。其决策函数序列

{})(,),(),(11n n k k k k x u x u x u ++称为k 子过程策略,简称子策略,记为

)(,k n k x p 。即

{})(,),(),()(11,n n k k k k k n k x u x u x u x p ++=

在实际问题中,可供选择的策略有一定范围,此范围称为允许策略集合,用P 表示。 从允许策略集合中找出达到最优效果的策略称为最优策略。 5、状态转移方程

状态转移方程是确定过程由一个状态到另一个状态的演变过程。它描述了由K 阶段到K+1阶段的状态转移规律,称之为状态转移方程,记为()k k k k u x T x ,1=+。

6、指标函数和最优值函数

用来衡量所实现过程优劣的一种数量指标,称为指标函数。它是定义在全过程和所有后部子过程上确定的数量函数,常用n k V ,表示。即

()

n k x u x u x V V n k k k k n k n k ,,2,1,,,,,111,, ==+++

动态规划的指标函数,应具有可分离性,并满足递推关系。即()n k k k n

k V u x V

,!,,,+=φ

过程和它的任一子过程的指标是它所包含的各阶段的指标和,即()∑==n

k

j j j

j

n k u x

V V ,, 指标函数具有可加

其中()j j j u x V ,表示第j 阶段的阶段指标

∴ 上式可写成:

()()1111,,,,,+++++=n k k k k k k n k x u x V u x V V

由于给定了过程的初始状态及策略,则指标函数也随之确定,所以指标函数是初始状态和策略的函数,记为

()[]k

n k k n k x P x V ,,,,()k n k x P , ——子策略

∴上式也可写成[]()[]

n k k n k k k k n k k n k P x V u x V p x V ,11,1,,,,,++++=

指标函数的最优值,称为最优值函数,记为()k k x f ,即

()()1,,,,+=n k k n

k k k x u x optV

x f

()

()(){}1,,1,,

,11 -=+=++∈n n k x f u x V opt

k k k k k x D u k

k k

§2 基本定理和基本方程

一、最优性原理——作为整个过程的最优策略具有这样的性质:即无论过去的状态和决策如何,对前面的决策所形成的状态而言,余下的诸决策必须构成最优策略。简而言之,一个最优策略的子策略总是最优的。这是动态规划的理论基础。

在例1中,如果43210A B A B A →→→→是40A A 到的最短路线,则4321A B A B →→→一定是由B 1到A 4

的最短路线。

二、基本方程

()()()(){}()()⎪⎩⎪⎨⎧==-=+=+++++∈k k k k n n k k k k k x D u k k u x T x x f n n k x f u x V opt x f k k k ,0

1,,1,,,11111其中边界条件—

§3 动态规划的模型及求解

因为动态规划没有一个标准的数学表达式,所以建立动态规划的模型比它的计算更为困难。 一、建立模型的步骤 (1)选择阶段变量K

按时间或空间的先后顺序将问题划分为满足某种递推关系的若干阶段。

(2)选择状态变量k x

状态变量应满足可知性和无后效性。可知性是指过程的各阶段状态变量的取值,都能直接或间接的确定;无后效性是指如果某阶段状态给定后,则在这阶段以后过程的发展不受这阶段以前各阶段状态的影响。

通常选择随递推关系累计的量或按某种规律变化的量作为状态变量。 (3)选择决策变量k u (4)写出状态转移方程式 (5)列出动态规划的基本方程

二、逆序解法与顺序解法

动态规划的求解有两种基本方法:逆序解法(后向动态规划方法)、顺序解法(前向动态规划方法)。使用上述两种方法求解时,除了求解的行进方向不同外,在建模时要注意以下区别:

1、状态转移方式不同

逆序解法中第k 段的输入状态为k x ,决策为k u ,输出状态为1+k x ,即第k+1阶段的状态,所以状态转移方程为:

相关文档
最新文档