动态规划培训 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、什么是动态规划（Dynamic Programming）

过程最优化：为了实现某项预定任务，需要对任务之前的过程施加控制，任务实现的好坏可以用某个数值指标衡量。在此情况下，需要选择一个措施去控制过程的发展，以期最好的完成任务，称这样的问题为过程最优化。

多阶段决策问题：若过程可分为互相联系的若干阶段,每阶段都需做决策, 且决策之间不是孤立的,有一定的联系.当前的决策影响当前的收益,也同时影响过程的总收益,为了达到一定的目标,下一个决策要根据上一课决策的效果做适当的调整,以实现总过程的最优化.则称该决策问题为一个多阶段决策问题（Multi-Stage Decision Problem）

各阶段的决策结果构成一个决策序列,称为一个策略(Policy).每个阶段可选决策可能有很多,因此策略可能也很多.多阶段决策问题就是在众多的容许策略中,根据给定的标准选择一个最优.

决策的关键：每次决策,不能仅仅从局部利益出发,也必须考虑整体的利益.

动态规划是解决多阶段决策过程最优化的一种方法，主要思想是根据最优化原理，将一个多变量最优化问题转变为一系列单变量最优问题。

二、动态规划基本数学描述和求解思想

2.1 动态规划基本构成

动态规划基本元素：

{决策时刻集,系统状态集,系统行动集,状态转移，转移概率,收益} 系统：所针对研究的对象，称之为系统。后面具体的举例子。

1）决策时刻集

即做出决策的时间点集合,以T表示,其可以是连续的,也可以是离散的,可以有限、也可以无限.分类两类：

当T离散时,如{1,2,,}

,一般称周期或多阶段决策问题.

T N

12N 1

N +

✧ 当决策时刻是固定的，且当N 有限时,称为有限周期决策问题（Finite-Period （Stage ）Decision Problem ）.如果无限，则称为一个无限周期（Infinite Period ）决策问题.我们将主要关注，离散情况。

✧ 决策时刻是离散点,但是可能不是固定的,可能出现在任意的时刻点上(不是每个点必须做),如排队顾客的到来,电话的到来.这样的问题也称为离散事件动态系统（Discrete Event Dynamic System,DEDS ）.虽然也是在离散点上决策,但是没有固定决策点.在通讯、电子、交通灯领域用的很多,主要处理难以用微分和差分方程描述的问题. ● 当T 为连续时,随机最优控制问题. 2）状态和行动集

通过状态，来了解系统部分信息，为把握其运行规律奠定基础。状态实际上就是我们观测理解系统的一个中介。

对于一个动态系统，由于其演化是动态变化的，每个决策时刻t,系统有可能表现为不同的状态值，从而构成一个状态集,表示为t S ,状态可以是向量.

当决策观测到一个具体的状态t t x S ∈时,可以从t x 所允许的行动集合t

x A 选择一个行动,如t

x a A ∈.行动集是依赖于状态，不同的状态的

行动集可能是不同的.

,t

t x S A 都可以是有限集或无限集.这里的状态可能仅指当前时刻t

的状态,也可能包含以往的所有时刻的状态.

3）收益与状态转移及转移概率

时刻t 选择一个行动a t ,后果有两个：

✧ 得到一个当前的收益（或成本）(,)t t t r x a ；

✧ 状态发生转移. 可以用1(,)t t x T x a +=，也可以用概率分布

(|,)t t t p j x a 刻画, (|,)t t t p j x a 表示系统状态为t x ,行动选择t a 时,到状态j 的转移概率.以概率1转移到某个状态，即(|,)t t t p j x a ，则为确定动态规划，否则，如果不存在任何概率等于1的状态，则表示为随机动态规划。对于随机动态

规划而言，必须描述(|,)t t t p j x a ，对于确定动态规划，则不需要写该项。

✧ 最优系统还有一个终端收益11()N N r x ++ 4）决策目标和最优化问题

决策目标：

✧ 对确定问题，一般就是总费用最小或总收益最大等；

1111(,)(,)()N

t t t N N t V x r x a r x π++==+∑

✧ 对随机问题，一般是总费用的期望最小或总收益的期望最大.

1111(,)[(,)()]N

t t t N N t V x E r x a r x π++==+∑

最优化问题：在所有的可能的策略集合∏中，找一个策略**

*12{,,,}N a a a π=∈∏，使得

*111()(,){(,)}W x V x Opt V x πππ∈∏

==

5）动态规划方程（数学模型，也是算法步骤）

基于动态规划原理，将上面的最优化问题用动态规划方程等价表示，实现多变量复杂问题联合最优后到单变量简单问题独立最优化的效果。具体表示为如下方程：

令1{,,,}k k k N a a a π+=，

11(,)(,)()N

k k k t t t N N t k

V x r x a r x π++==+∑或11(,)[(,)()]N

k k k t t t N N t k

V x E r x a r x π++==+∑

111{,,,}(){(,)}{(,)()k

k k N N

k k k k k t t t N N a a a t k

W x Opt V x Opt

r x a r x ππ+++===

+∑

则有

111(){(,)()}

{(,)((,))}

k

k k k k t k k a k k k k k k k a W x Opt r x a W x Opt r x a W T x a +++=+=+

如果有限阶段问题，必须说明1111()()N N N N W x r x ++++=.表示含义是：从第k 周期之后的最优等于对两部分和的最优，一部分为第k 周期的收益，另外一部分为第k+1以后以1((,))k k k k x T x a +=为初始的最优收益。

实现该过程依赖的思想——最优化原理：

✧ 直观的，一个最优策略（各阶段决策顺序排列的决策集合）应该满足这样的性质,无论过去的状态和决策如何,对初始状态和前面决策所形成的当前状态而言,余下的各阶段决策仍是是最优的.简单描述为：一个最优策略的子策略仍是最优