第13讲 动态规划基本理论

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

状态转移方程(一般形式)
s2 T1 ( s1 , u1 ) s3 T2 ( s1 , u1 , s2 , u2 ) sk 1 Tk ( s1 , u1 , s2 , u2 ,, sk , uk )
图示如下:
状态转移方程是确定 过程由一个状态到另 一个状态的演变过程。 如果第k阶段状态变量 sk的值、该阶段的决策 变量一经确定,第k+1 阶段状态变量sk+1的值 也就确定。
1 8 3
D1 2
2
E1 3
5
5
B1 3
6
C2
5 3
A 3
8
D2
3
B2
7 6
C3 3
C4 4
8
1 2 3
E2 2
E3
5
F1
3
4
G F2
6 6
D3
决策
决策
决策 …….. 状态
1
状态
2
状态
n
Leabharlann Baidu状态
状态
多阶段决策过程最优化问题:有一些活动,它在时间 或空间上可以分成若干个阶段,需要对每个阶段进行决 策,使得活动的整体效果最好。 每个阶段的决策都不是可以任意确定的,它依赖于当 前的状况,同时,它的决策结果又影响到以后的决策。 组成了一个决策序列。 这样的决策过程是在变化的过程中产生的,故有动态 的含义。处理它的方法称为动态规划的方法。
方法:多阶段问题转化成一系列互相联系的较容易的 单阶段问题。
动态决策问题的特点: 系统所处的状态和时刻是进行决策的重要因素;
即在系统发展的不同时刻(或阶段)根据系统 所处的状态,不断地做出决策; 找到不同时刻的最优决策以及整个过程的最优策略。 多阶段决策问题: 是动态决策问题的一种特殊形式;
6、指标函数和最优值函数:用来衡量所实现过程 优劣的一种数量指标,为指标函数。常用Vk,n表示。
Vk,n=Vk,n(Sk,Uk ,Sk+1 ,…,Sn+1) k=1,2,…,n
在不同的问题中,指标函数的含义是不同的,它 可能是距离、利润、成本、产量或资源消耗等。 动态规划模型的指标函数,应具有可分离性,并 满足递推关系。
3、决策:表示当过程处于某一阶段的某个状态时, 可以作出不同的决定,从而确定下一阶段的状态,这 种决定称为决策。 描述决策的变量,称为决策变量。决策变量是状态变 量的函数。可用一个数、一组数或一向量(多维情形) 来描述。Uk(Sk)表示第k阶段处于Sk状态时的决策变量。
如:U2(B1)=C2,表示处于第二阶段,以B1为始点 选择C2作为第二阶段的终点。 在实际问题中决策变量的取值往往在某一范围之内, 此范围称为允许决策集合。 Dk(Sk)表示第k阶段处于Sk状态时的允许决策集合。 D2(B1)={ C1 ,C2 ,C3}。Uk(Sk)∈Dk(Sk)。
K=1,2,3,4,5,6
一个数、 一组数、 一个向量 2、状态:表示每个阶段开始所处的自然状况或客
观条件。通常一个阶段有若干个状态,描述过程状 态的变量称为状态变量,常用Sk表示。 如:S2={B1,B2};S3={C1,C2,C3,C4} 状态变量的取值有一定的允许集合或范围,此集 合称为状态允许集合。 注意:要明确每个阶段状态的集合或者范围。 “状态”具有 “无后效性”(“马尔科夫性”): 如果某阶段的状态给定后,当前的状态是以往历史 的总结,则在这阶段以后过程的发展不受这阶段以 前各阶段的影响。
即Vk,n可表示为Sk,Uk ,Vk+1,n的函数。 Vk,n(Sk,Uk ,Sk+1 ,…,Sn+1)
4、策略:是一个按顺序排列的决策组成的集合。在 实际问题中,可供选择的策略有一定的范围,称为允 许策略集合,用P来表示。从允许策略集合中找出达到 最优效果的策略称为最优策略。 把从第一阶段开始到最后阶段终止的整个决策过程, 称为问题的全过程;而把从第k阶段开始到最后阶段 终止的决策过程,称为k子过程。 在全过程上,各阶段的决策按顺序排列组成的决策序 列p1,n={ u1,u2,……,un }称为全过程策略,简称策略; 而在k子过程上的决策序列pk,n={ uk ,uk+1,……,un } 称为k子过程策略,也简称子策略。
5、状态转移方程:若第k阶段的状态变量值为sk, 当决策变量uk的取值决定后,下一阶段状态变量 sk+1的值也就完全确定。即sk+1的值对应于sk和uk的 值。这种对应关系记为sk+1=Tk(sk ,uk),称为状态 转移方程。状态转移方程描述了由一个阶段的状态 到下一阶段的状态的演变规律。
如:S3=T2(S2,U2) C2=T2(B1,C2)
第13讲 动态规划的基本理论(6.1)
多阶段决策过程 动态规划的基本概念和基本方程 动态规划的最优性原理 最短路问题(逆推法、顺推法)
多阶段决策过程(6.1.1)
引例:如图给定一个线路网络,两点之间连线上的数字表示 两点间的距离(或费用)。试求一条从A到G的铺管线路,使总距离 最短(或总费用最小)。 C1 6
在多阶段决策过程中,系统的动态过程可以按照时间 进程分为状态相互联系而又相互区别的各个阶段;
每个阶段都要进行决策,目的是使整个过程的决策 达到最优效果。
动态规划的基本概念(6.1.2)
(一)、基本概念
1、阶段:
把一个问题的过程,恰当地分为若干个相互联系 的阶段,以便于按一定的次序去求解。 描述阶段的变量称为阶段变量,常用k表示。阶段 的划分,一般是根据时间和空间的自然特征来进行的, 年、月、 但要便于问题转化为多阶段决策。 路段
s1
u1 1
s2
u2 2
s3

sk
uk k
sk+1
能用动态规划方法求解的多阶段决策过程是一类特 殊的多阶段决策过程,即具有无后效性的多阶段决 策过程。
无后效性(马尔可夫性) 如果某阶段状态给定后,则在这个阶段以后过程 的发展不受这个阶段以前各段状态的影响; 过程的过去历史只能通过当前的状态去影响它未来 的发展; 构造动态规划模型时,要充分注意是否满足无后 效性的要求; 状态变量要满足无后效性的要求; 如果状态变量不能满足无后效性的要求,应适当地 改变状态的定义或规定方法。 状态具有无后效性的多阶段决策过程的状态转移 方程如下 动态规划中能 s2 T1 ( s1 , u1 ) 处理的状态转移 s3 T2 ( s2 , u2 ) 方程的形式。 sk 1 Tk ( sk , uk )
相关文档
最新文档