10-1动态规划基本概念与基本原理1

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

当k=3时，若从C1出发，则有两个选择，一个是至D1一个是至D2，则：
f3(C 1 ) m in d d 3 3( (C C 1 1 ,,D D 1 2 )) ff4 4 ((D D 1 2 )) m in 6 4 3 4 8
C1到最终点最短距离为8，最短路线： C1——D1——E 相应决策为 u3*(C1)= D1
各阶段状态的变量称为状态变量，常用sk表示第k阶段的状态变量，状态变量的取值集合称为状态集合，用Sk表示。
动态规划的基本概念和基本原理
动态规划中的状态具有如下性质：某阶段的状态，只对该阶段该状态以后过程的演变起作用，而不受以前各阶段状态的影响。即：过程的过去历史只能通过当前状态去影响它未来的发展，这称为无后效性。如果所选定的变量不具备无后效性，就不能作为状态变量来构造动态规划模型。
从边界条件开始，按逆（或顺）过程行进方向，逐段递推寻优。
贝尔曼(Ballman)最优化原理
作为整个过程的最优策略具有这样的性质，即无论过去的状态和决策如何，对前面的决策所形成的状态而言，余下的诸决策必须构成最优策略。这就是说，不管引导到这个现时状态的头一个状态和决策是什么，所有的未来决策应是最优的。
动态规划的基本概念和基本原理
指标函数用于衡量所选定策略优劣的数量指标称为指标函数。最优指标函数记为fk(sk)。
V1,n(s1, p1,n)
指标函数
——表示初始状态为 s 1 且采取策略 p 1, n 时，
原（全）过程的指标函数
Vk,n(sk, pk,n)
——表示第k阶段状态为s k 且采取策略 p k , n 时，
d1(A,B1)f2(B1) 214 f1(A)m in d1(A,B2)f2(B2) m in 411 15
d1(A,B3)f2(B3) 313
即从A到E的最短距离15，本段决策为 u1*(A)= B2。再按计算顺序反推可得最优决策序列{uk},即u1*(A)= B2， u2*(B2)= C1, u3*(C1)= D1, u4*(D1)= E
动态规划的基本概念和基本原理
各个阶段决策确定后，整个问题的决策序列就构成一个策略，用p1,n(u1,u2,…un)表示。对每个实际问题，可供选择的策略有一定的范围，称为允许策略集合，用P表示。使整个问题达到最优效果的策略就是最优策略。
动态规划的基本概念和基本原理
状态转移方程动态规划中本阶段的状态往往是上一阶段的决策结果。如果给定了第k段的状态sk ，本阶段决策为uk(sk) ，则第k+1段的状态sk+1 由公式： sk+1=Tk（ sk， uk）确定，称为状态转移方程。
动态规划
（Dynamic Programming)
多阶段决策过程的最优化（简介）动态规划的基本概念和基本原理动态规划模型的解题步骤
动态规划简介
动态规划——解决多阶段决策过程最优化的一种数学方法。
“动态”——随着“时间”过程的发展而决定各时段的决策，产生一个决策序列。
1951年，R.Bellman《动态规划》提出：“最优化原理”------ 把多阶段过程转化为一系列相互联系的单阶段问题，逐个求解。
B到C的最短路
逆序递推法
用逆序递推法求例1的最短路
k 1
2 A4
3
k 2
7
B1 7
8
3
B2
5 6
6
B3
8 7
k 3
k 4
C1 4
6 D1 4
3 C2 5
E
23
C3
D2 3
用逆序递推方法求解，逐步求出各段各点到E的最短路线，最后求得A点到E点的最短路线。
当k=4时，f4(D1)表示在第4段由D1到E的最短距离，故有f4(D1)=4 。同理， f4(D2)=3。
后部子过程的指标函数
fk (sk ) ——表p示k ,第n k到阶终段止状时态的为最s佳k 效且益采值取。最优策略
fk(sk) V k,n (sk,p k ,n )op V k,n ( tsk,p k,n )
p k,n P k,n
动态规划的基本思想与基本原理
最短路的重要性质：
逆
序
C
递
推
B
法
A A到C的最短路
动态规划中的状态变量满足如下3个特性：（1）代表性。能够反映过程的演变特性。（2）可知性。能够通过某种方式，直接或间接地确定（3）无后效性。
动态规划的基本概念和基本原理
决策和策略（Decision and Policy）
当各段的状态确定以后，就可以做出不同的决定（或选择），从而确定下一阶段的状态，这种决定称为决策。决策变量用 uk(sk)表示，允许决策集合用Dk(Sk)表示。
动态规划的模型的建立
动态规划模型的构成正确选择阶段变量正确选择状态变量，状态变量需满足条件：
（1）代表性；（2）可知性；（3）无后效性。
正确选择决策变量列出状态转移方程列出指标函数，它具有按阶段可加性列出函数基本方程。
增加产量
成本降低库存费增加
按月分阶段，全年分为12个阶段逐次决策
一年总费用最低
？
动态规划的基本概念和基本原理
动态规划的基本概念
无后效性即未来与过去无关
阶段 k ,( k 1 ,2 , ,n )
状态、状态变量 s k 、状态空间 S k
决策 uk (sk )、允许决策集合 Dk (sk ) 策略 p 1 ,n { u 1 ( s 1 )u 2 ,( s 2 ) ,,u n ( s n )}
f3 (C 2 ) m in d d 3 3 ( (C C 2 2 ,,D D 1 2 ) ) ff4 4 ( (D D 1 2 )) m in 5 3 3 4 7
C2到最终点最短距离为7，最短路线： C2——D1——E 相应决策为 u3*(C2)= D1
f3(C 3) m in d d 3 3( (C C 3 3 ,,D D 1 2 )) ff4 4 ((D D 1 2 )) m in 3 2 3 4 6
状态转移（方程）sk1Tk(sk,uk) 指标函数
动态规划的基本概念和基本原理
阶段（Stage）将所给问题的过程，按时间或空间特征分
解成若干个相互联系的阶段，以便按次序去求每阶段的解，常用k表示阶段变量。
动态规划的基本概念和基本原理
状态（State）各阶段开始时的客观条件叫做状态。描述
C3到最终点最短距离为6，最短路线： C3—D1（D2）—E 相应决策为 u3*(C3)= D1（D2）
依此类推，可得： k=2时，有 f2(B1)= 14 u2*(B1)= C2 (C3 ) f2 (B2)=11 u2*(B2)= C1 f2 (B3)=13 u2*(B3)= C3 k=1时，只有一种状态A，则
动态规划模型分类
1、离散确定型； 2、离散随机型； 3、连续确定型； 4、离散随机型；
应用
最短路问题资源分配问题生产调度问题库存问题排序问题设备更新问题生产过程最优控制问题
多阶段决策过程最优化
多阶段决策过程是指这样一类特殊的活动过程，他们可以按时间顺序分解成若干相互联系的阶段，在每个阶段都要做出决策，全部过程的决策是一个决策序列，所以多阶段决策问题也称为序贯决策问题。
所以最优路线：
A— B2 —C1—D1—E
7
A
2 4 3
B1 7
B2
385 6
6
B3
8 7
C1 4
Байду номын сангаас
6 3 C2 5
D1 4
E
23
C3
D2 3
动态规划的函数基本方程
动 f态k(s规k)本划m 方的程函d ik数(s n k基,u f{ 5 k()s 5)f k 0 1(sk 1)}k 边界4 条,3 件,2 ,1
这种递推关系称为动态规划的函数基本方程。其一般形式为：
fk(s k) m in { d k(s k,u k f) n 1 ( fs k n 1 1 ( ) s k 1 0 )} k n ,n 1 ,......,1
动态规划方法基本思想总结
将多阶段决策过程划分为阶段，恰当选取状态变量、决策变量及定义最优指标函数，从而把问题化为一族同类型的子问题，逐个求解。
多阶段决策过程最优化问题举例
1、最短路问题：运输网络如下图，求从A到E的最短路。
第2 A 14
阶3 段
7
B1 7
B2
3第285 阶6
6段
B3
8 7
C1 4
C2
第6 阶335
2段3
C3
D1 第4 4 阶
D2 段3
第 E5
阶段
2、生产与存储问题
某厂每月供应市场一定数量的产品，如何安排每月的产量？