数据、模型与决策 第六章 动态规划
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章 动态规划
数据、模型与决策 (第二版)
6.1.2 动态规划的基本概念
• 阶段 • 状态 • 决策 • 策略 • 状态转移方程 • 指标函数和最优值函数
第六章 动态规划
数据、模型与决策 (第二版)
6.1.3动态规划的基本方程
• 动态规划的方法是从终点逐段向始点方向寻找最短路线的一种方法。
• 当k=4时,由D1到终点E只有一条路线,故f4(D1)=4, f4(D2)=3。
同理,
• 当k=3时,出发点有C1,C2 ,C3三个。若从C1出发,则有两个选择,一 是至D1,一是至D2,则
f3(C1)=min =min =7
• 其相应的决策为u3(C1)= D1,这说明,由C1至终点E的最短距离为7, 其最短路线是C1 D1 E。
• 同理,从C2和C3出发,则有
•
f3(C2)=6
6.1.4 动态规划方法的基本思 想归纳
• (1)动态方法关键在于正确的归纳出基本的递推关系式和恰当的 边界条件(即基本方程)。要做到这一点,必须先将问题的过程 分成几个相互联系的阶段,恰当的选取状态变量和决策变量及定 义最优值函数,从而把一个大问题化成一组同类型的子问题,然 后逐个求解。即从边界条件开始,逐段递推寻优,在每个子问题 的求解中,均利用了它前面的子问题的最优化结果,依次进行, 最后的一个子问题所得到的最优解,就是整个问题的最优解。
• (2)在多阶段决策过程中,动态规划方法是既将当前一阶段和未 来各阶段分开,又将当前效益和未来效益结合起来考虑的一种最
优化方法。因此,每阶段决策的选取是从全局来考虑的,与该段 的最优选择答案一般是不同的。
• (3)在求整个问题的最优策略时,由于初始状态是已知的,而每
阶段的决策都是该阶段状态的函数,故最优决策所进过的各阶段
第六章 动态规划
数据、模型与决策 (第二版)
第六章 动态规划
数据、模型与决策 (第二版)
• 一般情况下,k阶段与k+1阶段的递推关系可写为
•
•
(6-1)
•
k=n,n-1, ,1
• 边界条件为
•
f n+1(sn+1)=0
• 这种递推关系式(x.1)称为动态规划的基本方程。
第六章 动态规划
数据、模型与决策 (第二版)
• 动态规划的方法,在工程技术中、企业管理、工农业 生产及军事等部门都有广泛的应用,并且获得了显著 的效果。
• 动态规划模型的分类,根据多阶段决策过程的时间变 量是离散的还是连续的变量,过程分为离散决策过程
第六和章 动连态规续划决策过程。数据、模型与决策 (第二版)
第六章 动态规划
• 6.1 动态规划的基本概念和基本方程 • 6.2 动态规划应用举例
数据、模型与决策 第六章 动态规划
学习目标
• 动态规划是解决多阶段决策过程最优化 问题的一种方法。
• 明确什么是多阶段的决策问题;理解动 态规划的基本思想和基本方程;理解动
态规划的最优性原理和最优性定理。
• 掌握动态规划在资源分配问题、生产和
存贮问题、采购问题中的应用,并学会
使用动态规划方法分析和解决实际的问
• 其相应的决策为u3(C2)= D2
•
f3(C3)=10
• 其相应的决策为u3(C3)= D1
第六章 动态规划
数据、模型与决策 (第二版)
• 当k=2时,有
•
f2(B1)=12
u2(B1)= C2
•
f2(B2)=11
u2(B2)= C2
•
f2(B3)=9
u2(B2)= C2
• 当k=1时,出发点只有一个A点,则有
题。 第六章 动态规划
数据、模型与决策 (第二版)
第六章 动态规划
• 动态规划(Dynamic Programming,简称DP)是运 筹学的重要分支之一,它是一种研究多阶段决策问题 的最优化理论和方法。大约产生于50年代。1951年美 国数学家贝尔曼(R.Bellman)等人,根据一类多阶段 决策问题的特点,把多阶段决策问题变为一系列互相 联系单阶段问题,然后逐个加以解决。
•
f1(A)=15
u1(A)= B1
• 于是,我们找到从起点A到终点E点的最短距离为15。
• 为了找出最短路线,再按计算的顺序反推之,可求出最优决策函 数序列{u k},即由u1(A)= B1,u2(B1)= C2,u3(C2)= D2, u4(D2)= E组成一个最优策略。因而,找出相应的最短路线为A B1 C2 D2 E。
6.1.1 多阶段决策
• 多阶段决策问题:把一个问题可看作一 个前后关联具有链状结构的多阶段过程 就称为多阶段决策过程,也称序贯决策 过程。
第六章 动态规划
数据、模型与决策 (第二版)
最短路问题
• 下图是一个线路网络图,代表待定的输油管可行路线,A,B,C 代表经过的三个地区,每个地区都有若干个转运点,构成许多不 同的输油路线,转运点间的数字表示点间距离,问应选择那些路 线,使总路线最短?
第六章 动态规划
数据、模型与决策 (第二版)
6.1.5动态规划的最优性原理 和最优性定理
动态规划的最优性定理:
• 设阶段数为n的多阶段决策过程,其阶段编号为k=0,1
,…… ,n-1。允许策略
p dd d 是最优决策的 * ( *, *,....*. )
0,n1
Байду номын сангаас
01
n1
重要条件,对任一个k,0<k<n-1和 s0S0 有
第六章 动态规划
数据、模型与决策 (第二版)
6.1 动态规划的基本概念和 基本方程
• 6.1.1 多阶段决策 • 6.1.2 动态规划的基本概念 • 6.1.3 动态规划的基本方程 • 6.1.4 动态规划的基本思想归纳 • 6.1.5 动态规划的最优性原理和最优性定
理
第六章 动态规划
数据、模型与决策 (第二版)
状态便可逐次变换得到,从而确定了最优路线。
第六章 动态规划
数据、模型与决策 (第二版)
• 步骤:
• (1)将系统分为恰当的阶段,并编号;
• (2)确定状态变量sk,状态集合Sk; • (3)确定决策变量dk(sk),以及允许决策的
集合Dk(Sk); • (4)建立状态转移方程Sk+1=Tk(Sk,uk); • (5)建立指标函数Vk,n的关系。
•
•
•
式中, p p p , ( , )
0,n1
0,k1 k,n1
,当是由给定的初始状态so和子策略p 0 ,k 1所确定的
k段状态。当V是效益函数时,opt取max;当V是损失