动态规划多阶段决策过程最优化推广

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

动态规划多阶段决策过程最优化推广
温大伟;谢文环
【摘要】动态规划是求解多阶段决策过程的一种数学方法,把多阶段决策过程一分为二,综合应用顺序解法和逆序解法去求解效果会更好,并具有一定可行性.
【期刊名称】《甘肃高师学报》
【年(卷),期】2018(023)002
【总页数】3页(P7-9)
【关键词】动态规划;最优化原理;最短路径问题
【作者】温大伟;谢文环
【作者单位】兰州城市学院数学学院,甘肃兰州730070;兰州工业学院公寓管理中心,甘肃兰州730050
【正文语种】中文
【中图分类】O221.4
1 引言
动态规划是用来求解多阶段决策过程的一种最优化方法.20世纪50年代初由美国数学家贝尔曼(R.Bellman)等人在研究多阶段决策过程的优化问题时提出了著名的最优化原理[1,4],把多阶段过程转化为一系列单阶段问题,逐个求解,创立了解决这类问题的新方法——动态规划.[1-6]动态规划必须对具体问题进行具体的分析研究,去建立模型并求解.以最短路径问题为例,把一个多阶段决策问题一分为
二,变成两个(甚至更多)多阶段决策问题,综合应用顺序解法和逆序解法去处理问题,[1]相比较单独使用顺序解法或逆序解法效果更好,对大型的问题具有一定的优势和可行性.
2 动态规划的推广模型
最优性定理[1,4] 设阶段数为n的多阶段决策过程,其阶段编号为 k=0,1,2,…,n-1,允许策略
为最优策略的充要条件是对任意一个k(0<k<n-1)和s0∈S0 有
式中它是由给定的初始状态s0和子策略P0,k-1所确定的k段状态.当V是效益函数时,opt取max;当V是损失函数时,opt取min.
一般情况,第k阶段与第k+1阶段的递推关系可写为
边界条件为fn+1(sn+1)=0.这种递推关系式称为动态规划的基本方程.[1]
对动态规划的方法进行推广.首先动态规划方法有逆序解法和顺序解法,其关键是写出递推关系,递推方式有逆推和顺推两种.一般当初始状态给定时用逆推;当终止状态给定时用顺序.假设初始和终止状态都给定,把多阶段决策过程以第k阶段的终止状态为界一分为二,变成两个多阶段决策过程,有下面结论.
定理1 设阶段数为n的多阶段决策过程,其阶段编号为k=1,2,…,n,以第k 阶段的终止状态为界,分成两个多阶段决策过程,前阶段决策过程和后阶段决策过程各自最优子策略合并后策略的最优策略是多阶段决策过程的最优策略.
证明设前阶段决策过程用顺序解法的基本方程为
边界条件为f0(s1)=0,后阶段决策过程用逆序解法的基本方程为
边界条件为
根据第k阶段的终止状态sk+1∈Sk+1的划分,fk(sk+1),fk+1(sk+1)分别为前阶段决策过程在状态sk+1∈Sk+1和后阶段决策过程在同一状态的最优子策略,由动态规划的最优性定理可知整个多阶段决策过程的最优策略为
其中sk+1∈Sk+1.
3 模型检验
例1 根据路径图(图1)求A到G的最短路径.
图1 路径图
解:把问题以第3阶段终止状态为界一分为二,即前阶段决策过程A→D(D1,D2,D2)和后阶段决策过程G→D(D1,D2,D3).
前阶段决策过程A→D(D1,D2,D2)用顺序解法可得:
前阶段和后阶段最优子策略合并后的策略的最优策略为:
则最短路径为
从上述方法的计算可以看出综合应用顺序解法和逆序解法的方法解决多阶段决策过程,虽然计算量相差不大,但是把一个大型的多阶段决策过程最优化问题化为两个或几个小型的问题求解,使得问题变得更加简洁明了,这也为解决较为复杂的规划问题提供了一种新思路,并具有一定可行性.
参考文献:
[1]教材编写组.运筹学[M].北京:清华大学出版社,2005:193-202.
[2]谬慧芬,邵小兵.动态规划算法的原理及应用[J].中国科技信息,2005,(21):42.
[3]宿洁,刘家仕.多阶段投资动态规划模型[J].中国管理科学,2001,9(3):55
-61.
[4]刘光中.动态规划理论及其应用[M].成都:成都科技大学出版社,1991:20-47.
[5]张钊,裴燕玲,张仁宝.动态规划的正向递推方法[J].中国工程科学,2005,72(2):62-65.
[6]幕德俊,戴冠中,佟明安.动态规划的并行化方法[J].西北工业大学学报,2000,18(3):360-362.。

相关文档
最新文档