第07章 动态规划 《运筹学》PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最优路径问题 资源分配问题 排序问题 投资问题 装载问题 生产计划与库存问题 生产过程的最优控制等
动态规划
模型分类
离散确定型 离散随机型 连续确定型 连续随机型
§1 多阶 段决 策过 程的 最优
化
多阶段决策问题
(Multi-Stage decision process)
决策u1 决策u2
决策uk
32
维护费
8 8 9 9 10 6 6 8 8 10 5 6 8 9 5 5 6 4 54Βιβλιοθήκη 新设备购置费 5050
52 52 55 60
旧设备折价
20 15 10 5 2 30 25 20 15 10 31 26 21 15 33 28 20 35 30
40
§1 多阶 段决 策过 程的 最优
化
3)连续生产过程的控制 问题:一般化工生产过程中,
本章 内容
多阶段决策过程的最优化 动态规划的基本概念和基本原理 动态规划模型的建立与求解 动态规划在经济管理中的应用 马氏决策规划简介
创始时间 创始人
上个世纪50年代
美国数学家贝尔曼 (Richard. Bellman)
是运筹学的一个主要分支 是解决多阶段决策过程的最优化的一
种方法多阶段决策过程: 多阶段决策过程的最优化的目标: 达到整个活动过程的总体效果最优 •主要用于解决:
不过,实际中尚有许多不包含时间 因素的一类“静态”决策问题,就其本 质而言是一次决策问题,是非动态决策 问题,但是也可以人为地引入阶段的概 念当作多阶段决策问题,应用动态规划 方法加以解决。
§1 多阶 段决 策过 程的 最优
化
4)资源分配问题:便属于这类静 态问题。如:某工业部门或公司,拟对 其所属企业进行稀缺资源分配,为此需 要制定出收益最大的资源分配方案。这 种问题原本要求一次确定出对各企业的 资源分配量,它与时间因素无关,不属 动态决策,但是,我们可以人为地规定 一个资源分配的阶段和顺序,从而使其 变成一个多阶段决策问题(后面我们将 详细讨论这个问题)。
§2 动态 规划 的基 本概 念和 基本 原理
(三)决策、决策变量和允许决策集合
所谓决策,就是确定系统过程发展的方案。 决策的实质是关于状态的选择,是决策者从给定 阶段状态出发对下一阶段状态作出的选择。
用以描述决策变化的量称之决策变量和状态 变量一样,决策变量可以用一个数,一组数或一 向量来描述,也可以是状态变量的函数,记以
例3:某工厂生产A、B、C三种产品, 都使用某种原材料,现有原材料4吨。 江不同数量的这种原料分配给各种 产品时产生的收益如表所示,试确 定使总收益最大的分配法。
ABC 0 000 1 10 6 8 2 17 17 11 3 20 18 11
§1 多阶 段决 策过 程的 最优
化
5)运输网络问题:如图7-1所 示的运输网络,点间连线上的数字 表示两地距离(也可是运费、时间 等),要求从A至F的最短路线。
§2 动态 规划 的基 本概 念和 基本 原理
一、动态规划的基本概念
使用动态规划方法解决 多阶段决策问题,首先要将实 际问题写成动态规划模型,同 时也为了今后叙述和讨论方便, 这里需要对动态规划的下述一 些基本术语进一步加以说明和 定义:
§2 动态 规划 的基 本概 念和 基本 原理
(一) 阶段和阶段变量
月份
123456
交货量
(百件) 1 2 5 3 2 1
§1 多阶 段决 策过 程的 最优
化
2) 设 备 更 新 问 题 : 一 般 企 业
用于生产活动的设备,刚买来时故障 少,经济效益高,即使进行转让,处 理价值也高,随着使用年限的增加, 就会逐渐变为故障多,维修费用增加, 可正常使用的工时减少,加工质量下 降,经济效益差,并且,使用的年限 越长、处理价值也越低,自然,如果 卖去旧的买新的,还需要付出更新 费.因此就需要综合权衡决定设备的 使用年限,使总的经济效益最好。
常包含一系列完成生产过程的设 备,前一工序设备的输出则是后 一工序设备的输入,因此,应该 如何根据各工序的运行工况,控 制生产过程中各设备的输入和输 出,以使总产量最大。
§1 多阶 段决 策过 程的 最优
化
以上所举问题的发展过程都与时间 因素有关,因此在这类多阶段决策问题 中,阶段的划分常取时间区段来表示, 并且各个阶段上的决策往往也与时间因 素有关,这就使它具有了“动态”的含 义,所以把处理这类动态问题的方法称 为动态规划方法。
作sk,终止状态记为sk+1。但为了清楚
起见,通常定义阶段的状态即指其初 始状态。
§2 动态 规划 的基 本概 念和 基本 原理
2.可能状态集
一般状态变量的取值有一定的范围或允许集 合,称为可能状态集,或可达状态集。可能状态 集实际上是关于状态的约束条件。通常可能状态
集用相应阶段状态sk的大写字母Sk表示,sk∈Sk,
§2 动态 规划 的基 本概 念和 基本 原理
(二)状态、状态变量和可能状态 集
1. 状 态 与 状 态 变 量 。 用 以 描 述 事 物(或系统)在某特定的时间与空间域 中所处位置及运动特征的量,称为状 态。反映状态变化的量叫做状态变量。 状态变量必须包含在给定的阶段上确 定全部允许决策所需要的信息。按照 过程进行的先后,每个阶段的状态可 分为初始状态和终止状态,或称输入 状态和输出状态,阶段k的初始状态记
§1 多阶 段决 策过 程的 最优
化
2.多阶段决策问题举例
属于多阶段决策类的问题很多, 例如:
1)工厂生产过程:由于市场需求 是一随着时间而变化的因素,因此, 为了取得全年最佳经济效益,就要在 全年的生产过程中,逐月或者逐季度 地根据库存和需求情况决定生产计划 安排。
§1 多阶 段决 策过 程的 最优
策略(Policy)也叫决策序列.策略有全过
程策略和k部子策略之分,全过程策略是指具有 n个阶段的全部过程,由依次进行的n个阶段决
策构成的决策序列,简称策略,表示为
p1,n{u1,u2,…,un}。从k阶段到第n阶段,依次进 行的阶段决策构成的决策序列称为k部子策略, 表示为pk,n{uk,uk+1,…,un} ,显然当k=1时的k部
离为3。
(2) 过 程 指 标 函 数 ( 也 称 目 标 函 数 ) 。 用
Rk(sk,uk)表示第k子过程的指标函数。如图71的Rk(sk,uk)表示处于第k段sk状态且所作决 策为uk时,从sk点到终点F的距离。由此可见, Rk(sk,uk)不仅跟当前状态sk有关,还跟该子 过程策略pk(sk)有关,因此它是sk和pk(sk)的 R函k (s数k ,,pk严(s格k ))说来,应表示为:
系统在阶段k处于状态sk,执行决策uk(sk) 的结果是系统状态的转移,即系统由阶段k的 初始状态sk转移到终止状态sk+1 ,或者说,系 统 由 k 阶 段 的 状 态 sk 转 移 到 了 阶 段 k+1 的 状 态 sk+1,多阶段决策过程的发展就是用阶段状态 的相继演变来描述的。
对于具有无后效性的多阶段决策过程,系 统由阶段k到阶段k+1的状态转移完全由阶段k 的状态状s态1,ssk2和,…决,策sku-1k及(s其k)所决确策定u1(,s1与),系u统2(s过2)去…u的k1(sk-1)无关。系统状态的这种转移,用数学公 式描述即有:
uk= uk(sk),表示于阶段k状态sk时的决策变量。
决策变量的取值往往也有一定的允许范围,
称之允许决策集合。决策变量uk(sk)的允许决策 集用Uk(sk)表示, uk(sk)∈ Uk(sk)允许决策集合
实际是决策的约束条件。
§2 动态 规划 的基 本概 念和 基本 原理
(四)策略和允许策略集合
sk 1 Tk (sk ,uk (sk )) (7-1)
§2 动态 规划 的基 本概 念和 基本 原理
通常称式(7-1)为多阶段决策过程的状 态转移方程。有些问题的状态转移方程 不一定存在数学表达式,但是它们的状 态转移,还是有一定规律可循的。
(六) 指标函数 用来衡量策略或子策略或决策的效 果的某种数量指标,就称为指标函数。 它是定义在全过程或各子过程或各阶段 上的确定数量函数。对不同问题,指标 函数可以是诸如费用、成本、产值、利 润、产量、耗量、距离、时间、效用, 等等。例如:图7—1的指标就是运费。
子策略就是全过程策略。
在实际问题中,由于在各个阶段可供选择 的决策有许多个,因此,它们的不同组合就构 成了许多可供选择的决策序列(策略),由它们
组成的集合,称之允许策略集合,记作P1,n ,
从允许策略集中,找出具有最优效果的策略称 为最优策略。
§2 动态 规划 的基 本概 念和 基本 原理
(五)状态转移方程
为了便于求解和表示决策及过程的 发展顺序,而把所给问题恰当地划分为 若干个相互联系又有区别的子问题,称 之为多段决策问题的阶段。一个阶段, 就是需要作出一个决策的子问题,通常, 阶段是按决策进行的时间或空间上先后 顺序划分的。用以描述阶段的变量叫作 阶段变量,一般以k表示阶段变量.阶 段数等于多段决策过程从开始到结束所 需作出决策的数目,图7—1所示的最短 路问题就是一个四阶段决策过程。
这种运输网络问题也是静态决 策问题。但是,按照网络中点的分 布,可以把它分为5个阶段,而作 为多阶段决策问题来研究。
§1 多阶 段决 策过 程的 最优
化
本章 内容
多阶段决策过程的最优化 动态规划的基本概念和基本原理 动态规划模型的建立与求解 动态规划在经济管理中的应用 马氏决策规划简介
决策un
状态
x1
阶段1状x态 2
阶段2状x3态...状x态 k
阶段k状x态k+1...状态
状
阶段n 态
T1
T2
Tk
xn
Tn xn+1
§1 多阶 段决 策过 程的 最优
化
1.多阶段决策过程的最优化
动态规划方法与“时间”关系很密切, 随着时间过程的发展而决定各时段的决策, 产生一个决策序列,这就是“动态”的意思。 然而它也可以处理与时间无关的静态问题, 只要在问题中人为地引入“时段”因素,就 可以将其转化为一个多阶段决策问题。在本 章中将介绍这种处理方法。
可能状态集可以是一离散取值的集合,也可以为 一连续的取值区间,视具体问题而定.在图7—1
所示的最短路问题中,第一阶段状态为A,状态 变量s1的状态集合S1={A};第二阶段则有两个状 态:B1 ,B2, 状态变量s2的状态集合S2={B1 ,B2} ; 第三阶段有四个状态:C1 ,C2 ,C3 ,C4状态变量s3 的状态集合S3={C1 ,C2 ,C3 ,C4} ;第四阶段则有 三个状态: D1 ,D ,D3 , 状态变量s4的状态集合 S4={C1 ,C2 ,C3 } ;第五阶段则有两个状态E1 ,E2 状态变量s5的状态集合S5={E1 ,E2},
化
例1:某厂与用户签订了如表所示
的交货合同,表中数字为月底的交 货量。该厂的生产能力为每月400 件,该厂仓库的存货能力为300件。
已知每百件货物的生产费用为 10000元。在进行生产的月份,工 厂还要支付经常费4000元。仓库保 管费为每百件货物每月1000元。假 设开始时及6月底交货后无存货。
§2 动态 规划 的基 本概 念和 基本 原理
不过实际应用中往往表示为
R各k(段sk,指uk标)或函R数k(s有k)关。还,跟过第程k指子标过函程数上 R后k(部sk子)通过常程是效描果述优所劣实的现数的量全指过标程,或它k 是 累积由形各成阶的段,的适阶于段用指动标态函规数划gk(求sk解,u的k)
例2:下表给出了某单位的预测数据, 现决定考虑到1998年(n=5),试作5 年内的设备更新计划
产品年代 1993
1994
1995 1996 1997 1998
机龄
1 2 3 4 5 0 1 2 3 4 0 1 2 3 0 1 2 0 1
0
收入额
18 16 16 14 14 22 21 20 18 16 27 25 24 22 29 26 24 30 28
§2 动态 规划 的基 本概 念和 基本 原理
(1) 阶 段 指 标 函 数 ( 也 称 阶 段 效 应 ) 。 用
gk(sk,uk)表示第k段处于sk状态且所作决策为 uk(sk)时的指标,则它就是第k段指标函数, 简记为gk 。图7-1的gk值就是从状态sk到状态 sk+1的距离。譬如,gk(A,B1)=4,即A到B1的距
动态规划
模型分类
离散确定型 离散随机型 连续确定型 连续随机型
§1 多阶 段决 策过 程的 最优
化
多阶段决策问题
(Multi-Stage decision process)
决策u1 决策u2
决策uk
32
维护费
8 8 9 9 10 6 6 8 8 10 5 6 8 9 5 5 6 4 54Βιβλιοθήκη 新设备购置费 5050
52 52 55 60
旧设备折价
20 15 10 5 2 30 25 20 15 10 31 26 21 15 33 28 20 35 30
40
§1 多阶 段决 策过 程的 最优
化
3)连续生产过程的控制 问题:一般化工生产过程中,
本章 内容
多阶段决策过程的最优化 动态规划的基本概念和基本原理 动态规划模型的建立与求解 动态规划在经济管理中的应用 马氏决策规划简介
创始时间 创始人
上个世纪50年代
美国数学家贝尔曼 (Richard. Bellman)
是运筹学的一个主要分支 是解决多阶段决策过程的最优化的一
种方法多阶段决策过程: 多阶段决策过程的最优化的目标: 达到整个活动过程的总体效果最优 •主要用于解决:
不过,实际中尚有许多不包含时间 因素的一类“静态”决策问题,就其本 质而言是一次决策问题,是非动态决策 问题,但是也可以人为地引入阶段的概 念当作多阶段决策问题,应用动态规划 方法加以解决。
§1 多阶 段决 策过 程的 最优
化
4)资源分配问题:便属于这类静 态问题。如:某工业部门或公司,拟对 其所属企业进行稀缺资源分配,为此需 要制定出收益最大的资源分配方案。这 种问题原本要求一次确定出对各企业的 资源分配量,它与时间因素无关,不属 动态决策,但是,我们可以人为地规定 一个资源分配的阶段和顺序,从而使其 变成一个多阶段决策问题(后面我们将 详细讨论这个问题)。
§2 动态 规划 的基 本概 念和 基本 原理
(三)决策、决策变量和允许决策集合
所谓决策,就是确定系统过程发展的方案。 决策的实质是关于状态的选择,是决策者从给定 阶段状态出发对下一阶段状态作出的选择。
用以描述决策变化的量称之决策变量和状态 变量一样,决策变量可以用一个数,一组数或一 向量来描述,也可以是状态变量的函数,记以
例3:某工厂生产A、B、C三种产品, 都使用某种原材料,现有原材料4吨。 江不同数量的这种原料分配给各种 产品时产生的收益如表所示,试确 定使总收益最大的分配法。
ABC 0 000 1 10 6 8 2 17 17 11 3 20 18 11
§1 多阶 段决 策过 程的 最优
化
5)运输网络问题:如图7-1所 示的运输网络,点间连线上的数字 表示两地距离(也可是运费、时间 等),要求从A至F的最短路线。
§2 动态 规划 的基 本概 念和 基本 原理
一、动态规划的基本概念
使用动态规划方法解决 多阶段决策问题,首先要将实 际问题写成动态规划模型,同 时也为了今后叙述和讨论方便, 这里需要对动态规划的下述一 些基本术语进一步加以说明和 定义:
§2 动态 规划 的基 本概 念和 基本 原理
(一) 阶段和阶段变量
月份
123456
交货量
(百件) 1 2 5 3 2 1
§1 多阶 段决 策过 程的 最优
化
2) 设 备 更 新 问 题 : 一 般 企 业
用于生产活动的设备,刚买来时故障 少,经济效益高,即使进行转让,处 理价值也高,随着使用年限的增加, 就会逐渐变为故障多,维修费用增加, 可正常使用的工时减少,加工质量下 降,经济效益差,并且,使用的年限 越长、处理价值也越低,自然,如果 卖去旧的买新的,还需要付出更新 费.因此就需要综合权衡决定设备的 使用年限,使总的经济效益最好。
常包含一系列完成生产过程的设 备,前一工序设备的输出则是后 一工序设备的输入,因此,应该 如何根据各工序的运行工况,控 制生产过程中各设备的输入和输 出,以使总产量最大。
§1 多阶 段决 策过 程的 最优
化
以上所举问题的发展过程都与时间 因素有关,因此在这类多阶段决策问题 中,阶段的划分常取时间区段来表示, 并且各个阶段上的决策往往也与时间因 素有关,这就使它具有了“动态”的含 义,所以把处理这类动态问题的方法称 为动态规划方法。
作sk,终止状态记为sk+1。但为了清楚
起见,通常定义阶段的状态即指其初 始状态。
§2 动态 规划 的基 本概 念和 基本 原理
2.可能状态集
一般状态变量的取值有一定的范围或允许集 合,称为可能状态集,或可达状态集。可能状态 集实际上是关于状态的约束条件。通常可能状态
集用相应阶段状态sk的大写字母Sk表示,sk∈Sk,
§2 动态 规划 的基 本概 念和 基本 原理
(二)状态、状态变量和可能状态 集
1. 状 态 与 状 态 变 量 。 用 以 描 述 事 物(或系统)在某特定的时间与空间域 中所处位置及运动特征的量,称为状 态。反映状态变化的量叫做状态变量。 状态变量必须包含在给定的阶段上确 定全部允许决策所需要的信息。按照 过程进行的先后,每个阶段的状态可 分为初始状态和终止状态,或称输入 状态和输出状态,阶段k的初始状态记
§1 多阶 段决 策过 程的 最优
化
2.多阶段决策问题举例
属于多阶段决策类的问题很多, 例如:
1)工厂生产过程:由于市场需求 是一随着时间而变化的因素,因此, 为了取得全年最佳经济效益,就要在 全年的生产过程中,逐月或者逐季度 地根据库存和需求情况决定生产计划 安排。
§1 多阶 段决 策过 程的 最优
策略(Policy)也叫决策序列.策略有全过
程策略和k部子策略之分,全过程策略是指具有 n个阶段的全部过程,由依次进行的n个阶段决
策构成的决策序列,简称策略,表示为
p1,n{u1,u2,…,un}。从k阶段到第n阶段,依次进 行的阶段决策构成的决策序列称为k部子策略, 表示为pk,n{uk,uk+1,…,un} ,显然当k=1时的k部
离为3。
(2) 过 程 指 标 函 数 ( 也 称 目 标 函 数 ) 。 用
Rk(sk,uk)表示第k子过程的指标函数。如图71的Rk(sk,uk)表示处于第k段sk状态且所作决 策为uk时,从sk点到终点F的距离。由此可见, Rk(sk,uk)不仅跟当前状态sk有关,还跟该子 过程策略pk(sk)有关,因此它是sk和pk(sk)的 R函k (s数k ,,pk严(s格k ))说来,应表示为:
系统在阶段k处于状态sk,执行决策uk(sk) 的结果是系统状态的转移,即系统由阶段k的 初始状态sk转移到终止状态sk+1 ,或者说,系 统 由 k 阶 段 的 状 态 sk 转 移 到 了 阶 段 k+1 的 状 态 sk+1,多阶段决策过程的发展就是用阶段状态 的相继演变来描述的。
对于具有无后效性的多阶段决策过程,系 统由阶段k到阶段k+1的状态转移完全由阶段k 的状态状s态1,ssk2和,…决,策sku-1k及(s其k)所决确策定u1(,s1与),系u统2(s过2)去…u的k1(sk-1)无关。系统状态的这种转移,用数学公 式描述即有:
uk= uk(sk),表示于阶段k状态sk时的决策变量。
决策变量的取值往往也有一定的允许范围,
称之允许决策集合。决策变量uk(sk)的允许决策 集用Uk(sk)表示, uk(sk)∈ Uk(sk)允许决策集合
实际是决策的约束条件。
§2 动态 规划 的基 本概 念和 基本 原理
(四)策略和允许策略集合
sk 1 Tk (sk ,uk (sk )) (7-1)
§2 动态 规划 的基 本概 念和 基本 原理
通常称式(7-1)为多阶段决策过程的状 态转移方程。有些问题的状态转移方程 不一定存在数学表达式,但是它们的状 态转移,还是有一定规律可循的。
(六) 指标函数 用来衡量策略或子策略或决策的效 果的某种数量指标,就称为指标函数。 它是定义在全过程或各子过程或各阶段 上的确定数量函数。对不同问题,指标 函数可以是诸如费用、成本、产值、利 润、产量、耗量、距离、时间、效用, 等等。例如:图7—1的指标就是运费。
子策略就是全过程策略。
在实际问题中,由于在各个阶段可供选择 的决策有许多个,因此,它们的不同组合就构 成了许多可供选择的决策序列(策略),由它们
组成的集合,称之允许策略集合,记作P1,n ,
从允许策略集中,找出具有最优效果的策略称 为最优策略。
§2 动态 规划 的基 本概 念和 基本 原理
(五)状态转移方程
为了便于求解和表示决策及过程的 发展顺序,而把所给问题恰当地划分为 若干个相互联系又有区别的子问题,称 之为多段决策问题的阶段。一个阶段, 就是需要作出一个决策的子问题,通常, 阶段是按决策进行的时间或空间上先后 顺序划分的。用以描述阶段的变量叫作 阶段变量,一般以k表示阶段变量.阶 段数等于多段决策过程从开始到结束所 需作出决策的数目,图7—1所示的最短 路问题就是一个四阶段决策过程。
这种运输网络问题也是静态决 策问题。但是,按照网络中点的分 布,可以把它分为5个阶段,而作 为多阶段决策问题来研究。
§1 多阶 段决 策过 程的 最优
化
本章 内容
多阶段决策过程的最优化 动态规划的基本概念和基本原理 动态规划模型的建立与求解 动态规划在经济管理中的应用 马氏决策规划简介
决策un
状态
x1
阶段1状x态 2
阶段2状x3态...状x态 k
阶段k状x态k+1...状态
状
阶段n 态
T1
T2
Tk
xn
Tn xn+1
§1 多阶 段决 策过 程的 最优
化
1.多阶段决策过程的最优化
动态规划方法与“时间”关系很密切, 随着时间过程的发展而决定各时段的决策, 产生一个决策序列,这就是“动态”的意思。 然而它也可以处理与时间无关的静态问题, 只要在问题中人为地引入“时段”因素,就 可以将其转化为一个多阶段决策问题。在本 章中将介绍这种处理方法。
可能状态集可以是一离散取值的集合,也可以为 一连续的取值区间,视具体问题而定.在图7—1
所示的最短路问题中,第一阶段状态为A,状态 变量s1的状态集合S1={A};第二阶段则有两个状 态:B1 ,B2, 状态变量s2的状态集合S2={B1 ,B2} ; 第三阶段有四个状态:C1 ,C2 ,C3 ,C4状态变量s3 的状态集合S3={C1 ,C2 ,C3 ,C4} ;第四阶段则有 三个状态: D1 ,D ,D3 , 状态变量s4的状态集合 S4={C1 ,C2 ,C3 } ;第五阶段则有两个状态E1 ,E2 状态变量s5的状态集合S5={E1 ,E2},
化
例1:某厂与用户签订了如表所示
的交货合同,表中数字为月底的交 货量。该厂的生产能力为每月400 件,该厂仓库的存货能力为300件。
已知每百件货物的生产费用为 10000元。在进行生产的月份,工 厂还要支付经常费4000元。仓库保 管费为每百件货物每月1000元。假 设开始时及6月底交货后无存货。
§2 动态 规划 的基 本概 念和 基本 原理
不过实际应用中往往表示为
R各k(段sk,指uk标)或函R数k(s有k)关。还,跟过第程k指子标过函程数上 R后k(部sk子)通过常程是效描果述优所劣实的现数的量全指过标程,或它k 是 累积由形各成阶的段,的适阶于段用指动标态函规数划gk(求sk解,u的k)
例2:下表给出了某单位的预测数据, 现决定考虑到1998年(n=5),试作5 年内的设备更新计划
产品年代 1993
1994
1995 1996 1997 1998
机龄
1 2 3 4 5 0 1 2 3 4 0 1 2 3 0 1 2 0 1
0
收入额
18 16 16 14 14 22 21 20 18 16 27 25 24 22 29 26 24 30 28
§2 动态 规划 的基 本概 念和 基本 原理
(1) 阶 段 指 标 函 数 ( 也 称 阶 段 效 应 ) 。 用
gk(sk,uk)表示第k段处于sk状态且所作决策为 uk(sk)时的指标,则它就是第k段指标函数, 简记为gk 。图7-1的gk值就是从状态sk到状态 sk+1的距离。譬如,gk(A,B1)=4,即A到B1的距