运筹学第6章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
损益函数一般可表示为: 损益函数一般可表示为
Vk(sk)=Φk(sk,uk, sk+1,uk+1, ..., sn-1,un-1, sn) =Φk(vk(sk, uk), vk+1(sk+1, uk+1), ..., vn) =Φk (sk, uk, Vk+1(sk+1, uk+1)) =Φk (vk(sk, uk), Vk+1(sk+1, uk+1))
3
由 ∂f1 /∂x1 = (4/27){(s1 - x1)3 -3x1 (s1 - x1)2 } ∂ = (4/27)( s1 - x1)2(s1 - 4x1) = 0 最优解为: 最优解为 x1*= (1/4)s1, f1(s1) = (1/64)s14 由初始条件s 可得: 由初始条件 1 = c可得 可得 x1*= c/4 , x2*= c/2 , x3*= c/4 , f1(c) = c4/64
第六章 动态规划
§6.1 动态规划简介 §6.2 动态规划的基本原理 §6.3 动态规划应用举例
§6.2 动态规划的基本方法
使用动态规划方法求解决策问题首 先要将问题改造成符合动态规划求解要 求的形式,要涉及以下概念: 求的形式,要涉及以下概念: (1)阶段 (3)决策与策略 (5)指标函数 (2)状态 (4)状态转移
动态规划的应用
• 动态规划在工程技术 企业管理 军事 动态规划在工程技术, 企业管理, 部门有广泛的应用。 部门有广泛的应用。 可解决资源分配, 生产调度, 可解决资源分配 生产调度 库存 管理, 路径优化, 设备更新, 投资规划, 管理 路径优化 设备更新 投资规划 排序问题和生产过程的最优控制等问 题。
多阶段决策过程的最优化
• 动态规划将复杂的多阶段决策问题分解 为一系列简单的、 离散的单阶段决策问 为一系列简单的 、 采用顺序或逆序求解方法, 题, 采用顺序或逆序求解方法 通过解一 系列小问题达到求解整个问题的目的; 系列小问题达到求解整个问题的目的 • 动态规划的各个决策阶段不但要考虑本 阶段的决策目标, 阶段的决策目标 还要兼顾整个决策过程 的整体目标, 从而实现整体最优决策。 的整体目标 从而实现整体最优决策。
f k ( sk ) = max { p ( xk ) f k +1 ( sk +1 )}
0 ≤ xk ≤ sk
k = 3: f 3 ( s3 ) = max {x3 } = s3 最优解为 x3* = s3 最优解为: 0≤ x ≤ s
3 3
k = 2:
2 2 f2 (s2 ) = max {x2 f3 (s3 )} = max {x2 s3} 0≤ x2 ≤ s2 0≤ x2 ≤ s2 2 2 3 = max {x2 (s2 − x2 )} = max ( x2 s2 − x2 ) 0≤ x2 ≤s2 0≤ x2 ≤s2
建立动态规划模型小结: 建立动态规划模型小结: 1.将问题按时间或空间划分为满足递推 将问题按时间或空间划分为满足递推 关系的若干阶段, 关系的若干阶段 对非时序问题可人为 地引入“时段”概念; 地引入“时段”概念 2.正确选择状态变量 sk, 满足 正确选择状态变量 满足: 可知性: 正确描述动态过程演变, 可知性 正确描述动态过程演变 可 直接或间接确定状态变量的值; 直接或间接确定状态变量的值 无后效性: 无后效性 后面的决策与前面的决策 无关; 无关
(3) 决策与策略
每一阶段都要做出决策,表示从某一阶 每一阶段都要做出决策, 段的某一状态出发进行的选择; 段的某一状态出发进行的选择 状态的决策由决策变量u 在 k 阶段 sk 状态的决策由决策变量 k(sk) 描述, 其取值范围由允许决策集合D 描述 其取值范围由允许决策集合 k(sk) 表示, 表示 即: uk(sk) ∈ Dk(sk)。 。 序列决策构成策略, 序列决策构成策略 只含部分决策的序 列称为子策略, 列称为子策略 记为 pk(sk):
例 6.2 的损益函数是普通的多项 式, 可以用解析法求出它的最优解, 计 可以用解析法求出它的最优解 算比较简单。 算比较简单。如果损益函数的形式比 较复杂, 无法用解析方法求解, 较复杂 无法用解析方法求解 可以将 连续变量离散化后, 连续变量离散化后 用穷举的方法求 解。
动态规划求解的问题应有以下特征: 动态规划求解的问题应有以下特征 对任何阶段 k, 有sk+1= T (sk, uk), sk+1仅 取决于当前状态s 和当前决策u 取决于当前状态 k和当前决策 k, 与 k 阶段前的状态和决策无关, 也即, 阶段前的状态和决策无关 也即 k 阶 段以后的发展不受该阶段以前状态的 影响, 影响 过去的历史只能通过当前状态 来影响今后的发展, 这就是所谓的 无后效性原则” “无后效性原则”;
k=2
f2(2) = min{6+ f3(5), 8+ f3(6), 11+ f3(7) } = min{22*, 23, 28} = 22
f2(3) = min{6+f3(5), 8+f3(6), 7+ f3(7)} = min{22*, 23, 24 } = 22 f2(4) = min{5+f3(5), 7+f3(6), 8+f3(7)} = min{21*, 22, 25 } = 21
最短路的求解: 最短路的求解 阶段: 可分为4个阶段 k = 1, ..., 4。 阶段 可分为 个阶段, 。 个阶段 状态: 可用城市编号, 状态 可用城市编号 S1={1}, S2={2, 3, 4}, S3={5, 6, 7}, S4={8, 9}; 决策: 决策变量也可用城市编号 决策 决策变量也可用城市编号; 状态转移方程: 状态转移方程 sk+1= uk; 损益递推函数: 损益递推函数
最优损益函数为: 最优损益函数为 fk(sk) = opt {Vk(sk)}
常见的损益函数形式有: 常见的损益函数形式有
Vk = ∑ vi ( si , ui ) ;
i=k n
Vk = ∏ vi ( si , ui )
i=k
n
uk sk sk+1 =T(sk,uk) 阶段 k
uk+1 sk+2
阶段 k+1
动态规划的分类
• • • • 离散确定型 离散随机型 连续确定型 连续随机型
动态规划的特点
• 动态规划没有准确的数学表达式和 定义精确的算法, 定义精确的算法 它强调具体问题具 体分析, 依赖分析者的经验和技巧; 体分析 依赖分析者的经验和技巧; • 与运筹学其他方法有很好的互补关 尤其在处理非线性、 系, 尤其在处理非线性、离散性问题 时有其独到的特点。 时有其独到的特点。
由 ∂f2 /∂x2 = 2x2 s2 - 3x22 = 0 可求得最优解 ∂ 为:x2*= (2/3)s2 , f2(s2) = (4/27) s23
k = 1:
f1 (s1 ) = max {x1 f2 (s2 )} = max {x
0≤ x1 ≤ s1 0≤ x1 ≤ s1
4 1 27
(s1 − x1 ) }
例6.2 : 损益函数是乘积形式的问题 max: z = x1 x22 x3 s.t. x1 + x2 + x3 = c ( c > 0 ) xi ≥ 0 , i = 1, 2, 3
• 为确定各个变量的取值,阶段可按变量划 为确定各个变量的取值, 个阶段。 分为 3 个阶段。
• 状态变量 sk 表示第 k 阶段可用资源的数量 阶段可用资源的数量, 要满足s 要满足 k ≤ c; • 决策变量 xk 表示 第k 阶段使用的资源量 阶段使用的资源量; 则有: s1= c, s2= s1- x1, s3= s2 - x2 则有: • 状态转移方程为 sk+1 = sk - xk。 状态转移方程为: • 递推函数为 递推函数为:
pk(sk)={uk(sk), uk+1(sk+1), ... , un-1(sn-1)}
(4) 状态转移
状态转移确定从一个状态到另一个 状态的转移过程, 由状态转移方程描 状态的转移过程 述: sk+1 = T (sk, uk); 状态转移方程在大多数情况下可以 由数学公式表达, 由数学公式表达 如: sk+1 = sk + uk。
(5) 损益函数
动态规划也是一类优化问题, 动态规划也是一类优化问题 存在反映 决策者偏好的损益函数; 决策者偏好的损益函数 vk(sk, uk) 表示从状态 sk 经过决策 uk到 达下一状态后损益函数的变化量; 达下一状态后损益函数的变化量 损益函数应具备可分离性、 递推性和 损益函数应具备可分离性 、 单调性; 单调性;
(1) 划分阶段
把一个复杂决策问题按时间或空 间特征分解为若干(n)个相互联系 间特征分解为若干 个相互联系 的阶段(stage), 以便按顺序求解 以便按顺序求解; 的阶段 表示。 阶段一般用下标 k 表示。
(2) 确定状态
每阶段有若干状态(state), 表示某一阶 每阶段有若干状态 段决策面临的条件, 段决策面临的条件 k 阶段的状态特征 描述; 可用状态变量 sk 或 xk描述 状态有起始、 中间 、 最终状态之分 , 状态有起始 、 中间、 最终状态之分, 每一阶段的全部状态构成该阶段的状 态集合S 并有s 态集合 k,并有 k∈Sk或xk∈Sk。
k=1
f1(1) = min{5+f2(2), 9+f2(3), 7+f2(4)} = min{27*, 31, 28 } = 27
最短路是: 最短路是:1 → 2 → 5 → 8 → 10
计算效率分析: 计算效率分析 个阶段, 对有 7 个阶段 每个阶段有 5 种状 态的最短路径问题, 态的最短路径问题 用穷举法计算要 次比较, 进行 56 = 15625 次加法和 3124 次比较 而动态规划只需105次加法和 84 次比 而动态规划只需 次加法和 计算效率分别提高近150和40倍。 较, 计算效率分别提高近 和 倍
f k ( sk ) = min
i∈Dk j∈Dk +1
{c
ij
+ f k +1 ( sk +1 )}
k=4
f4 (8) = 10, f4 (9) = 14
k=3
f3(5)=min{6+f4(8)=16*, 8+f4(9)=22}=16 f3(6)=min{5+f4(8)=15*, 9+f4(9)=23}=15 f3(7)=min{8+f4(8)=18, 3+f4(9)=17*}=17
vk(sk, uk)
vk(sk+1, uk+1)
Baidu Nhomakorabea
Vk = Φ k(vk(sk, uk), vk+1(sk+1, uk+1), ..., vn-1(sn-1, un-1))
例6.1 :用动态规划求解最短路问题
6 2 8 5 9 1 7 8 5 7 8 4 7 3 9 3 7 11 6 5 8 6 9 14 10 8 8 10 5 6
第六章 动态规划
§6.1 动态规划简介 §6.2 动态规划的基本原理 §6.3 动态规划应用举例
§6.1 动态规划简介
• 动态规划是解决多阶段最优决策的方 由美国数学家贝尔曼(R. Bellman) 法, 由美国数学家贝尔曼 年首先提出; 于 1951年首先提出 年首先提出 • 1957年贝尔曼发表动态规划方面的第 年贝尔曼发表动态规划方面的第 一部专著《动态规划》, 标志着运筹 一部专著《 动态规划》 个新分支的创立。 学的一 个新分支的创立。
第六章
动态规划
• 拾火柴游戏: 拾火柴游戏:
桌子上放30根火柴 桌子上放30根火柴, 每人一次可拾起 根火柴, 1-3根, 谁拾起最后一根火柴谁输, 如果 谁拾起最后一根火柴谁输, 你先选择, 如何保证你能赢得游戏? 你先选择, 如何保证你能赢得游戏? 29-25-21-17-13- 29-25-21-17-13-9-5-1
整个过程的最优策略应具有这样的性 无论过去的状态和决策如何, 质: 无论过去的状态和决策如何 对前 面的决策所形成的状态而言, 面的决策所形成的状态而言 后续的诸 决策必须构成最优策略, 决策必须构成最优策略 这就是动态规 划的“ 最优性原理” 后部子过程最 划的 “ 最优性原理 ” —后部子过程最 优; 前一条成立的条件是损益递推函数严 格单调。 格单调。