动态规划基本原理

合集下载

动态规划的基本原理和基本应用

动态规划的基本原理和基本应用动态规划（Dynamic Programming）是一种通过将一个问题分解为较小的子问题并存储子问题的解来解决复杂问题的方法。

动态规划的基本原理是通过记忆化或自底向上的迭代方式来求解问题，以减少不必要的重复计算。

它在计算机科学和数学中具有广泛的应用，尤其是在优化、组合数学和操作研究等领域。

1.确定最优子结构：将原问题分解为较小的子问题，并且子问题的最优解能够推导出原问题的最优解。

2.定义状态：确定存储子问题解的状态变量和状态方程。

3.确定边界条件：确定初始子问题的解，也称为边界状态。

4.递推计算：利用状态方程将子问题的解计算出来，并存储在状态变量中。

5.求解最优解：通过遍历状态变量找到最优解。

1.背包问题：背包问题是动态规划的经典应用之一、它有多种变体，其中最基本的是0/1背包问题，即在限定容量的背包中选择物品，使得所选物品的总价值最大。

可以使用动态规划的思想来解决背包问题，确定状态为背包容量和可选物品，递推计算每个状态下的最优解。

2. 最长递增子序列：最长递增子序列（Longest Increasing Subsequence）是一种常见的子序列问题。

给定一个序列，找到其中最长的递增子序列。

可以使用动态规划来解决这个问题，状态可以定义为以第i个元素为结尾的最长递增子序列的长度，并递推计算每个状态的解。

3.矩阵链乘法：矩阵链乘法是一种优化矩阵连乘计算的方法。

给定一系列矩阵，求解它们相乘的最小计算次数。

可以使用动态规划解决矩阵链乘法问题，状态可以定义为矩阵链的起始和结束位置，递推计算每个状态下最小计算次数。

4.最短路径问题：最短路径问题是在有向图或无向图中找到两个节点之间最短路径的问题。

可以使用动态规划解决最短路径问题，状态可以定义为起始节点到一些节点的最短距离，递推计算每个状态的最优解。

动态规划的基本原理和基本概念

)
=
max/
min
n

d
j
(S
j
,
x
j

)
j=k

7)指标递推方程（动态规划的基本方程）：
fk (Sk ) = max/ min{dk (Sk , xk ) + fk+1(Sk+1)}, k = 1,2,..., n

f
n+1
(Sn+1
)
=
0
例投资金额分配问题．某公司有4百万元资金需要投资，有三个投资项目可以选择。经市场调查预测，如果向项目 i 投资 j 百万元，则每年
所得到的利润（万元/年）因投资额的不同而有差异，如下表所示。问
应如何投资才能使总的利润最大？
投资额
利润
0
1
2
3
4
项目
项目1
0
16 25 30 32
项目2
0
12 17 21 22
项目3
0
10 14 16 17
解：令每给一个项目考虑投资多少资金为一个决策阶段,则该投资
决策问题可分为三个阶段.决策顺序为:
最优决策
0 1 1
2 2,3
目标值
0 12 22
27 31
项目1（阶段1）：
状态 0 4 0+31
决策
1
2
3
16+27 25+22* 30+12
4 32+0
最优决策
2
目标值
47
S1
x1 S2
x2
S3
x3
47 4
31 4

动态规划算法原理和实现

动态规划算法原理和实现动态规划是解决某些优化问题的一种算法思想，它主要针对的是那些可以分解成子问题的大问题，因此也被称作分治法。

动态规划算法的核心思想是将大问题分解成一个个小问题，然后逐步求解这些小问题并将它们组合成原问题的解。

本文将简单介绍动态规划算法的原理和实现。

一、动态规划算法的原理为了更好地理解动态规划算法的原理，我们可以以一个实例为例：假设有一个背包，它最多能装W重量的物品，现在有n种不同的物品，每种物品都有自己的重量w和价值v。

我们需要选择哪些物品放入背包中，以使得背包中物品的总价值最大。

这是一个典型的动态规划问题。

首先，我们可以把问题分解成子问题：设f(i,j)表示前i种物品放入一个容量为j的背包可以获得的最大价值。

因此，我们可以得到以下状态方程式：f(i,j) = max{f(i-1,j), f(i-1,j-w[i])+v[i]} （1≤i≤n,1≤j≤W）其中，f(i-1,j)表示不放第i种物品的最大价值，f(i-1,j-w[i])+v[i]表示放入第i种物品的最大价值。

因此，当我们计算出f(i,j)时，我们就得到了「前i种物品放入容量为j的背包的最大价值」，这也就是原问题的解。

这样，我们就可以使用动态规划算法来计算出最优解。

具体来说，我们从0开始，逐个计算出f(i,j)的值，直到计算出f(n,W)为止。

此外，我们还需要注意以下几点：1. 在计算f(i,j)的时候，我们需要使用到f(i-1,j)和f(i-1,j-w[i])这两个状态，因此我们需要先计算出f(1,j)，在此基础上计算f(2,j)，以此类推。

2. 对于一些特殊的情况，我们需要单独处理。

比如当背包容量小于某种物品重量时，我们就无法放入该物品。

3. 我们在计算f(i,j)时，有许多状态是可以复用的。

比如，当我们计算出f(i-1,j)后，我们就可以直接使用这个值来计算f(i,j)，而无需重新计算。

二、动态规划算法的实现上面我们已经介绍了动态规划算法的核心思想和实现原理，下面我们来看看具体的实现过程。

动态规划算法的详细原理及使用案例

动态规划算法的详细原理及使用案例一、引言动态规划是一种求解最优化问题的算法，它具有广泛的应用领域，如机器学习、图像处理、自然语言处理等。

本文将详细介绍动态规划算法的原理，并提供一些使用案例，以帮助读者理解和应用这一算法的具体过程。

二、动态规划的基本原理动态规划算法通过将问题分解为多个子问题，并利用已解决子问题的解来求解更大规模的问题。

其核心思想是利用存储技术来避免重复计算，从而大大提高计算效率。

具体来说，动态规划算法通常包含以下步骤：1. 定义子问题：将原问题分解为若干个子问题，这些子问题具有相同的结构，但规模更小。

这种分解可以通过递归的方式进行。

2. 定义状态：确定每个子问题的独立变量，即问题的状态。

状态具有明确的定义和可计算的表达式。

3. 确定状态转移方程：根据子问题之间的关系，建立状态之间的转移方程。

这个方程可以是简单的递推关系式、递归方程或其他形式的方程。

4. 解决问题：使用递推或其他方法，根据状态转移方程求解每个子问题，直到获得最终解。

三、动态规划的使用案例1. 背包问题背包问题是动态规划算法的经典案例之一。

假设有一个背包，它能容纳一定重量的物品，每个物品有对应的价值。

目的是在不超过背包总重量的前提下，选取最有价值的物品装入背包。

这个问题可以通过动态规划算法来求解。

具体步骤如下：（1）定义问题：在不超过背包容量的限制下，选取物品使得总价值最大化。

（2）定义状态：令dp[i][j]表示将前i个物品放入容量为j的背包中所能获得的最大价值。

（3）状态转移方程：dp[i][j] = max(dp[i-1][j-w[i]]+v[i], dp[i-1][j])，其中w[i]为第i个物品的重量，v[i]为第i个物品的价值。

（4）解决问题：根据状态转移方程依次计算每个子问题的解，并记录最优解，直到获得最终答案。

2. 最长公共子序列最长公共子序列（Longest Common Subsequence，简称LCS）是一种经典的动态规划问题，它用于确定两个字符串中最长的共同子序列。

动态规划算法在路径规划中的应用

动态规划算法在路径规划中的应用路径规划在日常生活中随处可见，比如搜索最短路线、规划旅游路线、寻找交通路线等等。

其中，动态规划算法被广泛应用于路径规划领域，可解决诸如最短路径、最小花费路径等问题。

这篇文章将介绍动态规划算法在路径规划中的应用。

一、动态规划算法的基本原理动态规划算法是一种求解多阶段决策问题的优化方法。

它将问题分成多个子问题，并分别求解这些子问题的最优解。

最后通过不断合并子问题的最优解得到原问题的最优解。

其基本思想可以用以下三个步骤来概括：1.确定状态：将原问题分解成若干个子问题，每个子问题对应一个状态。

2.确定状态转移方程：确定每个状态之间的转移关系。

3.确定边界条件：确定初始状态和结束状态。

动态规划算法通常包括两种方法：自顶向下的记忆化搜索和自底向上的迭代法。

其中，自顶向下的记忆化搜索依赖于递归调用子问题的解，而自底向上的迭代法则通过维护状态表来解决问题。

二、动态规划算法在路径规划中的应用路径规划是动态规划算法的一个重要应用场景。

动态规划算法可以用来求解最短路径、最小花费路径、最大价值路径等问题。

这里以求解最短路径为例，介绍动态规划算法在路径规划中的应用。

1.问题定义假设我们需要从城市A走到城市B，中途经过若干个城市。

每个城市之间的距离已知，现在需要求出从城市A到城市B的最短路径。

这个问题可以用动态规划算法来求解。

2.状态定义在这个问题中，我们可以用一个二元组(u, v)表示从城市u到城市v的一条路径。

因此，在求解最短路径问题时，我们需要进行状态定义。

通常情况下，状态定义成一个包含一个或多个变量的元组，这些变量描述了在路径中的某个位置、某种状态和其他有关的信息。

在这个问题中，状态定义为S(i,j)，它表示从城市A到城市j的一条路径，该路径经过了城市集合{1, 2, …, i}。

3.状态转移方程状态转移方程描述了相邻状态之间的关系，即从一个状态到另一个状态的计算方法。

在求解最短路径问题时，状态转移方程可以定义为：d(i, j) = min{d(i-1, j), d(i, k) + w(k, j)}其中，d(i,j)表示从城市A到城市j经过城市集合{1, 2, …, i}的最短路径长度。

动态规划-动态规划-美国数学家贝尔曼-动态规划领域

物品
1 2 … j …n
重量（公斤/件） a1 a2 … aj … an
每件使用价值 c1 c2 … cj … cn
类似问题：工厂里的下料问题、运输中的货物装载问题、人造卫星内的物品装载问题等。
生产决策问题：企业在生产过程中，由于需求是随时间变化的，因此企业为了获得全年的最佳生产效益，就要在整个生产过程中逐月或逐季度地根据库存和需求决定生产计划。
描述状态的变量称为状态变量，它可用一个数、一组数或一向量（多维情形）来描述，第k阶段的状态变量常用sk表示，通常一个阶段有若干个状态。
第k阶段的状态就是该阶段所有始点的集合，用Sk表示。在第1阶段状态变量s1是确定的，称初始状态。如引例中:
S1 A，S2 B1, B2, B3，S3 C1,C2,C3，S4 D1, D2
min
4
9
12
决策点为B3
AB3
f2
B3
3 9*
f1(A)=12说明从A到E的最短距离为12，最短路线的确定可按计算顺序反推而得。即
A→B3→C2→D2→E 上述最短路线问题的计算过程，也可借助于图
形直观的表示出来：
12 2 A4
3
11
B1
7 4
6
93
B2 2
4
96
B3
2 5
6
C1 3
多阶段决策过程特点：
（1）根据过程的特性可以将过程按空间、时间等标志分为若干个互相联系又互相区别的阶段。
（2）在每一个阶段都需要做出决策，从而使整个过程达到最好的效果。
（3）在处理各阶段决策的选取上，不仅只依赖于当前面临的状态，而且还要注意对以后的发展。即是从全局考虑解决局部（阶段）的问题。

动态规划算法原理与的应用

动态规划算法原理与的应用动态规划算法是一种用于求解最优化问题的常用算法。

它通过将原问题划分为子问题，并将每个子问题的解保存起来，以避免重复计算，从而降低了问题的时间复杂度。

动态规划算法的核心思想是自底向上地构建解，以达到求解整个问题的目的。

下面将介绍动态规划算法的原理以及一些常见的应用。

1.动态规划算法的原理1)将原问题划分为多个子问题。

2)确定状态转移方程，即找到子问题之间的关系，以便求解子问题。

3)解决子问题，并将每个子问题的解保存起来。

4)根据子问题的解，构建整个问题的解。

2.动态规划算法的应用2.1最长公共子序列1) 定义状态：假设dp[i][j]表示序列A的前i个字符和序列B的前j个字符的最长公共子序列的长度。

2) 确定状态转移方程：若A[i] == B[j]，则dp[i][j] = dp[i-1][j-1] + 1；若A[i] != B[j]，则dp[i][j] = max(dp[i-1][j],dp[i][j-1])。

3) 解决子问题：从前往后计算dp数组中每个元素的值。

4) 构建整个问题的解：dp[m][n]即为最终的最长公共子序列的长度，其中m和n分别为序列A和序列B的长度。

2.2背包问题背包问题是指给定一个背包的容量和一些物品的重量和价值，要求在不超过背包容量的情况下，选择若干物品放入背包中，使得背包中物品的总价值最大。

该问题可通过动态规划算法求解，具体步骤如下：1) 定义状态：假设dp[i][j]表示在前i个物品中选择若干物品放入容量为j的背包中，能够获得的最大价值。

2) 确定状态转移方程：考虑第i个物品，若将其放入背包，则dp[i][j] = dp[i-1][j-wi] + vi；若不将其放入背包，则dp[i][j] = dp[i-1][j]。

3) 解决子问题：从前往后计算dp数组中每个元素的值。

4) 构建整个问题的解：dp[n][C]即为最终的背包能够获得的最大价值，其中n为物品的个数，C为背包的容量。

经济学动态规划

d2(B2,C1)+f3(C1)=4+11=15 d2(B2,C2)+f3(C2)=4+15=19 d2(B2,C3)+f3(C3)=6+8=14
=14
最小费用路线为B2-C3－D2－E
相应的最优决策u2(B2)=C3
f2(B3)=min
d2(B3,C1)+f3(C1)=1+11=12 d2(B3,C3)+f3(C3)=6+8=14
4 3
A
11
3
B1 4
4
4
B2
6
1
6
B3
C1
9
7
8
C2
12
5
C3
D1
5
3
E
D2
A-B1-C2-D1-E A-B2-C1-D2-E
均为策略
第一节动态规划原理和模型
允许策略集合：可供选择策略的范围最优策略：允许策略集合中最优的一个策略在例1中最优策略为： A-B1-C3-D2-E
4 3
A
11
3
B1 4
=12
最小费用路线为B3-C1－D2－E
相应的最优决策u2(B3)=C1
第二节动态规划求解方法
(4) S1={A} f1(A)=min
d1(A,B1)+f2(B1)=4+12=16 d2(A,B2)+f2(B2)=3+14=17 d3(A,B3)+f2(B2)=11+12=22
=16
最小费用路线为A-B1-C3－D2－E 相应的最优决策u1(A)=B1 所以整个问题的最小费用路线为A-B1-C3-D2-E 最优策略为{u1(A)=B1,u2(B1)=C3,u3(C3)=D2,u4(D2)=E}

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

我们设 G[i]为点 i 到点 D 的距离，显然 G[C1]=4，G[C2]=3，G[C3]=5，根据上面的分析，有： G[B1]=min{G[C1]+3，G[C2]+2}=5， G[B2]=min{G[C2]+7，G[C3]+4}=9，再就有 G[A]=min{G[B1]+5，G[B2]+2}=10，所以 A 到 D 的最短距离是 10，最短路径是 AB1C2D。二、动态规划的术语 1．阶段把所给求解问题的过程恰当地分成若干个相互联系的阶段，以便于求解，过程不同，阶段数就可能不同．描述阶段的变量称为阶段变量。在多数情况下，阶段变量是离散的，用 k 表示。此外，也有阶段变量是连续的情形。如果过程可以在任何时刻作出决策，且在任意两个不同的时刻之间允许有无穷多个决策时，阶段变量就是连续的。在前面的例子中，第一个阶段就是点 A，而第二个阶段就是点 A 到点 B，第三个阶段是点 B 到点 C，而第四个阶段是点 C 到点 D。 2．状态状态表示每个阶段开始面临的自然状况或客观条件，它不以人们的主观意志为转移，也称为不可控因素。在上面的例子中状态就是某阶段的出发位置，它既是该阶段某路的起点，同时又是前一阶段某支路的终点。在前面的例子中，第一个阶段有一个状态即 A，而第二个阶段有两个状态 B1 和 B2 ，第三个阶段是三个状态 C1，C2 和 C3，而第四个阶段又是一个状态 D。过程的状态通常可以用一个或”一组数”来描述，称为状态变量。一般，状态是离散的，但有时为了方便也将状态取成连续的。当然，在现实生活中，由于变量形式的限制，所有的状态都是离散的，但从分析的观点，有时将状态作为连续的处理将会有很大的好处。此外，状态可以有多个分量(多维情形)，因而用向量来代表；而且在每个阶段的状态维数可以不同。当过程按所有可能不同的方式发展时，过程各段的状态变量将在某一确定的范围内取值。状态变量取值的集合称为状态集合。 3．无后效性
推边界的时候，就可以用递推的方式去实现，而有的时候用递归的方式则比较容易写出递归关系式。动态规划是一种记忆化搜索，将中间计算的结果保存在数组之中，避免之后的重复运算，提高了效率，这也是动态规划与递归递推的不同之处所在。例二最长不下降子序列设有一个正整数的序列： b1, b2, …bn, 对于下标 i1<i2<…ih, 若有 bi1<bi2<…<bih，则称存在一个长度为 h 的不下降序列例如，下列数 3，18，7，14，10，12，23，41，16，24。若存在 i1<i2<i3< … < ie 且有 a(i1)<a(i2)< … <a(ie)则称为长度为 e 的不下降序列。如上例中 3，18，23，24 就是一个长度为 4 的不下降序列，同时也有 3，7，10，12，16，24 长度为 6 的不下降序列。程序要求，当原数列给出之后，求出最长的不下降序列。算法分析：按照自底向上分析的思路，由后往前进行搜索： 1、对 b(n)来说，由于它是最后一个数，所以当从 b(n)开始查找时，只存在长度为 1 的不下降序列； 2、若从 b(n-1)开始查找，则存在下面的两种可能性： ① 若 b(n-1)<b(n)则存在长度为 2 的不下降序列 b(n-1)，b(n)。 ② 若 b(n-1)>b(n)则存在长度为 1 的不下降序列 b(n-1)或 b(n)。设 F(i) 为前 i 个数中的最大不下降序列，则 F(i) 为之前所有节点中最大的一个 +1,即： F(1)、F(2)、F(3)……F(i-3)、F(i-2)、F(i-1)中最大的一个加上 1。注意：并不是 F(i-1)+1。 F(I) = Max{F(j)+1 | j < I 且 bj <= bi}(其中 i<n，j=i+1,i+2,……，n)，边界是 F(1)=1; 例三：buy low,buy lower 例四：最短路径如图所示是城市道路示意图，每条边上的数字为该段街道的长度。求从 A 点到 B 点的最短路径长度（只能往上和往右走）
动态规划基本原理
近年来，涉及动态规划的各种竞赛题越来越多，每一年的 NOI 几乎都至少有一道题目需要用动态规划的方法来解决；而竞赛对选手运用动态规划知识的要求也越来越高，已经不再停留于简单的递推和建模上了。要了解动态规划的概念，首先要知道什么是多阶段决策问题。一、多阶段决策问题如果一类活动过程可以分为若干个互相联系的阶段，在每一个阶段都需作出决策(采取措施)，一个阶段的决策确定以后，常常影响到下一个阶段的决策，从而就完全确定了一个过程的活动路线，则称它为多阶段决策问题。各个阶段的决策构成一个决策序列，称为一个策略。每一个阶段都有若干个决策可供选择，因而就有许多策略供我们选取，对应于一个策略可以确定活动的效果，这个效果可以用数量来确定。策略不同，效果也不同，多阶段决策问题，就是要在可以选择的那些策略中间，选取一个最优策略，使在预定的标准下达到最好的效果. 让我们先来看下面的例子：如图所示的是一个带权有向的多段图，要求从 A 到 D 的最短
wi : 5 6 8 11 12 最大价值为：95 分析：如果想用贪心，先求出平均价值，然后从高到低的方法来取，如果有一个背包的容量为 10，共有 3 个物品，体积分别是 3、 3、 5，价值分别是 6、 6、 9，那么你的方法取到的是前两个物品，总价值是 12，但明显最大值是后两个物品组成的 15。因此贪心的方法不能得到正确结果。换一个更简单的方式来思考：每个物品只有 2 种选择，要么放入，要么不放入。（1）放入：问题转换为在背包载重为 m-wi 的情况下，在其它 n-1 件物品中挑选，求得价值和最大。等把这个子问题求出后，再加上 vi 的价值就是整个问题的最优解了。（2）没放入：那么就当 xi 根本不存在，直接解物品数量为 n-1，背包载重为 m 的子问题。子问题的最优解就是问题的最优解。定义函数 f(i,j)为在 1~i 件物品中选若干件装入限重为 j 的背包中的最大价值和，那么根据上面关于第 i 件物品是否装入了背包的情况分析，我们得出关系式： (1)当第 I 件物品要装入背包时，f(i,j) := (i-1 件物品，限重为 j-w[i]的最优解)+ v[i], 即： f(i,j) := f(i-1, j-w[i]) + v[i] 当然，第 i 件物品要装入是有条件限制的：第 i 件物品重量小于等于背包限重，即 w[i] <= j （2）当第 i 件物品不装入背包时，f(i,j) :=i-1 件物品，限重为 m 的最优解，即： f(i,j) := f(i-1, j) 求得装入或者不装入第 i 件物品的限重为 J 的背包的最大价值，只需要比较这两种情况下谁的价值更大，更大者为当前问题的最优解。 f(i,j)=max{ f(i-1, j-w[i]) + v[i] , f(i-1, j) } f(i,0)=0。在按自底向上的动态规划方式求解问题时，其实主要就是做一件事：按问题规模从小到大地求解问题，把每阶段求得的问题的最优解保存在表格（数组）中，以便在下一阶段求解更大的问题时，可以直接查表引用子问题的最优解。（类似于递推）阶段的分析：该方程递归结束的边界条件是：当 j=0 时，
线性动归阶段性动归树形动归多维空间动归二、例题：一般类试题（简单）例一数塔问题图示出了一个数字三角形。请编一个程序计算从顶至底的某处的一条路径，使该路径所经过的数字的总和最大。 ●每一步可沿左斜线向下或右斜线向下走； ●1＜三角形行数≤100； ●三角形中的数字为整数 0，1，…99；７３８８１０２７４４４５２６５分析：如果采用贪心的方法，从起点 7 出发，选择 7—8—1—7—5 这条路径得到的和是 25，显然不是最优解，7—3—8—7—5 得到的和是 30。所以不能用贪心的方法；如果用枚举搜索的方法，则当三角形的行数 n 过大时，时间上不可行。从顶点出发时到底向左走还是向右走并不取决于左右哪边的数字大，而取决于：左下和右下哪边累加下来的数字最大，只有左右两道路径上的最大值求出来了才能作出决策。同样的道理下一层的走向又要取决于再下一层上的最大值是否已经求出才能决策。这样一层一层推下去，直到倒数第二层时就非常明了。如数字 2，只要选择它下面较大值的结点 5 前进就可以了。所以实际求解时，可从底层开始往上推，层层递进，最后得到最大值。数据结构：用 f[i,j]表示在 i、j 这个位置能取得的最大值，a[i,j]表示当前位置的值。则: f[i,j]=max{f[i+1,j]，f[i+1,j+1] }+a[i,j] 以上的方法就是使用的动态规划的思想，动态规划严格来说并不是一种算法，它既可以用递推的方式实现，也可以用递归的方式实现，当问题比较简单，容易找出递推关系和递
我们要求状态具有下面的性质：如果给定某一阶段的状态，则在这一阶段以后过程的发展不受这阶段以前各段状态的影响，所有各阶段都确定时，整个过程也就确定了。换句话说，过程的每一次实现可以用一个状态序列表示，在前面的例子中每阶段的状态是该线路的始点，确定了这些点的序列，整个线路也就完全确定。从某一阶段以后的线路开始，当这段的始点给定时，不受以前线路（所通过的点）的影响。状态的这个性质意味着过程的历史只能通过当前的状态去影响它的未来的发展，这个性质称为无后效性。 4．决策一个阶段的状态给定以后，从该状态演变到下一阶段某个状态的一种选择（行动）称为决策。在最优控制中，也称为控制。在许多问题中，决策可以自然而然地表示为一个数或一组数。不同的决策对应着不同的数值。描述决策的变量称决策变量，因状态满足无后效性，故在每个阶段选择决策时只需考虑当前的状态而无须考虑过程的历史。决策变量的范围称为允许决策集合。 5．策略由每个阶段的决策组成的序列称为策略。对于每一个实际的多阶段决策过程，可供选取的策略有一定的范围限制，这个范围称为允许策略集合。允许策略集合中达到最优效果的策略称为最优策略。给定 k 阶段状态变量 x(k)的值后，如果这一阶段的决策变量一经确定，第 k+1 阶段的状态变量 x(k+1)也就完全确定，即 x(k+1)的值随 x(k)和第 k 阶段的决策 u(k)的值变化而变化，那么可以把这一关系看成(x(k)，u(k))与 x(k+1)确定的对应关系，用 x(k+1)=Tk(x(k),u(k))表示。这是从 k 阶段到 k+1 阶段的状态转移规律，称为状态转移方程。 6．最优性原理作为整个过程的最优策略，它满足：相对前面决策所形成的状态而言，余下的子策略必然构成“最优子策略”。最优性原理实际上是要求问题的最优策略的子策略也是最优。让我们通过对前面的例子再分析来具体说明这一点：从 A 到 D，我们知道，最短路径是 AB1C2D，这些点的选择构成了这个例子的最优策略，根据最优性原理，这个策略的每个子策略应是最优： AB1C2 是 A 到 C2 的最短路径，B1C2D 也是 B1 到 D 的最短路径……事实正是如此，因此我们认为这个例子满足最优性原理的要求。