管理运筹学07动态规划
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
B3 C2
K=1时:
f1 (A)=min{6+25, 4+32, 8+25}=31, A
确定性动态规划问题
给出Sk 和dk的取值后,状态Sk+1的取值唯
一确定的动态规划问题称为确定性动态规 划问题。确定性动态规划有广泛的应用领 域,这些领域可概括为:
阶段
在多阶段决策过程中,决策点 将整个过程划分为若干部分, 其中的每一部分即为一个阶段。 描述阶段的变量称为阶段变量,
常用 k 来表示。阶段的划分一
般是根据时间和空间的自然特
征来进行的,一个N 个阶段的 多阶段决策问题其阶段变量 k =1,2,,N。
2021/1/20
状态
状态表示每个阶段开始所处的自然状况或客 观条件,它描述了研究问题过程的状况。状 态反映前面各阶段决策的结局,又是本阶段 决策的出发点和依据。状态是各阶段信息的 传递点和结合点,各阶段的状态通常用状态
1.多阶段决策过程 2.Bellman最优性原理 3.动态规划的数学描述 4.例6.1 5.确定性动态规划问题 6.随机性动态规划问题
2021/1/20
多阶段决策过程
多阶段决策问题是指这样一类问题,其整个过程可分 为若干相互联系的阶段,每一阶段都要作出相应的决 策,从而使整个过程达到最佳的活动效果。任何一个 阶段(Stage,决策点)都是由输入(Input)、决策 (Decision)、转移律(Transformation)和输出 (output)构成的,如图6-1(a)所示。由于每一阶段都 对应一个决策,所以每一阶段都应存在一个衡量决策 效益大小的指标函数,这一指标函数称为阶段指标函 数,用gn表示。显然gn是状态变量sn和决策变量dn的 函数,即gn= rn(sn, dn),如图6-1(b)所示。
2021/1/20
阶段指标函数
阶段指标函数是对应某一阶段决策的效率度量,用 gk=rk (Sk, dk)来加以表示。
2021/1/20
过程指标函数
过程指标函数是用来衡量所实现过程优劣的数量指标, 它是定义在全过程(策略)或后续子过程(子策略)
上的数量函数。过程指标函数常用Rk,,N 来表示,构成
2021/1/20
最优指标函数
从第 k 个阶段开始到第 N 个阶段为止,采取 最优策略或最优子策略所得到的指标函数称 为最优指标函数,用 fk (Sk)表示,即:
f k (Sk) = opt (dk) {rk rk+1 rN} = opt(dk) {rk f k+1 (Sk+1)}
当 k=N 时 fk+1 (Sk+1)= fN+1 (SN+1), fN+1 (SN+1)被称为边界条件,它的取值要根据 具体问题来定,一般为 ”0” 或 “1”.
出的选择。决策变量dk(Sk)表示第k 阶 段、状态为Sk时的决策。决策变量的取 值会受到一定的限制,用Dk(Sk)表示第 k 阶段、状态为Sk 时决策变量允许的
取值范围,称为允许决策集合,因而有
dk(Sk) Dk(Sk) 。
2021/1/20
Βιβλιοθήκη Baidu
状态转移律
状态转移律是确定由一个状态到另一个状态演变过程的关系式, 这种演变的对应关系记为Sk+1=Tk (Sk, dk)。
fk(Sk)=min{rk + fk+1(Sk+1)} 其中,边界条件fk+1(Sk+1)=0。
例1的求解
2021/1/20
K=3时:
f3 (C1)=min{15}=15, f3 (C2)=min{16}=16, K=2时:
C1 D C2 D
f2 (B1)=min{12+15, 9+16}=25, B1 C2 f2 (B2)=min{20+15, 16+16}=32, B2 C2 f2 (B3)=min{10+15, 9+16}=25, B3 C1或
2021/1/20
例1
A C
B D
B1
12
9
C1
15
6
A
4
D
B2 20
8
16
2021/1/20
10
2021/1/20
例1的构模
阶段:k=1, 2, 3 状态:选各阶段所处的位置为状态变量,因此有S1= A。 决策:所选择的路线; D1(S1)={ B1, B2, B3 }
状态转移:目前状态一定,选择的线路一定,下一个状 态一定。 阶段指标函数:该阶段行进的路程 过程指标函数:阶段指标函数的和 最优指标函数:
2021/1/20
多阶段决策过程
决策
输入 阶段 输出
2021/1/20
转移律 图6-1(a)
dn
sn(in)
n
sn(out)
gn= rn(sn, dn) 图6-1(b)
多阶段决策过程
d1
d2
s1
s2
1
2
s3 sN
dN sN+1
N
g1
g2
gN
图 6-2 N 阶段决策系统示意图
2021/1/20
Bellman最优性原理
变量Sk来描述。作为状态应具有这样的性质:
在某阶段的状态给定后,该阶段以后过程的 发展不受此阶段以前各阶段状态的影响。换 句话说,过程的历史只能通过当前的状态来 影响未来,当前的状态是过程以往历史的一 2021/1/20 个总结。这个性质称为无后效性或健忘性。
决策
决策是指决策者在若干可行方案中所作
动态规划的过程指标函数应具有可分性并满足递推关
系,即Rk,,N 可表示为rk 和Rk+1,N二者的函数。最常见的
过程指标函数与阶段指标函数的关系有如下两种: 1.过程指标函数是阶段指标函数的和,此时
Rk,,N =rk +Rk+1,N
2.过程指标函数是阶段指标函数的积,此时
Rk,,N =rk Rk+1,N
作为整个过程的最优策略具有这样的性质: 即无论过去的状态和决策如何,对前面的决 策所形成的状态而言,余下的诸决策必须构 成最优子策略。简而言之,一个最优策略的 任一子策略都是最优子策略。
2021/1/20
2021/1/20
动态规划的数学描述
1.阶段 2.状态 3.决策 4.状态转移律 5.策略与子策略 6.阶段指标函数 7.过程指标函数 8.最优指标函数
2021/1/20
策略与子策略
各阶段决策所组成的决策序列称为一个策
略,具有N个阶段的动态规划问题的策略 可表示为{d1(S1), d2(S2), …, dN(SN)}。
从某一阶段开始到过程终点为止的决策序
列,称为子过程策略或子策略。从第k个 阶段起的子策略可表示为{dk(Sk), dk+1(Sk+1), …, dN(SN)}。
K=1时:
f1 (A)=min{6+25, 4+32, 8+25}=31, A
确定性动态规划问题
给出Sk 和dk的取值后,状态Sk+1的取值唯
一确定的动态规划问题称为确定性动态规 划问题。确定性动态规划有广泛的应用领 域,这些领域可概括为:
阶段
在多阶段决策过程中,决策点 将整个过程划分为若干部分, 其中的每一部分即为一个阶段。 描述阶段的变量称为阶段变量,
常用 k 来表示。阶段的划分一
般是根据时间和空间的自然特
征来进行的,一个N 个阶段的 多阶段决策问题其阶段变量 k =1,2,,N。
2021/1/20
状态
状态表示每个阶段开始所处的自然状况或客 观条件,它描述了研究问题过程的状况。状 态反映前面各阶段决策的结局,又是本阶段 决策的出发点和依据。状态是各阶段信息的 传递点和结合点,各阶段的状态通常用状态
1.多阶段决策过程 2.Bellman最优性原理 3.动态规划的数学描述 4.例6.1 5.确定性动态规划问题 6.随机性动态规划问题
2021/1/20
多阶段决策过程
多阶段决策问题是指这样一类问题,其整个过程可分 为若干相互联系的阶段,每一阶段都要作出相应的决 策,从而使整个过程达到最佳的活动效果。任何一个 阶段(Stage,决策点)都是由输入(Input)、决策 (Decision)、转移律(Transformation)和输出 (output)构成的,如图6-1(a)所示。由于每一阶段都 对应一个决策,所以每一阶段都应存在一个衡量决策 效益大小的指标函数,这一指标函数称为阶段指标函 数,用gn表示。显然gn是状态变量sn和决策变量dn的 函数,即gn= rn(sn, dn),如图6-1(b)所示。
2021/1/20
阶段指标函数
阶段指标函数是对应某一阶段决策的效率度量,用 gk=rk (Sk, dk)来加以表示。
2021/1/20
过程指标函数
过程指标函数是用来衡量所实现过程优劣的数量指标, 它是定义在全过程(策略)或后续子过程(子策略)
上的数量函数。过程指标函数常用Rk,,N 来表示,构成
2021/1/20
最优指标函数
从第 k 个阶段开始到第 N 个阶段为止,采取 最优策略或最优子策略所得到的指标函数称 为最优指标函数,用 fk (Sk)表示,即:
f k (Sk) = opt (dk) {rk rk+1 rN} = opt(dk) {rk f k+1 (Sk+1)}
当 k=N 时 fk+1 (Sk+1)= fN+1 (SN+1), fN+1 (SN+1)被称为边界条件,它的取值要根据 具体问题来定,一般为 ”0” 或 “1”.
出的选择。决策变量dk(Sk)表示第k 阶 段、状态为Sk时的决策。决策变量的取 值会受到一定的限制,用Dk(Sk)表示第 k 阶段、状态为Sk 时决策变量允许的
取值范围,称为允许决策集合,因而有
dk(Sk) Dk(Sk) 。
2021/1/20
Βιβλιοθήκη Baidu
状态转移律
状态转移律是确定由一个状态到另一个状态演变过程的关系式, 这种演变的对应关系记为Sk+1=Tk (Sk, dk)。
fk(Sk)=min{rk + fk+1(Sk+1)} 其中,边界条件fk+1(Sk+1)=0。
例1的求解
2021/1/20
K=3时:
f3 (C1)=min{15}=15, f3 (C2)=min{16}=16, K=2时:
C1 D C2 D
f2 (B1)=min{12+15, 9+16}=25, B1 C2 f2 (B2)=min{20+15, 16+16}=32, B2 C2 f2 (B3)=min{10+15, 9+16}=25, B3 C1或
2021/1/20
例1
A C
B D
B1
12
9
C1
15
6
A
4
D
B2 20
8
16
2021/1/20
10
2021/1/20
例1的构模
阶段:k=1, 2, 3 状态:选各阶段所处的位置为状态变量,因此有S1= A。 决策:所选择的路线; D1(S1)={ B1, B2, B3 }
状态转移:目前状态一定,选择的线路一定,下一个状 态一定。 阶段指标函数:该阶段行进的路程 过程指标函数:阶段指标函数的和 最优指标函数:
2021/1/20
多阶段决策过程
决策
输入 阶段 输出
2021/1/20
转移律 图6-1(a)
dn
sn(in)
n
sn(out)
gn= rn(sn, dn) 图6-1(b)
多阶段决策过程
d1
d2
s1
s2
1
2
s3 sN
dN sN+1
N
g1
g2
gN
图 6-2 N 阶段决策系统示意图
2021/1/20
Bellman最优性原理
变量Sk来描述。作为状态应具有这样的性质:
在某阶段的状态给定后,该阶段以后过程的 发展不受此阶段以前各阶段状态的影响。换 句话说,过程的历史只能通过当前的状态来 影响未来,当前的状态是过程以往历史的一 2021/1/20 个总结。这个性质称为无后效性或健忘性。
决策
决策是指决策者在若干可行方案中所作
动态规划的过程指标函数应具有可分性并满足递推关
系,即Rk,,N 可表示为rk 和Rk+1,N二者的函数。最常见的
过程指标函数与阶段指标函数的关系有如下两种: 1.过程指标函数是阶段指标函数的和,此时
Rk,,N =rk +Rk+1,N
2.过程指标函数是阶段指标函数的积,此时
Rk,,N =rk Rk+1,N
作为整个过程的最优策略具有这样的性质: 即无论过去的状态和决策如何,对前面的决 策所形成的状态而言,余下的诸决策必须构 成最优子策略。简而言之,一个最优策略的 任一子策略都是最优子策略。
2021/1/20
2021/1/20
动态规划的数学描述
1.阶段 2.状态 3.决策 4.状态转移律 5.策略与子策略 6.阶段指标函数 7.过程指标函数 8.最优指标函数
2021/1/20
策略与子策略
各阶段决策所组成的决策序列称为一个策
略,具有N个阶段的动态规划问题的策略 可表示为{d1(S1), d2(S2), …, dN(SN)}。
从某一阶段开始到过程终点为止的决策序
列,称为子过程策略或子策略。从第k个 阶段起的子策略可表示为{dk(Sk), dk+1(Sk+1), …, dN(SN)}。