随机动态规划

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

动态规划 Dynamic Programming(DP) ( )
u2 s2 0 1 2 3 4
≥5
(2/3) f3( s2 + u2 )+(1/3) f3( s2 - u2 )
0 0 0 0 2/3 2/3 1
1 0 4/9 4/9 8/9
2
3
4
f2(s2) 0 0
u*2
… … 1,2 , 0,2,3 , , 1 0, ≤ s3 - 5 ,
动态规划 Dynamic Programming(DP) ( )
动态规划在经济管理中的应用
随机动态规划简介 随机动态规划不同于确定型动态规划之处在于其下一阶段的状 态不是由当前阶段的状态以及决策完全确定。确切地说, 态不是由当前阶段的状态以及决策完全确定。确切地说,下一阶段 的状态是什么,服从一个概率分布。不过, 的状态是什么,服从一个概率分布。不过,这个概率分布仍由当前 阶段的状态以及决策完全确定。由此, 阶段的状态以及决策完全确定。由此,我们得到随机动态规划的基 本结构。下图给出了这种结构的形象描绘: 本结构。下图给出了这种结构的形象描绘:
7
动态规划 Dynamic Programming(DP) ( )
s3 f3(s3) u*3
0 0 …
1 0 …
2 0 …
3 2/3 2,3 ,
4 2/3 1,2,3,4 , , ,
≥5
1 0,≤ s3 - 5 ,
k=2
u2 s2 0 1 2 3 4
≥5
s2 = 0,1,2,3,4,5,6 , , , , , ,
sk+1 = sk + uk 次投资确实成功。 第 k 次投资确实成功。 sk - uk 次投资确实失败。 第 k 次投资确实失败。
5、定义阶段指标值(函数): 、定义阶段指标值(函数): 成功的概率为 2/3,失败的概率为 1/3。 , 。
4
动态规划 Dynamic Programming(DP) ( )

0 1
s4 < 5 s4 ≥ 5
9、逆序递推求解随机动态方程。 9、逆序递推求解随机动态方程。 k=3 s3 = 0,1,2,3,4,5,…,12 , , , , , , ,
s3 f3(s3) u*3
0 0 …
1 0 …
2 0 …
3 2/3 2,3 ,
4 2/3 1,2,3,4 , , ,
≥5
1 0,≤ s3 - 5 ,
6、定义fk( sk ):第 k 次投资时拥有可用于投资的资金数量 sk ,并 、定义 ):第 百万元利润的最大概率。 一直投资到第 3 次投资结束后公司获得 2 百万元利润的最大概率。 我们应该注意到这样一个事实——即使前两次投资失败了,公司仍 即使前两次投资失败了, 我们应该注意到这样一个事实 即使前两次投资失败了 k+1阶段 阶段 百万元的利润。 然有机会最终赢得 2 百万元的利润。 7、随机动态规划的基本结构图: 、随机动态规划的基本结构图:
(2/3) f3( s2 + u2 )+(1/3) f3( s2 - u2 )
0 0 0 0 2/3 2/3 1
1 0 4/9 4/9 8/9
2
3
4
f2(s2) 0 0
u*2
… … 1,2 , 0,2,3 , , 1 0, ≤ s3 - 5 , 8
4/9 2/3 2/3 2/3 2/3 2/3
4/9 2/3 8/9 1
3
动态规划 Dynamic Programming(DP) ( )
1、阶段 k :第 k 次投资,k = 1,2,3 、 次投资, , , 2、状态变量 sk :第 k 次投资时拥有可用于投资的资金数量。 次投资时拥有可用于投资的资金数量。 、 3、决策变量 uk :第 k 次投资的资金数量。 次投资的资金数量。 、 决策集合 Dk(sk)= { uk | uk = 0,1,2,…, sk } , , , , 4、状态转移方程: 、状态转移方程:
4/9 2/3 2/3 2/3 2/3 2/3
4/9 2/3 8/9 1
k=1
s1 = 3
u2 (2/3) f2( s1 + u1 )+(1/3) f2( s1 – u1 ) f 1 ( s1 ) 0 1 2 3
s2 3
u*1
1
9
2/3
20/27
2/3
2/3
20/27
动态规划 Dynamic Programming(DP) ( )
N
vN
sNk+1
f k ( sk ) =
uk ∈ Dk(sk) i =1
N
opt
{ ∑ pi(vi+ fk+1( sik+1 ) )} k = n-1,…,2,1 , , , pivi }
fk+1( sNk+1 )
f n( sn) =
un ∈ Dn(sn) i =1
opt
{ ∑
2
动态规划 Dynamic Programming(gramming(DP) ( )
k+1阶段 阶段
随机动态规划的基本结构图
v1
k阶段 阶段 sk
s1k+1
fk+1( s1k+1 )
s2k+1
opt
决策
p1 p2 uk … pN v2 …
fk+1( s2k+1 ) …
f k ( sk )
uk ∈ Dk(sk)
随机动态规划的基本方程: 随机动态规划的基本方程:
失败 s2=2,u*2=1 成功 s3=3 or 4,u*3=2,3 or 1,…,4 , , , , , u*2=2 失败 s3=1 or 0,投资失败。 ,投资失败。
10
s2 3
u2 (2/3) f2( s1 + u1 )+(1/3) f2( s1 – u1 ) f 1 ( s1 ) 0 1 2 3 2/3 20/27 2/3 2/3 20/27
u*1
1
于是,我们有最优策略: 于是,我们有最优策略:
成功 s2=4,u*2=1 , s1=3,u*1=1 , 成功 s3=5,u*3=0 , 失败 s3=3,u*3=2 or 3 ,
k阶段 阶段 决策
sk+ uk
max
( ∑ )
sk f k ( sk )
uk uk =0,1,…,sk , , ,
fk+1( sk + uk ) sk- uk fk+1( sk - uk )
5
动态规划 Dynamic Programming(DP) ( )
8、随机动态方程: 、随机动态方程:
fk(sk)= max {(2/3) fk+1( sk + uk )+(1/3) fk+1( sk - uk )} ( ) ( ) uk =0,1,…,sk , , , k = 3,2,1 , , f 4 ( s4 ) =
下面我们通过一个例子来具体阐述如何求解动态规划问题。请看案例 下面我们通过一个例子来具体阐述如何求解动态规划问题。请看案例——
某公司相信对一个开发项目进行投资会取得成功。 某公司相信对一个开发项目进行投资会取得成功。若投资成功 的话,公司就可以获得与投资数额相同的利润,若投资失败的话, 的话,公司就可以获得与投资数额相同的利润,若投资失败的话, 公司非但得不到利润,就连投资也完全不能收回。 公司非但得不到利润,就连投资也完全不能收回。公司对有关资料 详细分析后认为,每次投资成功的概率为 详细分析后认为,每次投资成功的概率为 2/3,失败的概率为 1/3。 , 。 百万元, 目前公司对此项目进行投资的总资金有 3 百万元,为了有效控制投 资风险,公司计划分三次投入资金(如果有资金的话)。 三次投入资金 )。公司需要 资风险,公司计划分三次投入资金(如果有资金的话)。公司需要 作出的决策是每次应投入多少资金(以百万元为单位), ),才能使三 作出的决策是每次应投入多少资金(以百万元为单位),才能使三 次投资结束后公司最终获得 2 百万元利润(即最终拥有 5 百万元总 百万元利润( 资金) 概率最大。 资金)的概率最大。

0 1
s4 < 5 s4 ≥ 5
6
动态规划 Dynamic Programming(DP) ( )
fk(sk)= max {(2/3) fk+1( sk + uk )+(1/3) fk+1( sk - uk )} ( ) ( ) uk =0,1,…,sk , , , k = 3,2,1 , , f 4 ( s4 ) =
相关文档
最新文档