马尔可夫过程CTMDP,DTMDP,SMDP区别与联系

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

DTMDP 、CTMDP 、SMDP 数学模型联系与区别
(1)DTMDP 数学模型:
可用一个五元组''(,,,,)a a s ss ss M S A P R V =来表示,其中:
S :系统状态集合;
s A :动作集合,反映了agent 在状态s 时可用的动作集;
'a ss P :状态转移概率矩阵,反映了agent 在状态s 时执行动作a 后在下一个时间步转移到状态s ’的概率;
'a ss R :立即奖赏矩阵,反应agent 在状态s 执行动作a 后转移到s ’获得的一步立即奖赏,一般也称之为报酬;
V :目标函数或准则函数,即累积奖赏,决策的目标即使该函数最大化。

对于离散时间MDP 决策过程,可以把每个状态的逗留时间看做一个单位时间,即设决策时刻{0,1,2,...}T =。

t s S ∈表示t 决策时刻的状态,t t s a A ∈表示t T ∈时刻选择的行动,
't a s s p 表示在状态t s 采取行动t a 转移到下一个状态's 的概率,
1t s +表示下一时刻的实际到达的状态,1t r +表示在t+1时刻获得的立即奖赏,也就是在状态t s 采取行动t a 获得的奖赏,目标函数即累积奖赏,一般可采用以下两种形式。

无限折扣和模型:
0()(())()k t t t k k V s E R s E r π
πγ∞
+===∑ 考虑短期回报,和平均奖赏模型:
01()(())(lim )n k t t t k n k V s E R s E r n π
πγ+→∞===∑ 考虑长期平均回报,其中01γ<≤为折扣率。

决策目标是寻找最优的策略π*使agent 获得最大的上述累积奖赏。

(2)CTMDP 数学模型:
对于连续时间MDP 过程,其时间域是连续的,[0,)T =+∞,每个状态的逗留时间服从指数分布,由于指数分布的无记忆性,任意时刻t 都是更新点,在任意时刻都具有马尔可夫性。

对于CTMDP ,代替离散时间模型转移概率矩阵'a
ss P 的是Q 矩阵,即密度矩阵、转移速率矩阵。

因为在一般情况下,掌握转移概率函数矩阵,(())ij i j s P t ∈是不切实际的,但密度矩阵
Q 只涉及转移概率矩阵()ij P t 在t=0处的瞬时值,它常可由实验资料或经验来确定。

而转移概率矩阵()ij P t 可由Kolmogorom 的向后方程或向前方程解得。

在CTMDP 中,代替立即奖赏的是报酬率,即单位时间内获得的报酬。

设用策略π时,系统在t 时刻处于状态i 时决策者获得的报酬率为(,)t r i π。

因此在任一区间[,)s t 决策者获得的报酬为:
(,())t u u u s r i i du π⎰
使用策略(,0)t t ππ=≥,从任意状态i S ∈出发,长期折扣总报酬为:
0(,)(,)(,())t ij t j S u i e p t r j j dt ααπππ∞
-∈=∑⎰ 其中0α>是折扣率因子,(,)ij p t π表示在策略π下状态i 经时间t 转移到状态j 的概率。

其中报酬率(,())t r j j π定义为:
(,())(,)(|)j t t
a A r j j r j a a j ππ∈=
∑ 同样,CTMDP 也可使用平均准则函数模型:
1(,)lim (,)(,())T
ij t T u i p t r j j dt T πππ→∞=⎰。

CTMDP 过程图示如下:
(3)SMDP 的数学模型:
在上图示中,CTMDP 的状态逗留时间t ∆服从指数分布,当t ∆是服从一般分布时,就得到半马尔可夫决策过程SMDP 。

半马尔可夫过程就像连续时间马尔可夫过程一样进行状态转移,但每个状态的逗留时间是任意分布的,并且可能依赖于下一个到达状态,将来取决于现在的状态和在该状态停留的时间,所以此时不是在任意时刻都具有马尔可夫性,但是在状态转移,也就是在决策时刻过程具有马尔可夫性,即在各状态转移时刻半马尔可夫过程是马尔可夫过程。

对于SMDP ,有一个状态转移时间的分布函数(|,,)T i a j ⋅,表达转移时间的分布。

报酬函数r 一般具有如下形式:在状态转移到j ,且转移时间为t 的条件下系统在转移时间段
t T 1
t T +t s 1
t s +t a t ∆ (,())u u u r s s π
[0,]u 中(u t ≤)所获得的报酬为:
123(,,,,)(,,)()(,,)(,,)t r u i a j t r i a j u r i a j r i a j u δ=++
上述形式的报酬函数表示系统在状态i 采取策略a ,下一决策时刻转移到状态j 转移时间为t 的条件下,于转移一开始就获得一项瞬时报酬1(,,)r i a j ,于转移结束时刻(u t =)获得一项瞬时报酬2(,,)r i a j ,在转移途中单位时间内获得的报酬(即报酬率)为3(,,)r i a j 。

具体的报酬函数形式根据具体问题确定。

对于准则函数有期望折扣和报酬和平均期望报酬。

首先定义一个周期1[,)n n T T +开始时所获得的折扣报酬
0(,,,)(,,,,)t
u u r i a j t e d r u i a j t αα-=⎰ 进而折算到时刻0,其值为
(,,,)n T e r i a j t αα-
因此,系统在策略π下,从初始状态i 出发于周期n 获得的期望折扣报酬为
,1{(,,,)}n T i n n n n E e r i a j t απα-+
据此定义SMDP 的N 阶段期望折扣总报酬形式
1
,10(,){(,,,)}n N T N i n n n n n V i E e r i a j t απαπ--+==∑
无穷时段期望折扣总报酬形式
,10(,){(,,,)}n T i n n n n n V i E e r i a j t ααπαπ∞
-+==∑
和平均期望报酬
,1
(,)(,)lim {}N N i N V i V i E T πππ→∞+= 从上述SMDP 的模型及其说明来看,如果转移时间是常数,报酬函数为形式1(,)r i a ,则它就是前面的DTMDP ,因此SMDP 是DTMDP 的推广。

相关文档
最新文档