部分可观察马尔可夫决策过程研究进展.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0引言
部分可观察马尔可夫决策过程 (partially observable Markov decision processes , POMDP 描述的是当前世界模型部分可知的情况下,智能体 Agent Agent 的例如, 足球运动员在球场上踢足球, 每个球员并不完全清楚他周围的所有状态, 当他向前带球的过程中, 他可能知道在他前面人的位置和状态, 但是可能不知道在他后面的其他队友的位置和状态, 此时他观察到的信息是不完整的, 但是一个优秀的足球运动员往往靠着一种感觉传给他身后的最有利的队员, 使其进行最有利的进攻,
过程就是部分可观察马尔可夫决策过程。在部分可感知模型中, 不仅要考虑到状态的不确定性, 同时还要考虑到动作的不确定性,这种世界模型更加能够客观的描述真实世界, 因此应用十分广泛。
本文综述了目前在 POMDP 领域的研究情况, 介绍了 MDP 的数学理论基础和决策模型, 以及一种典型的 POMDP 决策算法-值迭代算法, 介绍了目前现有的几种经典的决策算法, 并分析它们之间的优点和不足, 列举了一些 POMDP 常见的应用领域, 并进行了总结和展望。
1马尔可夫决策过程
Agent 每一个时刻都要做一些决策, 做决策时不仅要考虑甚至是其它 Agents (Markov decision process , MDP 的最优解, MDP 可以用一个四元组
<
, >来描述 [1]
:
:Agent
的行为集;
, :
×:当 Agent
在状态 ,
可能转移到状态的概率,
使用 |
:→ 情况下
采用动作
-2116-
-2117
-
, Agent 使 Agent 选择的动作能够获得
在 MDP 模型中, Agent
在
为折扣因子,
其目标是让期望值有界
(1
由于 MDP 决策过程中, 要同时考虑世界模型的不确定性和目标的长远性,
需要在策略
时刻,
状态
的情况下,
值函数构造如下
=
,
=
,
*,也就是 Agent 每个时刻都能做到的最优决策, 根据 Bellman
最优策略公式可以得到。根据贪婪策略
*
=arg
max ,
*
1
(4
=
max
,
*
(5
最优策略的通常使用值迭代算法 [2], 具体的算法步骤如下步骤 1 初始化 V 1(s =0,
假定一个任意小的数值
=
max
,
1
得到 V t (S ; 步骤 3判断下式, 如果结果为真, 则进入步骤 4; 否则返回步骤 2;
‖
1
‖
<
步骤 4
对于每个 s ∈ S ,
取 =arg
max
,
1
由于下式可以知道, 值迭代算法所求出来的策略将是最优策略
max
*
(6
2POMDPs
在 POMDP 模型中, Agent 必须利用随机环境中部分观察在每个时间点上, Agent 都可能是众多可能状态中的某一状态, 它必须利用现有的部分信息、 [1,3]。一般情况下, POMDP 可以用一个六元组 <
,
, >来描述,
其中
、与 MDP
一样。 ,
:
×
£ºA gent 它可计算出采
用动作
:Agent
使用
来描述 Agent
处在
用以下的形式来进行描述 [4,5
]
:
×
→
;
→
、行
为
得到,
具体的过程根据贝叶斯计算如下
,
,
,
,
,
Pr , =
Pr ,
Pr ,
,
策略
Agent 世界模型
s
a
图
2MDP 决策
t 时刻状态 S t
t+1时刻状态 S t+1 T
函数
R
选取动作报酬
值
选取动作报酬值图 3
POMDP 模型
状态评估 (SE
图 4
决策
行动
信念
观察
状态
a
b
o
s
a'
b'
o'
s' R (s, a O (s', a, o T (s, a, s' b (s
-2118
-
Pr
,
=Pr ,
,
=Pr
, Pr
,
=
,
,
=
,
,
=
, ,
(8
以前的观点来解决 POMDP 问题时, 由于必须知道历史动作才能决定当前的动作, 这种解决方案是非马尔可夫链, 然而当引入信念状态空间后, POMDP 问题就可以转化为基于信念状态空间的马尔可夫链来求解。
通过信念状态空间的引入, POMDP 问题可以看成 Belief MDP 问题
[3]
。寻求一种最优策略将当前的信念状态映射到
Agent 的行动上, 根据当前的信念状态和行为就可以决定下一个周期的信念状态和行为,
具体描述如下
,
=Pr(b' ∣ a,b
=