决策管理-马尔可夫决策基础理论教材(PDF36页)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

马尔可夫决策基础理论
内容提要
本章介绍与研究背景相关的几类决策模型及算法。

模型部分，首先是最基本的马尔可夫决策模型，然后是在此基础上加入观察不确定性的部分可观察马尔可夫决策模型，以及进一步加入多智能体的分布式部分可观察马尔可夫决策模型和部分可观察的随机博弈模型。

算法部分，针对上述几类模型，我们均按照后向迭代和前向搜索两大类进行对比分析。

最后，我们介绍了半马尔可夫决策模型及Option理论，这一理论为我们后面设计分等级的大规模多智能体系统的决策模型及规划框架提供了重要基础。

2.1 MDP基本模型及概念
马尔可夫决策过程适用的系统有三大特点：一是状态转移的无后效性；二是状态转移可以有不确定性；三是智能体所处的每步状态完全可以观察。

下面我们将介绍MDP基本数学模型，并对模型本身的一些概念，及在MDP模型下进行问题求解所引入的相关概念做进一步解释。

2.1.1 基本模型
马尔科夫决策过程最基本的模型是一个四元组S,A,T,R(Puterman M, 1994)：
♦状态集合S：问题所有可能世界状态的集合；
♦行动集合A：问题所有可能行动的集合；
♦状态转移函数T: S×A×S’→[0,1]: 用T(s, a, s’)来表示在状态s，执行动作
P s s a；
a，而转移到状态s’的概率('|,)
♦报酬函数R: S×A→R:我们一般用R(s,a)来表示在状态s执行动作a所能得到的立即报酬。

虽然有针对连续参数情况的MDP模型及算法，然而本文在没有特殊说明的情况都只讨论离散参数的情况，如时间，状态及行动的参数。

图2.1描述的是在MDP模型下，智能体(Agent)与问题对应的环境交互的过程。

智能体执行行动，获知环境所处的新的当前状态，同时获得此次行动的立即
收益。

图 0.1 MDP 的基本模型
2.1.2 状态
状态是对于在某一时间点对该世界（系统）的描述。

最一般化的便是平铺式表示[]，即对世界所有可能状态予以标号，以s 1,s 2,s 3,…这样的方式表示。

这种情况下，标号状态的数目也就代表了状态空间的大小。

而一种更加自然的方式是因子化表示，因子化是一种面向对象的思想，这种状态表示方式我们会在结合Robocup 的高层设计章节详细讨论。

不同的应用中，人们对状态的具体定义是不一样的，但一般来说，在MDP 中定义的状态必须包括所有当前世界中Agent 能够掌握利用，会对Agent 决策产生影响的信息，这也可做为建模过程中，某些因素要不要加入问题状态表示的依据。

事实上，这些因素，又对应为一些概念，或者说状态变量。

要不要将这些变量加入问题的状态表示中，再或者要不要对概念对应的状态量进行某种拆分或合并，这些问题在建模时都是需要考虑的。

处理的不好，便可能引入大量冗余信息。

目前，也有专门针对这些问题所作的工作，如识别无关状态(Jong N K, Stone P,2005)，聚类等等(Givan R, et al, 2003; Li L H, et al, 2006)。

大多数情况，智能体对自己所处的当前世界的状态不可能有一个完整的认识。

因此，我们引入概率的方法来处理这类信息的不确定性。

我们引入随机变量S t ，随机变量从状态集合S 中取值。

变量S t 并非由未来时刻的状态所决定，而是由过去状态影响，如图2.2 所示。

行动
图 0.2 马尔可夫链
图2.2 所表示的是一离散的、随机的动态系统，图中的每个节点表示在某一时刻的某一状态。

对于随机变量S t, 有Pr(S t|S0,S1,...,S t−1) = Pr(S t|S t−1) ，为一条件概率。

它也同时体现了马尔科夫性质，即S t只是概率依赖于S t−1。

任何两个状态间的关系可以只用两个状态来表示。

同时，我们引入吸收状态这一概念，如果对于某一状态s，执行任何行动，过程都以概率1转移到s本身，则该状态s被称为吸收状态(absorb state)。

2.1.3 行动
Agent 的行动会参与改变当前世界的状态。

MDP的一个关键部分是提供给Agent的用于做决策的行动集合。

当某一行动被执行，世界状态将会发生改变，根据一个已知的概率分布转换为另一状态，这个概率分布也和所执行的动作有关。

不加说明的情况下，我们讨论的是时齐马尔可夫过程，即所有行动的执行时间是相同的，状态转移的时间间隔一致。

这种行动有时也可以被称为系统的原子动作。

在该系统内，行动已对应最小的时间划分，原子动作不可再分割。

比如，在一个棋盘类游戏中，每一步所有的走子方式构成了原子动作的集合。

再比如，在一个实时的机器人运动控制中，离散的最小时间片内，机器人可以选择以一定的离散的角度转向，或者以一定的离散的加速度进行速度控制，这些也构成了在该系统下的原子动作集合。

2.1.4 状态转移函数
状态转移函数描述了系统的动态特性，我们可以做以下比较：
0.5
图 0.3 对给定行动的状态间概率转移图
♦确定环境下的行动：T: S×A→S
在某个状态s 执行动作a 可以得到一个确定的状态；
♦ 随机环境下的行动：T: S×A →Prob(S)
在某个状态s i 下执行某一动作a ，我们得到的是一状态的概率分布(|,)j i P s s a ，也记为(,')a T s s 。

图2.3显示了一个对某给定行动，状态间概率转移的情况。

在简单的问题中，状态转移函数也可以记为表格的形式。

2.1.5 策略与值函数
以上都是对模型本身的一些概念的解释，下面我们介绍在MDP 问题求解过程引入的若干概念。

决策问题的解称为策略(policy)，是从状态集合到动作集合的一个映射，即π : S →A 。

按照策略解决问题的过程是，首先智能体需要知道当前所处状态s ，然后执行策略对应的行动π(s) ,并进入下一状态，重复此过程直到问题结束。

MDP 中假定Agent 通过观察可以完全确定当前所处的状态。

而该假设不能保证的问题属于POMDP 模型解决的对象，将在下一章讨论。

在MDP 某些材料中对策略有如下区分，若动作的选取只和当前的状态有关，而与时间无关，称作平稳策略；相应的，非平稳策略是经时间索引后的一系列状态到行动的集合，也就是说非平稳策略即使对于同样的状态，在过程的不同时刻，可能会对应不同的行动。

我们希望Agent 能够按照某个准则来选择动作以最大化长期的报酬。

比如
有现阶段最优准则，要求最大化有限阶段期望总报酬最大，也就是k -1t t=0maxE R ⎡⎤⎢⎥⎣⎦
∑，其中R t 是Agent 在第t 步得到的报酬。

如果我们处理的是一个无限阶段问题，考虑整个过程中的总报酬，通常会引入一个折扣因子γ，其中0<γ <1。

这样Agent
选择动作所得到的报酬是k-1t t t=0maxE R γ⎡⎤⎢⎥⎣⎦∑。

折扣因子保证了k-1t t t=0maxE R γ⎡⎤⎢⎥⎣⎦
∑的收敛性。

事实上，一个过程本质上是在因果关系下的推进，而并非时间推进本身。

当可以把时间也作为一个变量加入状态描述中时，前面提到过的有限阶段与无限阶段，以及这里的平稳策略与非平稳策略，都可以统一起来理解。

首先，对于有限阶段和无限阶段的问题，长期期望回报是用来评价策略优劣的，理论上它不能出现无穷大的情况，这样将无法比较。

而在所谓的无限阶段中，这一点却很难保证。

事实上，对于一个现实中决策的智能体来说，无限阶段是不存在的，其生存周期决定了这一点。

于是，折扣因子的另一个含义是人为的认定过程在每步执行都有较小的非零的概率1 − γ终止。

这样，该过程能无限进行下去的概率为0，无限
阶段的问题仍是转换成了有限阶段。

因此，两者都是依靠问题的终止状态来结束，并无本质区别。

同样，当时间可以成为状态变量后，平稳策略与非平稳策略也可以统一起来考虑，所谓的靠时间索引的策略也将变成统一的状态到行动的映射了。

在本文后面的部分，无特殊说明的情况下，将不对有限阶段或无限阶段，以及平稳策略或非平稳策略加以区别。

对于任何一个策略，我们都可以用执行该策略所能获得的长期期望回报来评价其优劣。

定义值函数(Value Function):V S π→ 为采用策略π时在状态s 的期望回报：
0()(,())t t t t V s E R s s πγπ∞=⎡⎤=⎢⎥⎣⎦∑ (0.1)
其中t s 为时刻t 所处状态，0t =对应初始状态s 。

以递归的形式表示则为： ()'()(,())(,')(')s s S V s R s s T s s V s ππππγ∈=+∑
(0.2)
对每个策略π，其对应的值函数V π是一系列线性方程(每个状态s 对应一个方程)的唯一公共解。

在某些文献中值函数也被称为评价函数(evaluation function)。

上述定义给了我们一种计算策略对应的值函数的方法，同时，我们也需要知道如何从值函数来计算得到相应策略。

首先，定义一个求解过程常常用到的中间变量，行动值函数:Q S A π×→ 为在状态s 采用行动a ，其它状态采用策略π的期望回报。

'(,)(,)(,')(')a s S Q s a R s a T s s V s ππγ∈=+∑
(0.3)
当策略没有显式记录，只有值函数V 时，行动值函数记为Q 。

策略π可以通过下式计算得到：
()arg max (,)a A s Q s a π∈= (0.4)
即：
'()arg max (,)(,')(')a a A s S s R s a T s s V s πγ∈∈⎧⎫=+⎨⎬⎩⎭∑
(0.5)
同时有：
'()max (,)(,')(')a a A s S V s R s a T s s V s πγ∈∈⎧⎫=+⎨⎬⎩⎭∑ (0.6)
由于(0.5)式事实上是采用的一步前瞻的贪婪搜索，我们也称这样获得的策略为贪婪策略。

定义一致性条件(Monotonic Condition)为，对所有s ，有：
'()max[(,)(,')(')]a a s S V s R s a T s s V s ∈≤+∑ (0.7)
如果值函数满足一致性, π即是对当前值函数对应的隐式策略的改进,有: ()()V s V s π≥。

相反，如果值函数不满足一致性，在某状态s 处，'()max[(,)(,')(')]a a s S
V s R s a T s s V s ∈>+∑，我们便无法经由(0.8)确定满足()()V s V s π≥的π(s)。

通常，对于一个满足一致性条件的值函数，只按Bellman 公式进行更新迭代的话，一致性条件始终保持成立。

最优策略记为π*,对应值函数为V *,称为最优值函数。

通常,当一个策略π满足对状态s ,有*()()V s V s πε−≤时,我们称π为状态s 处的ε最优策略，当π对问题所有状态均满足上述条件时，称其为问题的ε 最优策略。

2.2 MDP 典型算法
马尔可夫决策过程将客观世界的动态特性用状态转移来描述,相关算法可以按是否求解全部状态空间进行划分.早期求解算法有值迭代和策略迭代,这些方法采用动态规划,以一种后向的方式同时求解出所有状态的最优策略.随后,一些利用状态可达性的前向搜索算法,如AO*, LAO* (Hansen E A, Zilberstein, 2001)被相继提出,他们的特点是只求解从给定初始状态开始的最优策略,通常可以避免大量不必要的计算,获得更高的效率.与AO*算法比较, LAO*能够处理状态转移存在环的系统.同样利用状态可达性并结合动态规划的算法有: Heuristic Search/DP (HDP)(Bonet, B., Geffner, H, 2003), Envelope Propagation (EP) (Dean, T et al , 1995)以及Focused Dynamic Programming (FP) (Ferguson D, Stentz A T, 2004).
从另一个角度,相关算法还可以按离线或在线划分.对于很多现实世界应用中的大规模问题,无论是否利用状态可达性，解都不可能以离线的方式一次性求出，这种情况更适合使用在线算法,也称为实时算法.实时算法的决策计算与执行交替进行,且解的质量通常随给定计算时间的增加而提升.最早的基于动态规划的实时算法是RTDP(Barto A G , et al., 1995)。

RTDP 通过不断循环Trail 来改进策略，每次Trail 确定一个从初始状态到目标状态的路径然后进行反向的值迭代,然而RTDP 不处理停止问题(Stopping Problem)( Pemberton J C, 1994)。

停止问题指如何判断当前解的质量是否已满足要求进而停止计算并提交策略供执行.在值迭代类算法中,停止问题对应收敛判据.Labeled RTDP(Bonet B, Geffner H 2003)通过标记各经历状态是否已被求解,给出了一种处理停止问题的方式,同时避免已经求解过的状态处的计算进而加快收敛.最新的实时动态规划算法,如BRTDP (McMahan H
B, 2005)及FRTDP (SmithT, Simmons R, 2006)使用了另外一种技术,求解过程记录并不断更新相关状态期望值函数的上界下界,这些信息用来指导分支选择,显著的提高了算法性能.另一方面,上下界提供了最优值函数的一个区间估计,当给定初始状态的值函数上下界间隔足够小时,便可认为已经获得满足精度的最优策略.
下面将分别介绍几类典型的MDP 求解算法。

为了方便对比，我们针对同一类特殊MDP 问题，随机最短路径问题(Bertsekas D, 1995)，它是对传统人工智能中最短路径问题的泛化。

问题存在有限个状态，在非目标状态执行任何行动将获得一个负的立即收益，达到目标状态后过程终止，过程本身不再引入时间变量。

有如下值函数：
()'0()(,())(,')(')s s S if s is goal state V s R s s T s s V s otherwise ππππγ∈ ⎧⎪=⎨+ ⎪⎩∑ (0.9)
2.2.1 反向迭代类算法
策略迭代与值迭代是求解MDP 问题的两个最基本的方法，均基于动态规划。

2.2.1.1 策略迭代
在策略迭代中,策略显式表示,可以计算得到对应V π,然后使用下列公式改进策略:
'(,)(,)(,')(')a s S Q s a R s a T s s V s ππγ∈=+∑ (0.10) '()arg max (,)a A
s Q s a ππ∈= (0.11) 其中γ为折扣因子(Discount Factor), γ ≤ 1。

由于可能的策略数目是有限的，而策略迭代的过程总是在改进当前的策略，算法在经过有限步的迭代后总会收敛于最优策略。

Alg.1: Policy Iteration
1. Start with an initial policy π
2. Evaluation policy : Compute the value function V π for policy π by solving the following set
of |S | equations in |S | unknowns,
()'()(,())(,')(')s s S
V s R s s T s s V s ππππγ∈=+∑
3. Improve policy : Use equation (0.10)(0.11), Resolve ties arbitrarily, but give preference to the currently selected action.
4. Convergence test : If π’ is the same as π, go to step
5. Otherwise, set π = π’ and go to step 2
5. Return an optimal policy .
2.2.1.2 值迭代
在值迭代中,策略没有显式表示,整个过程按动态规划的Bellman 公式不断进行迭代更新来改进值函数。

'()max (,)(,')(')a s S V s R s a T s s V s γ∈⎧⎫=+⎨⎬⎩⎭∑
(0.12)
当值函数经由有界误差衡量接近最优时，策略可以通过(0.13)式获得。

对于随机最短路径问题，误差界限可以通过Bellman 误差及平均初过时间(first passage time)计算得到。

每次迭代所有状态值函数更新前后的最大差值称为Bellman 误差r :max ()'()s S r V s V s ∈=−；平均初过时间指从状态s 开始，按策略π执行，到达一个目标状态的期望时间步数，记为()s πφ。

平均初过时间可以通过对所有s 求解线性方程组:
'()1(,(),')(')s S s T s s s s ππφπφ∈=+∑
(0.14)
给定Bellman 误差与平均初过时间,一个最优值函数V *的下界V L 及上界V U 可以按下式计算得到：
()()()()()()L U V s V s s r V s V s s r ππππφφ⎧=−⎪⎨=+⎪⎩ (0.15)
对于策略迭代，当前的值函数是最优值函数的一个下界。

上界与下界的最大
差值定义为：max ()()U L s S V s V s ∈⎡⎤−⎣⎦，当该差值小于ε时，策略为ε最优。

对给
定的任意实数ε>0，策略迭代与值迭代在经过有限步的迭代后都将收敛于ε最优。

Alg.2: Value Itertaion
1. Start with an initial evaluation function V and parameter ε for detecting convergence to an ε-optimal evaluation function.
2. Improve evaluation function by Equation(0.12)
3. Convergence test: If the error bound of the evaluation function is less than or equal to ε, go to step
4. Otherwise, set V = V’ and go to step 2.
4. Extract an ε-optimal policy from the evaluation function by Equation(0.11).
2.2.2 前向搜索类算法
现实中有些问题并不需要求解从所有状态到达目标状态的策略，而是给定从固定的初始状态开始。

这类问题属于特例，使用策略迭代或者值迭代都可以求解。

然而，这两种求解方法都没有利用初始状态的相关知识，没去尝试把计算集中在由初始状态可能达到的那些状态上。

相反，无论是策略迭代还是值迭代在每次更新时都会计算所有状态。

从效果上说，这两种算法计算的是问题所有可能初始状
态下的策略。

下面结合与或图介绍一些基于前向搜索的MDP 求解算法。

2.2.2.1 结合与或图的搜索
从更一般的情况来讲，一个状态空间上的搜索问题与MDP 类似，可以被定义为一系列状态(包含了初始状态及目标状态的集合)，一系列的行动(智能体干预状态转移)，以及一个花费函数或者收益函数。

问题的目标为找到一个从起点状态到终点状态的最小花费或者最大收益的路径。

经典AI 中搜索问题为确定性搜索，如启发式A*算法，迭代加深的IDA*算法(Bonet B, Geffner H, 2006)等。

而从搜索所基于的树或图的数据结构模型的角度来看，不确定性搜索又有其新的特点。

同时，它也是一种更一般的模型，与或图(AND/OR graph)。

根据Martelli ，Montanari(1978)及Nilsson(1980)，可以定义与或图为一个超图(hypergraph)。

区别与普通图中弧连接了一对状态，超图拥有超弧(hyperarcs)或者k 连接(k-connectors)将一个状态与k 个后继状态相连。

图2.4将与节点，或节点及超弧，k 连接的概念联系在一起。

图2.4.(a)显示了一个或节点及两条从它出发的弧，分别对应行动a1与行动a2。

每条弧导向一个拥有两个后继或节点的与节点，后继或节点即对应了一个可能的后继状态(按约定,其中方形代表或节点，圆形代表与节点。

在决策分析的术语中，方形表示选择节点，圆形表示或然节点)。

(b)显示了一个状态，由一个圆形表示，并有两个2连接从它出发，分别对应行动a1及a2。

每个2连接导向了两个可能的后继状态。

右边的表示法，使用状态与k 连接，与左边使用与节点及或节点的表示法等价。

图 0.4 与或图基本结构
k 连接可以以不同的方式来解释：在问题规约的搜索中，它被解释为将问题转化为k 个子问题。

当考虑非确定规划问题时，它被解释为行动不确定性的结果。

行动将一个状态转移到k 个可能的后继状态，每个都关联了一个概率。

在一个与或图搜索中，以非循环子图形式表示的解被称为解图，有如下定义：
♦起始状态属于解图
♦对于解图中的每个非目标状态，恰好有一个输出的k连接（对应一个行动）与其后继状态，这些也都属于解图
♦解图中每个定向的路径都终结于目标状态。

AO*，LAO*是较早的两类基于与或图的搜索类算法。

它们和经典人工智能中A*算法的设计思路类似，还有在迭代加深的IDA*算法基础上扩展出来的LDFS算法(Bonet B, Geffner H, 2006)。

2.2.2.2 实时动态规划算法
与或图给了我们一种理解MDP求解过程组织方式的一种基本数据结构。

事实上，所有利用状态可达性结合前向搜索的方法都显式或隐式的利用这一结构。

Barto et al(1995)提出了一种实时动态规划算法(Real-time dynamic programming，RTDP)，也是基于前向搜索的技术，避免穷举所有状态。

Alg.3是对RTDP算法的一个总结。

RTDP将计算组织成一系列的试验执行(triials)。

每次试验由多步组成，在每一步，行动基于一步前瞻搜索选择，然后基于所选择行动的所有可能结果对当前状态进行更新。

试验在达到目标状态时终止，或者是经过一个指定步数的更新。

这种基于试验(trial-based)的RTDP算法一个最主要的特性就是，它只更新那些基于当前值函数采用贪婪策略选择行动，从初始状态可以到达的状态。

因此，RTDP 可以省掉大量无关状态空间处的计算。

Barto证明在一些合理的条件下，RTDP 能够渐近收敛于最优解，而无需评估整个状态空间，并将这一结果与启发搜索关联，认为它是基于学习的实时启发式搜索算法(LRTA*)的一个推广(Hern C, Meseguer P, 2005a, 2005b)。

Alg.3: Trial-based RTDP
1.Start with an admissible evaluation function.
2.Repeat the following trial n times.
Trails: Set the current state s to the start state and repeat the following steps m times or until a goal state is reached.
(a)Improve the evaluation function by performing the following backup for
the current state s, by Equation(0.12).
(b)Take the action determined to be best for state s by the backup and change
the current state s to the state that results from a stochastic transition
following the action.
3.Extract a partial policy from evaluation function V by Equation(0.11).
以上我们介绍了MDP的后向迭代及前向搜索两大类最基本的算法，后向迭
代类算法通常具有状态空间，行动空间，及求解精度的多项式时间的计算复杂度,而前向搜索类算法在求解具体问题时由于利用了状态可达性的信息常常具有更高的效率(Littman M L, et al., 1995)。

2.3 POMDP基本模型及概念
POMDP适合用来描述在状态非完全可观察的情况下，智能体与环境交互，并进行决策的问题。

它与MDP的区别在于它建模了观察的不确定性，并在模型中引入了信念状态这一个概念，是一个更一般化的模型，因而具有更广泛的应用，如对话管理、机器视觉、机器人导航、医疗诊断、网络维护等等。

由于问题复杂性的增加，从效率与求解质量平衡的角度出发，POMDP问题发展出大量近似求解算法。

下面首先介绍POMDP的基本数学模型及决策过程引入的新的概念。

2.3.1 基本模型
相对于MDP模型，POMDP模型中加入了对观察的处理。

图 0.5 POMDP模型
一般情况下，模型为一个六元组,,,,,
S A T R O
Ω。

其中S,A,T,R与MDP模型相同，而增加的部分为：
♦Ω: 为智能体可观察信息的集合；
♦O(s’,a,o): :O S A O O
××→为观察函数，给出在执行行动a并进入下一个状态s’时可能观察的概率分布，使用Pr(o|s’,a)表示。

♦B: 智能体的信念状态空间，使用b(s)来描述在智能体信念中，当前处在状态
s 的概率。

2.3.2 观察
我们假设一个有限的观察集合{}12,,,H O o o o = ，智能体观察的选择和对
当前状态的感知来自于这个集合。

在POMDP 模型上，可以通过一系列的假设得
到其他的模型。

例如全观察(full observable)的MDP(FOMDP)，如前所述，Agent
对各个时刻的环境的了解是全面的。

那么有以下的定义：
1Pr(|,,)0h j h i k j if o s o s a s otherwise =⎧=⎨⎩
另一个比较极端的模型是non-observable 系统(NOMDP)。

在这个系统里，
Agent 在执行时，不会从系统获得任何的有关当前状态的信息。

这样，该系统的
观察集合为O ={o }，即，在每个状态获得的观察都是一样，这样观察集合就变
得没有意义了。

这两种极端情况是POMDP 的特例。

2.3.3 信念状态
在POMDP 问题中，智能体的决策过程如图2.6所示。

图 0.6 POMDP 决策过程
由于智能体在POMDP 中不能保证每步都获得全部的当前状态信息，为了仍
保持过程的马尔可夫性，这里引入了信念状态这一概念。

信念状态是智能体根据
观察及历史信息计算得到的一个当前状态对所有世界状态的一个概率分布，记为
b(s)，有对s ∀，有0()1b s ≤≤，且()1s S
b s ∈=∑。

由于它是智能体主观信念上所认为
的一个状态，故称为信念状态。

作为一个概率分布，信念状态空间是连续的，无
限的。

行动
信念
观察
状态
图 0.7示例信念状态的简单模型
图2.7是一个小的POMDP 的例子，两个状态，两个观察，一个行动。

如果
智能体处在状态s 1，时刻t 并且做出行动后得到观察o 2，那么可以确定，智能体
仍处在状态s 1。

然而，如果它获得观察o 1，那么智能体便既可能处在状态s 1，也
可能处在状态s 2。

表2.1总结了4种可能的结果，各种结果之间互斥，且概率总
和为1。

比如，我们还可以看到，执行行动后获得观察o 1的情况下，智能体处在
状态s 2的概率为0.8/(0.02+0.8)≈0.976。

表 0.1 信念状态计算示例 resulting state
observation probability of event s 1 o 1 0.2×0.1=0.02 s 1
o 2 0.2×0.9=0.18 s 2
o 1 0.8×1.0=0.80 s 2 o 2 0.8×0.0=0.00
2.3.4 主观贝叶斯更新
在POMDP 中，每一步的信念状态都是智能体的一个主观概率，而获得新的
观察后，计算新的信念状态便可以使用贝叶斯公式进行更新。

具体过程如下：
'(')Pr('|,,)
Pr(|',,)Pr('|,)Pr(|,)Pr(|',,)Pr('|,,)Pr(|,)Pr(|,)
Pr(|',)Pr('|,)Pr(|)
Pr(|,)
(',,)(,,')()
Pr(|,)
s S s S s S b s s o a b o s a b s a b o a b o s a b s a b s
s a b o a b o s a s a s s b o a b O s a o T s a s b s o a b ∈∈∈==
=
∑∑∑ = = (0.16) 其中： o 1:0.1
o 2:0.9
o 1:1.0o 2:0.0
''''Pr(|,)Pr(,'|,)
Pr('|,)Pr(|',,)
Pr('|,)()Pr(|',)
(',,)(,,')()
s S
s S
s S s S s S s S
o a b o s a b s a b o s a b s a s b s o s a O s a o T s a s b s ∈∈∈∈∈∈====∑∑∑∑∑∑ (0.17)
通过反复的使用贝叶斯公式，便可以得到上述信念状态的更新公式。

通过它
我们可以从当前的信念状态，根据转移函数T 及观察矩阵O 得到新的信念状态
对应的概率分布。

对于同一个观察，分母Pr(o|a,b )为一个常数，事实上，它起到
的就是归一化因子的作用，使得概率分布总和为1。

图2.8展示了信念空间的表
示方法。

在此我们举了一个很简单的2-状态的POMDP 作为实例。

对于一个2-
状态POMDP ，给定一个状态的概率是p ，则另一个状态的概率是1-p 。

在这个例
子里，信念空间可以用一条线段来表示。

信念空间的左边标记为0，右边标记为
1，用来表示当前状态为s 1的概率。

在高维空间中，该线段将变成超平面。

图 0.8 状态POMDP 的一维信念空间
图2.9中展示了一个2状态的POMDP 中信念状态的变化情况。

假设智能体
有两个动作（a1，a2）和三个观察（z1, z2, z3）。

图中较大的点为初始信念状态，
结果的信念状态用较小的点表示。

弧表示了信念状态的变换过程。

由于观察是概
率的，每个结果也和概率有关。

信念状态的转移过程满足马尔科夫性，即下一个
信念状态只依赖于当前信念状态（还有当前的动作和得到的观察），而跟历史信
念状态无关。

图 0.9 状态POMDP
的一维信念空间
1。