基于贝叶斯网络的各种抽样方法比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要: 本文主要介绍了贝叶斯网的基本概念以及重要性抽样方法的基本理论和概率推理, 重点介绍了两种重要的抽样方法, 即逻辑抽样方法和似然加权法, 并且比较了它们的优缺点
关键词: 贝叶斯网 抽样法 无偏估计
1.引言
英国学者T.贝叶斯1763年在《论有关机遇问题的求解》中提出一种归纳推理的理论, 后被一些统计学者发展为一种系统的统计推断方法, 称为贝叶斯方法.采用这种方法作统计推断所得的全部结果, 构成贝叶斯统计的内容.认为贝叶斯方法是唯一合理的统计推断方法的统计学者, 组成数理统计学中的贝叶斯学派, 其形成可追溯到 20世纪 30 年代.到50~60年代, 已发展为一个有影响的学派.Zhang 和Poole 首先提出了变量消元法, 其原理自关于不定序动态规划的研究(Bertele and Brioschi,1972).相近的工作包括D`Ambrosio (1991)、Shachter (1994)、Shenoy (1992)等人的研究.近期关于变量消元法的研究可参见有关文献【1】由于变量消元法不考虑步骤共享, 故引进了团树传播法, 如Hugin 方法.在实际应用中, 网络节点往往是众多的, 精确推理算法是不适用的, 因而近似推理有了进一步的发展. 重要性抽样法(Rubinstein, 1981)是蒙特尔洛积分中降低方差的一种手段, Henrion (1988)提出了逻辑抽样, 它是最简单也是最先被用于贝叶斯网近似推理的重要性抽样算法. Fung 和Chang (1989)、Shachter 和Peot (1989)同时提出了似然加权算法. Shachter 和Peot (1989)还提出了自重要性抽样和启发式重要性抽样算法. Fung 和Favero (1994)提出了逆序抽样(backward sam-pling ), 它也是重要性抽样的一个特例. Cheng 和Druzdzel (2000)提出了自适应重要性抽样算法, 同时也给出了重要性抽样算法的通用框架, 这就是各种抽样方法的发展状况. 本文就近似推理阐述了两种重要的抽样方法即逻辑抽样方法和似然加权法, 并比较了它们的优缺点.
2. 基本概念
2.1 贝叶斯网络的基本概念
贝叶斯网络是一种概率网络, 用来表示变量之间的依赖关系, 是带有概率分布标注的有向无环图, 能够图形化地表示一组变量间的联合概率分布函数.
贝叶斯网络模型结构由随机变量(可以是离散或连续)集组成的网络节点, 具有因果关系的网络节点对的有向边集合和用条件概率分布表示节点之间的影响等组成.其中节点表示了随机变量, 是对过程、事件、状态等实体的某些特征的描述; 边则表示变量间的概率依赖关系.起因的假设和结果的数据均用节点表示, 各变量之间的因果关系由节点之间的有向边表示, 一个变量影响到另一个变量的程度用数字编码形式描述.因此贝叶斯网络可以将现实世界的各种状态或变量画成各种比例, 进行建模.
2.2重要性抽样法基本理论
设()f X 是一组变量X 在其定义域n X R Ω⊂上的可积函数.考虑积分
()()X I f X d X Ω=
⎰ (2.2.1)
为了近似计算这一积分, 重要性抽样方法将上式改写为如下形式:
()()()()
X f X I P X d X P X Ω=
⎰ (2.2.2) 这里, X 被看成是一组随机变量, ()P X 是X 的一个联合分布, 称为重要性分布, 它满足以下条件: 对X 的任意取值x , 如果()0f X x =≠, 那么()0P X x =≠.
接下来, 重要性抽样方法()P X 从独立地抽取m 个样本12,,...,,m D D D 并基于这些样本来对积分I 进行估计:
1()1.()
m i m i i f D I m P D ==∑ (2.2.3) 可以证明, m I 是I 的一个无偏估计, 且根据强大数定律, 当样本量m 趋于无穷时, m I 几乎收敛于I .
重要性抽样法的性能主要从两个方面来衡量: 一个是算法复杂度, 另一个是近似解的精度.因此, 人们用计算m I 所需的时间t 和m I 的方差var()m I 之积var()m t I *来度量重要性抽样法的效率:var()m t I *越小, 算法的效率越高, 收敛速度也就越快, 从而获得高精度近似所需的样本量不大.这里, 方差可用下式计算:
221()var()()()X m f X I d X I m P X Ω⎡⎤=-⎢⎥⎢⎥⎣⎦
⎰ (2.2.4) 重要性分布的选择是提高算法效率的关键.由于重要性分布的选择对时间复杂度的影响不大, 因此为了提高算法的效率, 应该选用使得方差var()m I 尽可能小的重要性分布.根据式(2.2.4),若被积函数()0f x >, 则最优重要性分布为*()()/P X f X I =.此时v a r ()0m I =, 样本被集中在()f X 值较大的"重要"区域.由于I 本身是未知的, 在实
际中很少能够从*()P X 抽样, 只能寻找与*()P X 尽量接近的分布.重要性分布与最优分
布*()P X 越接近, 方差var()m I 就越小.
2.3重要性抽样法的概率推理
考虑一个贝叶斯网μ, 用X 记其中所有变量的集合,()P X 记μ所表示的联合概率分布.设观测到证据E e =.下面将讨论如何近似计算一组查询变量Q 取某值q 的后验概率(|)P Q q E e ==.
设W 是一些变量的集合, Y 是的W 一个子集合, \Z W Y =, 并设y 为Y 的一个取值.定义函数
1,()(,)0,Y y Y y Y y W Y Z χχ===⎧==⎨≠⎩
若若Y y (2.3.1) 按条件概率的定义, 有
(,)(|)()
P Q q E e P Q q E e P E e ======. (2.3.2) 根据式(2.3.1)(,)P Q q E e ==和()P E e =可以分别表示成如下形式:
(,)()()(),Q q E e X
P Q q E e X X P X χχ=====∑ (2.3.3)