贝叶斯网络结构学习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
特征属性, C 是类属性。 X i 可能是离散变量,也可能是连续变量。 x i ,和 C 分 别表示属性 X i 和 C 的任意取值。 定义 2.10 P 表示离散的概率值, p 表示连续的概率密度函数值。
Count 表示样本空间的大小。
2.2.2 图论的基础知识 为了对贝叶斯网络有更加清晰的了解,下面给出与图论相关的一些基 本定 义 76 定义 2.11 有向图 G :是由结点集 V ,边集 E 表示的二元组 G GV , E 若 x, y E 表示从结点 x 到结点 y 有一条有向边。我们也称节点 x 和节点
量 X 仍然存在的不确定性,条件信息熵 H X Y 为:
H X Y Px, y log Px y X Y 定义 2.18 互信息:用来描述随机变量 Y 提供的关于 X 的信息量的大小, 随机变量 X , Y 之间的互信息为:
P( x, y) I ( X ; Y ) H ( X ) H ( X Y ) P( x, y) log P( x) P( y ) X Y
y 是邻接的或 x 和 y 相互为邻居。 x 也叫做 y 的父亲节点, y 叫做 x 的孩子
节点。通过父亲和孩子概念的递归定义,同时获得了祖先和后继的两个概 念。没有父亲节点的节点被称为根节点。 定义 2.12 chains :在贝叶斯网络学习当中,连接两个结点的路径不考 虑这条路径中边的方向,称这种路径为 adjacency paths或 chains 。这个定义 对有向图、无向图和混合图都是适用的。 定义 2.13 DAG ( directed acyclic graph):也称有向无环图即不包含环 路的有向图。 定义 2.14 汇聚节点:对十一条邻接路径中的任何一个结点 v ,如果有
第二章贝叶斯网络结构学习
贝叶斯网络是用来表示变量之间连接概率的图形模型, 它提供了一种表示因果信息的方 法, 长期以来一直被认为是人工智能领域中的一个重要的研究课题。 贝叶斯网络综合考虑先 验信息和样本数据,充分地利用专家知识和经验,可以进行定性分析和定量分析。将主观和 客观有机地结合起来,避免了对数据的过度拟合,又避免了主观因素可能造成的偏见。将变 量之间潜在的关联性用简洁的图解模型表达出来,表达的语义直观、清晰,推理的结果和结 论可信度强,便十解释和易十理解。经过近 20 年的发展,贝叶斯网络已经形成相对完整的 推理算法和理论体系, 目前成为人工智能和专家系统中的一个研究热点。 贝叶斯网络由结构 和参数两部分组成,因此,构建贝叶斯网络的学习主要也是结构学习和参数学习两部分,本 章主要侧重贝叶斯网络结构学习。 2.1 贝叶斯网络的基础理论 贝叶斯网络是指基十概率分析和图论的一种不确定性知识的表达和推理的模型, 下面介 绍一些相关的基本概念及定理、定义。 2.1.1 概率论的有关知识 概率论具有坚实的数学理论基础,是人工智能领域中处理不确定性问题的基础理论之 一,是目前处理不确定性问题的方法之一。 定义 2.1 条件概率:设 A, B 是两个基本事件,且 P( A) 0 ,则称
P( Bi A)
P A B j PB j
n j 1
P A Bi PBi
定义 2.8 条件独立:对概率模式 M , A, B 和 C 是 U 的三个互不相交 的变量子集,如果对 x A, y B和z C ,都有 p x y, z p x z ,其 中 p y, z >0,称给定 C 时 A 和 B 条件独立,记为 I A, C, BM 。 条件独立性在某些文献中定义为 p x, y z p x z p y z ,可以证明两个定 义等价。 对概率模式 M ,随机变量之间的依赖关系如图 2.1 所示。 绝对依赖: I A, , BM 不成立,而且对任意的 C , I A, C, BM 也不成立。 条件依赖: I A, , BM 成立,但存在 C ,使 I A, C, BM 不成立。 绝对独立: I A, , BM 成立,而且对任意的 C , I A, C, BM 也成立。 条件独立: I A, , BM 不成立,但存在 C ,使 I A, C, BM 成立。 图 2.1 变量之间的依赖关系 定义 2.9 X 1 , X 2 , X n , C 是样本空间 T 的属性集。其中, X i i 1,2,, n 是
【78】
定义 2.23 最小
定义 2.24 I-map 假设 G 是以随机变量 Y1 , Y2 , Yn 为节点的一个有向 无环图, P 是随机变量 Y1 , Y2 , Yn 的联合概率函数,如果从图 G 中得到的每 一个独立性假设( Yi 在给定其父母节点变量的情况下独立十它的非后代节点) 在联合概率 P 的计算中都成立,则称 G 是该概率分布 P 的一个独立映射 (Independence-map, I-map)。 如果删除任何一条弧 G 都不是 I-map,称 G 为 P 的最小 I-map o 2. 3 贝叶斯网络的表示与构成 贝叶斯网络是一种基十有向无环图 (DACE Directed Acyclic Graph)的 Ixl 模型,编码了一组变量的条件概率关系,是人工智能领域中较流行的不确 定性知识表示的方法。 2. 3. 1 贝叶斯网络定义 贝叶斯网络是一种基十概率推理的有向无环 l 冬 l 的模型,可以将具体问 题中复杂的变量关系在一个网络结构表示,通过网络模型反映问题领域中 变量的依赖关系,适用十不确定性知识的表达和推理。 定义 2. 25 贝叶斯网络:一个贝叶斯网络是一个有向无环 l 冬 l,由代表变 量结点及连接这些结点的有向边构成。其中每个节点都标注了定量概率信 息。表示为 B {g , p} ,(其中 G 是一个能表示变量域的 DAG, P 是相应的 一组条件概率集合)。 设有随机变量集合 V (包含 n 有限个变量), G 表示有向无环图, E 表示 有向边的集合, P 表示条件概率分布集,则用数学符号表示一个贝叶斯网络 模型如下:
H X Pxlog Px X
定义 2.16 联合信息熵:设 X , Y 为离散随机变量,则用来度量二元随机 变量的不确定性联合信息熵 H X , Y 为:
H X , Y Px, y log Px, y X Y 定义 2.17 条件信息熵:用来度量在得到随机变量 Y 的信息后,随机变
由于事物是普遍联系的,对于两个随机变量 X 和 Y ,它们之间在某种 程度上也是相互联系的,即它们之间存在统计依赖(或依存)的关系。互信息 I ( X ; Y ) 到就是用来描述随机变量 Y 提供的关于 X 的信息量的大小。 定义 2.19 条件互信息:在已知 Y 的前提下,随机变量 X 和 Z 之间的 条件互信息定义为:
P( B A)
P( AB) P( A)
为事件 A 发生的条件下事件 B 发生的条件概率。 定义 2.2 先验概率:设 B1 , B2 , Bn 为样本空间 S 中的事件, P( Bi ) 可根据 以前的数据分析得到,或根据先验知识估计获取,则称 P( Bi ) 为先验概率。 先验概率是根据历史的资料或主观判断所确定的各种事件发生的概 率,该概率没能经过实验证实,属十检验前的概率。先验概率一般分为两 类,一类是客观先验概率,是指利用过去的历史资料计算得到的概率;另 一类是主观先验概率,是指在无历史资料或者历史资料不全的时候,只凭 借人们的主观经验来判断取得的概率。 定义 2.3 后验概率:设 B1 , B2 , Bn 为样本空间 S 中的事件,则事件 A 发生的情况下, Bi 发生的概率 P( Bi A) ,可根据先验概率 P( Bi ) 和观测信息重 新修正和调整后得到,通常将 P( Bi A) 称为后验概率。 后验概率一般是指利用贝叶斯公式,结合调查等方式获取了新的附加 信息,对先验概率加以修正的更符合实际的概率。即得到信息之后再重新 修正的概率。 定义 2.4 联合概率:设 A, B 为两个事件,且 P( A) E ,则称 v 为汇聚节点或碰撞节点( collider
2.2.3 信息理论
) 。
77 美国数学家 Shannon 于 1948 年提出了熵的概念。熵是一种信息度量 工具,它反映了不确定性问题的平均不确定程度,在信息论、人工智能和 数据挖掘领域中有着广泛的应用。 定义 2.15 信息熵:设信源 X 为离散随机变量,则用来度量 X 的不确定 性的信息熵为:
n P A PBi PA B i i1
定义 2.6 贝叶斯概率:贝叶斯概率是观测者对某一事件的发生的相信 程度。观测者根据先验知识和现有的统计数据,用概率的方法来预测未知 事件发生的可能性。贝叶斯概率不同十事件的客观概率,客观概率是在多 次重复实验中事件发生的频率的近似值,而贝叶斯概率则是利用现有的知 识对未知事件的预测。 定义 2.7 贝叶斯公式:也叫后验概率公式,还叫逆概率公式,其用途 很广。设先验概率为 P( Bi ) ,调查所获得的新附加信息为 P A B i ,其中 i 1,2,n。 ,则 后验概率为:
P( x, y, z ) P( y) I ( X ; Z Y ) P( x, y, z ) log P( x, y) P( z, y) X Y Z
从条件相互信息可以看出,在给定观测集的条件下,如果 X 和 Z 一致 性条件独立时,即 P( x; z y) = P( x y) P( z y) 成立,此时 X 和 Z 之间的条件互信 息为 0。当 I ( X ; Z ) 小于某个极限值 时,称 X 和 Z 为边际独立;当 I ( X ; Z Y ) 小于某个极限值 时,称 X 和 Z 为条件独立。 X 和 Z 之间的条件互信息越 大,则说明在给定观测集的条件下, X 和 Z 之间概率依赖性越明显。反映 在贝叶斯网络上,如果 Y 为 X 的父结点集合,则当 X 和 Z 之间的条件互信 息较大时,说明 Z 也可能是 X 的父结点。 2. 2.4 d-seperation 标准 定义 2.20 阻塞:一条路径被结点集 F 阻塞,是指在路径上存在一个结 点 Z 满足下面二种情形之一: (1) Z F ,并且路径中有一条有向弧指向 Z ,另一条有向弧源自 Z ; (2) Z F ,并目‘路径中有两条有向弧源自 Z ; (3) Z 及 Z 的所有后继结点都不在 F 中,并目‘路径中有两条有向弧指向 Z。 我们把不被集合 Z 所阻塞的路径称为被集合 Z 开放的开放路径。 定义 2.21 阻塞集:两个节点 x 和 y 间的所有路径都被节点集合 Z 所阻 塞,则称集合 Z 为两个节点间的阻塞集。 定义 2.22 d-separation:令 X , Y 和 Z 是一个有向无环图 G 中二个不相 交节点的子集,如果在集合 X 和 Y 中所有节点间的所有路径都被集合 Z 所 阻塞,则称集合 X 和 Y 被 Z 集合 d-s eparation,表示为 X , Y Z G, 也称 Z 为 A 和 B 的切割集。否则,称在给定集合 Z 下集合 X 和 Y 形依 赖 切割集:能够将两个变量进行 d-s eparation 的最小条件 变量集合,称为最小切割集。
P( AB) P(B A) P A
联合概率也叫乘法公式,是指两个任意时间的乘积的概率,或称之为 交事件的概率。 定义 2.5 全概率公式:如果影响事件 A 的所有因素 B1 , B2 , Bn 满足: 则必有: Bi B j = i j ,并 P( Bi ) 0 , i 1,2,n。