贝叶斯网络结构学习总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
贝叶斯网络结构学习总结
一、 贝叶斯网络结构学习的原理
从数据中学习贝叶斯网络结构就是对给定的数据集,找到一个与数据集拟合最好的网络。
首先定义一个随机变量h
S ,表示网络结构的不确定性,并赋予先验概率分布()h p S 。
然后计算后验概率分布(|)h p S D 。
根据Bayesian 定理有
(|)(,)/()()(|)/()h h h h p S D p S D p D p S p D S p D ==
其中()p D 是一个与结构无关的正规化常数,(|)h p D S 是边界似然。
于是确定网络结构的后验分布只需要为每一个可能的结构计算数据的边界似然。
在无约束多项分布、参数独立、采用Dirichlet 先验和数据完整的前提下,数据的边界似然正好等于每一个(i ,j )对的边界似然的乘积,即
1
1
1
()
()(|)()()
i
i
q r n ij ijk ijk h
i j k ij ij ijk N p D S N ===Γ∂Γ∂+=Γ∂+Γ∂∏∏
∏
二、 贝叶斯网络完整数据集下结构学习方法
贝叶斯网络建模一般有三种方法:1)依靠专家建模;2)从数据中学习;3)从知识库中创建。
在实际建模过程中常常综合运用这些方法,以专家知识为主导,以数据库和知识库为辅助手段,扬长避短,发挥各自优势,来保证建模的效率和准确性。
但是,在不具备专家知识或知识库的前提下,从数据中学习贝叶斯网络模型结构的研究显得尤为重要。
常用的结构学习方法主要有两类,分别是基于依赖性测试的学习和基于搜索评分的学习。
第一类方法是基于依赖性测试的方法,它是在给定数据集D 中评估变量之间的条件独立性关系,构建网络结构。
基于条件独立测试方法学习效率最好,典型的算法包括三阶段分析算法(TPDA )。
基于依赖性测试的方法比较直观,贴近贝叶斯网络的语义,把条件独立性测试和网络结构的搜索分离开,不足之处是对条件独立性测试产生的误差非常敏感。
且在某些情况下条件独立性测试的次数相对于变量的数目成指数级增长。
第二类方法是基于评分搜索的方法,其原理是在所有节点的结构空间内按照一定的搜索策略及评分准则构建贝叶斯网络结构,这种算法虽然能够搜索到精确的网络结构,但是由于结构空间很大,从所有可能的网络结构空间搜索最佳的贝叶斯网络结构被证明为NP-hard 问题,所以一般需要使用启发式算法,代表性算法有K2算法等。
基于搜索评分的方法是一种统计驱动的方法,试图在准确性、稀疏性、鲁棒性等多个因素之间找个平衡点。
但由于搜索方法的先天弱点,导致用搜索评分的方法不一定能找到最好的结构,但是应用范围很广。
当观察到的数据足够充分且计算次数足够多时,基于搜索评分的方法和基于依赖性测试的方法都可以学到“正确”的网络结构。
此外,有人结合上述两种方法,提出了一些混合算法,这类算法首先利用独立性测试降
低搜索空间的复杂度,然后执行评分搜索找到最佳网络,如稀疏候选算法(sparse candidate )及MMHC (max-min hill-climbing )算法等。
1. 基于依赖性测试结构学习方法
基于依赖性测试的结构学习算法将贝叶斯网络看作是编码了变量间独立性关系的图结构。
它的核心思想是:通过样本集D 验证条件独立性I (Xi ,Xj|C )是否成立,若成立,则在网络S 中节点Xi 和Xj 被C 有向分割,节点Xi 和Xj 之间不存在边,若不成立,变量Xi 和Xj 是依赖的,网络中节点Xi 和Xj 之间存在边。
然后,利用节点集之间的条件独立性,建造一个有向无环图,以尽可能多地覆盖这些条件独立性。
常用的独立性检验的方法有2χ检验和基于互信息的检验方法。
基于依赖性测试的学习方法学习效率较高,而且能够获得全局最优解;但存在以下问题:1.判断两个节点是否独立或条件独立是困难的,变量间条件独立性检验的次数是随着变量的个数的增加指数级增长的;2.高阶的条件独立性检验的结果不够可靠。
1993年Sprites 等提出的SGS 算法是典型的以条件独立性测试确定拓扑结构的算法。
该算法从无向完全图出发,如果相节点间存在无向分割集,则删除它们间的边;然后通过统计测试来确定剩余边的方向。
2002年,Cheng 将信息论与统计测试相结合,使用相互信息代替了条件独立性测试。
经过Drafting 、Thickening 、Thinning 三个步骤,通过计算相互信息量来确定节点间的条件独立性。
从而构造出多连接有向图模型。
2. 基于评分搜索的结构学习方法:
贝叶斯网络基于评分搜索的结构学习方法主要包括两步: 模型选择和模型优化。
模型选择部分要制定模型选择准则,即评分函数,目前较常用的几个评分函数如下:最优参数对数似然函数,CH 评分,BIC 评分等,还有MDL (minimum description length ),AIC(Akaike information criterion)评分函数,HVL (holdout validation likelihood )评分(验证数据似然度)。
CVL (cross validation likelihood )评分(交叉验证)。
模型优化就是要根据模型选择准则,即评分函数,选择出评分最高的网络结构,也就是搜索策略问题。
从所有可能的网络结构空间搜索最佳的贝叶斯网络结构被证明为NP-hard 问题,所以一般使用启发式搜索算法,主要有K2,hill-climbing 算法;随机重复爬山法(random restart hill-climbing ),禁忌搜索(tabu search ),模拟退火(simulated annealing )及遗传算法(genetic algorithm )等。
常用的评分函数介绍如下:
最优参数对数似然函数
结构ζ与相应的参数集合ζθ组成贝叶斯网络(ζ,ζθ)。
相对于数据ϑ最优的贝叶斯网
**(,)ζζθ应该使对数似然函数达到最大,即***(,|)maxsup (,|)l l ζ
ζζζ
θζθϑζθϑ=
在概念上寻找最优的贝叶斯网络的过程可以分为两步:第一步寻找最优结构*
ζ,第二步寻
找最优参数**
ζθ。
对任一网络结构ζ,定义*(|)sup (,|)l l ζ
ζθζϑζθϑ=作为网络结构的函数,
*(|)l ζϑ称为优参对数似然函数,最优结构*ζ应该使优参对数似然函数达到最大,即
***(|)max (|)l l ζ
ζϑζϑ=,这就是最大优参似然准则。
● 家族CH 评分 设定S 1
(B |D)(,)n
i
i p score i pa ==
∏ ---s
B 表示网络结构,D 表示一组变量
12n X X X ,,...,的完整实例数据
其中*1
1
*
*
()
()(,)[]()
()
i
i
q r ij ijk ijk i j k ij ij ijk N score i pa N ==Γ∂Γ∂+=
Γ∂
+Γ∂∏∏
其中ijk N 是D 中满足i X =k ,i π=j 的样本个数,i
r ij*ijk
k 1
N N
==
∑,i
r ij*ijk
k 1
=∂=
∂
∑。
在使用CH 评分之前,首先需要选定参数先验分布s B s p(|B )θ中超参数ijk ∂。
通常这并非易事,因为理论上我们需要对每一个可能的结构都提供参数先验分布,然而结构数目众多,无法一一罗列。
在实际中,人们往往规定一个等价样本量∂和一个先验贝叶斯旺s B ,利用下式得到s B s p(|B )θ的超参数ijk ∂:s B i i P (X k |j)ijk π∂=∂==。
● BIC 评分,
即贝叶斯信息准则是在大样本前提下对边缘似然函数的一种近似,它有明确直观的意义,而且使用方便,是实际中最常用的评分函数。
*log (|)log (|,)log 2
d
P P m ϑζϑζθ≈-
这就是模型结构ζ的BIC 评分,记为BIC (|ζϑ)。
BIC 评分的第一项是模型ζ的优参对数似然度,它度量的是结构ζ与数据ϑ的拟合程度。
第二项是一个关于模型复杂度的罚项。
若仅仅依据优参似然度来选择模型,会选到最复杂的完全贝叶斯网络,导致过度拟合。
由于附加了一个模型复杂度的罚项,BIC 有效地避免了过度拟合,直观上,基于BIC 评分选择模型就是要选择既与数据拟合,又比较简单的模型。
● MDL 评分
它是最短描述长度(minimum description length )的简称。
这个准则的基本思想如下:数据分析的目的是要找出蕴含在数据中的规律,然后可以利用它们对数据进行压缩,从而降低数据的编码(描述)长度,所以,用贝叶斯网分析数据是否成功可以用数据和模型的编码总长度来度量。
● AIC 评分
它是Akaike 信息准则的简称,他假设数据ϑ是从一个概率分布P(X)中进行独立同分布抽样
而得到的。
AIC 评分的出发点是要找一个贝叶斯网****
(,)B ζζθ=,使得*()B P X 与P(X)之间
的KL 距离最短,即*(,)(,),B B KL P P KL P P B ≤∀,在一定光滑条件下做大样本近似,可得如下结论,即*
B 的结构*ζ应该满足:*(|)(|),AI
C AIC ζϑζϑζ≥∀,
其中,*(|)log (|,)AIC P d ζζϑϑζθ=-
AIC 评分与BIC 评分都是优参对数似然度加一个罚项,因此都称为罚项似然度。
MDL 也是罚项似然度。
● HVL 评分
罚项的作用是防止过度拟合,还有一种防止过度拟合的方法,它的基本思想是把数据ϑ随机地分成训练数据t ϑ和验证数据v ϑ。
对于一个模型结构ζ,首先基于训练数据对其参数进行估计,得到一个贝叶斯网(,)t
ζθ,然后计算验证数据v ϑ对数似然度:
(|,)log (|,)t v t v HVL P ζϑϑϑζθ=。
这就是HVL 评分函数。
● CVL 评分,即交叉验证
它的基本思想是多次计算模型的HVL 评分,而每次都按照不同方式将ϑ划分为t ϑ和v ϑ,然后计算各次所得评分的平均值,并将其作为模型的最后评分。
CVL 评分比HVL 评分更具鲁棒性,但其计算复杂度也高出HVL 评分数倍。
在大样本情况下,HVL 准则,CVL 准则都与AIC 准则等价。
3. 典型算法介绍:
三阶段算法:
第一阶段:Drafting ,计算每对节点间的互信息,建立完整的无向图;
第二阶段:Thickening ,如果节点对不是d-分割的话,把这一点对加入到边集中;
第三阶段:Thinning ,检察边集中的每个点对,如果两个节点是d-分割的,则移走这条边。
K2算法:
K2算法用贪婪搜索处理模型选择问题:先定义一种评价网络结构优劣的评分函数,再从一个网络开始,根据事先确定的最大父节点数目和节点次序,选择分值最高的节点作为该节点的父节点。
K2 算法使用后验概率作为评分函数:
1
(|)(,)n
s i i p D B score i pa ==∏
其中1
1
()()(,)[
]()
()
i
i
q r ij ijk ijk i j k ij ij
ijk N score i pa N ==Γ∂Γ∂+=
Γ∂+Γ∂∏∏
K2算法伪代码:
2(,,,)k X ρμϑ
输入:12{,,...,}n X X X X =---------------------一组变量
ρ-----------------------一个变量顺序(设它与变量下标一致) μ-----------------------变量父亲节点个数的上界 ϑ-----------------------一组完整的数据
输出:一个贝叶斯网
1.12n X X X ζ←由节点,,...,组成的无边图
2. for j=1 to n
3.
j ;πφ←
4.old j j V CH(X ,|);πϑ←<>
5. while(true)
6. i j
j j i 1i<j,X i arg max CH(X ,{X }|)ππϑ≤∉←<⋃>
7.
new j j i V CH(X ,{X }|)πϑ←<⋃>
8. new old j if(V >V and ||<)πμ 9.
old new V V ←;
10.
j i i {X }ππ←⋃;
11. 在ϑ中加边i j X X →; 12. else 13. break; 14. end if 15.end while 16.end for
17.估计ζ的参数θ 18.return (ζ,θ);
K2的出发点是一个包含所有节点、但却没有边的无向图。
在搜索过程中,K2按顺序逐个考察ρ中的变量,确定其父亲节点,然后添加相应的边。
对某一变量j X ,假设K2已经找到了它的一些父亲节点j π。
如果j ||<πμ,即j X 的父亲节点个数还未达到上界μ,那么就要继续为它寻找父节点,具体做法是首先考虑哪些在ρ中排在j X 之前,但却还不是j X 的父
亲节点的变量,从这些变量中选出i X ,它使得新家族CH 评分new j j i V CH(X ,{X }|)πϑ←<⋃>达到最大;然后将new V 与旧家族评分比较:如果new old V >V ,则把i X 添加为j X 的父节点;否则停止为j X 寻找父亲节点。
Hill-climbing 算法
爬山法的目标是要找出评分最高的模型,它从一个初始模型出发开始搜索,初始模型一般设为无边模型,在搜索的每一步,它首先用搜索算子对当前模型进行局部修改,得到一系列候选模型;然后计算每个候选模型的评分,并将最优候选模型与当前模型进行比较;若最优候选模型的评分大,则以它为下一个模型,继续搜索,否则,就停止搜索,并返回当前模型。
搜索算子有三个:加边、减边和转边。
加边和减边算子的使用有个前提,就是不能在网络中形成有向圈。
爬山法可以使用任何评分函数。
不同的评分函数有不同的要求:CH 评分要求关于先验参数分布的超参数,而HVL 及CVL 评分则要求把数据分成训练数据和验证数据。
因此,需要处理的算法细节也有所不同。
爬山算法的伪代码如下: LearnBN_HC(X,,,0f ϑζ)
输入: X------------一组变量 ϑ---------------------一组关于X 的完整数据 f-------------一个罚项似然度评分函数; 0ζ------------------一个初始贝叶斯网络结构 输出:一个贝叶斯网络
1.0ζζ←;θζ←的参数的最大似然估计
2.(,|)oldScore f ζθϑ←;
3.while(true)
4. *null ζ←;*null θ←;newScore ←-∞
5. for(每个对ζ做一次加边、减边或转边而得到的模型结构'ζ)
6. ''θζ←的参数的最大似然估计;
7. (','|)tempScore f ζθϑ←;
8. if(tempScore >newScore) 9.
*';*';;newScore tempScore ζζθθ←←←
10. end if 11. end for
12 if(newScore>oldScore)
13. *;*;;oldScore newScore ζζθθ←←←
14. else 15.
return(,ζθ);
16. end if 17. end while
三、 贝叶斯网缺值数据下的结构学习
贝叶斯网络缺值数据下的结构学习算法主要有SEM (structure EM learning algorithm )算法。
它的基本思想是:从某初始模型结构0ζ和参数0
θ出发开始迭代,在进行了t 次迭代得到了(,t t ζθ)后,第t+1次迭代由以下两个步骤组成: (1) 基于(,t t ζθ)对数据进行修补,使之完整;
(2) 基于修补后的完整数据t
ϑ对模型及参数进行一部优化。
得到(11,t t ζθ++)。
SEM 不是每次迭代都同时优化模型结构和参数,而是先固定模型结构,即规定1t t ζζ+=,进行数次参数优化后,再进行一次结构加参数优化,如此交替进行。
在SEM 中,基于数据t
ϑ进行一次优化未必得到基于t
ϑ的最优模型结构,因为在完整数据下,模型结构优化不是一步就完成的。
SEM 算法的伪代码如下:
00,0(,,,,)SEM X R ϑζθ
输入:X---------一组变量; ϑ-------一组缺值数据;
0ζ-------初始网络结构 0,0θ-------初始参数值;
R-------两次结构优化之间的参数优化次数 δ---------参数估计的收敛阈值 输出:一个贝叶斯网 1. for ∞
2. for r=0 to R-1
3.
,1,argsup (,|,)t r t t t r Q θ
θζθζθ+←
4. end for
5. t L ζ←所有对做一次加边、减边或转边而得到的模型结构;
6. t+1t 1,0t t,R L
(,)arg maxsupQ(,|,)ζθ
ζθζθζθ+∈←;
7.
if(t 1
t 1,0t t,R BIC(,|)BIC(,|)ζ
θϑζθϑ++≤)
8.
return(t t,R ,ζθ);
9. end for
它先进行R 次参数优化(2,3两行),接着同时优化模型结构及参数(5,6两行)。
如果模型加参数优化得到评分更高的模型,SEM 就重复前面的运算,否则就停止并返回找到得BIC 评分最高的贝叶斯网(7,8两行)。
这里使用的一个贝叶斯网的BIC 评分如下:
d()
BIC(,|)log P(|,)log m 2
ζζθϑϑζθ=-。