贝叶斯网络的学习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ 4,包含多种上述类型的混合推理,如接到John的电话 (JohnCall=true)的同时知道发生了地震 (Earthquake=true),推断铃响的概率。
❖ 无论何种类型的推理问题,都可通过将全局联合 概率分布中的某些项相加获得。
❖ X如果代表查询变量,e为证据变量的取值,Y为 其余变量集合。那么查询变量概率分布可以通过
算法复杂度
❖ 空间复杂度O(n)
❖ 时间复杂度
每一次消元代价 | A |
|X|
XisNeighborofA
总的代价即为所有非查询节点消元代价之和
易见是NPC
贝叶斯网络的学习
参数学习和结构学习
贝叶斯网络的参数学习
❖ 在结构已知且数据完整的情况下,参数学习 就是在数据上统计满足条件的样本数目,
P(X ,e,Y )
P(X | e) P(X , e) y
P(e)
P(e)
公式获得。
❖ 有了上式,我们可以得到一个解决推理问题 的算法。以一个链状的贝叶斯网络为例
❖ 已知
A
B
C
D
❖ P(A) ❖ 计算P(D)
P(B|A) P(C|B) P(D|C)
P(X ,e,Y )
❖ 根据公式 P(X | e) P(X ,e) y
❖ CPT={P(A),P(B|A),P(C|B),P(D|C)}
❖ 2,从CPT中删去含有A的函数P(A),P(B|A);加入
一个新函数 f (B) P( A)P(B | A)
A
得到新的CPT={f(B),P(C|B),P(D|C)}
❖ 3,从CPT中删去含有B的函数f(B),P(C|B);加入
Example for training BN
Buy computer
age
income
student
Credit-rating
Example for training BN
数据不完整的BN网络参数学习
❖ 一般使用EM算法
Loop 1,使用学习好的参数将不完整数据补充完整 2,利用补充好的数据学习参数 3,if condition==false
Outlines
❖ 贝叶斯网的引入 ❖ 图表示的引入 ❖ 贝叶斯网作为框架对其他模型的分析 ❖ 图论观点和概率论观点的对应 ❖ 贝叶斯网上的推理
被证明是NPC,变量消元法(Poole 1996)
❖ 贝叶斯网的学习
分为结构学习和参数学习
贝叶斯网的引入
❖ 联合概论分布
随着变量数量指数增长
❖ 利用问题中的独立性简化分布的表示
go to loop
贝叶斯网的结构学习
❖ 基于评分-搜索结构学习一般分为:
模型选择 模型优化
模型选择
❖ 几种模型选择参数:
Cooper-Herskovits评分(CH) 贝叶斯信息准则(BIC) Akaike信息准则(AIC)
模型优化
❖ 实际为搜索一个在某种评分标准下的最优结构
❖ 穷举法
f (1) 1
❖ 定理(局部马尔可夫性):在一个贝叶斯网中,给定 变量X的父节点 (X ),则X条件独立于他的所有
非后代节点:X [nd(X ) \ (X )] | (X )
贝叶斯网上的推理
❖ 推理是实际上是一个计算过程: ❖ 在给出某些变量的取值的条件下,计算贝叶
斯网络中另外一些变量的后验概率分布
如在Alarm网络中,如已知MaryCall变量的值 计算发生地震的概率,即计算的值。其中 MaryCall被称为证据变量,Earthquake称为 查询变量。
Leabharlann Baidu
图表示的引入
❖ 每个变量表示为一个节点
❖ 每个节点 X ,从 (X) 中向X引一条有向边
❖ 在语义上,使联合概率分布的一种表示 ❖ 优点:
虽然没有进一步减少复杂度,但为概论推理提供了方 便,有利于计算机处理,并且易于理解
贝叶斯网框架对其他模型的解释
❖ Naïve Bayes ❖ TAN
图论观点和概率论观点的对应
f
(n)
n i 1
(1)i1
n! (n i)!i!
f
(n i), n
1
❖ 回溯
❖ 分支界定
❖ 启发式搜索
爬山法
❖ 贪心策略的应用 ❖ 需要用到随机策略 ❖ 缺点:不能找到全局最优解
一个新函数 f (C) f (B)P(C | B)
B
得到新的CPT={f(C),P(D|C)}
❖ 4, 从CPT中删去含有B的函数f(B),P(C|B);加入
一个新函数 f (C) f (C)P(D | C)
C
得到新的CPT={f(D)}
❖ 得到的f(D)就是所求的P(D)
变量消元法
❖ 将上述的算法一般化,就得到了一种常用的, 有效的贝叶斯网络上的推理算法:变量消元 法
P( X1, X 2..., X n ) P( X1)P( X 2 | X1)...P( X n | X1X 2...X n1)
n
P( Xi | X1X 2...X i1) i 1
❖ 对于任意的 X i,如果存在 (xi ) {X1, X 2..Xi1},则得到 了一个联合概论分布的一个分解,使得原来的指 数级变为 n2| (xi )|
❖ 例在贝叶斯网络Bn中学习一个父节点为 Parent(x)的节点X的条件概率表,只要计算 数据集中频率f(X=k|parenti(X)=j),方法为统 计数据集中满足X=k,Parent(X)=j的样本数 目,然后计算在所有k,j取值中所占比例, 作为P(X|parent(X))中的一项填入条件概率表 中。
推理的分类
❖ 根据查询变量和证据变量的位置不同,后验假设问题又 分为四种不同类型:
❖ 1,从结果到原因的诊断推理,如已知Mary打过电话, 推断发生地震的概率。
❖ 2,从原因到结果的预测推断,如已知发生盗窃 (Burglary=True),推断接到Mary电话的概率。
❖ 3,在统一结果的不同原因之间的原因关联推理,如已 知铃响(Alarm=true)和发生了地震 (Earthquake=true),推断同时发生盗窃的概率。
P(e)
P(e)
❖ 我们有
P(D) P(A, B,C, D) P(A)P(B | A)P(C | B)P(D | C)
A,B,C
A,B,C
❖ 很自然,我们可以将上式变为
P(D) P(D | C) P(C | B) P( A)P(B | A)
C
B
A
❖ 计算P(D)方法如下
❖ 1,CPT是贝叶斯网络的条件概率分布集合
❖ 无论何种类型的推理问题,都可通过将全局联合 概率分布中的某些项相加获得。
❖ X如果代表查询变量,e为证据变量的取值,Y为 其余变量集合。那么查询变量概率分布可以通过
算法复杂度
❖ 空间复杂度O(n)
❖ 时间复杂度
每一次消元代价 | A |
|X|
XisNeighborofA
总的代价即为所有非查询节点消元代价之和
易见是NPC
贝叶斯网络的学习
参数学习和结构学习
贝叶斯网络的参数学习
❖ 在结构已知且数据完整的情况下,参数学习 就是在数据上统计满足条件的样本数目,
P(X ,e,Y )
P(X | e) P(X , e) y
P(e)
P(e)
公式获得。
❖ 有了上式,我们可以得到一个解决推理问题 的算法。以一个链状的贝叶斯网络为例
❖ 已知
A
B
C
D
❖ P(A) ❖ 计算P(D)
P(B|A) P(C|B) P(D|C)
P(X ,e,Y )
❖ 根据公式 P(X | e) P(X ,e) y
❖ CPT={P(A),P(B|A),P(C|B),P(D|C)}
❖ 2,从CPT中删去含有A的函数P(A),P(B|A);加入
一个新函数 f (B) P( A)P(B | A)
A
得到新的CPT={f(B),P(C|B),P(D|C)}
❖ 3,从CPT中删去含有B的函数f(B),P(C|B);加入
Example for training BN
Buy computer
age
income
student
Credit-rating
Example for training BN
数据不完整的BN网络参数学习
❖ 一般使用EM算法
Loop 1,使用学习好的参数将不完整数据补充完整 2,利用补充好的数据学习参数 3,if condition==false
Outlines
❖ 贝叶斯网的引入 ❖ 图表示的引入 ❖ 贝叶斯网作为框架对其他模型的分析 ❖ 图论观点和概率论观点的对应 ❖ 贝叶斯网上的推理
被证明是NPC,变量消元法(Poole 1996)
❖ 贝叶斯网的学习
分为结构学习和参数学习
贝叶斯网的引入
❖ 联合概论分布
随着变量数量指数增长
❖ 利用问题中的独立性简化分布的表示
go to loop
贝叶斯网的结构学习
❖ 基于评分-搜索结构学习一般分为:
模型选择 模型优化
模型选择
❖ 几种模型选择参数:
Cooper-Herskovits评分(CH) 贝叶斯信息准则(BIC) Akaike信息准则(AIC)
模型优化
❖ 实际为搜索一个在某种评分标准下的最优结构
❖ 穷举法
f (1) 1
❖ 定理(局部马尔可夫性):在一个贝叶斯网中,给定 变量X的父节点 (X ),则X条件独立于他的所有
非后代节点:X [nd(X ) \ (X )] | (X )
贝叶斯网上的推理
❖ 推理是实际上是一个计算过程: ❖ 在给出某些变量的取值的条件下,计算贝叶
斯网络中另外一些变量的后验概率分布
如在Alarm网络中,如已知MaryCall变量的值 计算发生地震的概率,即计算的值。其中 MaryCall被称为证据变量,Earthquake称为 查询变量。
Leabharlann Baidu
图表示的引入
❖ 每个变量表示为一个节点
❖ 每个节点 X ,从 (X) 中向X引一条有向边
❖ 在语义上,使联合概率分布的一种表示 ❖ 优点:
虽然没有进一步减少复杂度,但为概论推理提供了方 便,有利于计算机处理,并且易于理解
贝叶斯网框架对其他模型的解释
❖ Naïve Bayes ❖ TAN
图论观点和概率论观点的对应
f
(n)
n i 1
(1)i1
n! (n i)!i!
f
(n i), n
1
❖ 回溯
❖ 分支界定
❖ 启发式搜索
爬山法
❖ 贪心策略的应用 ❖ 需要用到随机策略 ❖ 缺点:不能找到全局最优解
一个新函数 f (C) f (B)P(C | B)
B
得到新的CPT={f(C),P(D|C)}
❖ 4, 从CPT中删去含有B的函数f(B),P(C|B);加入
一个新函数 f (C) f (C)P(D | C)
C
得到新的CPT={f(D)}
❖ 得到的f(D)就是所求的P(D)
变量消元法
❖ 将上述的算法一般化,就得到了一种常用的, 有效的贝叶斯网络上的推理算法:变量消元 法
P( X1, X 2..., X n ) P( X1)P( X 2 | X1)...P( X n | X1X 2...X n1)
n
P( Xi | X1X 2...X i1) i 1
❖ 对于任意的 X i,如果存在 (xi ) {X1, X 2..Xi1},则得到 了一个联合概论分布的一个分解,使得原来的指 数级变为 n2| (xi )|
❖ 例在贝叶斯网络Bn中学习一个父节点为 Parent(x)的节点X的条件概率表,只要计算 数据集中频率f(X=k|parenti(X)=j),方法为统 计数据集中满足X=k,Parent(X)=j的样本数 目,然后计算在所有k,j取值中所占比例, 作为P(X|parent(X))中的一项填入条件概率表 中。
推理的分类
❖ 根据查询变量和证据变量的位置不同,后验假设问题又 分为四种不同类型:
❖ 1,从结果到原因的诊断推理,如已知Mary打过电话, 推断发生地震的概率。
❖ 2,从原因到结果的预测推断,如已知发生盗窃 (Burglary=True),推断接到Mary电话的概率。
❖ 3,在统一结果的不同原因之间的原因关联推理,如已 知铃响(Alarm=true)和发生了地震 (Earthquake=true),推断同时发生盗窃的概率。
P(e)
P(e)
❖ 我们有
P(D) P(A, B,C, D) P(A)P(B | A)P(C | B)P(D | C)
A,B,C
A,B,C
❖ 很自然,我们可以将上式变为
P(D) P(D | C) P(C | B) P( A)P(B | A)
C
B
A
❖ 计算P(D)方法如下
❖ 1,CPT是贝叶斯网络的条件概率分布集合