数据挖掘与知识发现

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第11章 贝叶斯网络

贝叶斯网络是1986年由Pearl 提出的,根据各个变量之间的概率关系,使用图论方法表示变量集合的联合概率分布的图形模型。它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系。 在这个网络中,用节点表示变量,有向边表示变量间的依赖关系。其特点有:

贝叶斯理论给出了信任函数在数学上的计算方法,具有稳固的数学基础,同时刻画了信任度与证据的一致性以及信任度随证据而变化的增量学习特性;

在数据挖掘中,贝叶斯网络可以处理不完整和带有噪声的数据集,它用概率测度的权重来描述数据间的相关性,从而解决了数据间的不一致性,甚至是相互独立的问题;

用图形的方法描述数据间的相互关系,语义清晰、可理解性强,这有助于利用数据间的因果关系进行预测分析;

贝叶斯方法的基本观点

贝叶斯分析方法的特点是使用概率去表示所有形式的不确定性。学习或其他形式的推理都是用概率规则来实现的。贝叶斯学习的结果表示为随机变量的概率分布,它可以解释为我们对不同可能性的信任程度。贝叶斯学派的起点是贝叶斯的两项工作:贝叶斯定理和贝叶斯假设。 假设随机变量θ,x 的联合分布密度是),(θx p ,它们的边际密度分别为)(),(θp x p 。设x 是观测向量,θ是末知参数向量,则可通过观测向量来获得末知参数向量的估计。贝叶斯定理为:

⎰⨯⨯=⨯=θ

θθπθθπθθπθd x p x p x p x p x p )|()()|()()()

|()()|(

这里,)(θπ是θ的先验分布。

上式可以看出,对末知参数向量θ的估计综合了它的先验信息和样本信息。而传统的参数估计方法只从样本数据获取信息,如最大似然估计。

Bayesian 方法对末知参数向量估计的一般过程为:

将末知参数看成是随机变量;

根据以往末知参数θ的知识,确定先验分布)(θπ;

计算后验分布密度,做出对末知参数的推断。

贝叶斯假设:如果没有任何以往的知识来帮助确定)(θπ,贝叶斯提出可以采用均匀分布作为其分布,即参数在它的变化范围内,取到各个值的机会是相同的。

贝叶斯网络的构造原理

定义:贝叶斯网络是一个二元组B=,其中

① 网络结构G=是一个有向无环图,},,,{21n V V V V Λ=为

结点集;A 为弧的集合;

② 网络参数P 中的每一个元素代表结点i V 的条件概率密度;

则由概率的链规则得

X ΛΛn

i i i n V V V V P V V V P V P 112121),,,|(),,,()(=-==

对于n 个离散二值随机变量,要确定它们的联合分布,需要给出12-n 个概率值。这当n 较大时,巨大的存储要求往往难以满足。因此,一定的假设独立性是必要的。随机变量间的假设独立性原则使得贝叶斯网络所需定义的先验概率大为减少。联合概率分布由随机变量各自的分布的乘积所唯一确定。

对于网络结构中的任一结点i V ,必可找到一个与i V 条件都不独立的最

小子集},,,{121-⊆i i V V V U Λ,使得

X Λn

i i i n U V P V V V P V P 121)|(),,,()(===

贝叶斯网络是一种用图表示知识的方法,并且是可以计算的概率模型。通过这种网络,可以综合各种来源的数据,并对这些数据进行综合和推理。

给定一个联合概率分布),,,(21n X X X P Λ以及变量的一个排序d 。将1X 作为根结点开始,并赋予1X 以先验概率分布)(1X P ,然后用一结点表示2X ,如果2X 与1X 有关,则从1X 到2X 建立一联结,并用)|(12X X P 表示联结强度。如果2X 与1X 无关,则赋予2X 以先验概率分布)(2X P 。在第i 级从i X 的父结点集合i X ∏,(},,,{121-⊆∏i X X X X i

Λ),画一组方向线联结到i X ,并用)|(i

X i X P ∏条件概率定量表示,结果可以得到一个有向非循环图,可用于表示),,,(21n X X X P Λ中所体现的许多独立关系,该图就称作贝叶斯网络。

反过来,)|(i

X i X P ∏包含有重构原始分布函数所必需的所有信息,在排序d 下,有如下关系:

∏∏=⋅⋅=----i X i n n n n n n i X P X P X X P X X X P X X X P X X X X P X X X P )

|()()|()

,|(),,|(),,,|(),,,(11221312112121ΛΛΛΛ

[例如] 下图是一个典型的贝叶斯网络,它的联合概率分布函数为 )()|()|(),|(),|()|(),,,,,(1121312423556654321X P X X P X X P X X X P X X X P X X P X X X X X X P = 贝叶斯网络在数据挖掘中的应用

1)贝叶斯方法用于分类及回归分析

分类规则发现是根据客体的特征向量值及其他约束条件,将其分到某个类别中。在数据挖掘中,主要研究如何从数据或经验中学习这些分类规则。

对于分类问题,有些情况,输入特征向量唯一对应着一个类别,这种问题称为确定性的分类问题;而有些情况,会出现类别重叠现象,也就是说,来自于不同类别的样本从外观特征上具有极大的相似性,这时我们只能说某一类别的概率是多大,但我们必须为它选择一个类别。

Bayesian 学派采用两种处理方法:

① 选择后验概率最大的类别

假设特征向量),,,(21m x x x X Λ=,类别向量),,,(21l c c c C Λ=。分类的目的就是把特征向量X ,归入到某个类别l i c i ,,2,1,Λ=中。方法是:

如果)|()|(x c P x c P j i ≥,则i c x ∈。此时取判别函数)|()(x c P x r i i =。可以证明,这种分类方法能够保证分类误差最小。

② 选择效用函数最大(或损失最小)的类别

在决策理论中,经常采用平均效益的大小来衡量决策风险的大小,这实际上与不确定性的程度密切相关。

假设)(X L ij 为把属于类别i c 的特征向量X 错误地划分到类别j c 中所产生的损失,则可选择损失最小的类别,即

})|()({min 1∑=⋅l

j j ij i x c P x L 此时的判别函数:∑=⋅=l

j j ij i x c P x L x r 1)|()()(。

2)贝叶斯分类的应用

文本过滤是一种重要的信息安全领域的应用。过滤的实质就是一种分类,现讨论贝叶斯方法的文本过滤。用下式所示的矢量来表示文本内容:

),;;,;,()(2211n n i W T W T W T P D Λ=

其中,i P ---表示网页文本,i T ---文本中的关键词,i W ---关键词在网页

文本i P 中的权重,)(i P D 即为文本i P 所对应的矢量表示。

相关文档
最新文档