贝叶斯网络

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘要

常用的数据挖掘方法有很多,贝叶斯网络方法在数据挖掘中的应用是当前研究的热点问题,具有广阔的应用前景。数据挖掘的主要任务就是对数据进行分析处理,从而获得其中隐含的、实现未知的而又有用的知识。他的最终目的就是发现隐藏在数据内部的规律和数据之间的特征,从而服务于管理和决策。贝叶斯网络作为在上个世纪末提出的一种崭新的数据处理工具,在进行不确定性推理和知识表示等方面已经表现出来它的独到之处,特别是当它与统计方法结合使用时,显示出许多关于数据处理优势。

本文致力于贝叶斯网络在数据挖掘中的应用研究,首先介绍了贝叶斯网络相关理论,贝叶斯网络的学习是数据挖掘中非常重要的一个环节,本文比较详细的讨论了网络图结构问题,为利用贝叶斯网络解决实际问题,建立样本数据结构和依赖关系奠定了基础。其次介绍了数据挖掘的相关问题以及主流的数据挖掘算法,并分析了各类算法的优缺点。针对目前还没有一种完整的在数据挖掘中构建贝叶斯网络的算法步骤,本文探讨性的提出了一种启发式的在数据挖掘中利用样本数据构建贝叶斯网络的算法思想。最后进行了实验分析,利用本文提出的算法,建立了大学生考研模型和农户信用等级评定模型,进行了较为详细的实验,并分别与决策树方法和传统的信用评分方法进行了比较,实验结果表明文本提出的算法设计简单、方法实用、应用有效,与其他算法相比还有精度比较高的特点,同时也表现出了该算法在数据挖掘方面的优势,利于实际中的管理、分析、预测和决策等。

贝叶斯网络的相关理论

本章对贝叶斯网络的相关理论进行了系统的论述与分析,并用一个简单的疾病诊断模型对贝叶斯网络的定义以及网络构成进行了介绍。结合信息论的有关知识,讨论了贝叶斯网络中重要的条件独立研究,并学习和研究了贝叶斯网络在完备数据和不完备数据两种情况下的结构学习和参数学习方法。结构学习是利用训练样本集,尽可能的结合先验知识,确定贝叶斯网络的拓扑结构;参数学习是在给定的网络结构的情况下,确定贝叶斯网络中各变量的条件概率表。其中结构学习是贝叶斯网络学习的核心,有效的结构学习方法是构建最优贝叶斯网络结构的前提。

预备知识

贝叶斯网络是一种关于变量集合中概率性联系的图解模型,接近于概率和统计,它的理论依据是概率统计,并以图论的形式来表达和描述数据实例中的关联和因果关系。

条件概率:条件概率是概率论中一个重要而实用的概念。所考虑的是事件A已经发生的条件下事件B发生的概率。

定义:设A、B是两个事件,且P(A)>0,称:

为在事件A发生的条件下事件B发生的概率。

显然条件概率符合概率定义中的三个条件,即:

乘法定理:

由条件概率的定义,立即得出下述定理:

全概率公式:

先验概率:

后验概率:

随着样本信息的不断变化,后验概率也不断的更新。前一次的后验概率将作为再次调整时的先验概率使用,从而得到新的后验概率,这是一个不断更新、反复调整的过程。 贝叶斯公式:

贝叶斯概率:

简单地说,贝叶斯概率是观测者对某一事件发生的信任程度(一般称为主观概率,相对而言,传统概率称为客观概率或者物理概率)。观测者根据先验知识和现有的统计数据,用概率的方法来预测未知事件发生的可能性。贝叶斯概率不同于事件的客观概率。客观概率是多次重复实验,然后统计事件发生的频率。而贝叶斯概率是利用现有的知识对未知事件的预测。 记:

为重复m 次试验所得的观测样本。其中X

为事件变量,x 为变量值或者状态。

记:

参数θ为事件X=x 发生的客观概率或者先验概率)|(ξθx p =,)|(ξθp 为它的概率密度函数,其中ξ为观测者的先验知识。现在贝叶斯概率的计算问题可以陈述如下:已知先验概率)|(ξθp 和样本D ,求第m+1次试验中的事件11++=m m x X 发生的概率

),|(11ξD x X p m m ++=。由全概率公式得:

这表明,事件11++=m m x X 发生的概率即为先验概率θ相对于后验概率分布),|(ξθD p 的期望值。根据贝叶斯规则,由先验概率)|(ξθp 计算后验概率),|(ξθD p 的公式为:

在先验概率θ已知的条件下,样本D中的各事件X=x条件独立。如果事件变量X为二元分布,即事件只有发生或者不发生两种情况,则

其中h为样本D中事件发生的次数,h+t=m。现在设先验概率为Beta分布,即β分布的期

望值是已知的,即:

于是,预测事件的贝叶斯概率为:

贝叶斯网络的描述

贝叶斯网络是描述变量之间概率关系的图形模式。它是一个有向图,其中每个节点都标注了定量的概率信息,其完整的详细描述为:

1、一个随机变量组成网络节点,变量可以是离散的或是连续的。

2、一个连接节点对的有向边或者箭头集合,如果存在从节点X 指向节点Y 的有向边,则看成X 是Y 的父节点。

3、每个节点i X 都有一个条件概率分布))(|(i i X parents X p ,量化其父节点对该节点的影响。

4、图是一个有向无环图,缩写为DAG 。

贝叶斯网络是概率信息的载体,是联合概率分布的图形表现形式。一个贝叶斯网络通常有两部分组成:第一部分是有向无环图其每一个节点代表一个随机变量,而每条有向边代表一个概率依赖;第二部分是每个属性一个条件概率表

贝叶斯网络中的条件独立关系

所谓的条件独立性是指在一定的约束下,一个时间的发生不受另外一个事件的影响。在解决实际问题中,如果已知一定的先验知识,即给出了一定的基本条件,我们就可以排除某些因素与结果的的相关性,有效地节省时间和精力,大大提高决策的效率。而在贝叶斯网络中,条件独立性关系具有重要的地位和作用。贝叶斯网络结构是对问题领域的定性描述,网络结构中的每个节点(变量),在已知父节点的条件下独立于所有其余的非子代节点。根据条件独立性,贝叶斯网络将联合概率分解成若干个条件概率的乘积,有效地节省了参数的存储空间,同时,使得概率推理更加直观和便捷,简化了知识获取和领域建模的过程。在定量推理的过程中,条件独立性的利用可以减少先验概率的数目,降低推理过程中的计算复杂度,提高学习和推理的效率。

从上述定义可知,通过计算数据集中变量的概率参数,结合条件概率、联合概率等概念以及计算方法,可以判断变量之间的条件独立性。在信息论中,有两个很重要的概念,一个是互信息,一个是熵。他们在统计学习中是非常重要的。通过计算两个随机变量之间的互信息为变量之间的条件独立性判断提供了一条很好的途径。

相关文档
最新文档