贝叶斯方法在聚类中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 算法介绍
1.1 贝叶斯方法的基本观点
托马斯·贝叶斯(ThomasBayes)是英国数学家,他对贝叶斯方法奠基性的工作是他的论文“关于几率性问题求解的评论”。由于当时贝叶斯方法在理论和应用中还存在很多不完善的地方,因此在很长一段时间并未被普遍接受。后来随着统计决策理论、信息论和经验贝叶斯方法等理论和方法的创立和应用,贝叶斯方法很快显示出它的优点,成为十分活跃的一个方向。随着人工智能的发展尤其是机器学习、数据挖掘的兴起,贝叶斯理论的发展和应用也获得了更为广阔的空间。近年来,贝叶斯学习理论方面的文章更是层出不穷,内容涉及到人工智能的大部分领域,如因果推理、不确定性知识表达、模式识别和聚类分析等,同时出现了专门研究贝叶斯理论的组织ISBA(IntemationalSoeietyofBayesianAnalysis)。
贝叶斯方法的特点是使用概率去表示所有形式的不确定性,学习或其他形式的推理都用概率规则来实现。贝叶斯理论在数据挖掘中的应用主要包括贝叶斯方法用于分类及回归分析、因果推理和不确定知识表达以及聚类模式发现等。贝叶斯方法正在以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性等成为当前数据挖掘众多方法中最为引人注目的焦点之一。
贝叶斯统计是贝叶斯理论和方法的应用之一,其基本思想是:假定对所研究的对象在抽样前已有一定的认识,常用先验分布来描述这种认识,然后基于抽取的样本再对先验认识作修正,得到后验分布,而各种统计推断都基于后验分布进行。经典统计学的出发点是根据样本,在一定的统计模型下做出统计推断。在取得样本观测值X 之前,往往对参数统计模型中的参数θ有某些先验知识,关于θ的先验知识的数学描述就是先验分布。贝叶斯统计的主要特点是使用先验分布,而在得到样本观测值T n x x x X ),...,,(21 后,由X 与先验分布提供的信息,
经过计算和处理,组成较完整的后验信息。这一后验分布是贝叶斯统计推断的基础。
1.2 贝叶斯统计模型
1.2.1 概率论中的贝叶斯公式
设事件A 1,A 2,…,A k 构成互不相容的完备事件组,则Bayes 公式是
(1)
在上式中,先验信息以{P(A j ), j=1,2,…,k }这一概率分布的形式给出,即先验分布。由于事件B 的发生,可以对A 1,A 2,…,A k 发生的概率提供新的信息。根据这些信息以及先验分布,可得出后验分布{P (A i |B ), i=1,2,..,k }.可以看出,Bayes 公式反映了从先验分布向后验分布的转化。
1.2.2 数据挖掘中常用的贝叶斯公式
将(1)式中的随机变量的形式改写,引入随机变量θ,它的取值是θ1,θ2,…,θk ,其中θj =θ(A j ),即当A j 发生时,θ取值θj ,θ是离散型的(取有限值),具有
先验分布π(θ):
B是另一随机事件,定义一个随机变量x,使得x=x(B)
式(l)中的P(B|Aj)可以表示为
它代表一种样本分布。这样式(l)可改写为
(2)
2 算法实现
2.1 使用贝叶斯方法的数据挖掘算法综述
贝叶斯方法的一个显著特点是它可以通过看结果来了解假设,也就是说,在对先验知识知之甚少,或者毫不知情的情况下,贝叶斯方法具有其它方法不可比拟的长处。而数据挖掘技术的一个重要应用就是挖掘先前未知的知识,数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别之一是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的知识应具有先前未知,有效和实用三个特征。其中先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。正因为此,本文提出将贝叶斯方法应用于数据挖掘的算法,并对提出的算法进行了验证和讨论。
贝叶斯理论及方法在数据挖掘领域已有很多应用,且已有多种实现算法。其中,比较著名的算法有以下几类:
在把贝叶斯方法用于分类规则的挖掘算法中,比较著名的是贝叶斯信念构造算法。贝叶斯信念网络就是给定一个随机变量集χ={X1,X2,…,X n},其中X i是一个m维向量。贝叶斯信念网络了说明χ上的一条联合条件概率分布。贝叶斯信念网络定义如下:
B=
其中G是一个有向无环图,其顶点对应于有限集χ中的随机变量X1,X2,…,X n.其弧代表一个函数依赖关系;θ代表用于量化网络的一组参数。实际上一个贝叶斯信念网络给定了变量集合χ上的联合条件概率分布:
贝叶斯信念网络构造算法可以表示如下:给定一组训练样本D={x1,x2,..,x n},x i 是X i的实例,寻找一个最匹配该样本的贝叶斯信念网络。常用的学习算法通常是引入一个评估函数S(B|D)(常用的评估函数如贝叶斯权矩阵及最小描述长度函
数等),使用该函数来评估每一个可能的网络结构与样本之间的契合度,并从所有这些可能的网络结构中寻找一个最优解。
聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度,按相似程度的大小,将样品或变量逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品或变量都聚集完毕,形成一个表示亲属关系的谱系图,依次按照某些要求对某些样品或变量进行分类。聚类和分类的主要区别是,在进行聚类分析以前,对总体到底有几种类型并不知道,对已知数据分几类需在聚类的过程中探索调整,而分类是在事前已知道分为哪些类。贝叶斯方法用于聚类的挖掘算法目前并不广泛,目前主要是用简单贝叶斯学习模型来进行聚类。简单贝叶斯学习模型将训练实例I分解成特征向量X和决策类别变量C。简单贝叶斯模型假定特征向量的分量间相对于决策变量是相对独立的,也就是说各分量独立的作用于决策变量。尽管这一假定一定程度上限制了简单贝叶斯模型的适用范围,然而在实际应用中,不仅以指数级降低了贝叶斯网络构建的复杂性,而且在许多领域,在违背这种假定的条件下,简单贝叶斯也表现出相当的健壮性和高效性,它已经成功地应用到分类、聚类及模型选择等数据挖掘的任务中。简单贝叶斯学习模型:贝叶斯定理的应用之一就是如何通过给定的训练样本集预测未知样本的类别,预测依据就是取后验概率
最大的类别。设E是测试样本,P(Y|X)是在给定X情况下Y的条件概率。等式右侧的概率都是从样本数据中估计得到的。设样本表示成属性向量,如果属性对于给定的类别独立,那么P(A|C i)分解成几个分量的积,即P(a1|C i)·P(a2|C i)···P(a m|C i),其中a i是样本E的第I个属性。从而后验概率的计算公式为
这个过程称为简单贝叶斯分类。
3 算法评价
3.1 各类方法的比较
3.1.1 决策树
决策树一般都是自上而下的来生成的。选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。从根到叶子节点都有一条路径,这条路径就是一条“规则”。有些规则的效果可以比其他的一些规则要好。决策数方法最突出的优点是:
(1) 可以生成可以理解的规则;
(2) 计算量相对来说不是很大;
(3) 可以处理连续和种类字段;
(4) 决策树可以清晰的显示哪些字段比较重要。
分析不同的影响因素对分析目标的影响,找到关键的影响因素。决策树法的