贝叶斯粗糙集
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
山西大学研究生学位课程论文
(2010----2011学年第一学期)
学院(中心、所):计算机信息与技术学院
专业名称:计算机应用技术
课程名称:高等数理统计
论文题目:基于贝叶斯方法的分类预测
授课教师(职称):张小琴(讲师)
研究生姓名:翁小奎
年级: 2010级
学号: 201022403005 成绩:
评阅日期:
山西大学研究生学院
2011年1月12日
基于贝叶斯方法的分类预测
摘要:本文通过对概率论与数理统计中的贝叶斯方法的学习与了解,并联系与自己研究的相关内容,介绍一下基本的贝叶斯分类模型和贝叶斯信念网络模型,并对网络模型的学习进行了讨论,从实际出发,介绍了几种可以简化模型结构、降低学习复杂性的可行方法,简要说明了这些方法在网络模型中的应用,对贝叶斯分类模型的准确性及其主要特点进行了分析。
关键词:数据挖掘分类预测贝叶斯方法信念网络
l 引言
随着数据库技术的日益成熟和广泛应用,人们收集的数据成指数地增长。
尤其是伴随着因特网的诞生和普及,数据量更是急剧增加,人们而对的早已不只是本部门或本企业的庞大数据库,而是来自全球的数据汪洋。
如此浩瀚的数据海洋“隐藏了什么”、“预示了什么”、“表明了什么”?人们感到“数据过剩”
和“知识贫乏”的矛盾。
由此,从庞大数据集中开采有用知识的技术——数据挖掘(Data Mining)便应运而生。
分类预测是数据挖掘中的一大任务。
分类就是找出一组能够描述数据集合典型特征的模型,以便住给定其他变量值的条件下能对人们感兴趣的未知变量值做出预测。
分类预测的变最是范畴型的,即将未知数据映射到某种离散类别之一。
分类预测模型可以通过分类挖掘算法从一组类别已知的训练样本数据中学习获得。
分类挖掘获得的分类模型可以采用多种形式描述输出,常见的有:分类规则(IF_rrHEN)、决策树、数学公式、神经网络等形式。
而基于贝叶斯方法的分类模型则是一种概率模型,常可以借助有向无环图来描述这种概率模型,因此也是一种图形模型。
这种图表示强调了模型结构的独立性,在计算机科学中也被称为信念网络(belief network)。
在数据挖掘中,通常事先对数据的模型结构了解甚少,因此选择比较简单、灵活的模型结构或函数形式是有益的,而且较简单的模型具有更加稳定和更易于解释的优势,还经常可以为更复杂的模型提供函数分量。
基于贝叶斯方法的分类预测模型就具有形式简单、易于解释,且可以很容易从不同的角度进行推广等特点。
文章从贝叶斯方法的基本观点出发,介绍基本的贝叶斯分类模型,并在此基础上对模型进行了推广,引入了贝叶斯信念网络模型,对网络模型的通用性及其学习进行了讨论。
并从实际出发,提出了几种可以降低模型学习复杂性的可行方法。
最后讨论了模型的准确性问题。
2 贝叶斯方法的基本观点
贝叶斯方法的特点是使用概率规则来实现学习或某种推理过程,即将学习或推理的结果表示为随机变量的概率分布,这可以解释为对不同可能性的信任程度。
贝叶斯方法的出发点就是贝叶斯定理和贝叶斯假设。
假定随机向量x,θ的联合分布密度是P( x,θ),其边际密度分别为P(X),
p(θ)。
一般设是测量向量,θ是未知参数向量,通过测量向量获得末知向量的
估计,贝叶斯定理记作:
从上式可以看出,对未知向量的估计综合了它的先验信息和样本信息,这正是贝叶斯方法与传统经典方法的主要区别所在:传统的参数估计方法只是从样本数据获取信息,如最大似然估计。
贝叶斯统计推断一般分为两步:
(1)根据以往对参数θ的知识,确定先验分布P(θ)。
(2)利用贝叶斯公式计算后验分布.从后验分布做出对参数的推断。
先验分布P(θ)的选取是贝叶斯方法的核心问题,如果没有任何以往的知识来帮助确定P(θ),贝叶斯提出可以采用均匀分布作为其分布,即参数在它的变化范围内,取各个值的机会均等,称这个假定为贝叶斯假设。
贝叶斯假设在直觉上易于被人们所接受,但它却难处理无信息先验分布,尤其是未知参数无界的情况。
另一种观点认为,先验分布的选取应与目前看到的样本相联系,即经验贝叶斯方法,这种方法将经典方法和贝叶斯方法结合在一起,用经典的方法获得样本的边际密度P(X),然后通过下式确定先验分布p(θ):
3 基本贝叶斯分类模型
基本贝叶斯分类模型将每个训练样本数据分解成一个n维特征向量X和决策类别变量C,并假定特征向量的各个分量间相对于决策变量是相对独立的。
设特征向量X = {X1,X2⋯,Xn}表示数据n个属性( A1,A2,……,An )
的具体取值,类别变量C有m 个不同的取值C1,C2 ....Cm ,即有m个不同的类别。
则:
由贝叶斯定理知X 属于Ck 的后验概率为:
基本贝叶斯分类模型将未知类别的决策变量X 归属于类别Ck 当且仅当:
由于P(X)对于所有类别均是相同的,因此:
由于类别的事前概率是未知的,因此,可以假设各类别出现的概率相同,即P(C1)=P(C2)=⋯=P(Cm )。
这样求公式(2)的最大转换为求P(X/Ck)最大。
否则就要求P(X/Ck)P(Ck)的最大。
可以通过训练样本数据集合估计P(Ck)和P(Xi/Ck)(1≤i ≤n,1≤k≤m1:
其中Sk为训练样本数据集合中类别为Ck的样本个数,s为整个训练样本数据集合的容量。
Ski为训练样本数据集合中类为Ck且属性Ai 取值Xi 的样本个数。
是属性的高斯规范密度函数,分别为训练样本数据集合中类别为Ck属性Ai 的均值和方差。
4 基本贝叶斯模型的推广
基本贝叶斯分类模型关于变量独立性的假设大大减少了参数量,在一些问题中,这种假定可能是非常合理的,但在很多实际问题中,这种条件独立假定可能
是很不现实的。
例如,一群人的年收入(X1 )和存款总额(X1),Ck代表他们的信
誉度,分为两类:好和坏。
很显然X1和X2存在依赖性,如果假定两个变量是独立
的,显然与实际情况不符。
因此,可以通过包含超出一阶范围的一些依赖性来推
广基本贝叶斯模型。
这种推广可以想象是对更高阶的依赖性进行搜索,然后选择
出一些“重要的”依赖性加入模型。
可以借助图形网络描述这些依赖关系,这样
实际上就建立了一种通用的图模型一信念网络,来完成分类预测任务。
一组变量X ={X1 ,X2,⋯,Xn }的贝叶斯信念网络可以定义为一个二元组(S,
P) 其中:S是一个有向无环图,用于表示 X中各变量间的依赖关系 P是与每个变
量相联系的局部概率分布集。
因此,S=(X,E),X足图巾结点集合,E是弧集,每
条弧表示一对结点问的概率依赖。
弧尾结点足弧头结点的父结点,反过来弧头结
点是弧尾结点的子结点。
给定父结点,图中每个变量有条件地独立于非子结点,
结点之间缺省弧线则表示条件独立。
如果以Pai表示结点的父结点集。
则X的合
概率分布可表示为:
其中P(X i/Pai), 即为变量 Xi 的局部概率分布。
即二元组(S,P)表示了联合概率分布P(X)。
显然.如果每个结点的父结点集只包含类别变量,则(S,P)对应一阶贝叶斯图形模型,即基本贝叶斯模型。
建立一个信念网络首先必须确定与模型相关的变量和解释,结果不是唯一的。
其次是为了决定网络结构,需要将变量X1,X2,⋯,Xn 拓扑排序,并为每个变
量Xi确定一个子集Pai,Pai {X1,X2 ⋯,Xi-1 },使得Xi 与{X1,X2,⋯,Xi-1 }
——Pai是条件独立的,这样根据概率乘法公式有:
最后足确定局部概率分布P(Xi /Pai)。
信念网络中任一个人们感兴趣的结点都可以作为输出结点,用于代表类别属
性。
除了可以通过增加依赖性来推广模型外,还可以从许多不同的角度来推广模
型。
例如,对于任何实数值Xi,可以用象正态密度这样的参数模型,也可用象核
密度函数这样的非参数模型来估计P(Xi/Ck)。
另外,还可以为每个类使用不同
的模型结构,如可以用正态密度对某些类建摸,用指数混合或核密度估计等对另
一些类建模。
5 信念网络模型的学习
基本贝叶斯分类模型的计算是对一元密度的简单函数相加,所以该模型的计算复杂度大体是估计每个单独一元分类依赖密度和分布的复杂度的nm倍。
对于离散型变量,充分统计量就是每个柱位(bin)中的点数,所以只要扫描数据一次就可以建立起分类模型。
对于连续型变量的一元密度参数模型扫描一次也足够
了,因为只需搜集充分统计量。
当然对于更复杂的密度模型可能需要扫描数据多次才能建立。
对于通用的信念网络模型,如果网络结构确定,所涉及的变量都是可测量的,那么与基本贝叶斯分类模型的概率计算过程类似。
如果有些变量是隐含的,即数据不完全时,可以利用梯度下降方法帮助训练信念网络。
假设D={YlY2,⋯⋯,Yn }是一组训练样本数据集,Wyk 表示对应变量X取值为Xy,其父结点Pa 取值为Pak 的局部概率。
Wyk的集合设为W,则利用梯度下降方法搜索最适合数据的模型参数的Wyk 值,其目标就是使Pw (D)最大。
对每个Wyk 其下降梯度为aln Pw (D)/ Wyk,沿梯度方向不断循环更新Wyk,最终将收敛于局部最优。
对于不完全数据,还可以使用期望最大化(Expection—Maxi—mization,EM)算法求极大似然(ML)或极大后验(MAP)等。
尽管自有不少成热的算法、尤其是在高维空里,模型构建的难度会迅速增大。
因此,在实际计算中,应尽量利用变量的条件独立性来简化模型,降低学习的复杂性。
下面介绍几种可行的方法,并简要说明其在网络模型中的应用。
因式分解:因式分解足为多元数据构建简单模型的一种简单有力的方法,在信念网络构造过程中可以根据实际情况充分应用这一技术。
实际上基本贝叶斯分类模型就是通过假定每个变量是相互条件独立的,而将数据的联合概率分布密度函数分解为(1)式的形式。
另外还可以从数据结构中寻找这种简化的因式分解形式。
例如,如果变量代表的是对同一属性的一系列测量值(不同时间),这种情况下的模型可以简化为马尔可夫链,则公式(8)中的因式就可以被简化为
P(Xi/X1,X2,⋯,Xi-1)=p(XilXi-1)。
引入隐含变量:通过引入隐含变量作为中间变量来简化测量变量间的依赖
关系,使得多个测量变量能相对于中间变量条件独立,从而起到简化模型结构中关系的作用当然引入中间变母必须慎重,因为带有隐含变晕的参数估汁和模型选择会使问题变得繁琐。
变量选择:变量选择是用来处理高维数据、简化模型的另一种通用技术。
当用变量 X1,X2,⋯,Xn 来预测变量y时,很多时候并不是所有的n个变量都是准确预测所必须的,即存在冗余变量。
一种简单易行的变量选择方法是使用独立概念通过样本数据来定量衡量变量问的相关性。
例如,如果P(yIx1)=p(Y)对所有的Y和x1都成立的话,可以认为y独立于输入变量 X1。
当然在实践中不一定能根据有限的样本确定哪些变量是独立的,但我们并不一定要根据严格的独立与不独立来选择变量,而可以根据独立的程度来选择。
6 结束语
贝叶斯分类预测模型返回的不是一个类别标记,而是每个类别的预测概率。
这里是把后验概率P(CkIX)最高的类别Ck作为对任意给定X值的类别预测,因为这个类别最可能产生这个数据。
这种方案具有最优性,因为其分类误差率(贝叶斯误差率):
是可能的最小误差率:没何其他分类器可以对新的未见过数据达到更低的预期误差率。
尽管基本贝叶斯模型的独立假定可能不是很切合实际,但它仍有可能作出相当精确的分类预测原因有多种,包括:要估计的参数较少,因此加强了估计的稳定性;虽然概率估计t足有偏的,但人们关心的并不是它的绝对值,而是它的排列次序,因此可能并不要紧;很多时候已经对变量进行了筛选,可能在筛选中已经去掉了高度相关变量对中的多余变量等等。
除了分类性能很好外,贝叶斯分类模型还具有形式简单、很强的可扩展性和可理解性等特点。
例如,假定只有两种类别C1,和C2 ,由(2)式知其对数赔率为:
(9)可以解释为一个实例属于C1类的对数赔率可以通过把先验的贡献和每个变量分别的贡献简单相加得出,每一项log(p( x1/C,)/P(X1/C2))可以看作可能属于C1还是C2的正向或负向贡献。
毫无疑问,建立的信念网络模型越完整、越准确,对变量的密度估计就越精确,但实践表明对于很多数据集,完整的信念网络模型较之基本的贝叶斯分类模型对分类性能的改善经常是非常有限的,这说明建立精确的密度估计量和建立好的分类器是不同的。
因此,在信念网络模型建立中适当地增加变量的独立性,简化模型的学习是完全合理的。
以上是本学期对高等数理统计这门课程的学习,并结合自己的研究方向查询理解的一个文章的介绍,其中主要是对概率论与数理统计这门课程中的贝叶斯方法在分类器中的应用做了介绍与研究。
参考文献:
1.Jawei Han,Micheline Kamber.Data Mining:Concepts and Teehniques[M].San Francisco.CA:Morgan Kaufmann.2000
2.Gelman A.C arlin J B.Stern H S et a1.Bayesian Data Analysis[M].hradon:Chapman and Hall,1995
3.David Hand.tteikki Mannila,Padhraie Smvth.数据挖掘原理fM1.机械工业出版社.2003
4 朱明.数据挖掘[M].中国科学技术大学出版社,2002
5史忠植.知识发现fM1.清华大学出版社,2002。