朴素贝叶斯分类的改进
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
朴素贝叶斯分类器的改进
摘要:朴素贝叶斯分类器是一种简单而高效的分类器,但是它的属性独立性假设使其无法表示现实世界属性之间的依赖关系,以及它的被动学习策略,影响了它的分类性能。本文从不同的角度出发,讨论并分析了三种改进朴素贝叶斯分类性能的方法。为进一步的研究打下坚实的基础。
关键词:朴素贝叶斯;主动学习;贝叶斯网络分类器;训练样本;树增广朴素贝叶斯
1 问题描述
随着计算机与信息技术的发展,人类获取的知识和能够及时处理的数据之间的差距在加大,从而导致了一个尴尬的境地,即“丰富的数据”和“贫乏的知识”并存。在数据挖掘技术中,分类技术能对大量的数据进行分析、学习,并建立相应问题领域中的分类模型。分类技术解决问题的关键是构造分类器。分类器是一个能自动将未知文档标定为某类的函数。通过训练集训练以后,能将待分类的文档分到预先定义的目录中。常用的分类器的构造方法有决策树、朴素贝叶斯、支持向量机、k近邻、神经网络等多种分类法,在各种分类法中基于概率的贝叶斯分类法比较简单,在分类技术中得到了广泛的应用。在众多的分类器的构造方法与理论中,朴素贝叶斯分类器(Naive Bayesian Classifiers)[1]由于计算高效、精确度高。并具有坚实的理论基础而得到了广泛的应用。文献朴素贝叶斯的原理、研究成果进行了具体的阐述。文章首先介绍了朴素贝叶斯分类器,在此基础上分析所存在的问题。并从三个不同的角度对朴素贝叶斯加以改进。
2 研究现状
朴素贝叶斯分类器(Naïve Bayesian Classifier)是一种基于Bayes理论的简单分类方法,它在很多领域都表现出优秀的性能[1][2]。朴素贝叶斯分类器的“朴素”指的是它的条件独立性假设,虽然在某些不满足独立性假设的情况下其仍然可能获得较好的结果[3],但是大量研究表明此时可以通过各种方法来提高朴素贝叶斯分类器的性能。改进朴素贝叶斯分类器的方式主要有两种:一种是放弃条件独立性假设,在NBC的基础上增加属性间可能存在的依赖关系;另一种是重新构建样本属性集,以新的属性组(不包括类别属性)代替原来的属性组,期望在新的属性间存在较好的条件独立关系。
目前对于第一种改进方法研究得较多[2][4][5]。这些算法一般都是在分类精度和算法复杂度之间进行折衷考虑,限制在一定的范围内而不是在所有属性构成的完全网中搜索条件依赖关系。虽然如
此,寻找条件依赖关系依然需要较复杂的算法。而通过重新构建样本属性集的方式则可以避免寻找条件依赖关系,保持朴素贝叶斯分类器的简单和直观。事实上,属性构造方法一直是机器学习领域中重要的方法之一,在决策树、规则学习、神经网络等方面得到了有效应用[6][7]。Pazzani提出了一种构建NBC的方法:BSEJ算法,该算法是基于原有属性的笛卡儿积来构建新的属性。
3 算法原理
3.1朴素贝叶斯分类器
朴素贝叶斯分类器假定特征向量的各分量间相对于决策变量是相对独立的,并使用概率规则来实现学习或某种推理过程,即将学习或推理的结果表示为随机变量的概率分布。这可以解释为对不同可能性的信任程度。它的出发点就是贝叶斯定理和贝叶斯假设[3]。
假定随机向量x,Θ的联合分布密度是p(x,Θ),它们的边际密度分别为p(x),p(Θ)。一般情况下设X是观测向量。Θ是未知参数向量,通过观测向量获得未知参数向量的估计。贝叶斯定理记作:
从上式可以得知,对未知向量的估计综合了它的先验信息和样本信息,这正是贝叶斯增量学习模型的基础。可简单地理解为:后验知识(I1)=先验知识(I0)+样本信息(s)。当新的样本到来时,上面的后验知识变为先验知识,因此它是一个利用样本知识来修正当前知识的连续的动态的过程。
朴素贝叶斯分类器将每个训练样本数据分解成一个n维特征向量x和决策类别变量c,并假定特征向量的各分量间相对于决策变量是相对独立的。
设特征向量X={x l,x2,…,x n}表示数据个属性(A l,A2,…,A n)的具体取值,类别变量C有m个不同的取值C l,C2,…,C m,即有m个不同的类别。则:
由贝叶斯定理知x属于C k的后验概率为:
朴素贝叶斯分类器将未知类别的决策变量X归属于类别当且仅当:
由于P(X)对于所有类别均是相同的,因此:
由于类别的事前概率是未知的,因此,可以假设各类别出现的概率相同,P(C1)= P(C2)= …= P(C m)。这样求公式(2)的最大转换为求P(X|C K)最大,否则就要求P(X|C K)P(C K)得最大。可以通过训练样本数据集合估计P(X i|C K) (1≤i≤n,1≤k≤m):
其中,S k为训练样本数据集合中类别为的样本个数,为整个训练样本数据集合的容量。为训练样本数据集合中类别为且属性A,的取值为Xi的样本个数。
4 算法实现
4.1从属性变量间的关系来改进朴素贝叶斯分类器
朴素贝叶斯分类器关于变量独立性的假设虽然大大减少了参数量,但在现实生活中,这种独立性假设经常是不满足的。经过分析得知,朴素贝叶斯分类器的本质是一种具有很强限制条件的贝叶斯网络分类器,但是它限制条件太强。不适于现实应用;然而,完全无限制的贝叶斯网络也是不现实的,因为学习这样的网络非常耗时,其时间复杂度为属性变量的指数级,并且空间复杂度也很高。因此,可以从属性变量间的关系来改进朴素贝叶斯分类器,研究具有较宽松条件限制的贝叶斯网络分类器。
4.1.1 属性分组
适用于属性可以分为独立的子集合的情况。
Kononerko提出一种采用穷尽搜索的属性分组技术,假定同一组内的属性之间可能是相互依赖的,但组与组之间是满足独立性假设的属性集合。也就是说,独立性假设弱化为这些属性组之间的独立性。但是,这种算法的复杂性要远远高于朴素贝叶斯分类器,而且在现实世界中,属性可以完全被分成独立的子集合只是少数情况。
4.1.2 树增广的朴素贝叶斯分类器TAN
这种结构允许各属性节点之间构成一树形结构,即若去掉根结点到各属性节点之间的有向弧,各属性节点之间形成树形结构(如图1)。学习该模型结构的典型方法是以条件互信息为评分函数的网络结构学习算法,学习TAN的一般过程可描述为: