朴素贝叶斯算法的研究与改进

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
Naïve Bayes 算法的研究与改进
改进了朴素贝叶斯分类的性能。
1 朴素贝叶斯分类
1.1 贝叶斯定理 设 X 是类标号未知的数据样本,设 H 为某种假定,如数据样本 X 属于某特定的类 C。对
于分类问题,希望确定,即给定观测数据样本 X,假定 H 成立的概率。贝叶斯定理给出了如 下计算 P(H|X)的简单有效的方法:
4
Naïve Bayes 算法的研究与改进
1.1 贝叶斯定理.................................................................................................................2 1.2 朴素贝叶斯分类.........................................................................................................2 1.3 实验结果.....................................................................................................................3 2 避免有偏的过低估计............................................................................................................3 2.1 算法思想.....................................................................................................................3 2.2 实验对比.....................................................................................................................4 3 属性加权................................................................................................................................5 3.1 加权算法.....................................................................................................................5 3.2 对比实验及分析.........................................................................................................5 4 结束语....................................................................................................................................6 4.1 有关算法研究的展望.................................................................................................6 4.2 对课程报告的总结.....................................................................................................6 附:实现代码........................................................................................................................... 6 (1)NB_New.java ................................................................................................................. 6 (2)NB_New1.java............................................................................................................. 10
Naïve Bayes 算法的研究与改进
——模式识别课程报告
指导教师:蒋** 学生姓名:胡 * 学 号:2010******* 班 级:19****-** 完成时间:2013 年 4 月 25 日
Naïve Bayes 算法的研究与改进
Naïve Bayes 算法的研究与改进
胡*
摘要:朴素贝叶斯(Naïve Bayes)分类方法是在贝叶斯学习方法中一种简单且实用性很高的分类方法。 在某些领域,其性能与神经网络、决策树相当。但其存在有偏过低估计和严格属性独立性假设两个主要缺 点,这影响了它的分类性能。为了克服第一个问题, 本文使用了人工干预和概率的先验估计两种方法。而 对于第二个问题,提出了一种基于概率推理的加权朴素贝叶斯分类模型。通过计算属性和类之间的相关概 率,对属性赋予不同的权重, 从而在保持简单性的基础上有效地提高了朴素贝叶斯算法的分类性能。对这几 点改进均用代码予以实现且进行了实验,结果表明,这些方法可行而且有效。
性 A1,A2,…,An 的样本的 n 个度量。 (2)假定有 m 个类 C1,C2,…,Cm,给定一个未知的数据样本 X(即没有类标号),分类
器将预测 X 属于具有最后验概率(条件 X 下)的类。于是,最大的 P(Ci|X)对应类 Ci 的最大 后验假定,而 P(Ci|X)可以根据下面的贝叶斯定理来确定:
训练样本数,而 si 是 Ci 中的训练样本数。当 sik 很小时,就有可能产生一个有偏的过低估计 概率,使得此概率项在贝叶斯分类器中占有统治地位。
这里采取的第一种方法是给每一个 sik 加上一个比较小的数,使得即使 sik 为零时该概率
3
Naïve Bayes 算法的研究与改进
项也不会占有绝对统治地位,从而提高分类精度。 还有一种概率的先验估计方法。即对 P(xk|Ci)的计算先给一个先验估计概率,然后以此
从理论上讲,与其他所有分类算法相比,贝叶斯分类具有最小的出错率。然而,实践中 并非如此。这是由于对其应用的假设(如类条件独立假设)的不准确性,以及缺乏可用的概 率数据造成的。因此,贝叶斯分类器对两种数据具有较好的分类效果:一种是完全独立的数 据,另一种是函数依赖的数据。
1.2 朴素贝叶斯分类 朴素贝叶斯分类的工作过程如下: (1)每个数据样本有一个 n 维特征向量 X={x1,x2,…,xn}表示,分别描述具有 n 个属
概率为基础对实例数进行扩大。新计算方法为: ,
这里,sik 和 si 与前面的定义相同,P 是将要确定的概率的先验估计,而 m 是一个称为等效样 本大小的常量,它起到对于观察到的数据如何衡量 P 的作用。最终的结果是将 n 个实际的观 察扩大,加大 m 个按 P 分布的虚拟样本。在缺少其它信息时,选择 P 的方法可以是假定均 匀的先验概率,也就是,如果某属性有 k 个可能值,那么设置 P=1/k。 2.2 实验对比
引言
分类是数据挖掘和机器学习中一个重要的研究课题,它旨在生成一个分类函数或分类模 型。由该模型把数据库中的数据项映射到某一给定类别中,从而实现对数据的分类。朴素贝 叶斯分类器是一种最简单、有效的而且在实际使用中很成功的分类器,其性能可以与神经网 络、决策树相媲美。但在实际运用中可能出现有偏的过低估计问题,这会使得某一条件概率 在贝叶斯分类器中占有统治地位。针对此问题,文中使用了人工干预和概率的先验估计两种 方法来克服这一问题。另一方面,朴素贝叶斯分类器基于假定特征向量的各分量间相对于决 策变量是相对独立的,即条件独立性假设。但是这个限制过于严格,在实际的应用中影响了 Байду номын сангаас类的性能。同时,朴素贝叶斯分类器基于一个简单的假定:每个条件属性对决策属性的重 要性是相同的,其权重值均为1。而在实际应用中,有些因素对分类的影响大一些,另外的 一些因素的影响可能小一些。本文提出一种基于相关概率的加权方法,对每个属性计算它们 对每个类的相关概率,以此进行计算它对该类的权值,不同的属性取值有不同的权值,以此
针对这两种方法,对 weka 下经典的数据 weather 和数据 vote 进行了测试,比较的实验 结果如下:
算法(1)trees.NB 为原始的 NB 算法,算法(2)trees.NB_Add 为在给 sik 加上一个较小的量 0.1 的 基础上实现的算法,而算法(3)trees.NB_New 为在采用先验估计和增加虚拟样本的基础上实 现的算法。从三种算法的比较结果来看,均能较好地完成分类任务,其中后两种算法要略优 于原始的 NB 算法,而第二种处理办法也要略优于第一种处理办法。
关键字:朴素贝叶斯分类;先验估计;相关概率
正文目录
引言............................................................................................................................................1 1 朴素贝叶斯分类....................................................................................................................2
(3)由于 P(X)对于所有类为常数,只需要 P(X|Ci)P(Ci)最大即可。其中,类的先验概率可以 用 P(Ci)=si/s 计算,si 是类 C 中的训练样本数,而 s 是训练样本总数。
(4)给定具有许多属性的数据集,计算 P(X|Ci)的开销可能非常大。为降低计算 P(X|Ci)的 开销,可以做类条件独立的相互假定。给定样本的类标号,假定属性值相互条件独立,即在 属性间不存在依赖关系。这样
2
Naïve Bayes 算法的研究与改进
其中,g(xk,uci,σci)高斯分布函数,而 uci,σci 分别为平均值和标准差。
1.3 实验结果 实验在 weka 平台下进行,仅对离散属性的情况进行的实现,实验结果如下:
2 避免有偏的过低估计
2.1 算法思想 在计算 P(xk|Ci)时,我们用比值 sik/si 来估计,其中 sik 是在属性 Ak 上具有值 xk 的类 Ci 的
其中 P(H)是先验概率,或称 H 的先验概率。P(X|H)代表假设 H 成立的情况下,观察到 X 的概率。P(H|X)是后验概率,或称条件 X 下 H 的后验概率。
从直观上看,P(H|X)随着 P(H)和 P(X|H)的增长而增长,同时也可看出 P(H|X)随着 P(X)的 增加而减小。这是很合理的,因为如果 X 独立于 H 时被观察到的可能性越大,那么 X 对 H 的支持越小。
其中,概率 P(x1|Ci),P(x2|Ci),P(x3|Ci),…,P(xk|Ci)可以由训练样本估值。 如果 Ak 是离散属性,则 P(xk|Ci)=sik/si,其中 sik 是在属性 Ak 上具有值 xk 的类 Ci 的训练样 本数,而 si 是 Ci 中的训练样本数。 如果 Ak 连续属性,则通常假定该属性服从高斯分布,即
相关文档
最新文档