朴素贝叶斯分类算法的改进及应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P( X = x)
这就是 NBC 模型, 它是目前公认的一种简单而有效的分 类模型, 其性能可与决策树、 神经网络等分类器相竞争[10]。
为 X0(p) 和事例 Xi 相同属性 Xi(p) 的相似程度分析。把各个属 性的灰色相关分析系数相加, 然后取均值, 即为灰色相关度, 定义如下: GRG ( X0 ,Xi) = 1 åGRC ( x0 (k ) x i(k )) i=1, 2, …, n m k=1
[2]
(随着变量的增加, 指数级增加) , 网络维护代价昂贵, 而且它 的估计参数较多, 会为系统带来高方差, 影响了它的预测精度。 波兰人 Pawlak 提出的粗糙集理论, 基于粗集理论的填充方法 寻找含有缺失值的对象的相容对象集, 然后用相容对象集中 出现次数最多的一个值来替代缺失值, 若相容对象集只有一 个对象, 则用其对应的值来替换缺失值, 粗糙集的方法主要使 用在条件属性缺失的处理方面[4]。 EM 算法有坚定的理论基础和简单、 稳定的特点, 已被广 泛地应用于缺损数据, 截尾数据, 成群数据, 带有讨厌参数的 数据等所谓的不完全数据的处理。该算法不仅可以对条件属 性进行填补, 还可以对类别属性进行填补。目前针对 EM 算法 存在不足的改进都是集中在加速收敛[5-7]和针对大数据集[8-9]方 面进行的。EM 算法初始值的估计, 对该算法的效果影响也是 不可忽略的, 只有选择合适的初值才能获得满意的最大 EM 收 敛值和加速收敛。 为了解决以上问题提出一种基于改进 EM 算法的朴素贝 叶斯分类算法, 来提高分类的准确率。根据灰色相关度给缺 失属性一个估计值作为 EM 算法的初始值, 由 EM 算法给出极
X1, X 2, 据集的事例被表示为 { X0, …,X n} , 其中 X0 是参考事
(1)
这里, P (X=x) 对于所有的类来说都一样, 而P (X=x|t) 和 P (t) 可以由训练数据集得出。所以, 对于每个样本 x 来说, 不 需要计算 P (t|X=x) 的精确值, 只需要求出使 P (t) *P (X=x|t) 值 最大的那个类 t, 就可以预测出该样本 x 所在的类。然而, 计算 P (X=x|t) 是有难度的, 特别是在数据集很小的时候。有鉴于 此, 学者们提出了 NBC 模型, 它最重要的假设是: 给定类标签 t, 样本的各个属性之间是相互独立的。于是就有:
P( X = x|t) = Õ P( X m = x m /t)
m=1 M
例, 要计算它与其他所有事例的灰色关系。每个事例 Xi 有 m 个
Xi = Xi( Xi(m) 属性 ( 包括决策属性 ) 表示为: ( Xi( 1 ) , 2 ) , …, ) , i=
0, 1, 2, …, n。通常为了避免由于属性的数量级引起的的偏置, 事先把各个属性的数据量化到[0, 1]。灰色关系系数 (GRC) 可 以被定义为: GRC ( X0(p) ,Xi(p) ) =
(i) (i)
2011, 47 (15)
135
log[ p(θ|Y, Z )] p(Z|θ
(i)
(i)
,Y )dZ
(i + 1)
(4) , 使 (5) 。将上述 E 步和 M 步进
(i) (i) (i)
M 步: 将 Q(θ|θ , Y ) 极大化, 即找一个点 θ
Q(θ
(i + 1)
|θ , Y ) = max Q(θ|θ , Y )
朴素贝叶斯分类 (Naive Bayesian Classifier, NBC) 由于 计算高效、 精确度高, 并具有坚实的理论基础而得到广泛的应 用。一般情况下在贝叶斯分类中的所有属性都直接或间接地 发挥作用, 即所有的属性都参与分类, 而不是一个或几个属性 决定分类。但是在实际数据挖掘中, 由于种种因素的影响, 数 据库中的数据都有不同程度的缺失。因此对缺失数据的填补 效果直接影响朴素贝叶斯分类的准确度。 目前对缺失数据的填补方法成为研究的热点。安德逊等[1] 提出的原理是 “在正态分布下, 样本均值是估算出的最佳可能 取值” 。应用平均值填充法将会影响缺失数据与其他数据之 间的相关性。而且, 如果一个大数据集采用平均值填充法, 被 填充的变量的频率分布有可能会产生误导, 因为过多的均值 会产生更多的尖峰态分布。神经网络 (ANN) 最早是由心理学 家和神经生物学家提出的, 旨在寻求开发和测试神经的计算 模拟 。神经网络需要很长的训练时间, 并且它需要大量的参 数, 这些主要靠经验确定。贝叶斯网络[3]仅适合于对领域知识 具有一定了解的情况, 至少对变量间的依赖关系较清楚的情 况。否则直接从数据中学习贝叶斯网的结构不仅复杂性较高
134
2011, 47 (15)
Computer Engineering and Applications 计算机工程与应用
Hale Waihona Puke Baidu
⦾数据库、 信号与信息处理⦾
朴素贝叶斯分类算法的改进及应用
张亚萍, 陈得宝, 侯俊钦, 杨一军 ZHANG Yaping, CHEN Debao, HOU Junqin, YANG Yijun
张亚萍, 陈得宝, 侯俊钦, 等: 朴素贝叶斯分类算法的改进及应用 大似然估计完成缺失属性的填补, 然后用朴素贝叶斯分类算 法对完整数据集进行分类。然后, 通过在 7 个标准的不完整数 据集上的实验, 对提出算法的分类效果进行了比较和分析。 最后把改进算法应用于高校教师岗位等级的评定。
Q(θ|θ , Y )ΔE[logp(θ|Y, Z )|θ , Y ] =
min "jmin"k x0 (k ) - x j (k ) + ρ max"j max"k x0 (k ) - x j (k )
(2)
现在贝叶斯公式变为:
P(t|X = x) = P(t)*Õ P( X m = x m /t)
m=1 M
| x0( p) - xi ( p) | + ρ max"j max"k | x0(k ) - x j (k ) |
θ (i) (i + 1) (i + 1) (i) (i + 1)
(i)
(i)
1 基本理论与 EM 算法 1.1 朴素贝叶斯分类原理
贝叶斯分类器的分类原理是通过某对象的先验概率, 利 用贝叶斯公式计算出其后验概率, 即该对象属于某一类的概 率, 选择具有最大后验概率的类作为该对象所属的类。 NBC 模型是从贝叶斯理论发展而来的, 贝叶斯理论中最核心的部 分是贝叶斯公式。假设 M 维样本变量 X = ( X1 X 2 X M ), x为 X 的—个样本, 类标签为 ( t t=1, 2, …, T) 。贝叶斯公式可以表 示如下:
不确定性问题的一种新颖的系统工程理论方法。灰色关系分 析 (GRA) 是灰色系统理论的一种方法, 它常常被用来量化由各 种因素影响的两个事例的相关程度。在灰色关系分析过程中, 通常使用灰色相关系数 GRC (Grey related Coefficient) 去描述 一个含有缺失的事例跟不含缺失的事例的关系。假设一个数
P(t)*P( X = x|t) P(t|X = x) = P( X = x)
如此形成了一次迭代 θ → θ 行迭代直至 ||θ 时停止[12]。
- θ || 或 ||Q(θ
|θ , Y ) - Q(θ |θ , Y )|| 充分小
1.3
灰色关系分析 (简称 GDA)
[13] 灰色系统理论 (GST) , 是专家邓聚龙教授提出用于解决
类算法。该算法首先根据灰色相关度对缺失数据一个估计, 估计值作为执行 EM 算法的初始值, 迭代执行 E 步 M 步后完成缺失数 据的填补, 然后用朴素贝叶斯分类算法对样本进行分类。实验结果表明, 改进算法具有较高的分类准确度。并将改进的算法应 用于高校教师岗位等级的评定。 关键词: 贝叶斯分类; EM 算法; 缺失数据; 预测模型 DOI: 10.3778/j.issn.1002-8331.2011.15.037 文章编号: 1002-8331 (2011) 15-0134-04 文献标识码: A 中图分类号: TP301.6
淮北师范大学 物理与电子信息学院, 安徽 淮北 235000 School of Physics and Electronic Information, Huaibei Normal University, Huaibei, Anhui 235000, China ZHANG Yaping, CHEN Debao, HOU Junqin, et al.Improvement and application of Naive Bayesian classification.Computer Engineering and Applications, 2011, 47 (15) : 134-137. Abstract:To solve the missing datas in Bayesian classification algorithm, a Naive classification algorithm based on Expectation Maximization (EM) is proposed.In the method, the missing datas is estimated with Grey Related Coefficient (GRC) , then the estimated datas are chosen as the initial values of EM algorithm, the absent datas will be filled with iterating the EM algorithm in E and M steps.Finally, the samples are classified by Bayesian classification algorithm.Some experiments are used to show the effectiveness of the given algorithm, the results indicate that the improved algorithm has the higher precise of clustering compared with other Naive Bayesian classification algorithms.Moreover, the given methods are used to evaluation of professional titles of teachers in universities. Key words:Naïve Bayesian classification; Expectation Maximization (EM) algorithm; missing data; forecasting model 摘 要: 针对朴素贝叶斯分类算法中缺失数据填补问题, 提出一种基于改进 EM (Expectation Maximization) 算法的朴素贝叶斯分
基金项目: 高等学校省级优秀青年人才基金项目 ( No.2009SQRZ090 ) ; 安徽省自然科学基金 ( No.090412070 ) ; 安徽省教育厅重点资助项目 ( No.20100508 ) 。 作者简介: 张亚萍 (1978—) , 女, 讲师, 主要研究领域为人工智能、 数据挖掘; 陈得宝 (1975—) , 男, 副教授, 博士。E-mail: yapingzhangzl@126.com 收稿日期: 2010-12-28; 修回日期: 2011-03-03
|
|
|
|(6)
其中 ρ Î [0, 1] ( ρ 区分参数, 通常假设 ρ =0.5) , i=j=1, 2, …, n, (3) 和 k=p=1, 2, …, m。在等式 (6) 中 GRC ( X0(p) ,Xi(p) ) 的结果
Xi(p) 范围在[0, 1], GRC ( X0(p) , ) 的值表示为事例 X0 属性 p 记