一种基于改进特征加权的朴素贝叶斯分类算法

合集下载

基于特征权重聚类的朴素贝叶斯文本分类算法

基于特征权重聚类的朴素贝叶斯文本分类算法

基于特征权重聚类的朴素贝叶斯文本分类算法标题:深入探讨基于特征权重聚类的朴素贝叶斯文本分类算法在信息检索和文本分类领域,朴素贝叶斯算法一直是一个备受关注的研究热点。

近年来,基于特征权重聚类的朴素贝叶斯文本分类算法又成为了研究的新焦点。

本文将从理论和实践出发,深入探讨这一算法的原理、特点和应用,帮助读者全面、深刻地理解这一话题。

1. 背景介绍基于特征权重聚类的朴素贝叶斯文本分类算法是一种结合了特征权重和聚类技术的文本分类方法,它通过对特征进行权重计算,并结合了聚类算法,可以有效提高文本分类的准确性和效率。

这一算法在信息检索、情感分析、垃圾邮件过滤等领域有着广泛的应用。

2. 算法原理基于特征权重聚类的朴素贝叶斯文本分类算法首先对文本特征进行权重计算,然后利用聚类算法对文本进行分类。

其中,特征权重计算是通过TF-IDF等方法进行,而聚类算法常常采用K均值算法或层次聚类算法。

通过这一算法,我们可以更加准确地对文本进行分类,提高了分类的准确性和效率。

3. 算法特点与传统的朴素贝叶斯算法相比,基于特征权重聚类的算法具有以下特点:- 考虑了文本特征的权重,能够更准确地对文本进行分类;- 结合了聚类算法,提高了分类的效率;- 在处理大规模文本分类问题时,表现更加出色;- 可以应用于情感分析、文本聚类、垃圾邮件过滤等多种领域。

4. 应用案例分析基于特征权重聚类的朴素贝叶斯文本分类算法在实际应用中取得了不俗的成绩。

在情感分析领域,该算法能够更加准确地对用户评论进行情感分类,帮助企业更好地了解用户需求和市场动态;在垃圾邮件过滤领域,该算法能够高效地将垃圾邮件和正常邮件进行分类,提高了邮件过滤的准确性和效率。

5. 个人观点和总结从我个人的角度来看,基于特征权重聚类的朴素贝叶斯文本分类算法是一种非常值得研究和应用的算法。

它不仅提高了文本分类的准确性和效率,而且在处理大规模文本分类问题时表现出色。

我认为,在未来的研究和实践中,这一算法将会有更广泛的应用,并取得更加显著的成就。

基于朴素贝叶斯算法的改进遗传算法分类研究

基于朴素贝叶斯算法的改进遗传算法分类研究

基于朴素贝叶斯算法的改进遗传算法分类研究
张增伟 , 吴 萍
( ) 华东师范大学 信息科学技术学院 , 上海 2 0 0 2 4 1
摘 要 : 针对标准遗传算法的不稳定性 、 准确性低等问题 , 为了提高遗 传 分 类 算 法 的 稳 定 性 和 准 确 性 , 基 于 贝 叶 斯 算 法 的 有关理论 , 提出一种新的遗传算法分类方法 。 将初始样本集随机的分成数 量 相 等 的 几 组 , 通 过 朴 素 贝 叶 斯 算 法 从 初 始 样 本 区分度 ” 比较高的样本作为新的样本集 , 通过改进的遗 传 算 法 对 选 出 的 新 样 本 集 进 行 处 理 , 从 而 得 到 最 优 集中选出部分 “ 分类规则 。 通过两种算法的组合对数据分类时 , 使分类的稳定性和准 确 性 得 到 了 明 显 的 改 善 。 仿 真 实 验 结 果 表 明 , 该 算 法 有较高的稳定性和准确性 。 关键词 : 朴素贝叶斯算法 ; 遗传算法 ; 数据分类 ; 置信度 ; 覆盖度 )0 中图法分类号 : T P 3 0 1 . 6 文献标识号 :A 文章编号 : 1 0 0 0 7 0 2 4( 2 0 1 2 2 0 7 5 0 0 4 - - -
[ 1 0]
C j的概率的差值 的 绝 对 值 , 差 值 越 大 越 好 , 表 示 越 容 易 区 ,然后从给定的训练 分 , 我们暂且把这一值叫做 “ 区分度 ” 样本中选出部分区分度较大的样本作为一个新的样本 。
2 . 3 后期运用改进的遗传算法进行最优分类规则的提取
,是其它
在本文所提 出 的 分 类 方 法 中 , 我 们 为 了 提 高 遗 传 算 法 的执行效率 , 尽 量 确 保 搜 索 到 全 局 最 优 解 , 而 采 用 了 改 进 的遗传算法 。 本文所改进的遗传算法 , 编码 方 法 采 用 二 进 制 编 码 法 , 至于为何采用此方 法 以 及 如 何 编 码 在 后 面 的 实 验 所 采 用 的 实例说明部分会 提 到 。 其 它 除 了 与 标 准 遗 传 算 法 中 用 到 的 选择算子采用轮盘赌方法 、 交叉算 子 采 用 单 点 交 叉 相 同 外 , 我们在以下几个方面做了改进 : ( ) 为了提 高 遗 传 算 法 的 执 行 效 率 , 在 变 异 算 子 处 我 1 们把对每个基因位 是 否 需 要 变 异 的 判 断 变 为 对 每 条 染 色 体 的判断 。 如果某 染 色 体 需 要 变 异 , 再 随 机 选 取 某 基 因 位 进 行变异操作 , 从而大大提高了效率 。 ( ) 为了避免在交叉 和 变 异 操 作 后 较 优 等 的 父 个 体 被 2 子个体替换掉 , 我 们 在 每 次 交 叉 操 作 后 和 变 异 操 作 后 都 对 父个体和子个体 进 行 一 次 评 价 。 如 果 子 个 体 的 适 应 度 大 于 父个体 , 则选择 子 个 体 进 入 下 一 代 , 否 则 仍 保 留 父 个 体 进 入下一代 。 ( ) 适应度函数 ,适应 度 函 数 的 设 计 应 能 反 应 出 规 则 对 3 , 则数据 数据集的匹配程度 。 设有分类规则 “ I F X T H E N C” 集中共存在下面 4类不同的规则 ,其个体数目如表 1所示 。 表 1 规则类型

一种基于属性加权补集的朴素贝叶斯文本分类算法

一种基于属性加权补集的朴素贝叶斯文本分类算法

一种基于属性加权补集的朴素贝叶斯文本分类算法作者:陈凯黄英来高文韬赵鹏来源:《哈尔滨理工大学学报》2018年第04期摘要:针对文本训练集中各个类别的样本分布不均衡时,少数类别的特征会被多数类别的特征淹没的问题,提出一种属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TFIDF算法计算特征词在当前文档中的权重;利用当前类别补集的特征表示当前类别的特征并结合特征词在文档中的权重,解决分类器容易倾向大类别而忽略小类别的问题。

与传统的朴素贝叶斯及补集朴素贝叶斯算法进行对比实验,结果表明:在样本集分布不均衡时,改进算法的性能表现最优,分类准确率、召回率及Gmean性能分别可达82.92%、84.6%、88.76%。

关键词:属性加权;文本分类;朴素贝叶斯;不均衡数据集DOI:10.15938/j.jhust.2018.04.013中图分类号: TP391文献标志码: A文章编号: 1007-2683(2018)04-0069-06Abstract:When training samples of each class are distributed unevenly and sparsely, the features of smaller class cannot be adequately expressed and submerged by lager class, to solve this problem, a new method TFWCNB(TFIDF weighted complementary Nave Bayes) algorithm was proposed for unbalanced problem. TFWCNB used weighted features to improve the complement nave Bayes and TFIDF algorithm to calculate the feature word’s weight in the current document; in additional,it used features of current class’s complementary set to represent the features of current class,combining the feature word’s weight, it can solve the problem that the classifier tends to larger class and ignores the smaller class. The experimental results comparing with the traditional Nave Bayes and the complement Nave Bayes show that the TFWCNB algorithm has the best performance when the sample set is unevenly distributed, its classification precision, recall and gmean value can relatively reach 82.92%, 84.6% and 88.76%.Keywords:feature weight; text classification; naive Bayes; unbalanced dataset0 引言大多数的机器学习分类算法都是基于平衡数据集的假设,然而当数据集的各类别的样本分布不均匀时,分类器常常会倾向样本中多数类。

朴素贝叶斯分类算法的改进及应用

朴素贝叶斯分类算法的改进及应用

类算法。该算法首先根据灰色相关度对缺失数据一个估计, 估计值作为执行 EM 算法的初始值, 迭代执行 E 步 M 步后完成缺失数 据的填补, 然后用朴素贝叶斯分类算法对样本进行分类。实验结果表明, 改进算法具有较高的分类准确度。并将改进的算法应 用于高校教师岗位等级的评定。 关键词: 贝叶斯分类; EM 算法; 缺失数据; 预测模型 DOI: 10.3778/j.issn.1002-8331.2011.15.037 文章编号: 1002-8331 (2011) 15-0134-04 文献标识码: A 中图分类号: TP301.6
[2]
(随着变量的增加, 指数级增加) , 网络维护代价昂贵, 而且它 的估计参数较多, 会为系统带来高方差, 影响了它的预测精度。 波兰人 Pawlak 提出的粗糙集理论, 基于粗集理论的填充方法 寻找含有缺失值的对象的相容对象集, 然后用相容对象集中 出现次数最多的一个值来替代缺失值, 若相容对象集只有一 个对象, 则用其对应的值来替换缺失值, 粗糙集的方法主要使 用在条件属性缺失的处理方面[4]。 EM 算法有坚定的理论基础和简单、 稳定的特点, 已被广 泛地应用于缺损数据, 截尾数据, 成群数据, 带有讨厌参数的 数据等所谓的不完全数据的处理。该算法不仅可以对条件属 性进行填补, 还可以对类别属性进行填补。目前针对 EM 算法 存在不足的改进都是集中在加速收敛[5-7]和针对大数据集[8-9]方 面进行的。EM 算法初始值的估计, 对该算法的效果影响也是 不可忽略的, 只有选择合适的初值才能获得满意的最大 EM 收 敛值和加速收敛。 为了解决以上问题提出一种基于改进 EM 算法的朴素贝 叶斯分类算法, 来提高分类的准确率。根据灰色相关度给缺 失属性一个估计值作为 EM 算法的初始值, 由 EM 算法给出极

基于特征相关的改进加权朴素贝叶斯分类算法

基于特征相关的改进加权朴素贝叶斯分类算法

第51卷 第4期厦门大学学报(自然科学版)Vol.51 No.4 2012年7月Journal of Xiamen University(Natural Science)Jul.2012 基于特征相关的改进加权朴素贝叶斯分类算法饶丽丽1,刘雄辉2,张东站1*(1.厦门大学信息科学与技术学院,福建厦门361005;2.龙岩烟草工业有限责任公司信息技术部,福建龙岩364021) 收稿日期:2011-10-20*通信作者:zdz@xmu.edu.cn摘要:朴素贝叶斯分类算法的特征项间强独立性的假设在现实中是很难满足的.为了在一定程度上放松这一假设,提出了基于特征相关的改进加权朴素贝叶斯分类算法,该算法采用一种新的权重计算方法,这种权重计算方法是在传统词频-反文档频率(TF-IDF)权重计算基础上,考虑到特征项在类内和类间的分布情况,另外还结合特征项间的相关度,调整权重计算值,加大最能代表所属类的特征项的权重,将它称之为TF-IDF-FC权重计算.与基于传统TF-IDF权重的加权朴素贝叶斯分类算法和其他常用加权朴素贝叶斯分类算法比较,如基于属性加权的朴素贝叶斯分类算法,这种算法的分类效果均有一定的提高.关键词:朴素贝叶斯文本分类器;加权朴素贝叶斯文本分类算法;TF-IDF权重;特征项间的相关度中图分类号:TP 391.1 文献标志码:A 文章编号:0438-0479(2012)04-0682-04 朴素贝叶斯方法[1]是目前公认的一种简单有效的分类方法,它是一种基于概率的分类方法,被广泛地应用于模式识别、自然语言处理、机器人导航、规划、机器学习以及利用贝叶斯网络技术构建和分析软件系统.朴素贝叶斯文本分类方法是基于特征项间独立的假设,但是这与现实是不相符的,为此很多人研究出一种加权朴素贝叶斯算法,对后验概率计算中的每个条件概率项进行加权,并且对不同的特征项提供不同的加权值,从而使得特征项之间是不独立的,它们对类别的重要程度是不一样的[2].本文提出一种基于特征相关的改进加权朴素贝叶斯算法,在传统词频-反文档频率(TF-IDF)权重的基础上,考虑到类内和类间分布,同时根据特征项之间的相关程度,对它们的权重进行调整,突出相关性比较大的特征项权重,从而提高了加权朴素贝叶斯的分类能力.1 朴素贝叶斯文本分类朴素贝叶斯算法[1]的工作过程如下:1)设D是训练元组和相关联的类标号的集合.照例,每个元组用一个n维属性向量X={X1,X2,…,Xn}表示,描述由n个属性A1,A2,…,An对元组的n个测量.2)假定有m个类C1,C2,…,Cm.给定元组X,分类法将预测X属于具有最高后验概率(在X条件下)的类.也就是说,朴素贝叶斯分类法预测X属于类Ci,当且仅当P(Ci/X)>P(Cj/X),1≤j≤m,j≠i,这样,最大化P(Ci/X).其中P(Ci/X)最大的类Ci称为最大后验假设.根据贝叶斯定理,得到P(Ci/X)=P(X/Ci)P(Ci)P(X).(1)3)由于P(X)对于所有类为常数,只需要P(X/Ci)P(Ci)最大即可.如果类的先验概率未知,则通常假定这些类是等概率的,即P(C1)=P(C2)=…=P(Cm),并据此对P(X/Ci)最大化.4)由于计算P(X/Ci)的开销可能非常大,为降低计算P(X/Ci)的开销,可以做类条件独立的朴素假定.给定元组的类标号,假定属性值有条件地相互独立,即在属性之间,不存在依赖关系.这样,P(X/Ci)=∏k=nk=1P(xk/Ci)=P(x1/Ci)× P(x2/Ci)×…×P(xn/Ci),(2)可以容易地由训练元组估计概率P(x1/Ci),P(x2/Ci),…,P(xn/Ci).但是,独立性假设在许多实际问题中并不成立,如果忽视这一点,会引起分类的误差.2 加权朴素贝叶斯文本分类朴素贝叶斯分类方法认为所有条件属性对决策属性的分类重要性是一致的(权重均为1),这种方式使得冗余的、与分类无关的、相互影响的以及被噪声污染的特征和其他特征具有相同的地位,并使得分类的正确性降低,事实并非如此,有些因素对分类影响大一些,而另外的要小一些[3].基于上述观察,人们提出将各种特征加权算法与朴素贝叶斯分类器相结合,对不同的特征根据其分类重要性赋予不同的权值,使朴素贝叶斯扩展为加权朴素贝叶斯,以提高分类器的性能[3].加权朴素贝叶斯模型[3]大多为C(x)=argmaxCi∈CP(Ci)∏k=nk=1P(xk/Ci)Wj,k,(3)其中Wj,k是特征项tj在类别ck中的权重,权重越大,该特征项对分类的影响越大.特征权重的计算方式[1]有很多种,比如布尔权重、词频权重、TF-IDF权重等.而TF-IDF权重应用最广泛,因为它将词频和反文档频率结合使用,克服了前面种种权重计算方法的缺点,TF-IDF计算的归一化公式[4]如Wi=TF(ti)×IDF(ti)∑ni=1(TF(ti)×IDF(ti))槡2,IDF(ti)=log(Nni+L),(4)其中TF(ti)是特征项ti的词频,IDF(ti)是反文档频率[5],在它的计算公式中,L的取值通过实验来确定.N为文档集的总文档数,ni为出现特征项ti的文档数.IDF算法的核心思想是,在大多数文档中都出现的特征项不如只在一小部分文档中出现的特征项重要.IDF算法能够弱化一些在大多数文档中都出现的高频特征项的重要程度,同时增强一些在小部分文档中出现的低频特征项的重要程度.3 基于特征相关的改进加权朴素贝叶斯文本分类3.1 特征值选取在将文本表示成特征向量时,原始特征空间由出现在文本中的所有词条组成,文本分类问题所对应的原始特征空间通常都高达几万维,甚至更高.如果直接在这样一个高维特征空间上进行分类器的训练和分类,不仅使文本自动分类的计算量过大,而且会使样本统计特征的估计变得非常困难.因此,在分类器对训练文本进行训练之前,在不影响分类准确率的前提下,减少原始空间的维数(也称降维),将特征维数压缩到与训练文本个数相适应的情况[6].降维就是从原始特征空间中提取出部分特征的过程.下面是本文采取的降维方法:根据互信息的定义公式[7]I(t,c)=logp(t∧c)p(t)×p(c),(5)其中p(t∧c)为单词t和类别c同时出项的概率,p(t)为单词出现的概率,p(c)为类别c出现的概率.它可近似为[7]I(t,c)=(A/N)/[(B/N)×(C/N)]=A×NB×C,(6)其中A为t和c在训练集中的同现频率,N为训练集中文本的数目,B为t在训练集中出现的文本频数,C为c在训练集中出现的文本频数.由于互信息没有考虑到词频,所以可能会选中词频比较低的特征项,因此对互信息公式做了如下改进:Inew(t,c)=p(t)×p(c/t)×p(c)×I(t,c),(7)其中p(t)为t出现的概率(t的词频与特征项总数之比),p(c/t)为t属于类别c的概率,p(c)为类别c的概率,该公式考虑到了频数,同时还考虑到特征在每个类别中的分布情况.最后对训练集中的每个单词计算其互信息值,从原始特征空间中移除低于特定阈值的单词,保留高于阈值的词条作为特征值.3.2 基于特征相关的改进权重计算方法(TF-IDF-FC权重)1)计算测试文本的所有特征项的权重.由于传统的TF-IDF权重[8]是将训练文本作为一个整体来进行考虑的,而没有考虑特征项在类间和类内中的分布情况这一重要信息,比如,如果某一特征项在某个类别大量出现,而在其他类别出现很少或者是某一特征项只在某个类别的一两篇文档中大量出现,而在类内的其他文档中出现的很少,这样的特征项的分类能力其实是很强的.但这在TF-IDF算法中是无法体现的.为了弥补这些缺陷,考虑到特征项对某类的影响程度与它在该类内的文档数成正比,与在其他类的文档数成反比,本文对TF-IDF权重的计算进行了改进,提出TF-IDF-FC权重,公式如下所示:Wj,k=TF(tj,k)×IDF(tj,k)∑j=nj=1(TF(tj,k)×IDF(tj,k))槡2,(8)IDF(tj,k)=log(nk+1nj-nk+1+L),(9)其中Wj,k是特征项tj在类Ck中的权重,值越大,越能代表该类,TF(tj,k)是特征项tj在类Ck中的词频,nk·386·第4期 饶丽丽等:基于特征相关的改进加权朴素贝叶斯分类算法是在类Ck中包含特征项tj的文档数,nj是训练文本中所有包含特征项tj的文档数,因此nj-nk是除类Ck外包含特征项tj的文档数,L的取值通过实验来确定,在本文中L取2,式(9)中的加1是为了避免分子和分母为0的情况,从式(8)、(9)可以看出,特征项在类内文档数越大(类内分布越均匀),在其他类的文档数越小(类间分布越不均匀),则它的权重越大.2)计算测试文本特征项之间的互信息值(特征项相关度).虽然能够赋予每个特征项不同的权重以示它们不再独立,但是不同的权重只是代表对类的贡献程度不同,它们之间的复杂联系没有考虑到.比如,太极是属于宗教常出现的词语,老虎是动物,属于自然类,但它们同时出现时,很有可能指的是韩国(太极虎),属于政治类.因此,根据上面的互信息公式计算特征项之间的相关程度,此时,计算公式如下:I(t,c,d)=logp(t∧c∧d)p(t∧d)×p(t∧c),(10)其中c,d代表2个特征项,可以用式(7)的近似代替,如下所示:I(t,c,d)=(A/N)/[(B/N)×(C/N)]=A×NB×C,(11)只是现在A为t,c,d在训练集中的同现频率,N为训练集中文本的数目,B为t,c在训练集中出现的文本频数,C为t,d在训练集中出现的文本频数.根据式(11)计算测试文本之间的相关系数,设定阈值λ,如果特征项c和d的互信息值小于λ,它们之间就没有连接,否则将它们连接,由此最后能够得到一个无向图,每个特征项代表图的节点.3)调整相关特征项的权重.根据2)步构造出来的图,计算每个节点(特征项)的度数,将1)步计算出的权重乘以该特征项的度数即为特征项的最终权重,度数越大,权重越大,则能代表该类的能力越强,也就是分类能力越强.4)将3)步计算的权重代入式(3),计算属于每类的概率,其中概率最大的即是测试文本所属类.4 实验数据及分析假设TPi表示测试文档集中本来属于类别ci而且被分类器分类到类别ci的文档数,FPi表示测试文档集中本来不属于类别ci但却被分类器错误分类到类别ci的文档数,FNi表示本来应该属于类别ci但被分类器分类到别的类别的文档数,而TNi表示本来不属于类别ci也没有被分类器分类到类别ci的文档数.那么,分类器在类别ci上的召回率(R)定义为Ri=TPiTPi+FNi,(12)分类器在类别ci上的精确率(P)[8]定义为Pi=TPiTPi+FPi,(13)对于类别ci,其F1(值越大,分类效果越好)定义为F1=2×R×RR+P.(14)本文采用的是复旦大学计算机信息与技术系国际数据库中心自然语言处理小组提供的文本分类语料库,它分为训练语料和测试语料,均分为20类,其中训练语料共有9 804篇文档,测试语料共有9 833篇文档,基本是按照1∶1划分的,而在本实验中只取其中的5类,训练数据每类取200篇文章,共1 000篇文章,测试数据每类取150篇,共750篇文章.下面将基于传统TF-IDF权重,改进后的TF-IDF-FC权重和文献[3]中的基于属性加权的朴素贝叶斯分类算法的实验结果进行对比,如表1所示.从表1可以看出,改进后较改进前的算法分类效果明显要好,且较基于属性加权的朴素贝叶斯算法的分类效果也有一定的提高.原因在于TF-IDF-FC权重计算考虑到了特征项在类间和类内的分布,类内分布越均匀,类间分布越不均匀,对类的贡献能力越大,因此它的权重越大,不仅如此,还根据特征项间的相关性,调整特征项权重,使得代表类的能力强的特征项的权重增大,分类效果越好.5 结 论特征项间独立性假设在很大程度影响了朴素贝叶斯文本分类的分类能力,为了克服这一问题,本文提出一种改进的特征项加权朴素贝叶斯文本分类方法,该算法的创新部分在于提出了一种改进的TF-IDF权重计算方法———TF-IDF-FC权重计算方法,该方法是在传统TF-IDF权重计算方法的基础上,考虑到特征项在类内分布越均匀和类间分布越不均匀,则代表类的能力越大,权重越大,并且根据特征项之间的相关程度,对权重计算值进行了调整,使得对所属类贡献度较大的特征项的权重增加,有利于分类结果质量的提高.另外,通过实验也表明本文采用的这种文本分类算法的分类效果不但较基于传统TF-IDF权重的加权朴素贝叶斯分类算法的分类有了很明显的提高,而且与文献[3]介绍的基于属性加权的朴素贝叶斯分类算法的·486·厦门大学学报(自然科学版) 2012年表1 基于传统TF-IDF权重,属性加权和改进TF-IDF权重的加权朴素贝叶斯文本分类算法的实验效果对比Tab.1 Experimental results comparison of naive Bayes classification algorithm based on the traditional TF-IDF weight,attribute weight and improved TF-IDF weight文档目标基于属性加权的朴素贝叶斯分类算法P R F1基于传统TF-IDF权重的加权朴素贝叶斯文本分类算法P R F1基于特征相关的改进TF-IDF权重的加权朴素贝叶斯文本分类算法P R F1美术(150)0.9306 0.8933 0.9116 0.8966 0.8667 0.8814 0.9379 0.9066 0.9220文学(150)0.9252 0.9067 0.9159 0.9034 0.8792 0.8911 0.9388 0.9200 0.9293教育(150)0.9060 0.9000 0.9030 0.9085 0.8716 0.8897 0.9195 0.9133 0.9164哲学(150)0.9396 0.9333 0.9364 0.9128 0.9067 0.9097 0.9530 0.9467 0.9499历史(150)0.8875 0.9467 0.9117 0.8383 0.9333 0.8833 0.9057 0.9600 0.9321分类效果有较大的提高,因此,研究此类算法意义还是比较大的.参考文献:[1] Han J W,Kamber M.数据挖掘概念与技术[M].范明,孟小锋,译.北京:机械工业出版社,2000:173-175.[2] 程克非,张聪.基于特征加权的朴素贝叶斯分类器[J].计算机仿真,2006,23(10):92-94.[3] 秦锋,任诗流,程泽凯.基于属性加权的朴素贝叶斯分类算法[J].计算机工程与应用,2008,44(6):107-109.[4] 刘林.基于词语权重改进的朴素贝叶斯分类算法的研究与应用[D].广州:中山大学,2009.[5] 鲁明羽,李凡,庞淑英.基于权值调整的文本分类改进方法[J].清华大学学报:自然科学版,2003,43(4):513-515.[6] 罗海飞,吴刚,杨金生.基于贝叶斯的文本分类方法[J].计算机工程与设计,2006,27(24):4746-4748.[7] 郑伟.文本分类特征选取技术研究[D].呼和浩特:内蒙古大学,2008.[8] 徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184.An Improved Weighted Naive Bayes Classification AlgorithmUsing Feature CorrelationRAO Li-li 1,LIU Xiong-hui 2,ZHANG Dong-zhan1*(1.School of Information Science and Technology,Xiamen University,Xiamen 361005,China;2.Department of Information Technology,Longyan Tobacco Industrial Co.Ltd,Longyan 364021,China)Abstract:The strong independence condition between the feature required by naive Bayes classification algorithm is very difficult torealize in reality.This paper puts forward an improved weighted naive naive Bayes classification algorithm using feature correlation toloose this condition to some extent,this algorithm adopts a new weighting method called TF-IDF-FC weight calculation,it takes intoaccount the feature distribution within and between class based on the traditional TF-IDF weight calculation method and adjusts fea-ture weight in combination with feature correlation in order to make the weight of the feature which can represent its class mostly.Compared with weighted naive Bayes classification based on the traditional TF-IDF weight and other commonly used weighted naiveBayes classification algorithms,such as attribute weighted naive Bayes classification,this algorithm improve the performance of classi-fication to a certain extent.Key words:naive Bayes text classification;weighted naive Bayes text classification;TF-IDF weight;feature correlation·586·第4期 饶丽丽等:基于特征相关的改进加权朴素贝叶斯分类算法。

特征加权融合的朴素贝叶斯情感分类算法

特征加权融合的朴素贝叶斯情感分类算法

特征加权融合的朴素贝叶斯情感分类算法曾宇;刘培玉;刘文锋;朱振方【摘要】为解决文本情感分类准确率不高的问题,提出了一种特征加权融合的朴素贝叶斯情感分类算法.通过分析单个情感词对文本情感分类的贡献度特征,根据情感词对文本情感贡献度的权值调整贝叶斯模型的后验概率;将文本中所有相同极性的情感词作为一个特征整体,根据特征整体对文本情感贡献度的权值调整贝叶斯模型的整体概率.为了进一步提高分类的准确率以及提升分类模型的综合性能,将两种加权方式同时与朴素贝叶斯模型结合.结果表明,融合后的方法在数据集上的整体平均查准率、查全率分别提高1.83%和3.42%,平均F1值提高了2.76%.%In order to improve the accuracy rate of text sentiment classification ,a naive Bayesian algorithm for text sentiment classification based feature weighting integration is proposed . Firstly , by analyzing the feature of the individual sentiment word contribute to the text sentiment classification , it adjuststhe posteriori probability of the Bayesian model according to the weight value of the sentiment words 'contribution to the text sentiment classification . Secondly , all sentiment words of same polarity are treatedas a whole whose feature is merged with Bayesian model and the probability of the Bayesian model that is adjusted according to the weight value of the feature's contribution . Finally , to improve the accuracy rate and enhance the comprehensive performance of the classification model , the two weighting methods are integrated into Bayesian model . The experimental results illustrate that the overall average precision and the recall of the integrated method on the dataset are increased by about 1.83%and 3.42% respectively ,and the average F1 value increases by about2.76% .【期刊名称】《西北师范大学学报(自然科学版)》【年(卷),期】2017(053)004【总页数】6页(P56-60,73)【关键词】情感分类;特征加权;贡献度特征;朴素贝叶斯【作者】曾宇;刘培玉;刘文锋;朱振方【作者单位】山东师范大学信息科学与工程学院,山东济南 250358;山东省分布式计算机软件新技术重点实验室,山东济南 250358;山东师范大学信息科学与工程学院,山东济南 250358;山东省分布式计算机软件新技术重点实验室,山东济南250358;山东师范大学信息科学与工程学院,山东济南 250358;菏泽学院计算机与信息工程系,山东菏泽 274015;山东交通学院信息科学与电气工程学院,山东济南250357【正文语种】中文【中图分类】TP391.1情感分析又称意见挖掘,是对带有情感色彩的评论文本进行分类、处理和归纳的一个过程[1].通过对评论文本进行有效的情感分析,商家能够通过用户反馈的信息进行筛选和分类,从中获得更有用的信息,及时地向用户推荐合适的商品,以便帮助用户更好地做出购买商品的选择,从而获得更大的利益.用户也可从分析后的评论文本中判断商品的质量,从而确定是否购买该类商品.文本情感分类是情感分析的一个研究热点,它的目的是将文本的整体情感倾向分为正面(积极、肯定、赞扬等)和负面(消极、否定、批评等)两个类别.目前文本情感分类方法的研究主要分为两类[2].一类是基于情感词典规则的方法[3-5].另一类基于机器学习的特征分类方法[6-7].基于情感词典规则的方法主要是利用现有的资源对情感词典进行构建,然后通过结合已构建的情感词典从评论文本中提取情感词作为特征,并结合提出的规则将短语或者是句子进行加权求和得到文本的情感倾向.而基于情感词典的方法依赖于情感词典的质量,当情感词典资源匮乏时无法有效地分析文本的情感倾向.基于机器学习的特征分类方法主要是利用人工标注的训练语料来构建分类器模型,通过构建的模型判断测试文本的情感倾向.在现有的机器学习分类模型中,朴素贝叶斯分类方法是一种常用的机器学习方法.与其他分类方法相比,朴素贝叶斯分类方法相对简单并且在文本情感分类中能够取得较好的分类效果.因此,朴素贝叶斯分类算法在文本情感分类领域得到广泛的应用.文献[8]提出一种情感词典与朴素贝叶斯相结合的情感分类方法,利用情感词典进行特征提取,并把情感词作为特征词,与CHI特征选择方法进行比较.文献[9]通过分析汉语语言中转折句式结构的特点,提出一种用于进行情感分析的启发式规则,并将该规则融入朴素贝叶斯分类模型中对文本进行情感倾向性分析.文献[10]提出句子加权算法的篇章级文本情感倾向性分析方法,利用朴素贝叶斯判别简单句的情感倾向,利用情感规则判别复杂句的情感倾向,最后利用句子加权的方法判断篇章级的文本情感倾向.总得来看,现有的朴素贝叶斯情感分类方法中很少有考虑到情感特征词对评论文本情感倾向性贡献程度的特点,这将导致判别文本情感倾向性的准确率不够理想.因此,为了解决这些问题,本文通过构建基于扩展情感词典的朴素贝叶斯分类模型对评论文本进行情感分析.本文的主要工作是通过引入加权因子对情感词进行加权,从而调整模型的概率.最后通过实验验证本文方法的可行性.1.1 特征提取特征提取是实现文本情感倾向性判断的基础,通过对文本进行特征提取,在一定程度上可以提高情感倾向判断的准确率.文献[9]通过实验证明利用情感词作为特征词的分类方法的效果要优于利用CHI特征选择方法的分类效果.因此,本文通过将中国知网提供的HowNet情感词典和台湾大学提供的NTUSD情感词典以及收集的部分网络情感词进行整合,并筛选出有效的情感词加入情感词集合得到一个扩展情感词典(Expanding sentiment lexicon, ESL).最后,通过结合构建的扩展情感词典进行特征提取.1.2 贝叶斯分类模型对于文本d={w1,w2,…,wn}的情感倾向属于j={pos,neg},假设在各个情感特征相互独立的情况下,得到朴素贝叶斯情感分类公式其中,p(cj)为文本类别为j的先验概率;p(wici)为贝叶斯模型的后验概率.其中为类别为j的文档包含的情感词总数;为整个训练语料文档包含的情感词总数;s(wi,cj)为在情感类别为j的情况下情感词wi在各个文档中出现过的次数之和.另外,为了避免在计算过程中后验概率p(wici)等于0的情况,使用Laplace转换,最终得到计算后验概率的公式其中,为训练样本包含多少种情感词,这些情感词是不重复的.1.3 情感词特征加权传统的朴素贝叶斯情感分类算法仅仅考虑将情感词作为文本的情感特征,没有考虑到文本中不同极性的情感词对文本情感倾向的影响.例如在一篇正向的评论文本中只出现正向情感词,在使用贝叶斯方法计算情感词的后验概率时有可能会出现正向情感词对正向文本的后验概率小于其对负向文本的后验概率,这就导致将该文本错误地判断为负向文本,造成文本情感分类的准确率下降.因此,本文结合构建的ESL情感词典以及分析文本情感表达的特点,通过引入加权因子T(wicj)确定不同极性的情感词对文本情感极性分析的贡献程度.T(wicj)表示判断为j类别的评论文本中情感词wi的权值.加权因子的值越大表明该情感词对文本整体情感极性分析贡献的程度越大,即情感词对文本整体情感极性贡献的权值越大.经过分析发现,正向情感词对正向评论文本贡献的权值应当大于正向情感词对负向评论文本贡献的权值.同理,负向情感词对负向评论文本贡献的权值应当大于负向情感词对正向评论文本贡献的权值.因此,为了更有效的对情感词赋予相应的权值,本文通过结合测试文本中情感词的数量来确定加权因子的计算公式.令p表示测试文本中正向情感词的个数,q表示第一篇测试文本中负向情感词的个数.本文将加权因子的计算公式定义为符合以下等式其中,Lpos为构建情感词典中属于正向类别的情感词集合;Lneg为构建情感词典中属于负向类别的情感词集合.1.4 整体特征加权经过大量语料分析发现,当文本中出现某一类别情感词的数量多于另一类别的情感词数量时,文本语料的情感倾向性往往会与含有多数情感极性词的倾向性一致.即语料中同一类别情感词个数的多少会影响文本整体的情感倾向性.因此,为了进一步区分文档所属情感类别的概率,本文将测试文本中所有相同极性情感词作为一个统一的特征整体并对其赋予不同的权值.为了更有效的对特征整体赋予相应的权值,本文结合以下2个条件1)当每一篇测试文本中出现正向情感词的个数大于负向情感词的个数时,正向情感词对正向评论文本贡献的权值大于负向情感词对负向评论文本贡献的权值;2)当每一篇测试文本中出现负向情感词的个数大于正向情感词的个数时,负向情感词对负向评论文本贡献的权值大于正向情感词对正向评论文本贡献的权值.结合上述2个条件,本文通过引入加权因子来确定情感词个数对文本情感分析影响的整体权值.w(w+cj)表示负向情感词整体对评论文本贡献的权值.整体加权因子的计算公式定义为1.5 特征加权融合算法为了进一步提高文本情感分类的准确率以及提升分类模型的综合性能.本文将上述引入的两种加权因子进行融合,实现一种特征加权融合的朴素贝叶斯情感分类算法.融合后的公式为特征加权融合的朴素贝叶斯情感分类算法的描述如下.输入:训练文本、测试文本、ESL情感词典.输出:文本的情感倾向.算法过程:1)文本预处理.通过分词工具对文本进行分词并结合停用词表去除无关的词语;2)特征提取.将文本与构建的情感词典进行匹配,提取出相应的情感特征词;3)构建分类模型.结合步骤2中提取的特征词对带有情感标签的训练文本进行训练,通过(4)式计算得到情感词的后验概率;4)情感词特征加权.根据(5)~(7)式,计算加权因子T(wicj)结合,调整情感词在贝叶斯模型中的后验概率;5)整体特征加权.根据(8)~(9)式分别计算整体加权因子w(w+cj)在不同情况下的权值,并将其融入贝叶斯分类模型中,根据文本中情感词的数量调整模型的整体概率;6)情感分类.结合步骤4)和步骤5),得到融合后的模型,通过计算测试文本所属情感类别的概率,概率大的判断为文本所属的情感类别.2.1 实验语料选取本文使用的实验数据集是ChnSentiCorp去重后的数据集.该数据集包含电脑、酒店、书籍3个不同领域的数据.本文从3个领域的数据中分别选取正负各2000篇作为本次实验的数据.实验数据集的分布情况见表1.实验测试的计算机处理器为Intel(R)Core(TM)i5-5200 2.20 GHz,内存4 GB,操作系统为Windows 8.1,使用Java语言进行编程,Eclipse作为开发环境.本次实验从3个数据集中分别选取正向文档和负向文档中10%的数据作为测试集,其余的文档作为训练集.2.2 评价指标实验采用目前广泛使用的准确率(Accuracy)、查准率(Precision)、查全率(Recall)和F1值4种指标来评估情感分类算法的效果.进行情感分类的评价指标分别定义如下准确率=×100%,查准率=×100%,查全率=×100%,F1=×100%。

基于改进朴素贝叶斯的入侵检测方法

基于改进朴素贝叶斯的入侵检测方法

基于改进朴素贝叶斯的入侵检测方法孙程;邢建春;杨启亮;韩德帅【摘要】工业控制系统的网络安全问题越来越严峻,遭到的入侵威胁也越来越复杂.伴随着网络的开放性、复杂性不断增强,入侵威胁正在不断加深.为了抵御愈趋复杂和多样的入侵威胁,需要设计高效的入侵检测方法.朴素贝叶斯分类算法是一种有效而简洁的分类算法,能较好地应用于工业控制系统网络的入侵检测.但是它的属性独立性假设使得该方法无法表示属性变量之间存在的关系,影响了它的分类效果.针对该缺陷,借鉴前人的经验,提出了一种改进综合加权系数的朴素贝叶斯分类算法(Compositive Weighted Naive Bayes Classification,CWNBC).该算法既考虑了不同属性取值对分类结果的影响,又考虑了属性值的内容对分类的影响,巧妙地引入了综合加权系数.将该算法与其他几种算法比较,经实验表明,该分类算法有较高的分类准确率,能更好地适用于比较复杂的工业控制系统网络的入侵检测.【期刊名称】《微型机与应用》【年(卷),期】2017(036)001【总页数】4页(P8-10,14)【关键词】朴素贝叶斯;加权系数;属性值【作者】孙程;邢建春;杨启亮;韩德帅【作者单位】解放军理工大学国防工程学院,江苏南京210007;解放军理工大学国防工程学院,江苏南京210007;解放军理工大学国防工程学院,江苏南京210007;解放军理工大学国防工程学院,江苏南京210007【正文语种】中文【中图分类】TP31网络技术的飞速发展在给人们的生活带来极大便利的同时,也给人们带来了较大的安全威胁。

随着网络的开放性和复杂性不断增强,工业控制系统(Industry Control System,ICS)面临的安全问题也日益凸显,遭到的入侵威胁不断增大。

入侵检测是ICS的网络安全防御中重要的组成部分,是保护系统安全的重要手段,一直被国内外专家学者所关注。

入侵检测技术是一种要找出能够危害信息资源完整性、机密性和可用性的安全措施[1]。

一种改进的朴素贝叶斯文本分类方法

一种改进的朴素贝叶斯文本分类方法

一种改进的朴素贝叶斯文本分类方法梁宏胜1,2,徐建民1,成岳鹏1(1.河北大学数学与计算机学院,河北保定 071002;2.河北大学校园规划处,河北保定 071002) 摘 要:朴素贝叶斯分类器是一种简单有效的文本分类方法.改进方法利用同义词对文本的特征词集进行过滤,在一定程度上放松了朴素贝叶斯的特征独立性假设;在特征选择时迭代了2种不同的特征选择方法,有效地提高了特征集的代表性.实验结果表明,本方法有效地提高了朴素贝叶斯分类器的性能.关键词:文本分类;朴素贝叶斯;特征抽取;同义词中图分类号:TP 391 文献标识码:A 文章编号:1000-1565(2007)03-0327-05An Improving T ext C ategorization Method of N a ve B ayesLI ANG H ong 2sheng 1,2,X U Jian 2min 1,CHE NG Y ue 2peng 1(1.College of Mathematics and Computer ,Hebei University ,Baoding 071002,China ;2.The Section of Campus Planning ,Hebei University ,Baoding 071002,China )Abstract :Na ve Classifier is a simple and powerful method for text classification.Our improved method uses synonyms to filtrate the features of text ,loosing the independent condition required by Bayesian method.We apply two different feature extraction methods in the iteration process ,enhancing the representa 2tive ability of feature collection effectively.The experimental results show that our advanced method has obvi 2ously improved the performance of Na ve Bayesian Classifier.K ey w ords :Text Categorization ;Na ve Bayes ;Feature extraction ;Synonyms文本分类是信息处理领域重要的研究方向之一,其目标是在分析文本内容的基础上,给文本分配1个或多个比较合适的类别,从而提高文本检索、文本存储等应用的处理效率.目前,较为著名的文本分类算法有Rocchio 、贝叶斯、KNN 、决策树、SVM 等.朴素贝叶斯分类器(Na ve Bayesian Classifier )是目前公认的一种简单有效的概率分类方法,在某些领域中表现出很好的性能,但是它的属性独立性假设使其无法表示现实世界属性之间的依赖关系,影响其分类性能.本文讨论了一种改进的朴素贝叶斯文本分类方法,通过弱化独立性假设及提高特征集的代表性来改善分类性能,并将其与朴素贝叶斯文本分类器进行了实验比较.1 相关知识1.1 文本分类文本分类系统的任务是:在给定的分类体系下,根据文本的内容或属性,将大量文本归到1个或多个类 收稿日期:2006-06-06 基金项目:河北省科学技术研究与发展计划(04213534) 作者简介:梁宏胜(1972-),男,河北保定人,河北大学工程师,主要从事信息检索、不确定性信息处理方向研究.第27卷 第3期2007年 5月河北大学学报(自然科学版)Journal of Hebei University (Natural Science Edition )Vol.27No.3May 2007别中.从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,其用数学公式可表示如下:f :A →B ,其中,A 为待分类的文本集合,B 为分类体系中的类别集合.文本分类的映射规则是系统根据已掌握的各类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则,在遇到新文本时,就可以根据总结出的判别规则,确定文本的相关类别.1.2 同义词在信息检索领域,同义词的概念并不等同于语言学和日常生活中的同义词,其并不考虑感情色彩和语气,主要是指能够相互替换、表达相同或相近概念的词汇[1].面向信息检索的同义词主要分为以下几类:1)等义词和等义词词组,即意义完全相等的词,如电脑—计算机、自行车—脚踏车等;2)准同义词和准同义词词组,即意义基本相同的词和词组,如边疆—边境、住房—住宅等,这类词在同义词中占很大的比例;3)某些过于专指的下位词,例如在词表中只使用“球类运动”,而没有在下面列举出“门球”、“毽球”、“网球”等词,这些过于专指的下位词也被看作是“球类运动”同义词;4)个别的反义词,这类词描述相同的主题,但所包含的概念互不相容,如平滑度—粗糙度等.信息检索中识别同义词的义类词典和词汇分类体系资源包括Roget ’s Thesuarus ,WordNet 以及《同义词词林》、《知网》等[1].本文所采用的是哈尔滨工业大学信息检索实验室刘挺教授等对《同义词词林》扩展后的版本《同义词词林(扩展版)》.1.3 朴素贝叶斯分类方法贝叶斯分类器是一种典型的基于概率统计分类器.其数学基础是贝叶斯定理,主要思想就是计算在给定一待分类文档的条件下其属于各个类别的条件概率,然后选择条件概率最高的那个类别为该文档所属的类别.朴素贝叶斯分类器基于一个类条件独立性假设(朴素假设),即假设一个文档中任何两个特征词之间的出现与否是相互独立的.其主要分类步骤如下:1)训练过程:计算特征词属于每个类别C j 的概率P (w i /C j ),P (w i /C j )==∑|D |k =1N (W i ,d k )+1∑|V |s =1∑|D |k =1N (W s ,d k )+|V |,(1)图1 文本分类系统结构Fig.1 Structure of text classif ication system其中,|D |表示类的文档数,|V |表示特征词表中的总单词数,∑|D |k =1N (W s ,d k )表示特征词w i 出现在类文档中的次数,∑|V |s =1∑|D |k =1N (W s ,d k )表示C j类文档中出现的所有特征词的总次数.2)测试过程:计算测试文本d 属于类C i 的概率P (C i /d ),将其分到概率最大的类别中.P (C i /d )=arg max P (C i )∏mj =1P (w j /C i ).(2)其中P (C i )为类C i 的先验概率,m 为特征项数目.2 改进的朴素贝叶斯分类方法2.1 文本分类系统的结构图1说明了本文所用的文本分类系统结构.整个结构由训练模块和测试模块构成.本系统做的主要改进是预处理中的同义词过滤和特征选择中的不同方法迭代.下面分别介绍以上方法.・823・河北大学学报(自然科学版)2007年2.2 预处理2.2.1 分词及初步预处理分词是预处理的主要任务,分词的效果好坏会直接影响到后面的其他处理过程.本文分词采用正向最大匹配方法,分词后得到一个词集合,进行词频统计,同时过滤停用词、剔除虚词,如语气词、副词、介词、连词及分类时候不是很重要的单字词等,并把出现频率低于一定范围的词排除掉.2.2.2 同义词处理文本经过初步预处理后得到一个特征词集合后,利用《同义词词林(扩展版)》对特征词集合进行过滤,如:将特征词集合中出现的“计算机”,“电脑”,“微机”等,统一用“计算机”来表示,同时将其词频合并.经过同义词过滤后,特征词集中不再含有《同义词词林(扩展版)》中的同义词,降低了特征词集中的特征项数目.实验中发现过滤后的特征项数目仅降低了约8%,究其原因是《同义词词林》中收录的为一般意义上的同义词而非专业的同义词,而语料词典中收录的都是一些专有名词和复合词汇,所以匹配率较低.2.3 改进的特征选择方法特征选择是文本分类中的关键问题,它具有降低向量空间维数、简化计算和防止过分拟合等作用.由于特征子集的数量和特征数量之间是指数关系,枚举几乎是不可能的,因此,可以假设特征之间是相互独立的,这样特征子集的抽取就转化为特征项的抽取.目前常用的特征选择方法主要有文档频数(Document Frequency )、互信息(Mutual Information )、信息增益(Information G ain )、期望交叉熵(Expected Cross Entropy )和χ2统计量(CHI )、文本证据权(Weight of Evi 2dence for Text )等[2-8].寻找一种有效的特征选择方法来降低特征空间的维数,提高分类的精度和效率,是文本分类需要面对的重要问题[9-10].在文本分类研究中发现,当特征词集发生变化时,每个样本文档的VSM 向量表示将会有很大的差异,因此即使训练集中仍然是原来那些样本,但实际上样本本身已经发生了很大的变化,由此训练出的Na ve Bayesian 分类器便会有很大的区别.特征提取方法为特征词集中每个词计算相应的评价分值,分值大于一定阈值的词被选为“特征词”,实验发现,不同的特征提取方法会产生不同的特征词集合,且各个特征词集合最低重合率还不到10%,因此即使是在同一个学习系统中,在同样的训练样本集合上,使用不同的特征提取方法最后生成的学习器的性能也会有很大的不同.每个特征提取方法都倾向于选择自己认为重要的一些特征词,但其他的特征提取方法却不一定这样认为.因此,组合它们的选择结果可能会有较好的效果.根据以上思想我们试图将2种不同的特征提取方法提取的特征词集合进行组合,以便取得更好的分类效果.因为:1)互信息是在统计语言模型中被广泛采用[6],且大量的研究表明采用互信息算法效果明显优于其他算法[2,11];2)互信息方法是对不同的类别抽取不同的特征项,而期望交叉熵考虑的是各个特征在每个类别中的分布情况.所以本文选取的是互信息与期望交叉熵2种方法进行迭代.下面是这2种方法的标准形式(w 表示特征项,C i 表示类别).互信息函数,定义如下:M I (w )=P (C i )lgP (w /C i )P (w ).(3)其中P (w /C i )是训练语料中特征项w 出现在类别C i 中的概率,P (C i )是类别c i 出现的概率,P (w )是训练语料中特征项出现的频率.对于每一类别来讲,词w 的互信息越大,说明该词与该类的共现概率越大.一般取w 在所有类中的最大值为其M I 值.期望交叉熵,定义如下:CrossEntr (w )=P (w )6i P (C i /w )lgP (C i /w )P (C i ).(4)其中P (C i /w )表示文本中出现词条w 时,文本属于C i 的概率.如果词条和类别强相关,也就是P (C i /w )大,且相应的类别出现概率又小的话,则说明词条对分类的影响大,相应的函数值就大,就很可能被选中作为特征项.・923・第3期梁宏胜等:一种改进的朴素贝叶斯文本分类方法2.4 改进的特征抽取过程1)分别计算所有特征项的互信息和期望交叉熵值;2)分别按评分值的大小排序;3)按一定的比例,分别抽取特征项,并将其合并得到特征子集;4)计算该条件下的性能评价指标;图2 改进的朴素贝叶斯分类结构示意图Fig.2 Sketch m ap of the improved na veb ayesian categorize structure5)调整比例大小,重复3)4)直到获取最优特征子集.2.5 改进的朴素贝叶斯分类器的模型朴素贝叶斯分类器是贝叶斯分类中一种最简单、有效而且在实际使用中很成功的分类器.其采用最简单的贝叶斯网络结构,在该模型中,假设所有的属性w i (i =1,2,…,n )都条件独立于类变量C ,即每一个属性变量都以类变量作为唯一的父节点.图2的改进模型另加一层基于同义词过滤的属性层,如属性w 2,w 3为同义词,则合并为w ′2.过滤后的属性层中不再含有同义词,这样朴素贝叶斯的特征独立性假设得到弱化,同时降低了特征维数.2.6 评价方法文本分类的评价标准类似于信息检索的评价标准,包括精度(查准率)、召回率(查全率)和F 1测试值:精度是采用文本分类方法分类的正确文本数与实际分类的文本数的比率,即精度(precision )=分类的正确文本数实际分类的文本数;召回率是采用文本分类方法分类的正确文本数与分类应有的所用文本的比率,即召回率(recall )=分类的正确文数应有的所有文件数;F 1测试值综合考虑了准确率和查全率这2个不同的方面,其公式如下:F 1测试值=精度×召回率×2精度+召回率.本文采用这3个指标来对实验结果进行度量评价.3 实验3.1 测试集实验选用的是复旦大学中文语料库,选取了5个主题类:艺术、计算机、经济、政治、体育.其中各主题类别的训练文本分布情况如表1,共有文本4147个.测试文本分布情况如表2,共有文本3980个.训练集和测试集彼此不重叠,不包括任何重复文本.表1 训练文本各主题类文本分布T ab.1 E ach topic text distributing of training text主题艺术计算机经济政治体育测试数目732877896793849表2 测试文本各主题类文本分布T ab.2 E ach topic text distributeing of test text主题艺术计算机经济政治体育测试数目6928298827488293.2 实验结果分别对采用互信息的一般方法,及本文的改进方法进行了多次比较实验,得到的分类结果见表3.其中BN 2M I 表示采用互信息特征选择方法;BN 2MC 表示采用迭代2种特征选择方法;T 2BN 2M I 表示采用同义词处理的互信息特征选择方法;T 2BN 2MC 表示采用同义词处理迭代多种特征选择方法.・033・河北大学学报(自然科学版)2007年表3 改进方法的比较实验结果T ab.3 Experimental results of the improved method system文本类别BN 2MIBN 2MC T 2BN 2MI T 2BN 2MC正确率召回率F 1正确率 召回率 F 1 正确率 召回率 F 1 正确率 召回率 F 1艺术 0.8970.8640.8800.9930.6410.7790.9920.5390.6980.9420.8560.897计算机0.8000.9690.8760.9940.9470.9700.9920.9320.9610.9360.9660.951经济 0.6830.4670.5550.9080.6790.7770.9170.6550.7650.9000.7620.825政治 0.6050.6110.6080.8580.7450.7980.8550.7150.7790.6790.7880.729体育 0.6550.6980.6760.5520.9550.7000.5030.9520.6580.7440.7990.771类平均0.7240.7150.7190.8570.7980.8260.8480.7650.8050.8410.8330.837由表3的数据可以看出,通过采用不同的特征选择方法的迭代,及采用同义词集进行数据处理,均有效改善了朴素贝叶斯分类器的分类效果.4 结束语随着对网络信息处理需求的增加,自动文本分类将会越来越多地受到人们的重视.本文讨论了文本分类系统实现中的若干关键步骤,并提出了一些对朴素贝叶斯器的改进方法,实验数据表明以上方法能有效提高朴素贝叶斯分类系统的性能.在系统实现过程中,发现分词结果中的许多特征项在《同义词词林(扩展版)》中都没有出现,如何提高分词结果与同义词集的匹配性及如何组合最优的特征选择方法,还将在今后的工作中进一步研究.参 考 文 献:[1]陆 勇,侯汉青.用于信息检索的同义词自动识别及其进展[J ].南京农业大学学报(社会科学版),2004,4(3):87-93.[2]黄萱菁,吴立德,石崎洋之,等.独立于语种的文本分类方法[J ].中文信息学报,2000,14(6):1-7.[3]RILOFF E ,L EHN ERT rmation Extraction as a Basis for High 2Precision Text Classification[J ].ACM Transactions onInformation Systems ,1994,12(3):296-333.[4]Y AN G Y M ,PEDERSEN J O.A Comparative Study on Feature Selection in Text Categorization[Z].The 14th InternationalConference on Machine Learning ,Morgan K aufmann ,1997.[5]Y AN G Y M.Noise Reduction in a Statistical Approach to Text Categorization[Z].The 18th Annual International ACMSIGIRConference on Research and Development in Information Rerieval ,Seattle ,1995.[6]L EWIS D D.Feature Selection and Feature Extraction for Text Categorization[Z].The Speech and Natural language Work 2shop ,San Mateo ,1992.[7]CHURCH K W ,HAN KS P.Words association norms ,mutual information ,and lexicography[J ].Computational Linguistics ,1990,16(1):22-29.[8]DUNN IN G T E.Accurate methods for the statistics of surprise and coincidence [J ].Computational Linguistics ,1993,19(1):61-74.[9]陆玉昌,鲁明羽,李 凡.向量空间法中单词权重函数的分析与构造[J ].计算机研究与发展,2002,39(10):1205-1210.[10]陈治平,林亚平,彭 雅.基于最小类差异的无关信息预处理算法[J ].电子学报,2003,39(10):1750-1753.[11]秦 进,陈芙蓉,汪维家,等.文本分类中的特征抽取[J ].计算机应用,2003,23(2):45-46.(责任编辑:孟素兰)・133・第3期梁宏胜等:一种改进的朴素贝叶斯文本分类方法。

基于改进属性加权的朴素贝叶斯分类模型

基于改进属性加权的朴素贝叶斯分类模型

1 引言
分类是机器学习 、 数据挖掘方 面的核心 问题 。 近年来 , 从数
本 = (
… , 属于类 别 C ( ≤ ) k1 ≤m) 的概率可 由 贝叶斯
据中提炼信息和构造可靠 的分类器逐渐成为—个热 门课题 。 分 类的方法有很多 , 如神经网络 、 决策树 、 遗传算法 、 支持向量机 和贝叶斯分类器等。 贝叶斯分类器 由于具有坚实的数学理论基 础并能综合先验信息和样本数据信息 , 已成为分类 问题的研究
非、 张聪f 2 0 年 1 06 于 O月提 出了一种 由数据导 出特征 加权的
P /) ・I (C , 题 关 是恰 地 造 系 。 ( c= I Px  ̄ 问 的 键 当 构 权重 数W x  ̄w /)

要: 构造 了一种新的属性 间相 关性度量方法 , 出了改进 属性加权 的朴素 贝叶斯分类模型 。 提 经实验证 明, 出的朴素 贝叶斯分 提
类模型 明显优于张舜仲等人提 出的分类模型 。
关键 词 : 性 加 权 ; 素 贝叶 斯 ; 类模 型 ; 关性 度 量 属 朴 分 相 D :037  ̄i n10 — 3 1 0 00 . 2 文 章 编 号 :0 2 83 (0 0 0 — 12 0 文 献 标 识 码 : 中 图 分 类 号 :P 0 OI1 . 8 .s. 2 8 3 . 1 . 0 7 s 0 2 44 10 — 3 1 2 1 )4 0 3 — 2 的分类精度。 由于其所依赖 的属性 %) C 。 但 对于式 ( ) 1 需要 假设 P个属性 是相 互独立的 , 但实 际问题 独立性假设在真实 问题 中往往并不 成立 , 为此 , 如何放松 围绕 独立性假设 , 又能 取得较好的分类效果 , 许多学 者做 了大量的

一种改进的选择性朴素贝叶斯方法[发明专利]

一种改进的选择性朴素贝叶斯方法[发明专利]

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201810291375.6(22)申请日 2018.04.03(71)申请人 西安理工大学地址 710048 陕西省西安市金花南路5号(72)发明人 姚全珠 李莎莎 费蓉 范慧敏 白赞 (74)专利代理机构 西安弘理专利事务所 61214代理人 许志蛟(51)Int.Cl.G06K 9/62(2006.01)(54)发明名称一种改进的选择性朴素贝叶斯方法(57)摘要本发明公开的一种改进的选择性朴素贝叶斯方法,包括以下步骤:将WoE值和IV值引入属性选择中,得到与类别相关度较高的属性子集,构造朴素贝叶斯分类器;然后在其基础上进一步删除冗余属性,得到最优属性子集。

本发明改进的选择性朴素贝叶斯方法现有的贝叶斯算法的基础上,将WoE和IV指标引入属性选择,提高朴素贝叶斯在属性冗余时的分类性能,同时在属性不冗余的情况下保持朴素贝叶斯的分类性能;根据阈值筛选得到第一轮属性子集,从而减少了遍历空间,解决了在减少属性维度的同时提高分类的正确性的问题。

权利要求书3页 说明书8页CN 108805156 A 2018.11.13C N 108805156A1.一种改进的选择性朴素贝叶斯方法,其特征在于,包括以下步骤:步骤1,给定含有n个属性的数据集T,设S={A1,A2,…,A n}为离散属性变量有限集,C={C1,C2,…,C m}为类变量,m为类变量的取值个数,C j为类变量的第j个取值;当讨论二分类问题,即假设j=2,C={C1,C2}时,对于任意的条件属性变量A i,设其有S i 个不同的取值即属性A i的第k个取值表示为a ik;步骤2,定义WoE指标WoE指标是对原始自变量的一种编码形式,要对一个变量进行WoE编码,需要先把这个变量进行分组处理,如公式(2)和(3):公式(2)-(3)式中:C1表示第1个训练样本的类标签,C2表示第2个训练样本的类标签,P (A=a ik|C=C1)表示属性为a ik、类别为C1的条件概率,P(A=a ik|C=C2)表示属性为a ik、类别为C2的条件概率,N(C)表示类别为C的样本数,N为数据样本总数,N(A=a ik|C)表示类别和属性值为a ik时的样本数;步骤3,定义IV指标IV指标是用来衡量变量的信息量,即自变量对于目标变量的影响程度,如公式(4)所示:IV(a ik,C)=(P(A=a ik|C=C1)-P(A=a ik|C=C2))*WoE(a ik,C) (4)则属性A i的IV值为各个分组的IV值之和,即:步骤4,结合步骤1,将步骤2的WoE指标和步骤3的IV指标引入属性选择中,构造朴素贝叶斯分类器;步骤5,在步骤4的基础上,需先通过IV指标对步骤1的最原始的离散属性变量有限集S 进行过滤,得到符合阈值要求的属性子集S',并对S'中的属性按照IV值大小由高到低的顺序进行排序,最后在排列有序的属性子集S'上搜索能使分类器的性能达到最优的属性集合。

基于属性加权的朴素贝叶斯分类算法改进

基于属性加权的朴素贝叶斯分类算法改进

基于属性加权的朴素贝叶斯分类算法改进作者:胡胜利王琦敏来源:《电脑知识与技术》2017年第29期摘要:通过对朴素贝叶斯算法的学习和理解,针对削弱朴素贝叶斯属性条件独立假设的问题,该文提出了一种改进的加权算法,该算法通过对增益率加权和关联度得分加权的思想来确定新的权重系数来提高准确性。

最后,在MATLAB软件中使用UCI数据集对模型进行了验证。

实验结果表明,相对于传统的朴素贝叶斯算法,改进后的算法提高了分类的准确率。

关键词:贝叶斯公式;朴素贝叶斯算法;MATLAB中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)29-0257-02贝叶斯算法也叫贝叶斯推理,在18世纪,英国学者贝叶斯曾提出计算条件概率的公式用来解决如下问题:在已经知道某条件概率情况下,怎样得到两个事件交换后的概率,即已知P (A|B)的情况下求P(B|A)。

贝叶斯定理的进行分类的一个简单的应用就是朴素贝叶斯算法,它的基本思想就是对给出的等待分类的项,求出在此项出现的条件下各项类别出现的概率,在这些概率中找出最大的,就认为这个等待分类的项属于那个概率最大的对应的类别。

已知集合:C={y1,y2,y3,.....,yn}和I={x1,x2,x3,......,xn},通过构造相应的映射规则y=f(x),使得I集合中的任意元素xi有且仅有一个在C中的元素yi,使得yi=f(xi)成立。

在分类问题中集合C就表示类别集合,I集合就表示数据集合,而映射规则f就是分类器。

分类算法就是构造相应的分类器。

分类算法基本上都是通过相关经验来构造相应的映射,在一般情况下未能构造完全准确的映射是因为分类算法缺少一定量的数据,最后可以通过对我们已经知晓的数据进行分析和整理来求出这一定概率上的分类。

文献[1]提出了根据属性的重要性给不同属性赋不同权值的加权朴素贝叶斯(Weighted Naive Bayes,WNB)模型,并通过实验发现它们能改进朴素贝叶斯的分类效果。

基于特征权重聚类的朴素贝叶斯文本分类算法

基于特征权重聚类的朴素贝叶斯文本分类算法

《基于特征权重聚类的朴素贝叶斯文本分类算法》1. 概述在文本分类领域,朴素贝叶斯算法一直以其简单而有效的特点备受青睐。

然而,随着信息量的不断增加,传统的朴素贝叶斯算法在处理复杂文本数据时也暴露出一些局限性。

为了克服这些问题,基于特征权重聚类的朴素贝叶斯文本分类算法应运而生,它将特征权重聚类与朴素贝叶斯分类相结合,通过这种方式可以更准确地进行文本分类,提高分类的准确性和效率。

2. 特征权重聚类的概念特征权重聚类是一种将特征值进行聚类并赋予不同权重的技术。

在文本分类中,特征可以是词语、短语或者其他文本特征。

通过对这些特征进行聚类,并给予它们不同的权重,可以更好地表达文本的语义和信息。

3. 基于特征权重聚类的朴素贝叶斯算法原理基于特征权重聚类的朴素贝叶斯算法是在传统朴素贝叶斯算法的基础上进行改进的。

它通过对文本特征进行权重聚类,得到不同特征的权重,并结合文本特征的分布情况,从而更准确地计算文本的分类概率。

这一改进使得算法能够更好地适应复杂文本数据的分类需求。

4. 实际应用情况在实际应用中,基于特征权重聚类的朴素贝叶斯算法已经得到了广泛的应用。

在情感分析、新闻分类、文本过滤等领域,这一算法都取得了较好的效果。

通过对文本特征进行权重聚类,算法能够更好地捕捉文本的关键信息,从而提高分类的准确性和效率。

5. 个人观点和理解我认为,基于特征权重聚类的朴素贝叶斯算法是一种非常值得推广和应用的文本分类技术。

通过将特征权重聚类与朴素贝叶斯分类相结合,可以更准确地进行文本分类,从而提高分类的准确性和效率。

在未来,随着信息量的不断增加和文本数据的不断复杂化,这一算法将会发挥越来越重要的作用。

结束语通过本文的介绍,相信大家都对基于特征权重聚类的朴素贝叶斯算法有了一个更深入的了解。

这一技术的出现,为文本分类领域带来了新的发展机遇,也为我们在处理文本数据时提供了一种更为有效的解决方案。

希望本文对大家有所帮助,并能够在实际应用中发挥积极的作用。

Hadoop中任务调度算法的改进

Hadoop中任务调度算法的改进

Hadoop 中任务调度算法的改进苏小会,何婧媛(西安工业大学计算机科学与工程学院,陕西西安710032)摘要:针对Hadoop0.20.0中任务调度算法存在的不足,提出一种基于改进遗传算法(IGA )的任务调度算法。

IGA 算法对初始化种群、交叉和变异操作进行了一些改进,并引入了最优保留策略和加速进化策略。

通过仿真实验将此算法与Hadoop 现有算法进行比较,实验结果表明,此算法优于Hadoop 现有算法,是一种有效的任务调度算法。

关键词:Hadoop 平台;任务调度;遗传算法;加速进化策略中图分类号:TP302文献标识码:A文章编号:1674-6236(2012)22-0033-04Improvement of task scheduling algorithm in hadoopSU Xiao -hui ,HE Jing -yuan(School of Computer Science and Engineering ,Xi ’an Technological University ,Xi ’an 710032,China )Abstract:A task scheduling algorithm based on improved genetic algorithm (IGA )was brought up for the deficiences of the task scheduling algorithms in Hadoop0.20.0.IGA algorithm improved the original colony is initialized and crossover and mutation operation ,and introduces retention optimal strategy and evolution acceleration strategy.There is a contrast between IGA and existing algorithm in Hadoop through simulation experiment ,and the result is:the IGA is better ,it is an effective task scheduling algorithm.Key words:hadoop platform ;task scheduling ;genetic algorithm ;evolution acceleration strategy收稿日期:2012-07-23稿件编号:201207143作者简介:苏小会(1970—),男,陕西武功人,硕士,副教授。

一种利用关联规则的改进朴素贝叶斯分类算法

一种利用关联规则的改进朴素贝叶斯分类算法
摘 要 : 朴素贝叶斯分类是 一种 简单 而高效的分类模型 ,然而条件 独立性假设在现 实中很 少出现 ,致使其性能
有所下降。通过 引入关联规 则,从 两方面来改善朴素贝叶斯分类的性能。一方面 ,通过对关联规 则的
挖 掘 ,发现 条 件 属 性 之 间的 关联 关 系 ,并且 利 用这 种 关联 关 系弱 化 朴 素 9 叶斯 的独 立性 假 设 ;另 一 方 2 面 .通过 关联 规 则 的 置信 度 ,给 朴 素 贝 叶斯 加 权 。
Ja T n i e st , ’n 71 0 9 Ch n ; . in M e t n i b eT S a i n Ja g e 2 0 i o o g Un v r i Xi 4 , i a 3 J a g n Ci Xi Hu y a 0 y Ca l V t t , i n m n 5 91 , o 0
C ia hn )
Ab ta t Nav y sca sfc to sfkn fsmp ea d ef ciec a sfc to d 1 Ho v r t ep ro ma c sr e : ieBa e ls iia in i l id o i l n fe t ls i ain mo e. we e, h e r n e v i f
关 键 词 : 分 类模 型 :朴 素 贝叶 斯 :数 据 挖 掘 ;置 信度 :关联 规 则
M o i e i eBa e a sfe i gAs o i to ls d f d Na v y sCl s i rUsn s c a i n Ru e i i
CHEN a Da ,LI Ch o. ANG Zhu Xu . n! ZHE NG h-i S iJ
1 引言
分 类是数据分析 中一个非常重要 的过程 。随着人

加权朴素贝叶斯模型

加权朴素贝叶斯模型

加权朴素贝叶斯模型一、前言随着机器学习技术的不断发展,贝叶斯分类器也逐渐成为了一种常见的分类算法。

其中加权朴素贝叶斯模型是一种基于朴素贝叶斯模型的改进算法,能够更好地处理特征之间的相关性。

本文将详细介绍加权朴素贝叶斯模型的原理、实现以及应用,并结合实例进行说明。

二、加权朴素贝叶斯模型原理1. 朴素贝叶斯模型简介首先,我们需要了解一下朴素贝叶斯模型。

它是一种基于概率统计的分类算法,通过计算每个类别下各个特征出现的概率来判断一个样本属于哪个类别。

在朴素贝叶斯模型中,假设每个特征都是独立的,因此可以使用条件独立性假设来简化计算。

具体地说,对于一个样本x和类别y,其后验概率可以表示为:P(y|x) = P(x|y)P(y) / P(x)其中P(x|y)表示在给定类别y下样本x出现的概率,P(y)表示类别y出现的概率,P(x)表示样本x出现的概率。

由于P(x)对于所有类别都是相同的,因此可以省略。

2. 加权朴素贝叶斯模型简介加权朴素贝叶斯模型是一种基于朴素贝叶斯模型的改进算法,它引入了特征权重来更好地处理特征之间的相关性。

具体地说,在计算P(x|y)时,加权朴素贝叶斯模型会为每个特征分配一个权重,表示该特征对于分类结果的重要程度。

然后将每个特征的出现次数乘以对应的权重,再计算条件概率。

3. 加权朴素贝叶斯模型实现加权朴素贝叶斯模型的实现过程与朴素贝叶斯模型类似,只是在计算条件概率时需要考虑特征权重。

具体地说,假设有n个样本、m个特征和k个类别。

首先需要计算每个类别出现的概率P(y),可以使用样本中每个类别出现次数除以总样本数来估计。

然后需要计算每个特征在给定类别下出现的概率P(xi|y),其中xi表示第i个特征。

这里需要注意,在计算条件概率时需要考虑特征权重wi,因此P(xi|y)的计算公式如下:P(xi|y) = (sum(wi * count(xi, y)) + a) / (sum(wi * count(x, y)) + a * len(x))其中count(xi, y)表示在给定类别y下特征xi出现的次数,count(x, y)表示在给定类别y下所有特征出现的总次数,len(x)表示样本中特征的总数。

基于特征加权的朴素贝叶斯流量分类方法研究

基于特征加权的朴素贝叶斯流量分类方法研究

基于特征加权的朴素贝叶斯流量分类方法研究张泽鑫;李俊;常向青【摘要】研究了被广泛应用于互联网流量分类的朴素贝叶斯分类方法的性能特点,针对此方法在给定类别下给出的所有流量特征同等重要并且是独立的假设在现实中难以满足,致使分类准确率不高的问题,提出一种基于特征加权的朴素贝叶斯流量分类算法.该算法基于NetFlow记录的特征信息,采用特征选择算法ReliefF和相关系数方法计算每个特征的权重值,然后将网络流量分配至后验概率最大的应用类别中.实验结果表明,这种基于特征加权的朴素贝叶斯算法具有超过94%的分类准确率,并且维持了朴素贝叶斯方法简单高效、分类稳定的特性,可以满足当前高带宽网络流量分类的需求.【期刊名称】《高技术通讯》【年(卷),期】2016(026)002【总页数】10页(P119-128)【关键词】流量分类(TC);ReliefF;相关系数;特征加权(AW);朴素贝叶斯(NB);NetFlow【作者】张泽鑫;李俊;常向青【作者单位】中国科学院计算机网络信息中心北京100190;中国科学院大学北京100049;中国科学院计算机网络信息中心北京100190;中国科学院计算机网络信息中心北京100190【正文语种】中文随着互联网的迅猛发展,越来越多的新型网络应用不断兴起,网络规模不断扩大,网络组成也越来越复杂。

音频、视频等实时应用的兴起,更是从根本上改变了人们对网络的使用方式,网络复杂性上升的同时,网络的异构性也愈来愈强,各种新的应用和未知协议使网络日益复杂、多样化和难以管理。

进行网络管理离不开互联网流量分类(traffic classification, TC),互联网流量分类是认识、管理和优化各种网络资源的重要依据。

网络服务提供商(ISP)通过对网络流进行分类,获悉各类网络应用所占的比例,预测网络业务的发展趋势,对不同的网络业务实行差异化收费标准。

流量分类在网络安全性检测方面也发挥着巨大的作用,可以实现更精确的异常检测,入侵检测等。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国家自然科学基金项目[2011]61163049,贵州省自然科学基金资助项目黔科合 J 字[2014] 7641
《计算机应用研究》 2019 年第 36 卷第 12 期
传统朴素贝叶分类算法没有根据特征项的不同对其重要程度进行划分,使得分类结果不准 确。针对这一问题,引入 Jensen-Shannon(JS)散度,用 JS 散度来表示特征项所能提供的信 息量,并针对 JS 散度存在的不足,从类别内与类别间的词频、文本频以及用变异系数修正过 的逆类别频率这三个方面考虑,对 JS 散度进行调整修正,最后计算出每一特征项的权值,将 权值带入到朴素贝叶斯的公式中。通过与其他算法的对比实验证明,基于 JS 散度并从词、文 本、类别三方面改进后的朴素贝叶斯算法的分类效果最好。因此基于 JS 散度特征加权的朴素 贝叶斯分类算法与其他分类算法相比,其分类性能有很大提高。
安徽绩溪人,教授、博士,主要研究方向为数据挖掘、无线与移动通信、协议分析与模型检测、密码学与信息安全.
录用定稿
丁 月,等:一种基于改进特征加权的朴素贝叶斯分类算法
第 36 卷第 12 期
算法完成改进的目的。
1 相关研究
1.1 朴素贝叶斯分类算法 朴素贝叶斯算法是以贝叶斯算法[13]为基础,假设各特征条
————————————————————————————————————————————————
一种基于改进特征加权的朴素贝叶斯分类算法
作者 机构 DOI 基金项目 预排期卷 摘要
关键词 作者简介
中图分类号 访问地址 投稿日期 修回日期 发布日期
丁月,汪学明
贵州大学 计算机科学与技术学院
10.3969/j.issn.1001-3695.2018.07.0426
0 引言
当今互联网飞速发展,各类信息大规模的出现,如何在众 多的信息中筛选出目标信息成了信息挖掘技术中的重要研究内 容,数据挖掘中的各种文本分类算法将信息进行分组归类,提 高了分类的准确性和高效性。目前,常用的分类算法有决策树 分类算法、K-最邻近(KNN)分类算法、支持向量机(SVM) 分类算法、朴素贝叶斯分类算法[1~4]。已有实验研究表明,在处 理大规模的数据集时,KNN 算法会有很大的计算开销,而 SVM 算法的计算精度虽高但其时间开销较大,同样决策树算法的效 率也会因为数据量的增大而降低。而朴素贝叶斯分类算法[5]在 分类过程中的效率较为稳定,并且使用时所需要的参数方便获
/article/02-2019-12-058.html
2018 年 7 月 9 日
2018 年 8 月 6 日
2018 年 10 月 10 日
一种基于改进特征加权的朴素贝叶斯分类算法
————————————————————————————————————————————————
—————————— 收稿日期:2018-07-09;修回日期:2018-08-06 基金项目:国家自然科学基金项目[2011]61163049,贵州省自然科学基金资助项目黔科合 J 字[2014]
7641 作者简介:丁月(1994-),女,山西太原人,硕士研究生,主要研究方向为数据挖掘(m13403463138_1@);汪学明(1965-),通讯作者,男,
| cNB argmaxP(cn) j P(xm cn) m1
类的文本属于类别 cn 的概率;P(xm|cn)
所代表的是类别 cn 中包含特征项 xm 的概率。
P(cn)
属于cn类的文本数 训练集中的文本总数
(2)
| P(xm cn) 类别cn中类包别含cn中特的征文项本xm的总文数本数量(3)
Naive Bayes classification algorithm based on feature weighting
Ding Yue, Wang Xueming†
(College of Computer Science & Technology Guizhou University, Guiyang 550025, China)
Vol. 36 No. 12 Accepted Paper
一种基于改进特征加权的朴素贝叶斯分类算法 *
丁 月,汪学明†
(贵州大学 计算机科学与技术学院, 贵阳 550025)
摘 要:传统朴素贝叶分类算法没有根据特征项的不同对其重要程度进行划分,使得分类结果不准确。针对这一问题, 引入 Jensen-Shannon(JS)散度,用 JS 散度来表示特征项所能提供的信息量,并针对 JS 散度存在的不足,从类别内 与类别间的词频、文本频以及用变异系数修正过的逆类别频率这三个方面考虑,对 JS 散度进行调整修正,最后计算出 每一特征项的权值,将权值带入到朴素贝叶斯的公式中。通过与其他算法的对比实验证明,基于 JS 散度并从词、文本、 类别三方面改进后的朴素贝叶斯算法的分类效果最好。因此基于 JS 散度特征加权的朴素贝叶斯分类算法与其他分类算 法相比,其分类性能有很大提高。 关键词:文本分类;朴素贝叶斯;JS 散度;词频;文本频率;类别频率 中图分类号:TP391.1 doi: 10.3969/j.issn.1001-3695.2018.07.0426
但在公式中,前提条件假设每个特征向量完全独立,并且 每个特征项的权重都是相同的,不符合实际情况,得到的分类 结果必然不准确。 1.2 特征加权算法
有许多专家利用属性加权赋值的算法对朴素贝叶斯分类模 型进行了深入的研究和改进完善,最常用的关于计算特征权重 算法的算法有词频(TF)、逆文本频(IDF)、信息增益(IG)、 互信息(MI)、期望交叉熵(ECE)等。单丽莉等人[9]对 TFIDF、 MI、IG、ECE 这四种常用的权重算法进行了比较研究,并提出 了改进方法,用改进后的算法对旅行类的相关文本进行分类, 得出文本中不存在的词语对分类起到的干扰作用比带来的贡献 大的结论,因此使用 ECE 算法比用 IG 算法计算出的权重值准 确。饶丽丽等人[10]对传统的 TFIDF 权重算法进行了改进,基于 传统的词频与逆文本频,结合特征项在类内和类外的分布情况, 提出了 TFIDF-FC 算法,并把 TFIDF-FC 算法运用到朴素贝叶 斯分类算法中,分类效果得到改善; Wang 等人[11]关注到了词 与类别之间的关系,提出将逆类频率(ICF)与关联频率(RF) 相结合,提出若一个特征项在多数的类别中都存在,则要降低特 征项的权重,通过减少特征项的权重来提高分类的准确度;针 对 IG 算法没有考虑到特征项频数的问题,石慧等人[12]研究发 现 IG 算法在计算特征项所提供的信息量时,只考虑了含有特 证词的文本数占训练集中所有包含特征项的文本数的比例,而 没有考虑特征项本身出现的次数,于是提出将类内词频与类间 词频引入到传统的 IG 算法中来提高分类的准确度; Peng 等人 [13]提出了一种基于相对文本分布频率的 IG 算法,用文本的相 对频率分布代替了不同类别间含有特征项的文本的频率分布, 进一步提高了分类性能。 虽然这些方法对提高分类的准确度起到了一定的作用,但只是
Abstract: The traditional Naive Bayes classification algorithm does not divide the importance degree according to the different feature items, which makes the classification result inaccurate. In order to solve this problem, this paper introduces Jensen-Shannon (JS) divergence and uses JS divergence to express the amount of information provided by the feature terms. Aiming at the deficiency of JS divergence, the paper consider from the three aspects of word frequency, text frequency and inverse category frequency corrected by coefficient of variation, the JS divergence is adjusted and corrected. The weights are introduced into the naive Bayes formula. Compared with other algorithms, it is proved that this method improves the naive Bias classification algorithm effectively. Therefore, compared with other classification algorithms, the performance of naive Bayesian classification algorithm based on JS divergence feature weighting is greatly improved. Key words: text classification; Naive Bayes; Jensen-Shannon divergence; word frequency; document frequency ; class frequency
在单个片面的角度进行改进,没有将特征项所携带的信息量、 词频、文本频率、类别频率及其在类别内和类别外的分布情况 进行综合考虑。因此,本文用 JS 散度表示特征项的信息量,并 从特征词、文本、类别这三个维度的类别内外充分考虑,提出 一种新的基于 JS 散度的特征加权朴素贝叶斯分类算法。
件相互独立的一种有效的分类算法。假设有类别集 C(c1,c2, c3, ... ,cn)和待分类的文本特征项 X(x1,x2,x3,...,xn),朴素 贝叶斯算法就是假设特征项在类别 ca 与 cb 之间相互独立的情况 下,计算出特征项属于各个类别的概率 P(cn|X),所得最大值对 应的类别就是该文本属于的类别 cn。朴素贝叶斯分类公式如下:
相关文档
最新文档