文本分类中特征提取方法的比较改进

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ，ＳＶＭ）Ｊ．文本分类性能的评
ＩＧ（ｔ）＝一∑ｐ（ｃ）ｌｏｇｐ（Ｃｉ）＋ｐ（） ∑（ｃＩ
ｔ）ｌｏｇｐ（ｃＩｔ）＋ｐ（） ∑ ｃｆＩｔ）ｌｏｇｐ（ｃ）．（１）
第１步：利用公式（１）计算每个类别中的所有
特征的ＣＨＩ值．
文档频率；Ｄ为不包含于类别ｃ也不具有特征项ｔ
的文档频； Ⅳ为训练文本中文档总数量．
第２步：按ＣＨＩ的值将特征进行由高到底的排序，选取其中前个特征，这样会得到有Ｍ个模
ｒ
、
将基于改进统计量和模式聚合方法的文本特征提取方法基本步骤描述如下．
式中，Ａ为包含于类别ｃ同时具有特征项ｔ的文档频率；Ｂ为具有特征项ｔ但不包含于类别ｃ的
文档频率；Ｃ为包含于类别ｃ但不具有特征项ｔ的
１．１ＩＧ（ＩｎｆｏｒｍａｔｉｏｎＧａｉｎ）信息增益
分类过程主要由５个方面的内容组成，分别是：文本预处理、文本表示、文本特征选取、文本分类算法和文本分类性能评估 ¨ Ｊ．文本预处理是指在文本分类过程中除去待分类文本中和分类任务无关内容的过程．目前在文本表示中应用比较广泛的模型是向量空间模型（ＶｅｃｔｏｒＳｐａｃｅＭｏｄｅｌ，ＶＳＭ）．文本
评估结果提取适合的特征．目前在特征提取中常用的方法有：ＩＧ（Ｉｎｆｏｒｍａｔｉｏｎｇａｉｎ）信息增益，ＭＩ（Ｍｕ —
收稿日期：２０１３－０３－２８
ＭＩ方法把相关性高的特征也就是互信息值较
９８１－），女，甘肃景泰人，讲师，硕士生
第５期
王
娟：文本分类中特征提取方法的比较改进
・２３・
１．３ＤＦ（ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）文档频率
第２０卷第５期２０１３年１０月
文章编号：１００９— ２２６９（２０１３）０５— ００２２— ０３
兰州工业学院学报
ＪｏｕｎａｒｌｏｆＬａｎｚｈｏｕＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ
１．２Ｍｌ（ＭｕｔｕａｌＩｎｆｏｒｍａｔｉｏｎ）互信息值
估是由准确率和召回率这两个指标来决定的，文中
对特征提取方法中的统计法进行了改进，有效提高了分类的准确率．
１特征提取
在进行特征提取时，首先利用向量空间模型将
验使用１９９６年到２００１年的文本作为具体的研究
对象，其中９１３１１８个文本作为训练样本，１８１８６３个文本作为测试样本．在实验中，从中抽取关于社会、娱乐、经济、国内体育和国际体育的文章进行分析，如表１所示．本文设计了３个实验，实验１是对
摘要：介绍了ＩＧ（Ｉｎｆｏｒｍａｔｉｏｎｇａｉｎ）信息增益，ＭＩ（Ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）ｇ－４￥息值，ＣＨＩ（统计法）、
ＤＦ（Ｄｏｃｕｍｅｎｔ￣ｅｑｕｅｎｃｙ）文档频率４种常用的文本特征提取方法，然后针对ＣＨＩ方法提出了改进方法，并对改进的方法进行了实验分析，结果表明改进的方法提高了文本分类的正确率．
贡献．当ｔ与ｃ相互独立时，＝０；若的值越大，说明特征ｔ与类别ｃ的相关程度越高．文本类别受
特征ｔ的影响越大；反之，文本类别受特征ｔ的影响越小．为了将该方法推广到所有类别时，一般取每个类别对应词条的统计量的最大值作为该词条的
当ＡＤ —ＣＢ＜０，特征和类别负相关．而在１．４节
在实验中，选取了《读者新闻》数据库作为
研究对象．《读者新闻》数据库含有从１９８７年到
２００１年的读者新闻，总共２１９０５２１篇文章．本实
ＩＧ（ＩｎｆｏｒｍａｔｉｏｎＧａｉｎ）信息增益通过统计每个类别中特征出现的次数来表示训练集上该特征的
分布情况．其计算公式如下
特征提取所做的工作就是分析待分类文本中的词，
找出有用的作为特征词，剔除那些无用的词和 “ 噪声” 词，以提高分类的效率和分类的精度．常用的文本分类算法有：朴素贝叶斯算法＿２Ｊ、Ｋ近邻（ＫＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ，ＫＮＮ）以及支持向量机（Ｓｕｐ．
该值的大小说明了特征的分布情况，值越大，
分布越均匀，该特征越有可能出现在较多的类别
中，在训练集上的分布也就越集中，反之则相反．由于分布集中的特征比较重要，所以ＩＧ方法提取ＩＧ值较高的特征．
第４步：利用凝聚的层次法聚类算法对每个模
式进行聚类（一行表示一个模式）．将欧氏距离小于一定阈值的模式进行聚类．第５步：重新计算每个特征项的ＣＨＩ值，根据ＣＨＩ值大小选择前Ｌ个特征项．
中，利用式（３）计算统计值时，分子ＮＸ（ＡＤ—
ｃ）使得特征与类别的正相关能力与负相关能力被同等对待，但在实际分类中特征与类别的正、负相关能力对分类结果的影响是不同的．在文献［３］
１．４ＣＨＩ（统计法）
统计量的平均值或最大值．在改进的统计量上，
规定词条的ＣＨＩ值为
统计法通过衡量特征ｔ和类别Ｃ之间的相
关程度来说明特征的重要程度．其前提条件是假定
ｔ和ｃ之间的关系满足一阶自由度的分布，即
ＭＩ（ＭｕｔｕａｌＩｎｆｏｒｍａｔｉｏｎ）互信息值，它提取特征的方法是计算特征ｔ和类别ｃ之间的相关性，相关
性高的特征比较重要．其计算公式如下
ＭＩ（Ｃｉｌｏｇ．（２）
文本从样本空间映射到特征空间，然后在特征空间利用特征评估函数对每个特征进行评估，最后根据
中指出：特征的重要性主要由特征与类别的正相关
式的特征矩阵．
利用统计法在进行特征提取时对于任意类别中出现的词频高的特征，认为对类别的判断都有
第３步：首先利用公式Ａ＝／（ｍａｘ—ｍｉｎ）将各个模式的改进统计量进行处理，使该统计量处在［一１，１］之间，然后根据这个值比较每个模式对各个分类的影响比例是否一致．
（，ｃ）＝
ＣＨＩｉ＝ｍａｘ｛ｌｊＪ，Ｉ壶Ｊ， …，ＪＩ｝．
２．１基于改进统计量和模式聚合方法的文本特征降维方法
（二旦）：
（＋Ｃ）（Ｂ＋Ｄ）（Ａ＋）（Ｃ＋Ｄ）。
Ｖｏｌ＿２０Ｎｏ．５
０ｃｔ．２０１３
文本分类中特征提取方法的比较改进
王娟
（１．兰州理工大学计算机与通信学院，甘肃兰卅Ｉ７３００５０；２．兰州工业学院软件工程学院，甘肃兰州７３００５０）
值高的特征，这样可以保证选取的特征具有这样的
特点：在训练集上出现的次数较多并且有一定的影
响力．
（Ａ＋Ｃ）×（Ｂ＋Ｄ）Ｘ（Ａ＋Ｂ）×（Ｃ＋Ｄ）‘ （４）
一
Ⅳ ×ｆＡＤ — ＣＢ）
般特征的ＣＨＩ值为该特征对所有类别的
２．２仿真实验
全局统计量，并设定一个阈值，选取高于阈值的词
条作为特征项．
２改进的文本特征提取方法及其仿
真分析
在统计法中，特征和类别的相关性是有正负两种情况：当ＡＤ —ＣＢ＞０，特征和类别正相关；
关键词：文本分类；特征提取，统计量
中图分类号：ＴＰ３９１
文献标志码：Ａ
分类是对信息利用的前提条件，因此文本分类
方法的研究便成为现在的一个重要研究方向．文本
ｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）互信息值，ＣＨＩ（统计法）、ＤＦ（Ｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）文档频率，下面对这４种方法分别进行介绍．
负相关性的方法，即相关系数法：认为选取与类别正相关的特征项可以得到较好的分类结果．但是这个作用对分类效果的影响并不明显，于是就得到了
统计法的改进形式．
＝ｓｉｇｎ（ＡＤ —ＣＢ）＋
ＤＦ（ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）文档频率，是指含有该特征的文本在训练集中出现次数的总和．文本包含特征有两个方面的含义，一是特征在该文本中出现，二是出现的次数被忽略．这该方法中选取ＤＦ