基于信息熵的改进TFIDF特征选择算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
周炎涛 , 唐剑波 , 王家琴 : 基于信息熵的改进 TFIDF 特征选择算法 Computer Engineering and Applications 计算机工程与应用 差 , 对 分 类 贡 献 越 小 , 所 以 在 传 统 的 TFIDF 特 征 选 择 方 法 中 , 词条的权值与词条频率成正比 , 与文档频率成反比。 这个方法存在着明显的不足之处: 它受训练集的影响较 大, 对于文档频率, 只考虑了包含某个词条文档数绝对量的多 少 , 并没有考虑这些文档在每个类中的分布情况。这样就会将 文档数量稍多但基本都在同一个类中的一些重要词条忽略 , 而 将文档数量虽少但在各类中分布均匀的词条当作特征词条 , 这 例如 : 在 类词条通常区分度是较低的 , 对分类的贡献应该不大。 某个训练集中有财经、 科技、 军 事 三 个 类 , 文 档 总 数 是 30 , 其 中 : 股市、 军舰、 启动、 指数四个词条的分布如表 1 所示 :
而分母是不能等于零的, 所以继续改进这个函数, 在分母上加 上一个极小值 0.01 。这样又出现另一个问题 , 假如计算出的信 息熵小于 0.01 , 甚至比 0.01 的数量级更小 , 那 么 起 主 要 影 响 的 不是信息熵 , 而是 0.01 。所以加上一个固定的极小值是不可取 的 , 必须修改这个方法。可以先根据词条文档的数量计算出词 条信息熵的次小值, 然后在分母上加上这个次小值, 因为除了 信息熵的最小值 0 以外, 对于词条的任何其它分布, 信息熵都 是小于这个值的 , 所以能避免以上情况的发生。 由上述词条信息熵的定义, 假设包含词条 k 的文本数为
nk, 而 分 类 系 统 中 的 类 别 数 为 c , 则 对 于 词 条 k 的 所 有 分 布 , 当
所有的文本分布在同一个类中 , 信息熵取最小值为零 ; 当所有的 文本平均分布在所有类中时 , 信息熵取最大值为-
从计算的权值结果可以看出 : 即使股市在文本中出现的次 数是指数出现次数的 10 倍 , 其权值还是小于指数的权值 , 但从 词条的分布情况看, 包含股市这个词条的文本很可能是属于 财经类的, 而包含词条指数的文本根本就无法区分应该属于 那个类, 因此在计算特征词条的权重时, 应改将词条文档在 分类系统中的分布考虑进去, 这才符合实际情况, 传统的方 法 没 有 考 虑这一点 , 那 么 通 过 这 种 方 法 进 行 的 特 征 选 择 会 造 成分 类 不 精 确 。 基 于 上 述 原 因 , 本 文 对 传 统 TFIDF 方 法 进 行 了 改 进。
。特征选择的精确性对文本分类的训练时间、 分
类准确性有着重要的影响 , 因此特征选择是文本分类准确率和 效率的关键。 在文本分类中使用较多的特征选择方法包括文档 频率 ( Document Frequency) 、 互信 息 ( Mutual Information) 、 信息
基金项目 : 国家自然科学基金 ( the National Natural Science Foundation of China under Grant No.50677069) 。 作者简介 : 周炎涛 ( 1963- ) , 男 , 教授 , 博士 , 主要研究方向为计算机应用、 数据挖掘、 网络安全等领域 ; 唐剑波 ( 1980- ) , 男 , 硕士 , 主要研究方向为数 据挖掘、 网络安全 ; 王家琴 ( 1981- ) , 女 , 硕士研究生 , 主要研究方向为语义网。
单词频度分布表
启动 军舰 指数
13 1 0
8 7 7
0 0 3
1 1 1
4
即:
改进 TFIDF 方法
本 文 在 传 统 TFIDF 函 数 的 基 础 上 乘 上 一 个 信 息 熵 因 子 , ( d) =f ( tf( ( df ( d) ) × ( I( # Wik g k d) ) × k p) )
1. 湖南大学 电气与信息工程学院 , 长沙 410082 2. 海军工程大学 信息与电气学院 , 武汉 430033 1.College of Electrical and Information Engineering, Hunan University, Changsha 410082 , China 2.Information and Electrical Engineering College, Naval Engineering University, Wuhan 430033 , China E- mail: yantao_z@hnu.cn ZHOU Yan - tao , TANG J ian - bo , WANG J ia - qin.Impr oved TFIDF featur e selection algor ithm based on infor mation en- ( 35) : 156- 158. tr opy.Computer Engineer ing and Applications, 2007 , 43 Abstr act : The quality of text feature selection affects the accuracy of text categorization greatly. Due to the deficiency of tradi- tional TFIDF without considering the distribution of feature words among classes, the paper analyzed the TFIDF feature selection algorithm, and proposed a new TFIDF feature selection method with concept of information entropy. Experimental results show the method is valid in improving the accuracy of text categorization. Key Wor ds: words information entropy; feature selection ; TFIDF; data mining
1
源自文库
引言
文本分类是指在给定的分类体系下 , 根据文本的内容自动
确定文本类别的过程 , 它是文本挖掘的重要组成部分。随着网 络技术的高速发展, 网页的数量成几何速度增长, 如何有效的 处理和高效的搜索这些信息是一个越来越重要的课题 , 这就给 文本分类提供了新的发展平台 。 文本分类的方法较多 , 其中普 遍使用的是向量空间模型 ( VSM ) , 用向量 ( !1, !2, … , !n) 来 表 示文本 [2]。 文本分类大致可以分为以下四个步骤 : 文本的预处理 , 文 本的向量空间模型表示 , 文本特征选择和分类器的训练。数量 巨大的训练样本和过高的向量维数是文本分类的两大特点 , 而 这些高维的特征集对分类学习不全是重要和有效的 , 同时这些 高维的特征集会加重计算的负担。 所以需要对文本信息进行预 处理, 过滤一些无关的属性, 以降低文本向量空间的维数并减 少无关信息对文本信息处理过程的干扰 , 使文本信息处理的精 度得到提高
[3, 4] [1]
Frequency) 等 [5- 8]。本文对传统的 TFIDF 特征选择算法进行了分
析 , 利用词 条 信 息 熵 对 TFIDF 方 法 进 行 改 进 , 提 出 了 一 种 新 的 基于 TFIDF 的 特 征 选 择 算 法 。 实 验 结 果 表 明 , 使 用 修 改 后 的
表1
股市 财经 科技 军事
2007 , 43 ( 35 )
157
分 布 为 P, 则 词 条 δ 的分布熵就是 I ( P) , 其 中 P= ( d1 /n , d2 /n , … , dk /n , ) 。 例如: 在表 1 中, 词条 “股市” 的分布熵为 I ( P) =I ( 13/14 , 1/ “指数” 的分布熵等于 I ( P) =I ( 1/4 , 2/4 , 1/4) = 14 , 0) =0.389 , 词 条
156
2007 , 43 ( 35 )
Computer Engineering and Applications 计算机工程与应用
基于信息熵的改进 TFIDF 特征选择算法
周炎涛 1, 2, 唐剑波 1, 王家琴 1
ZHOU Yan- tao1, 2, TANG Jian- bo1, WANG Jia- qin1
TFIDF 特征选择方法后 , 分类的效果比使用传统的 TFIDF 特征
选择方法要好, 大多数类的精确度和召回率都有不同程度的 提 高。
2
TFIDF 特征选择
TFIDF 是 向 量 空 间 模 型 中 经 典 的 特 征 权 值 函 数 , 目 前
TFIDF 的变种公式较多 , 但基本上都可以表示成词条频率与文
假定某被测文档 d 中股市和指数两个词条出现的次数都 为 2 , 根据常用的 TFIDF 公式 [9]: ( tfik( d) log ( d) = Wik
n
N +0.01) nk N +0.01) nk
其 中 I( ( I( k p) 表 示 词 条 k 的 信 息 熵 , # k p) ) 是 信 息 熵 因 子 , 根 据 上面的分析 , 词条分布越均匀 , 分类的不确定性越大 , 则熵也越 ( I( 大, 该词条的特征值就应该越小, 所以首先设 # k p) ) 为 信 息 熵的倒数 , 即 # ( I( k p) ) =
摘 要 : 特征的选择对文本分类的精确性有着非常重要的影响。针对传统的 TFIDF 没有考虑特征词条在各个类之间的分布的不
足 , 对 TFIDF 特征选择算法进行了深入的分析 , 并结合信息熵的概念提出了一种新的 TFIDF 特征选择算法。实验结果表明 , 改进 后的算法可以有效地提高文本分类的精确度。 关键词 : 词条信息熵 ; 特征选择 ; TFIDF; 数据挖掘 ( 2007) 35- 0156- 03 文章编号 : 1002- 8331 文献标识码 : A 中图分类号 : TP301.6 ( Information Gain) 、 ( CHI) 、 期望交叉熵 ( Cross En- 增益 x: 统 计 文本证据权 ( The Weight Of Evidence For Text) 、 优势 tropy) 、 率( Odds Ratio) 和 TFIDF ( Term Frequency Inverse Document
1.5 。
从以上定义及其计算可以得出一个结论 : 包含某个词条的 文档分布越均匀 , 其熵越大 , 越不能表达文本的真实内容 , 对分 类贡献也越小 , 越不能作为特征值。既然词条分布熵反映了词 条文档 在 各 类 之 间 的 分 布 均 匀 程 度 , 而 TFIDF 方 法 又 受 词 条 文档在训练集中各类之间的分布的影响较大 , 没有考虑到词条 分布情 况 , 所 以 词 条 信 息 熵 可 以 很 好 地 弥 补 TFIDF 函 数 的 不 足。可以把两者结合起来加以考虑。
由于在同一文档中, 分母的值是相等的, 设其为 β ( β >0) , 则 计 算的权值如下 : 股市 : W 股 市 ( d) = 指数 : W 指 数 ( d) =
"
( !
k=1
2 tfik( d) ) × log(
2
1 。 但是由于信息熵最小可以取零 , I( k p)
0.166 ! 1.75 !
档频率的函数 , 即 : ( d) =f ( tf ( d) ) × ( df ( d) ) W g 其中 tf ( d) 指词条频率 , 表示词条 d 在文本中出现的次数。 ( d) df 指文档频率, 表示词条 d 在整个文档集中出现的文档数, 通常 词条在文中出现的次数越多, 则表明词条越能表达文档的内 容; 另外词条在文档集出现的文档数越多, 则词条的区分度越