TFIDF算法研究综述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

lb N - lb n + 1
( 1)
其中 tfij 指特征项 tj 在文档 di 中出现的次数 ; idfj 指出现特征项 tj 的文档的倒数。 N 表示总文档数 , n j 指出现特征项 tj 的文档数。
2 TF I D F 算法改进
上世纪 90 年代 ,国内外都开始关注 TF I D F在文本分类中的应用 ,很多学者分析 TF I D F 的缺陷、对其进行改进 , 并通过实验验证改进的有效性 , TF I D F 也随着研究的拓展被应用到
D 2 文档中不同词条的数目 ; tfijk 指在文档集 D i 中领域 R k 中词条 tj 出现的频率 ; tfqjk 指在输入的句子 Q 中 , 领域 R k 中 (包含
其中 TF指特征项 tj在类 ck 中出现的次数 ; D ( ck ) 指类别 ck 中的文档数 , D F ( tj , ck ) 指类别 ck 中出现特征项 tj的文档数 ; C代表类别数 , CF ( tj , ck ) 指出现特征项 tj 的类别数。 2. 1. 2 类间、类内分布偏差 [ 6 ] TF I D F将文档集作为整体来考虑 , 其中 I D F 的计算并没有考虑到特征项在类间和类内的分布情况。如果某一特征项在某个类别内大量出现 ,而在其他类别出现很少 ,这样的特征项的分类能力显然是很强的 ,应该给予较高的权重。但是根据 I D F的定义可知 ,若特征项在较多文档中出现 ,则 I D F则变小 ,导致权值变小。文献 [ 6 ]通过修改 TF I D F公式 (2)中 I D F的计算方法 ,增加那些在一个类中频繁出现的特征项的权重。设总的文档数为 N , 包含特征项 t的文档数为 n, 其中某一类 C中包含特征项
摘要 : 文本分类中特征项权重的赋予对于分类效果有较大的影响 , TF I D F算法是权重计算的重要算法之一。在回顾 TF I D F算法发展历史的基础上 ,考察了其固有缺陷 ,总结诸多学者对其的改进方法 ,并对 TF I D F 算法新的应用领域进行了概括 ,并通过实验验证相关改进算法 ,为读者更好地应用 TF I D F算法提供参考。关键词 : TF I D F; 文本分类 ; VS M 中图分类号 : TP311 文献标志码 : A
其中 N 代表总文档数 , n指包含特征项的文档数。文献 [ 1 ]没有解释公式的由来 ,但 Shannon 的信息论为我们解释了 I D F 的含
收稿日期 : 2009 - 02 - 22; 修回日期 : 2009 - 04 - 03。作者简介 : 施聪莺 ( 1984 - ) ,女 ,江苏南通人 , 硕士 , 主要研究方向 : 文本分类、网络不良信息过滤 ; 徐朝军 ( 1974 - ) , 男 , 江苏盐城人 , 讲师 ,博士 ,主要研究方向 : 数据挖掘、知识共享 ; 杨晓江 ( 1965 - ) ,男 ,江苏南通人 ,教授 , 博士 , 主要研究方向 : 信息检索、数字图书馆、智能信息服务、网络多媒体、数据挖掘、软件工程。
TF ( tj , ck ) ×log
tfij 指特征项 tj 在文档 di 中出现的次数 , 其中 N j 为特征项 tj
在总文档中出现的次数 , N 为总文档中所有词出现的次数之和。文献 [ 8 ] 在 2003年对 TF I D F和 TF3 I W F3 I W FF公式进行了分析并作了一些改进。从 TF的角度提出了利用 n次方根来调整词权重对频率的倚重 , 从 I W F 的角度引入了方差项。 ( ) 从而提出了式 8 :
×
( 3)
log
( CF ( t ) )
j
| C|
组合型歧义切分字段一直是汉语自动分词研究中的难点。文献 [ 9 ]提出利用改进的 TF I D F 来消除中文分词中组合型分词歧义性问题 ,经实验证明 ,此种方法在组合型歧义词分割中的精度能达到 96. 58% 。为了适应新的需求 , 文献 [ 9 ] 对 TF I D F进行了重新定义。用 i来标记词表 w的分割形式 , 若 w 未被分割 , 则 i = 1; 若 w被分割 , 则 i = 2。 d代表词表 w分割形式的种类 , 这里 d的取值总是为 2。 D i 指文档中以 i形式分割词表 w 的句子数 ; n代表 D 1 、
Abstract: In text categorization, the weight of ter m has great impact on the classification results . Term Frequency and Inverse Documentation Frequency ( TF I D F ) is one of the key algorithm s of ter m weighting . This paper reviewed the development of the TF I D F algorithm , studied its inherent defects, and summarized some scholarsπ i mp rovements to it . M eanwhile, the survey generalized its new app lication fields . To verify their effects on the classification results, the author carried out some experim ents on the ameliorative algorithm s, hop ing to p rovide some reference to readers . Key words: Term Frequency and Inverse Documentation Frequency ( TF I D F ) ; text categorization; VS M
TF I D F算法计算权重 ,其经典计算公式为 :
w ij = tfij ×idf j = tfij ×log ( N / n j ) ( 2)
1 TF I D F 算法历史
1. 1 I DF
文献 [1] 中首次提出 I D F ( Opposed to Document Frequency) 概念 , 指出 : 在一组文档中 , 刻画某一文档特征的特征项 (词 )可以根据其在这组文档中出现的频率赋予相应的权重 ,只在少数文档中出现的较特殊的词 ,权重要比在多篇文档中出现的词的权重要高 ; 并给出如下权重计算公式 :
[3 ]Leabharlann ,在 1988 年又详细阐述
了多种词权重计算方法在文献检索时适用情况 [ 4 ] 。 TF I D F主要体现了以下思想 : 一个词在特定的文档中出现的频率越高 , 说明它在区分该文档内容属性方面的能力越强 ( TF ) ; 一个词在文档中出现的范围越广 , 说明它区分文档内容的属性越低 (I D F) 。经过 Salton 的多次论证 , 信息检索领域广泛地使用
Frequency)沿用至今。 1. 2 TF I DF Salton在文献 [ 2 ] 中提出了 TF I D F ( Term Frequency & Inverse Documentation Frequency)算法。此后 Salton 多次论证 TF I D F公式在信息检索中的有效性
w ( w i , cj ) =
∑( p ∑p
ij ij j
pi )
2
×( log (
N (w i ) N
) ) 2 × pij ( 8)
n
其中 , pij = T ij /L ij , L ij 是类 C j 含有的所有词的次数之和 , T ij 是
∑P
特征项 ti 在类 C j 出现的次数 ; pi =
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.

168
计算机应用
2 w ij = tfij ×( log (N j /N ) )
第 29 卷
第 29 卷 2009 年 6 月
计算机应用 Journal of Computer App lications
Vol . 29 June 2009
文章编号 : 1001 - 9081 (2009) S1 - 0167 - 04
TF IDF算法研究综述
施聪莺 ,徐朝军 ,杨晓江
(南京师范大学教育技术系 ,南京 210097) ( shicongying1019@163. com )
Study of TF ID F a lgor ithm
SH I Cong2ying, XU Chao 2jun, YANG Xiao 2 J iang
(D epa rtm ent of Educa tiona l Technology, N an jing N or m al U n iversity, N an jing J iangsu 210097, China )
( 7)
多个新的领域。 2. 1 经典公式固有缺陷的改进 TF I D F算法因其简单有效而广受使用。但在实践中很多学者发现 , TF I D F并不能在任何场合都表现优秀。因此很多学者在深入分析之后 ,提出 TF I D F 算法的不足之处并给出一定的改进算法 ,其中最有代表性是以下两类。 2. 1. 1 数据集偏斜 [ 5 ] 数据集关于类别的分布往往是偏斜 ( Skewed ) 的 , 即不同类别的文档数可能存在数量级的差距 , 这将严重影响 TF I DF 的权重计算结果。因为 I D F在计算特征项权重时以文档集中总的文档数为基准 ,当文档集中各类文档数目不均衡 ,例如某类文档相对较少时 , I D F 基本不起抑制作用。因此 TF I D F未能折中 TF和 I D F两者的结果 ,该特征项权重只是一味的依赖于文档频率 TF,最终导致该特征项的权重偏高。 Bong Chih How 和 Narayanan K 提出了用 Category Term [5 ] Descrip tor ( CTD )来改进 TF I D F , 以弥补类别数据集偏斜带来的困扰。 CTD ( tj , ck ) = TF ( tj , ck ) ×ID F ( tj , ck ) ×ICF ( tj ) =
义— — — 如果特征项在所有文档中出现的频率越高 ,则它包含的信息熵就越少 ;如果特征项的出现较为集中 ,只在少量文档中有较高的出现频率 ,则它拥有较高的信息熵。因此 I D F可以理解为在一个特定条件下关键词的概率分布的交叉熵。此后 , Salton 将 Opposed to Document Frequency 改为 Inverse Document Frequency, 从此 I D F ( Inverse Document
0 引言
在文本分类领域中 ,占统治地位的文本表示方式是空间向量模型。用空间向量模型表示文本 ,首先要对文本进行分词 ,然后进行特征选择和权重计算 , 最后形成一个 N 维的空而权重的计算则有多种不同的方法 , 主要有布尔函间向量。数、频度函数、开根号函数、对数函数、熵函数及 TF I D F 函数等 ,特征项的权重取值 ,在较大程度上会影响文本分类算法的整体性能。其中 TF I D F因其算法相对简单、并有较高的准确率和召回率 ,一直受到相关研究人员和众多应用领域的青睐。从提出 I D F概念至今 , TF I D F 算法历经了诸多改进。这些改进 , 有针对 TF I D F 的不足 , 也有为适应不同文本分类领域和不同应用场合的改造。本文在回顾、总结这些算法及其应用领域的基础上 ,对有关算法进行了测试和比较 ,以期为大家选用 TF I D F类算法时提供参考。
j
ij
m
, m 为类别数 ; N ( w i )
是出现特征项 ti 的文档数 , N 是总文档数 ; n ≥ 1。
2. 2 领域适应性改进
为了使得 TF I D F适应一些特殊领域 , 学者们对其进行适应性改造。
2. 2. 1 中文组合型歧义切分
(D F ( t , c ) )
j k
| D ( ck ) |