TFIDF算法研究综述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
lb N - lb n + 1
( 1)
其中 tfij 指特征项 tj 在文档 di 中出现的次数 ; idfj 指出现特征 项 tj 的文档的倒数 。 N 表示总文档数 , n j 指出现特征项 tj 的文 档数 。
2 TF I D F 算法改进
上世纪 90 年代 ,国内外都开始关注 TF I D F在文本分类中 的应用 ,很多学者分析 TF I D F 的缺陷 、 对其进行改进 , 并通过 实验验证改进的有效性 , TF I D F 也随着研究的拓展被应用到
D 2 文档中不同词条的数目 ; tfijk 指在文档集 D i 中领域 R k 中词 条 tj 出现的频率 ; tfqjk 指在输入的句子 Q 中 , 领域 R k 中 (包含
其中 TF指特征项 tj在类 ck 中出现的次数 ; D ( ck ) 指类别 ck 中 的文档数 , D F ( tj , ck ) 指类别 ck 中出现特征项 tj的文档数 ; C代 表类别数 , CF ( tj , ck ) 指出现特征项 tj 的类别数 。 2. 1. 2 类间 、 类内分布偏差 [ 6 ] TF I D F将文档集作为整体来考虑 , 其中 I D F 的计算并没 有考虑到特征项在类间和类内的分布情况 。如果某一特征项 在某个类别内大量出现 ,而在其他类别出现很少 ,这样的特征 项的分类能力显然是很强的 ,应该给予较高的权重 。但是根 据 I D F的定义可知 ,若特征项在较多文档中出现 ,则 I D F则变 小 ,导致权值变小 。 文献 [ 6 ]通过修改 TF I D F公式 (2)中 I D F的计算方法 ,增 加那些在一个类中频繁出现的特征项的权重 。设总的文档数 为 N , 包含特征项 t的文档数为 n, 其中某一类 C中包含特征项
摘 要 : 文本分类中特征项权重的赋予对于分类效果有较大的影响 , TF I D F算法是权重计算的重要算法之一 。在 回顾 TF I D F算法发展历史的基础上 ,考察了其固有缺陷 ,总结诸多学者对其的改进方法 ,并对 TF I D F 算法新的应用领 域进行了概括 ,并通过实验验证相关改进算法 ,为读者更好地应用 TF I D F算法提供参考 。 关键词 : TF I D F; 文本分类 ; VS M 中图分类号 : TP311 文献标志码 : A
其中 N 代表总文档数 , n指包含特征项的文档数。文献 [ 1 ]没有 解释公式的由来 ,但 Shannon 的信息论为我们解释了 I D F 的含
收稿日期 : 2009 - 02 - 22; 修回日期 : 2009 - 04 - 03。 作者简介 : 施聪莺 ( 1984 - ) ,女 ,江苏南通人 , 硕士 , 主要研究方向 : 文本分类 、 网络不良信息过滤 ; 徐朝军 ( 1974 - ) , 男 , 江苏盐城人 , 讲 师 ,博士 ,主要研究方向 : 数据挖掘 、 知识共享 ; 杨晓江 ( 1965 - ) ,男 ,江苏南通人 ,教授 , 博士 , 主要研究方向 : 信息检索 、 数字图书馆 、 智能信息 服务 、 网络多媒体 、 数据挖掘 、 软件工程 。
TF ( tj , ck ) ×log
tfij 指特征项 tj 在文档 di 中出现的次数 , 其中 N j 为特征项 tj
在总文档中出现的次数 , N 为总文档中所有词出现的次数之和。 文献 [ 8 ] 在 2003年对 TF I D F和 TF3 I W F3 I W FF公式进 行了分析并作了一些改进 。 从 TF的角度提出了利用 n次方根 来调整词权重对频率的倚重 , 从 I W F 的角度引入了方差项 。 ( ) 从而提出了式 8 :
×
( 3)
log
( CF ( t ) )
j
| C|
组合型歧义切分字段一直是汉语自动分词研究中的难 点 。文献 [ 9 ]提出利用改进的 TF I D F 来消除中文分词中组合 型分词歧义性问题 ,经实验证明 ,此种方法在组合型歧义词分 割中的精度能达到 96. 58% 。 为了适应新的需求 , 文献 [ 9 ] 对 TF I D F进行了重新定义 。 用 i来标记词表 w的分割形式 , 若 w 未被分割 , 则 i = 1; 若 w被 分割 , 则 i = 2。 d代表词表 w分割形式的种类 , 这里 d的取值总 是为 2。 D i 指文档中以 i形式分割词表 w 的句子数 ; n代表 D 1 、
Abstract: In text categorization, the weight of ter m has great impact on the classification results . Term Frequency and Inverse Documentation Frequency ( TF I D F ) is one of the key algorithm s of ter m weighting . This paper reviewed the development of the TF I D F algorithm , studied its inherent defects, and summarized some scholarsπ i mp rovements to it . M eanwhile, the survey generalized its new app lication fields . To verify their effects on the classification results, the author carried out some experim ents on the ameliorative algorithm s, hop ing to p rovide some reference to readers . Key words: Term Frequency and Inverse Documentation Frequency ( TF I D F ) ; text categorization; VS M
TF I D F算法计算权重 ,其经典计算公式为 :
w ij = tfij ×idf j = tfij ×log ( N / n j ) ( 2)
1 TF I D F 算法历史
1. 1 I DF
文献 [1] 中 首 次 提 出 I D F ( Opposed to Document Frequency) 概念 , 指出 : 在一组文档中 , 刻画某一文档特征的 特征项 (词 )可以根据其在这组文档中出现的频率赋予相应 的权重 ,只在少数文档中出现的较特殊的词 ,权重要比在多篇 文档中出现的词的权重要高 ; 并给出如下权重计算公式 :
[3 ]Leabharlann ,在 1988 年又详细阐述
了多种词权重计算方法在文献检索时适用情况 [ 4 ] 。 TF I D F主 要体现了以下思想 : 一个词在特定的文档中出现的频率越高 , 说明它在区分该文档内容属性方面的能力越强 ( TF ) ; 一个词 在文档中出现的范围越广 , 说明它区分文档内容的属性越低 (I D F) 。经过 Salton 的多次论证 , 信息检索领域广泛地使用
Frequency)沿用至今 。 1. 2 TF I DF Salton在 文 献 [ 2 ] 中 提 出 了 TF I D F ( Term Frequency & Inverse Documentation Frequency)算法 。此后 Salton 多次论证 TF I D F公式在信息检索中的有效性
w ( w i , cj ) =
∑( p ∑p
ij ij j
pi )
2
×( log (
N (w i ) N
) ) 2 × pij ( 8)
n
其中 , pij = T ij /L ij , L ij 是类 C j 含有的所有词的次数之和 , T ij 是
∑P
特征项 ti 在类 C j 出现的次数 ; pi =
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
168
计算机应用
2 w ij = tfij ×( log (N j /N ) )
第 29 卷
第 29 卷 2009 年 6 月
计算机应用 Journal of Computer App lications
Vol . 29 June 2009
文章编号 : 1001 - 9081 (2009) S1 - 0167 - 04
TF IDF算法研究综述
施聪莺 ,徐朝军 ,杨晓江
(南京师范大学 教育技术系 ,南京 210097) ( shicongying1019@163. com )
Study of TF ID F a lgor ithm
SH I Cong2ying, XU Chao 2jun, YANG Xiao 2 J iang
(D epa rtm ent of Educa tiona l Technology, N an jing N or m al U n iversity, N an jing J iangsu 210097, China )
( 7)
多个新的领域 。 2. 1 经典公式固有缺陷的改进 TF I D F算法因其简单有效而广受使用 。但在实践中很多 学者发现 , TF I D F并不能在任何场合都表现优秀 。因此很多 学者在深入分析之后 ,提出 TF I D F 算法的不足之处并给出一 定的改进算法 ,其中最有代表性是以下两类 。 2. 1. 1 数据集偏斜 [ 5 ] 数据集关于类别的分布往往是偏斜 ( Skewed ) 的 , 即不同 类别的文档数可能存在数量级的差距 , 这将严重影响 TF I DF 的权重计算结果 。因为 I D F在计算特征项权重时以文档集中 总的文档数为基准 ,当文档集中各类文档数目不均衡 ,例如某 类文档相对较少时 , I D F 基本不起抑制作用 。因此 TF I D F未 能折中 TF和 I D F两者的结果 ,该特征项权重只是一味的依赖 于文档频率 TF,最终导致该特征项的权重偏高 。 Bong Chih How 和 Narayanan K 提出 了 用 Category Term [5 ] Descrip tor ( CTD )来改进 TF I D F , 以弥补类别数据集偏斜带 来的困扰 。 CTD ( tj , ck ) = TF ( tj , ck ) ×ID F ( tj , ck ) ×ICF ( tj ) =
义— — — 如果特征项在所有文档中出现的频率越高 ,则它包含的 信息熵就越少 ;如果特征项的出现较为集中 ,只在少量文档中有 较高的出现频率 ,则它拥有较高的信息熵。因此 I D F可以理解为 在一个特定条件下关键词的概率分布的交叉熵。 此 后 , Salton 将 Opposed to Document Frequency 改 为 Inverse Document Frequency, 从 此 I D F ( Inverse Document
0 引言
在文本分类领域中 ,占统治地位的文本表示方式是空间 向量模型 。用空间向量模型表示文本 ,首先要对文本进行分 词 ,然后进行特征选择和权重计算 , 最后形成一个 N 维的空 而权重的计算则有多种不同的方法 , 主要有布尔函 间向量 。 数、 频度函数 、 开根号函数 、 对数函数 、 熵函数及 TF I D F 函数 等 ,特征项的权重取值 ,在较大程度上会影响文本分类算法的 整体性能 。其中 TF I D F因其算法相对简单 、 并有较高的准确 率和召回率 ,一直受到相关研究人员和众多应用领域的青睐 。 从提出 I D F概念至今 , TF I D F 算法历经了诸多改进 。这 些改进 , 有针对 TF I D F 的不足 , 也有为适应不同文本分类领 域和不同应用场合的改造 。本文在回顾 、 总结这些算法及其 应用领域的基础上 ,对有关算法进行了测试和比较 ,以期为大 家选用 TF I D F类算法时提供参考 。
j
ij
m
, m 为类别数 ; N ( w i )
是出现特征项 ti 的文档数 , N 是总文档数 ; n ≥ 1。
2. 2 领域适应性改进
为了使得 TF I D F适应一些特殊领域 , 学者们对其进行适 应性改造 。
2. 2. 1 中文组合型歧义切分
(D F ( t , c ) )
j k
| D ( ck ) |
( 1)
其中 tfij 指特征项 tj 在文档 di 中出现的次数 ; idfj 指出现特征 项 tj 的文档的倒数 。 N 表示总文档数 , n j 指出现特征项 tj 的文 档数 。
2 TF I D F 算法改进
上世纪 90 年代 ,国内外都开始关注 TF I D F在文本分类中 的应用 ,很多学者分析 TF I D F 的缺陷 、 对其进行改进 , 并通过 实验验证改进的有效性 , TF I D F 也随着研究的拓展被应用到
D 2 文档中不同词条的数目 ; tfijk 指在文档集 D i 中领域 R k 中词 条 tj 出现的频率 ; tfqjk 指在输入的句子 Q 中 , 领域 R k 中 (包含
其中 TF指特征项 tj在类 ck 中出现的次数 ; D ( ck ) 指类别 ck 中 的文档数 , D F ( tj , ck ) 指类别 ck 中出现特征项 tj的文档数 ; C代 表类别数 , CF ( tj , ck ) 指出现特征项 tj 的类别数 。 2. 1. 2 类间 、 类内分布偏差 [ 6 ] TF I D F将文档集作为整体来考虑 , 其中 I D F 的计算并没 有考虑到特征项在类间和类内的分布情况 。如果某一特征项 在某个类别内大量出现 ,而在其他类别出现很少 ,这样的特征 项的分类能力显然是很强的 ,应该给予较高的权重 。但是根 据 I D F的定义可知 ,若特征项在较多文档中出现 ,则 I D F则变 小 ,导致权值变小 。 文献 [ 6 ]通过修改 TF I D F公式 (2)中 I D F的计算方法 ,增 加那些在一个类中频繁出现的特征项的权重 。设总的文档数 为 N , 包含特征项 t的文档数为 n, 其中某一类 C中包含特征项
摘 要 : 文本分类中特征项权重的赋予对于分类效果有较大的影响 , TF I D F算法是权重计算的重要算法之一 。在 回顾 TF I D F算法发展历史的基础上 ,考察了其固有缺陷 ,总结诸多学者对其的改进方法 ,并对 TF I D F 算法新的应用领 域进行了概括 ,并通过实验验证相关改进算法 ,为读者更好地应用 TF I D F算法提供参考 。 关键词 : TF I D F; 文本分类 ; VS M 中图分类号 : TP311 文献标志码 : A
其中 N 代表总文档数 , n指包含特征项的文档数。文献 [ 1 ]没有 解释公式的由来 ,但 Shannon 的信息论为我们解释了 I D F 的含
收稿日期 : 2009 - 02 - 22; 修回日期 : 2009 - 04 - 03。 作者简介 : 施聪莺 ( 1984 - ) ,女 ,江苏南通人 , 硕士 , 主要研究方向 : 文本分类 、 网络不良信息过滤 ; 徐朝军 ( 1974 - ) , 男 , 江苏盐城人 , 讲 师 ,博士 ,主要研究方向 : 数据挖掘 、 知识共享 ; 杨晓江 ( 1965 - ) ,男 ,江苏南通人 ,教授 , 博士 , 主要研究方向 : 信息检索 、 数字图书馆 、 智能信息 服务 、 网络多媒体 、 数据挖掘 、 软件工程 。
TF ( tj , ck ) ×log
tfij 指特征项 tj 在文档 di 中出现的次数 , 其中 N j 为特征项 tj
在总文档中出现的次数 , N 为总文档中所有词出现的次数之和。 文献 [ 8 ] 在 2003年对 TF I D F和 TF3 I W F3 I W FF公式进 行了分析并作了一些改进 。 从 TF的角度提出了利用 n次方根 来调整词权重对频率的倚重 , 从 I W F 的角度引入了方差项 。 ( ) 从而提出了式 8 :
×
( 3)
log
( CF ( t ) )
j
| C|
组合型歧义切分字段一直是汉语自动分词研究中的难 点 。文献 [ 9 ]提出利用改进的 TF I D F 来消除中文分词中组合 型分词歧义性问题 ,经实验证明 ,此种方法在组合型歧义词分 割中的精度能达到 96. 58% 。 为了适应新的需求 , 文献 [ 9 ] 对 TF I D F进行了重新定义 。 用 i来标记词表 w的分割形式 , 若 w 未被分割 , 则 i = 1; 若 w被 分割 , 则 i = 2。 d代表词表 w分割形式的种类 , 这里 d的取值总 是为 2。 D i 指文档中以 i形式分割词表 w 的句子数 ; n代表 D 1 、
Abstract: In text categorization, the weight of ter m has great impact on the classification results . Term Frequency and Inverse Documentation Frequency ( TF I D F ) is one of the key algorithm s of ter m weighting . This paper reviewed the development of the TF I D F algorithm , studied its inherent defects, and summarized some scholarsπ i mp rovements to it . M eanwhile, the survey generalized its new app lication fields . To verify their effects on the classification results, the author carried out some experim ents on the ameliorative algorithm s, hop ing to p rovide some reference to readers . Key words: Term Frequency and Inverse Documentation Frequency ( TF I D F ) ; text categorization; VS M
TF I D F算法计算权重 ,其经典计算公式为 :
w ij = tfij ×idf j = tfij ×log ( N / n j ) ( 2)
1 TF I D F 算法历史
1. 1 I DF
文献 [1] 中 首 次 提 出 I D F ( Opposed to Document Frequency) 概念 , 指出 : 在一组文档中 , 刻画某一文档特征的 特征项 (词 )可以根据其在这组文档中出现的频率赋予相应 的权重 ,只在少数文档中出现的较特殊的词 ,权重要比在多篇 文档中出现的词的权重要高 ; 并给出如下权重计算公式 :
[3 ]Leabharlann ,在 1988 年又详细阐述
了多种词权重计算方法在文献检索时适用情况 [ 4 ] 。 TF I D F主 要体现了以下思想 : 一个词在特定的文档中出现的频率越高 , 说明它在区分该文档内容属性方面的能力越强 ( TF ) ; 一个词 在文档中出现的范围越广 , 说明它区分文档内容的属性越低 (I D F) 。经过 Salton 的多次论证 , 信息检索领域广泛地使用
Frequency)沿用至今 。 1. 2 TF I DF Salton在 文 献 [ 2 ] 中 提 出 了 TF I D F ( Term Frequency & Inverse Documentation Frequency)算法 。此后 Salton 多次论证 TF I D F公式在信息检索中的有效性
w ( w i , cj ) =
∑( p ∑p
ij ij j
pi )
2
×( log (
N (w i ) N
) ) 2 × pij ( 8)
n
其中 , pij = T ij /L ij , L ij 是类 C j 含有的所有词的次数之和 , T ij 是
∑P
特征项 ti 在类 C j 出现的次数 ; pi =
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
168
计算机应用
2 w ij = tfij ×( log (N j /N ) )
第 29 卷
第 29 卷 2009 年 6 月
计算机应用 Journal of Computer App lications
Vol . 29 June 2009
文章编号 : 1001 - 9081 (2009) S1 - 0167 - 04
TF IDF算法研究综述
施聪莺 ,徐朝军 ,杨晓江
(南京师范大学 教育技术系 ,南京 210097) ( shicongying1019@163. com )
Study of TF ID F a lgor ithm
SH I Cong2ying, XU Chao 2jun, YANG Xiao 2 J iang
(D epa rtm ent of Educa tiona l Technology, N an jing N or m al U n iversity, N an jing J iangsu 210097, China )
( 7)
多个新的领域 。 2. 1 经典公式固有缺陷的改进 TF I D F算法因其简单有效而广受使用 。但在实践中很多 学者发现 , TF I D F并不能在任何场合都表现优秀 。因此很多 学者在深入分析之后 ,提出 TF I D F 算法的不足之处并给出一 定的改进算法 ,其中最有代表性是以下两类 。 2. 1. 1 数据集偏斜 [ 5 ] 数据集关于类别的分布往往是偏斜 ( Skewed ) 的 , 即不同 类别的文档数可能存在数量级的差距 , 这将严重影响 TF I DF 的权重计算结果 。因为 I D F在计算特征项权重时以文档集中 总的文档数为基准 ,当文档集中各类文档数目不均衡 ,例如某 类文档相对较少时 , I D F 基本不起抑制作用 。因此 TF I D F未 能折中 TF和 I D F两者的结果 ,该特征项权重只是一味的依赖 于文档频率 TF,最终导致该特征项的权重偏高 。 Bong Chih How 和 Narayanan K 提出 了 用 Category Term [5 ] Descrip tor ( CTD )来改进 TF I D F , 以弥补类别数据集偏斜带 来的困扰 。 CTD ( tj , ck ) = TF ( tj , ck ) ×ID F ( tj , ck ) ×ICF ( tj ) =
义— — — 如果特征项在所有文档中出现的频率越高 ,则它包含的 信息熵就越少 ;如果特征项的出现较为集中 ,只在少量文档中有 较高的出现频率 ,则它拥有较高的信息熵。因此 I D F可以理解为 在一个特定条件下关键词的概率分布的交叉熵。 此 后 , Salton 将 Opposed to Document Frequency 改 为 Inverse Document Frequency, 从 此 I D F ( Inverse Document
0 引言
在文本分类领域中 ,占统治地位的文本表示方式是空间 向量模型 。用空间向量模型表示文本 ,首先要对文本进行分 词 ,然后进行特征选择和权重计算 , 最后形成一个 N 维的空 而权重的计算则有多种不同的方法 , 主要有布尔函 间向量 。 数、 频度函数 、 开根号函数 、 对数函数 、 熵函数及 TF I D F 函数 等 ,特征项的权重取值 ,在较大程度上会影响文本分类算法的 整体性能 。其中 TF I D F因其算法相对简单 、 并有较高的准确 率和召回率 ,一直受到相关研究人员和众多应用领域的青睐 。 从提出 I D F概念至今 , TF I D F 算法历经了诸多改进 。这 些改进 , 有针对 TF I D F 的不足 , 也有为适应不同文本分类领 域和不同应用场合的改造 。本文在回顾 、 总结这些算法及其 应用领域的基础上 ,对有关算法进行了测试和比较 ,以期为大 家选用 TF I D F类算法时提供参考 。
j
ij
m
, m 为类别数 ; N ( w i )
是出现特征项 ti 的文档数 , N 是总文档数 ; n ≥ 1。
2. 2 领域适应性改进
为了使得 TF I D F适应一些特殊领域 , 学者们对其进行适 应性改造 。
2. 2. 1 中文组合型歧义切分
(D F ( t , c ) )
j k
| D ( ck ) |