向量空间模型中TFIDF权值公式的修正
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
向量空间模型中TFIDF权值公式的修正
TFIDF公式是向量空间模型中应用比较成功的计算特征项权值的方法。研究发现,该公式忽略了特征项在文本集的分布比例和离散程度这两个影响特征项对文本表示贡献度的重要因素。为此,本文构造了一个平衡因子BF,并将其加权到TFIDF公式中,得到了修正后的公式M-TFIDF。简单数值例子和中文文本聚类实验都表明,M-TFIDF公式保留了TFIDF公式的优点并弥补了其缺陷,提高了向量空间模型对文本集的表示性能。
标签:向量空间模型词频倒排文档频VSM TFIDF
对于文本信息处理,有三类经典的模型,它们分别是布尔模型、概率模型和向量空间模型[1],[2]。在这三类经典模型基础上又衍生出一些扩展模型,如模糊集模型[3]、扩展的布尔模型[4],神经网络模型[5]、Bayesian信念网络[6],[7] 、潜在语义索引(LSI)模型[8-10]等。其中,向量空间模型以其较强的可计算性和可操作性而被广泛应用于文本检索、自动文摘、关键词自动提取、文本聚类和分类、文本过滤和搜索引擎等各项应用中,并且取得了较好的效果。向量空间模型中如何计算特征项权值是个基础和重要的内容。历史上曾出现多种计算权值的公式,它们通常是词频(特征项频率)的函数,其中比较著名的是由Salton[11]在1988年提出的TFIDF函数,在随后的应用中,为了消除文本长度的影响,往往采用归一化(标准化)的TFIDF,即本文所指的TFIDF公式。本文将对TFIDF 公式作进一步的修正。
1向量空间模型与TFIDF公式简介[1,2,11]
向量空间模型的基本思想是以向量来表示文本,文本空间被看作是一组正交词条向量所组成的向量空间,每个文档表示为其中一个规范化特征向量,以项权值(权重)作为文档向量的属性值。其数学描述如下:
其便于计算的形式是
结果见表6。
由表6可见,采用修正的TFIDF公式即M-TFIDF公式计算权值,使得聚类结果的召回率、准确率以及F值得到明显提高。权值公式的修正对聚类结果的准确性有明显帮助。
总之,通过实验的结果和分析可以看出,不管用SV值分析还是用召回率、准确率、F值分析,都可以证明用M-TFIDF替代TFIDF公式计算权值,会提高文本聚类的结果的可靠性和准确性。
同样,我们完全有理由推测,M-TFIDF权值公式可以很好的应用于包含文本聚类在内所有基于向量空间模型的文本挖掘领域。
4小结
本文的主要工作是对向量空间模型中用于计算特征项权值的TFIDF公式进行修正。基于分布比例高的特征项具有较高的贡献度和特征项在文本集中分布越离散则代表性越强这两方面的考虑,本文构造了一个平衡因子BF,并将其加权到TFIDF公式中,得到了修正后的公式M-TFIDF。简单数值例子和中文文本聚类实验都表明,M-TFIDF公式保留了TFIDF公式的优点并弥补了其缺陷,提高了向量空间模型对文本集的表示性能。
参考文献
[1] G.Salton,M.J.McGill.Introduction to Modern Information Retrieval.McGraw-Hill,New York,1983.
[2] Tsau Young Lin ,I-Jen Chiang.A simplicial complex,a hypergraph,structure in the latent semantic space of document clustering. International Journal of Approximate Reasoning . 2005,40.55-80.
[3] 张玉连,张敏,张波. 一种扩展的向量空间模型-隐含语义索引模型研究. 燕山大学学报,2006,1,V ol.30,No.1,87-90. [4].
[4] 耿焕同,陈少军. 一种基于传统VSM和词共现概念的中文文本聚类的研究. 安徽师范大学学报(自然科学版),2005,3,V ol.28.No.1,27-30.
[5] 马辉民,李卫华,吴良元. VSM在中文文本聚类中的应用及实证分析. 武汉理工大学学报o信息与管理工程版. 2006,4,V ol.28,No.4,56-60.