向量空间模型中特征加权的研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基金项目:国家自然科学基金资助(编号:60673089)。
作者简介:林永民,女,1972年生,硕士,讲师,研究方向为文本分类与机器学习;吕震宇,男,1976年生,硕士,讲师,研究方向为数据挖掘和模式识别;赵 爽,女,1982年生,硕士,研究方向为信息检索;朱卫东,男,1960年生,副教授,研究方向为数据挖掘和信息处理。
向量空间模型中特征加权的研究
*
Research on Feature Weighting in VS M
林永民1 吕震宇1 赵 爽1 朱卫东
2
(1.河北理工大学经济管理学院 唐山 063009;2.北京交通大学计算机与信息技术学院 北京 100044)摘 要 随着网络技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。常采用向量空间模型来表示文本,将文本看作特征空间的一个向量,使用T F I DF 方法对特征加权。但是这种加权方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好地反映单词的有用程度,从而导致分类准确率下降。针对T F IDF 方法存在的问题,提出了一种基于特征基尼指数的特征加权方法T F G IN I 。实验结果显示,这种加权方法具有很好的分类性能。
关键词 文本分类 特征选择 基尼指数 特征加权 向量空间模型 自动文本分类是一个有监督的学习任务,通过对已分配好类标签的训练文档集的学习,为新文档分配类标签。文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。现有的特征选择方法主要是基于统计理论和机器学习方法,比较著名的有信息增益(Information G ain)、期望交叉熵(Expected Cross Entroy)、文本证据权(the Weight o f Evidence of T ext)、 2统计等,很多研究者都已经通过实验证明它们是很好的文本特征选择方法。特征选择后最常用向量空间模型来表示文本,将文本看作特征空间的一个向量,其坐标系所采用的测度主要使用Saltond 在1988年提出的T F IDF 值,词频T F 为单词在该文档中出现的次数,逆文本频数I DF=log (N /N t ),其中t 代表单词,N 代表训练集中文本总数,N t 代表出现t 的文档数。以词频T F 和逆文本频数IDF 的乘积作为特征的加权方案,具有简单直观、处理速度快等优点,因此在文本分类中被广泛使用。但由于T F IDF [1-3]
这种加权方法简单地认为文本频数少的单词
就重要,文本频数多的单词就不重要,这种简单的结构使它不可能很好地反映单词的有用程度,从而导致分类准确率下降。
本文研究的重点不是特征选择,而是特征选择后应如何对特征进行加权。T F IDF 特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑,提出了一种基于基尼指数的特征加权方案T F GI NI ,根据含有特征样本的类分布概率,计算特征的基尼指数G IN I,以词频T F 与特征的基尼指数GIN I 的乘积作为特征的权重,在没有增加计算复杂
度的情况下,充分考虑了特征区别不同类别的能力。通过在Reuters-21578文档集和复旦大学计算机与信息技术国际数据库中心提供的中文语料集上与T F IDF 方法的对比实验,结果显示采用T F G IN I 方法的分类性能超过T F IDF ,且并没有增加算法的时间复杂度。
1 TF IDF 加权方法的分析
向量空间模型是目前最简便高效的文本表示模型之一。其基本思想是:给定一自然语言文档D =D (t 1,w 1;t 2,w 2; ;t N ,w N ),其中t i 是从文档D 中选出的特征项,w i 是特征项的权重,1 i N 。为了简化分析,通常不考虑t k 在文档中的先后顺序并要求t k 互异(即没有重复)。这时可以把t 1,t 2, ,t N 看成一个N 维的坐标系,而w 1,w 2, ,w N 为相应的坐标值,因而D (w 1,w 2, ,w N )被看成是N 维空间中的一个向量。其坐标系的测度主要采用Salton 在1988年提出的T F I DF,词频T F 为单词在该文本中出现的次数,而逆文本频数IDF=log (N /N t ),其中t 代表此单词,N 代表训练集中文本总数,N t 代表出现t 的文档数。
陆玉昌等在文献[3]中分析了T F IDF 思想的两条基本假设:a.在一个文本中出现次数很多的单词,在另一个同类文本中出现的次数也很多,反之亦然。所以取词频T F 作为测度的一部分来体现同类样本的特点。这条假设是可以接受。b.一个单词出现的文本频数越少,它区别不同类别的能力就越大。所以引入逆文本频数IDF 的概念,以T F 和IDF 的乘
积作为特征空间坐标系的测度。文献[3]从单词加权和向量旋转的角度,解释了I DF的简单结构不可能很好地反映单词的有用程度。提出了采用去掉信息增益、文本证据权等公式中的P(W)后,对单词加权,并通过实验验证了改进的有效性。T horsten在文献[2]中运用概率理论分析了T F IDF的乘积作为特征空间坐标系测度不一定能得到高的分类精度,并成功地提出了一种介于传统T F IDF法和朴素贝叶斯模型之间的一种分类模型。
我们从特征对分类的有用程度角度出发,发现T F IDF 加权可能会将大权重赋给稀有词,而不管它的类分布特征如何。这些稀有词可能导致无效的分类。可以通过一个简单的实例来分析T F IDF的缺陷。考虑如下情况:训练文档集中的文档总数为300篇,其中属于A类的文档数为100,属于B 类的文档数为200,单词t1与t2当且仅当出现在B类文档中,且N t1=200,N t2=100,文档D B类,单词t1与t2都出现在文档D中,且T F(t1)=T F(t2)。使用T F IDF方法对两个单词加权后得到,T F(t1)*log(N/N t1)< T F(t2)*log(N/N t2),词t1因为稀有而具有较高的T F IDF。但是在这种情况下,t2显然具有更强的类别区分能力,对分类的贡献更大。T F IDF简单地采用倒文本频数对特征进行加权,而没有考虑特征的类分布,是导致加权后分类精度低的主要原因。
2 基于基尼指数的文本特征加权方法
基尼指数是一种不纯度分裂方法,它能适用于类别、二进制、连续数值等类型的字段,是Br eiman等人于1984年提出的,被广泛应用在CART算法、SL IQ算法、SPR INT算法和Intelligent M iner(IBM公司的数据挖掘工具)的决策树算法中,并获得了非常好的分类精度。
2.1 基尼指数原理 具体算法思想:假设S是s个数据样本的集合,其类标号属性具有m个不同值,定义m个不同类(C i,i=1,...,m)。根据类标号属性值的不同可将S划分为m个子集(S i,i=1,...,m),设S i是属于类C i的样本集,s i 是集合S i中的样本数。则集合S的基尼指数为:
Gini(S)=1- m i=1P2i(1)其中P i是任意样本属于C i的概率,并用s i/s估计。当G ini(S)最小为0时,即在此集合处所有记录都属于同一类别,表示能得到最大的有用信息;当此集合中的所有样本对于类别字段来讲均匀分布时,Gini(S)最大,表示能得到最小的有用信息。
基尼指数的最初形式是测量属性对于分类来说的 杂度 ,数值越小,即 杂度 越小,属性越好;如果采用Gini(S)= m i=1P2i(2)则是测量属性对于分类的 纯度 ,数值越大,即 纯度 越大,属性越好。
2.2 基于基尼指数的文本特征加权方案 基尼指数是一个用于集合纯度评测的优秀测度。特征对于分类的有用程度可以用特征的纯度来度量,特征应尽可能是纯的。一个特征是纯的,出现这个特征的所有文档都属于同一个类别[4]。因此我们采用特征的纯度来代替倒文档频数,提出T F GIN I加权方法。具体方法是在文本特征选择之后,先求出现特征t 的文档集中每个类的发生概率P(C i|t),然后根据(3)式计算特征的基尼指数
G ini(S)= m i=1P(C i|t)2(3)
采用T F GIN I为特征t k加权并进行归一化的公式如下:
w ik=
tf ik gini(t k)
m
j=1
[tf jk gini(t k)]2
(4)
其中w ik表示词条t k在文档D i中的权重;tf ik表示词条t k 在文档D i中的出现频数。
Shankar等在文献[5]中也讨论了应用基尼指数原理进行文本特征选择及权值调整的问题,即首先根据T F-IDF从原始特征空间的所有的词中形成类中心向量,再根据所有的类中心向量计算所有特征的基尼指数,最后根据预定的数目选择基尼指数大的特征。并且讨论的范围仅限于质心法分类。但我们在本文中所用的方法与其完全不同,我们重点讨论的是在特征选择之后,对特征的加权,且加权方案不仅适合质心法分类,而且适合于已有其他的文本分类器。
3 实验结果与分析
为了进一步考察算法的效果,我们采用了V C++6.0实现本算法,部分源代码采用了复旦大学计算机与信息技术系李荣陆提供的文本分类器源代码。
3.1 数据集 在实验中我们使用了两个语料集:一个是公认的英文标准分类语料R euters-21578;另一个是来自复旦大学计算机信息与技术系国际数据库中心提供的中文语料集。
Reuter新闻语料集是在文本分类研究中被最广泛使用的语料集,1987年修订的R euters-21578共有21578个文档。在实验中我们使用了其中最普通的10个类,训练集7951个文档,测试集2726个文档,词根还原和去停用词后有23281个单词。实验集中类的分布是不均匀的,属于最大类的文档有2875个,占总训练文档数的40.762%;属于最小类的文档有170个,仅占总训练文档数的2.41%。
实验采用的第二个数据集是来自复旦大学计算机信息与技术系国际数据库中心提供的中文语料集。共有19637篇文档,分为20个类。取其中的10类,训练文集中共有1882篇文档,测试集900篇,经分词且去停用词后共获得35028个词。训练集中类分布相对不均匀,其中政冶类文档338篇,占到了训练文档集的17.96%,而环境类的文档134篇,仅占到文档集的7.12%。
3.2 分类器 分类器采用fkN N,其判别函数采用我们在