知识增益_文本分类中一种新的特征选择方法_徐燕

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第22卷 第1期2008年1月
中文信息学报
JOU RNAL OF CH INESE INFORM AT ION PROCESSIN G
V ol.22,No.1Jan.,2008
文章编号:1003-0077(2008)01-0044-07
知识增益:文本分类中一种新的特征选择方法
徐燕,王斌,李锦涛,孙春明
(中国科学院计算技术研究所,北京100080)
摘 要:特征选择在文本分类中起重要的作用。

文档频率(DF )、信息增益(IG )和互信息(M I )等特征选择方法在文本分类中广泛应用。

已有的实验结果表明,IG 是最有效的特征选择算法之一,该方法基于申农提出的信息论。

本文基于粗糙集理论,提出了一种新的特征选择方法(K G 算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法。

在两个通用的语料集OH SU M ED 和New sGro up 上进行分类实验发现:K G 算法均超过IG 的性能,特别是在特征空间的维数降到低维时尤其明显,可见K G 算法有较好的性能;
关键词:计算机应用;中文信息处理;文本分类;特征选择;粗糙集;信息检索中图分类号:T P391 文献标识码:A
Knowledge Gain:An New Feature Selection Method in Text Categorization
XU Y an,WAN G Bin,LI Jin -t ao,SU N Chun -ming
(Institute of Computing T echnolog y,Chinese Academ y of Sciences,Beijing 100080,China)
Abstract:Feature selection(F S)plays an impor tant r ole in text categ or izat ion (T C).A utomatic featur e selection met ho ds such as do cument frequency thresholding (DF ),informat ion ga in (IG),mutual info rmation (M I),and so on ar e co mmonly applied in text categ o rizatio n [J].Exist ing ex per iments sho w I G is o ne o f the most effectiv e met ho ds.I n this paper ,a feature selectio n method is pr oposed based on Roug h Set theory.A ccording to Rough set theo ry ,know ledg e about a univer se of objects may be defined as classificat ions based on cer tain pr operties of the objects,i.e.r ough set theo ry assume that kno wledg e is an ability to part itio n objects.We quantify the ability o f classify objects,and call the amount of this ability as kno wledg e quantity and then fo llow ing this quantificat ion,w e put for wa rd a no tio n /kno wledg e Ga in 0and put forw ar d a kno wledg e g ain -based feature select ion method (KG met ho d).Ex per iments o n New sG ro up collectio n and O HSU M ED co llection sho w that K G perfor ms better than the IG method,specially,on extr emely ag g ressive r eduction.
Key words:computer applicatio n;Chinese info rmation pr ocessing ;feature selectio n;t ex t catego rization;ro ug h set;informat ion retr ieval
收稿日期:2007-05-29 定稿日期:2007-12-02
基金项目:国家973资助项目(2004CB318109);国家自然科学基金资金项目(60473002,60603094);北京市自然科学基金资助项目(4051004)
作者简介:徐燕(1968)),女,博士,主要研究方向包括数据挖掘和信息检索;王斌(1972)),男,博士,副研究员,主要研究方向为信息检索和自然语言处理;李锦涛(1962)),男,博士,研究员,博导,主要研究方向为跨媒体检索和数字化技术。

1 引言
文本分类是根据文档内容将文档归入一个或多个预先定义的类别,随着网络的发展,大量的文档数据涌现在网上,用于处理海量数据的自动文本分类
技术变得越来越重要,自动文本分类已成为处理和
组织大量文档数据的关键技术之一[1]。

文本自动分类的主要困难之一是特征空间的维数很高,特征数达到上万,甚至几十万[2]。

如何降低特征空间的维数,提高分类的效率和精度,成为文本自动分类中需要首先解决的问题,也是研究的一个
1期徐燕等:知识增益:文本分类中一种新的特征选择方法
热点[1,2],为此特征选择成为文本分类的一个重要步骤。

特征选择函数是特征到实数的一个映射。

实际应用中对训练集中每一个特征计算它的特征选择函数值,移除函数值小于阈值的词条。

众所周知,在文本分类中,特征不是同等重要的,有的特征不重要,甚至是多余的。

特征选择就是通过定义特征选择函数留下重要的特征,去掉不重要的和多余的特征。

因此,特征选择方法的实质就是给出一个合理、有效的度量特征的方法。

现有的特征选择函数主要有文档频率(DF)、信息增益(IG)和互信息(M I)[2~5]等等。

许多特征选择方法都用到了信息熵的概念(如信息增益,互信息等),信息熵来自申农的信息论,申农[6]认为信息具有减少不确定性的特性,所以信息熵可以作为对不确定性的一种度量。

随着人工智能、知识工程的发展,人们越来越重视知识、智能的作用。

培根说:/知识就是力量0,那么知识到底是什么呢,我们如何来测量它呢?
粗糙集理论[7]认为知识或智能表现为对事物的分类的能力。

例如如果说某医生医术高超,就是他能从病人的症状中,正确地诊断出病人是患什么病(是这类病,而不是那类病)等等。

我们已经在文献[8]中,将分类事物的能力进行量化,即给出了一种度量知识的方法,在本文中,我们将运用粗糙集理论对知识的观点,使用量化的知识量对特征进行评价,提出一个新颖的特征选择算法,在本文中,称它为知识增益(KG)方法。

已有的实验表明[2,5,9],IG是最有效的特征选择方法之一,DF的效果稍差,但和IG基本相似,而MI相对较差。

我们将KG算法在两个通用的语料集OH SU MED和New sGroup上进行分类实验发现: KG算法均超过IG的性能,特别是在特征空间的维数降到低维时尤其明显,可见KG算法有较好的性能。

本文的安排如下:第二节介绍3种常用的特征选择算法和粗糙集理论的基本概念,第三节根据粗糙集理论的观点对知识进行量化,并提出知识增益的概念,第四节提出基于知识增益的特征选择方法,第五节给出实验结果和分析,第六节进行总结。

2特征选择方法和粗糙集理论
本节将对最常用的特征选择方法DF、IG、MI 和粗糙集理论的基本概念进行概述。

DF和IG在文本分类中表现得较好,而且IG在许多实验中都是表现最好的特征选择方法之一[2,5,9]。

下面给出的DF、IG、M I的定义来自文献[2, 9]。

我们知道,文本分类中的特征可以是字、词、短语、概念或者其他单位,但实际中常用的仍然是词。

本文中我们也以词条作为特征,因此,以下提到的特征我们都以词条来表达。

为叙述方便,我们假定分类目标类别集合为{c i}m i=1,m是类别个数。

p(c)或p(c j)表示在无任何先验知识情况下某个对象属于类别c或c j的概率。

2.1文档频率
词条的文档频率(Document Fr equency,DF)是指在语料中出现该词条的文档的数目。

只有当某词条在较多的文档中出现时才被保留下来,DF值低于某个阈值的词条是低频词,将这样的词条从原始特征空间中移除,不但能够降低特征空间的维数,而且还有可能提高分类的精度。

DF是一种最简单的词约简技术,由于具有相对于语料规模的线性复杂度,所以它能够容易的被用于大规模的语料特征选择中。

2.2信息增益
信息增益(Information Gain,IG)被广泛应用在机器学习领域。

它通过一个词条在一篇文章中出现与否来计算对类别的信息量的贡献值。

词条t对类别的信息增益为:
I G(t)=-E m i=1p(c i)log p(c i)
+p(t)E m i=1p(c i|t)log p(c i|t)
+p( t)E m i=1p(c i| t)log p(c i| t)其中,p(t)表示语料中包含词条t的文档的概率,p(c i|t)表示文档包含词条t时属于c i类的条件概率,p( t)表示语料中不包含词条t的文档的概率,p(c i | t)表示文档不包含词条t时属于c i类的条件概率。

2.3互信息
互信息(M utual Information,MI)广泛应用于统计语言模型,对于类别c和词条t,它们之间的互信息定义为
MI(t,c)=lo g2p(t C c)
p(t)@p(c)
45
中文信息学报2008年
其中,p (t C c)表示表示包含词条t 且属于类别c 的文档概率。

这是词条t 和单个特定类别c 的互信息,另外,还可以计算t 和所有类别的平均和最大互信息:
MI avg (t)=E
m
i=1p (c i )MI (t,c i )
MI
max
(t)=m ax m
i=1
{MI (t,c i )}2.4 粗糙集理论
粗糙集理论是Zdzislaw Paw lak 1982年提出
的[7],它是一种处理模糊的不确定性问题的数学工具。

目前,它被用于很多领域,像机器学习、知识查询、决策分析、数据库中的知识发现、专家系统、模式识别等。

在本小节,将介绍一些在本文中用到的基本概念,详细内容请参阅文献[7]。

给定两个集合U 和A ,U ={x 1,,,x n }是非空有限集合,称为论域,A ={a 1,,,a k }是属性(特征、词条)的非空有限集合。

对于属性a,其取值集合为V a ,集合V ={V a |a I A},定义一个函数集合f ={f a :U y V a |a I A }。

我们称四元组3U,A ,V,f 4是一个信息系统。

表格1给出了一个信息系统的例子。

a(x )表示论域中对象x 在属性a 上的值。

任何一个属性子集合B A A 确定一个在U 上的二元关系I nd (B )称为不可区分关系(indiscem ibility r elation),它满足:
I nd(B)
={(x ,y )I U @U |P a I B,a(x )=a(y )}
I nd(B )的等价关系簇,也就是由B 决定的划分,可表示为U/B 。

如果(x ,y )I I nd (B),我们称x 和y 是B -不可区分的(B -indiscernible )。

二元关系I nd (B )刻画的等价类可归结到B -基本集(B -elementary sets ),基本集是知识的基本单位,有时我们称之为基本概念。

不可区分关系是本文使用的基本概念,知识是有粒度的,基本集就是知识的最小粒度,粒度越细,所需的知识就越多,也就能区分更多的对象,知识就是区分对象的能力。

3 知识的量化
在本节中通过文献[10]的一个稍加修改的例
子,对我们引入的概念和方法加以说明。

文献[10]中利用信息熵作为对不确定性的一种度量,引入条件熵,最后得到信息增益,我们使用粗糙集理论认为知识或智能表现为对事物的分类的能力,和文献[10]相似地引入条件知识量,最后得到知识增益。

在本节例子中(见表1),E i 表示所有的对象;
X =/College M ajor 0表示专业;Y =表示E i 是否选修。

表1 信息表X
Y E 1M ath Yes E 2H istor y No E 3CS Yes E 4M ath No E 5M ath No E 6CS Yes E 7H istor y No E 8
M ath
Yes
3.1 区分对象的能力
不可区分关系是粗糙集中的一个非常重要的概念。

例如,在表1中,(E 1,E 4)是X -不可区分,(E 1,E 2)不是X -不可区分。

在表1中,X 将{E 1,E 2,,E 8}分成三类{E 1,E 4,E 5,E 8}、{E 2,E 7}和{E 3,E 6}。

也就是说X 能将E 1,E 4,E 5,E 8和E 2,E 7区分开,也能将E 1,E 4,E 5,E 8与E 3,E 6区分开,还能将E 2,E 7与E 3,E 6区分开。

类似的,Y 能将E 1,E 3,E 6,E 8和E 2,E 4,E 5,E 7区分开。

现在,我们量化一个属性X 或是一个属性集P 的区分对象的能力,我们称这种区分能力为知识量,它是对知识的粒度的大小的一个量化,粒度越小,代表的知识就越多。

我们量化区分能力的方法遵循以下准则:
#如果一个属性集P 可以将每一个元素(对象)同其他的元素区分开,那么P 具有最大的知识量,知识的粒度最小。

#如果属性集P 只能将所有的元素归入一类,也就是说P 不能把任何一个属性同其他属性区分开,那么P 具有最小的知识量,知识的粒度最大。

46
1期徐燕等:知识增益:文本分类中一种新的特征选择方法
3.2知识量
知识是分类事物的能力,知识量是这种能力的
量化,同时她也是知识粒度的量化。

在文献[8]中,我们提到了知识量的概念,本文
用概率p i代替具体的数目n i(p i=n i/n),使用概率
的目的,是为了依据文献[10]而引入知识增益的需
要,定义的内涵是一致的。

定义1论域U被属性集合P(信息表中的一
些属性)分成m个等价类,在每个等价类中的元素
的概率为:p1,p2,,,p m,所有元素的个数为n,用
W P代表P的知识量,W P=W(p1,p2,,,p m),它满
足下面的条件:
1)如果m=1那么W(p1)=W(1)=0
2)交换律:W(p1,,,p i,,,p j,,,p m)=
W(p1,,,p j,,,p i,,,p m)
3)链规则:W(p1,p2,,,p m)=W(p1,p2+
,+p m)+W(p2,,,p m)
4)分配律:W(p1,p2+p3)=W(p1,p2)+
W(p1,p3)
结论1如果全集U被属性集合P分成m个
等价类,而且每个等价类中成员的概率分别为p1,
p2,,,p m,U中所有元素的数目为n,那么P的知
识量可以定义为W(p1,p2,,,p m)=n2W 1
n
,
1
n
E
1[i<j[m
p i@p j。

证明略。

对于特定的全集U,n2W 1
n
,1
n
是一个确定的
值,它可以看作知识量的一个基本单位,以k记量,所以W(p1,p2,,,p m)=k E
1[i<j[m
p i@p j。

例如:在表1的例子中,X将{E1,E2,,,E8}分成三类{E1,E4,E5,E8}、{E2,E7}和{E3,E6},三类的概率分别为0.5、0.25和0.25,则:
#W X=k E
1[i<j[3
p i@p j=0.5@0.25k+ 0.5@0.25k+0.25@0.25k=0.3125k
同理可以得到:
#W Y=k E
1[i<j[2
p i@p j=0.25k
X比Y将集合{E1,E2,,,E8}分得更细,表明它含有的知识量更多。

3.3条件知识量
为了引入知识增益,需首先定义特定的条件知识量。

定义2U是论域,P是属性集合,D是另一个属性集合,对于P的某一个具体值v,则给定P=v 时D的条件知识量为W D/P=v。

W D/P=v为考虑所有P=v时的D的知识量。

例如:在表1中X=Math时,对象集合为{E1, E4,E5,E8},Y在{E1,E4,E5,E6}上的等价类为{E1,E8}和{E4,E5},数目均为2,等价类{E1,E8}和{E4,E5}的概率均为0.5。

#W Y/X=Ma th=k E1[i<j[2p i@p j=0.5@0.5k= 0.25k
同理可以得到:
#W Y/X=H is tory=0
#W Y/X=CS=0
下面定义条件知识量:
定义3U是论域,P是属性集合,D是另一个属性集合,则给定P时D的条件知识量记为W D/P,它为关于Y所有特定值的平均条件知识量,定义为:
W D/P=E j p r ob(X=v j)W Y/X=v j
例如,在表1的例子中,计算Y的所有特定条件知识量如表2所示,
表2条件知识量
v j Pro b(X=v j)W Y/X=v
j M ath0.50.25k
Histo ry0.250
CS0.250
#W X/Y=E j p rob(X=v j)W Y/X=v j=0.5@ 0.25k+0.25@0+0.25@0=0.125k
3.4知识增益
知识增益表示一个知识对另一个知识的贡献。

基于知识是分类事物的观点,知识增益可以看作某个属性对对象集合的分类对另一个属性对对象的分类的一个预测,即已知某属性对对象的分类后,对另一属性分类对象的贡献或帮助有多大。

例如:一个知识电闪雷鸣,对另一个知识/天下雨0的贡献就较大,而一个知识第一胎是儿子,对另一个知识/第二胎是儿子0的贡献就很小。

一般地,如果P与D所分的等价类一样,这时它们相互的知识增益最大,如果P与D是概率独立
47
中文信息学报2008年
的,则这时它们相互的知识增益最小。

定义4U是论域,P是属性集合,D是另一个属性集合,则给定P时,它对D的分类的贡献,称作P对D的知识增益,记做K G(D|P),定义为:
K G(D|P)=W D-W D/P
例如:在表1的例子中
#W X=0.3125k
#W Y/X=0.125k
#K G(Y|X)=W X-W Y/X=0.3125k-0.125k=0.1875k
4基于知识增益的特征选择方法
用上节得到的知识增益取代信息增益,通过计算一个词条在一篇文章中出现与否来计算对类别的知识增益。

设{c i}m i=1为目标空间中的类别的集合,那么词条t对类别的知识增益为:
K G(t)=KG(C|T)=k E
1[i<j[m
p i@p j-
p(t)E1[i<[m p(c i|t)p(c j|t)+
p( t)E
1[i<j[m
p(c i| t)p(c j| t)k 实际应用中我们对训练集中每一个词条计算它的知识增益值,移除知识增益小于阈值的词条。

这就是本文的知识增益特征选取方法,简称为K G方法。

显然K G方法中计算每一个词条的知识增益的时间复杂度为O(m2),虽然比IG的时间复杂度O (m)稍高,但是通常情况下m比较小,加上特征选择方法通常在训练阶段实现,因此,K G是一种效率较高的具有实用性的方法。

5实验分析
我们用两种分类算法,k-近邻法(kNN)和朴素贝叶斯(NaÇve Bayes)方法。

选择kNN是因为它是通用且性能较好的分类器[11],我们选择NaÇveBayes 方法是因为它是最有效的启发学习算法之一[12]。

根据文献[13],微平均精确率(M icr o-averaging Precisio n)被广泛用于交叉验证比较。

这里我们用它来比较不同的特征选择算法的效果。

5.1语料集
试验中我们用OH SUM ED和New sGr oup两个语料集,这两个语料集是比较通用的语料集[2,9]。

OH SUM ED是一个医学语料库,共有1800个类别,14321个有标题的文档。

试验中我们用这个语料集的一个子集,共有7445篇文档作为训练集, 3279篇文档作为测试集。

在训练集中共有11465个词条和10个类别。

New sGroup语料集是由互联网用户在U senet 上张贴的19997条消息组成的。

这些消息均匀分布在20个不同的新闻组中,每个新闻组有1000条消息,每个新闻组对应着一个文本类别。

New sGroup是一个典型的单标签文本分类语料。

我们取其中的10个类别作为实验语料集,经过处理后,共有31109个词条,6162篇文档作为训练集,3 838篇文档作为测试集。

5.2试验结果
图1到图8分别表示DF、IG、M I和KG在两个个语料集上用kNN和NaÇveBayes分类器分类的试验效果,可以从图中看出,KG和IG是效果最好的, DF稍差,MI的效果最差。

图1到图4表示DF、IG、M I和KG在New sGroup语料集上用kNN和NaÇveBayes分类器分类的实验效果,其中图1和图3表示当减少到很低维数时的效果,可以看出KG比IG的性能要好,尤其在图1
和图3的情况下更明显。

图1IG与KG在New sGr oup上使用kN N时的性能比较
图5到图8表示DF、IG、M I和KG在OH SUM ED语料集上用kNN和N aÇveBay es分类器分类的实验效果,其中图5和图7表示当减少到很低维数时的效果,可以看出KG比IG的性能要好,尤其在图5和图7的情况下更明显。

48
1期徐燕等:知识增益:
文本分类中一种新的特征选择方法
图2 IG 、KG 、D F 与M I 在N ew sGr oup 上使用kN N
时的性能比较
图3 IG 与K G 在New sGro up 上使用N a ÇveBayes 时
的性能比较
图4 IG 、KG 、DF 与M I 在N ewsG roup 上使用
N a ÇveBayes 时的性能比较
6 结论
特征选择在文本分类中起重要的作用。

本文:#依据粗糙集理论的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念;#由知识增益得到了一种新的特征选择方法:
KG 算法;
图5 IG 与KG 在OH SU M ED 上使用kN N 时的性
能比较
图6 I G 、K G 、DF 与M I 在O H SU M ED 上使用kNN
时的性能比较
图7 I G 与K G 在O HSU M ED 上使用Na ÇveBay es 时
的性能比较
#在两个通用的语料集上进行分类实验发现:
均超过IG 的性能,尤其在特征空间的维数降到低维时比较明显,可见KG 算法有较好的性能;#由此可见,粗糙集理论的观点,即知识是分类事物的能力,是合理的,并有许多应用之处。

我们的下一步工作是,进一步分析性能较好的特征选择算法,找出其共性,即,形式化分析文本分类中的特征选择算法。

49
中文信息学报2008

图8IG、K G、DF与M I在OH SU M ED上使用N aÇveBayes时的性能比较
参考文献:
[1]尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本
分类中基于基尼指数的特征选择算法研究[J].计算机
研究与发展,2006,43(10):1688-1694.
[2]Y iming Y ang,Jan O.P eder sen.A Comparativ e Study
on F eat ur e Selection in T ex t Categ orization[A].
Pr oceeding s of ICM L-97[C].412-420.
[3]代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方
法的比较研究[J].中文信息学报,2005,18(1):26-32.
[4]Fabr izio Sebastiani.M achine lear ning in auto mated
tex t categ orization[J].ACM Co mputing Surv eys,
34(1):1-47.2002.[5]单松巍,冯是聪,李晓明.几种典型特征选取方法在
中文网页分类上的效果比较[J].计算机工程与应用,
2003,(22):146-148.
[6] C. E.Shannon,A mathematical t heo ry o f
co mmunicatio n[J].Bell System T echnica l Journal,
July and Octo ber,1948,27:379-423and623-656. [7]Paw lak Z.Ro ug h Sets[J].Internatio na l Jo ur nal o f
Co mputer and Infor matio n Science,1982,11(5):341-356.
[8]徐燕,怀进鹏,王兆其.基于区分能力大小的启发式约
简算法及其应用[J].计算机学报,2003,26(1):97-103.
[9]Stew art M.Y ang,Xiao-Bin Wu,Z h-i Ho ng Deng,
M ing Zhang,Do ng-Q ing Yang.2002Relativ e ter m-
f requency based featur e selection fo r text catego rization
[A].Pr oceeding s o f ICM LC-2002[C].1432-1436.
[10]A ndrew M oor e.Statist ical Data M ining T uto rials
[D B/O L].htt p://ww w.autonlab.o rg/tutor ials/
[11]Y iming Yang,X in L iu.A re-exam inat ion o f tex t
catego rizatio n metho ds[A].(SIG IR.99)[C].1999,
42-49.
[12]H.Zhang.T he optimality of naive Bayes[A].T he
17th Internatio na l FL A IRS co nfer ence[C].M iami
Beach:2004.M ay17-19.
[13]Y iming Y ang.An evaluat ion of statist ical approaches
to tex t categ or izat ion[J].Journal of Info rmation
Retr ieval,1999,1(1/2):67-88.
第四届全国学生计算语言学研讨会(SWCL2008)
2008年7月23)25日山西大学
/全国学生计算语言学研讨会0是由中国中文信息学会发起的系列学术会议,每两年举办一次,其目的在于加强计算语言学研究领域学生之间的学术交流和合作,促进国内计算语言学的研究和应用,提高计算语言学人才培养的水平,会议的全部活动完全由学生自己组织,交流形式灵活多样,除了大会专题报告外,会议还将组织学生与学生之间、学生与专家、学生与企业之间面对面的交流。

继/第一届全国学生计算语言学研讨会(SWCL2002)0于2002年8月在北京大学计算语言学研究所、/第二届全国学生计算语言学研讨会(SWCL2004)0于2004年8月在北京语言大学信息科学学院、/第三届全国学生计算语言学研讨会(SWCL2006)0于2006年8月在沈阳航空工业学院人机智能研究中心成功召开之后,/第四届全国学生计算语言学研讨会(SWCL2008)0将由山西大学计算机系承办,拟于2008年7月23日-25日在山西大学举行。

会后将在同一地点举行为期两天(7月26日、27日)、由中国中文信息学会计算语言学专业委员会主办的/第三届全国计算语言学讲习班0(主题待定)。

青年学生是面向新世纪科研战线的生力军,而学生计算语言学研讨会则是计算语言学和相关专业青年学生学习和交流的生动课堂,会议竭诚期待您的参与。

关于会议的最新信息,请参见会议网站http://nlp.csa /sw cl2008/, htt p://ww /SWCL2008及http://w ww.cipsc.o 。

50。

相关文档
最新文档