基于信息增益的混合垃圾邮件特征选择方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于信息增益的混合垃圾邮件特征选择方法
闫巧;冷成朝
【摘要】Feature selection is a crucial process of spam filtering. The result of feature selection not only affects the accuracy of classification, but also affects the computational burden. The popular feature selection methods such as CHI selection, information gain, mutual information and SVM feature selection are compared and a mixed email feature selection method is proposed based on information gain using the conditional probability and classification discrimination between features to rudce redundancy among features to overcome their shortcoming that only pay attention to sorting yet ignore the redundancy among features. Experimental results show that: the new method is promising and improves classification accuracy of spam.%特征选择是邮件过滤重要的环节,特征的好坏不仅影响分类的准确率,还直接影响到分类器训练和分类的开销.比较了常用的CHI选择、互信息(MI)、信息增益(IG)和SVM特征选择算法在垃圾邮件过滤中的效果,针对这些方法只排序而未消除特征间冗余的缺点,提出了利用特征词间条件概率和分类区分度消除冗余的混合邮件特征选择方法.实验结果表明:方法效果良好,提高了邮件分类准确率.
【期刊名称】《计算机工程与应用》
【年(卷),期】2012(048)027
【总页数】4页(P90-93)
【关键词】特征选择;卡方检验(CHI);信息增益(IG);支持向量机(SVM)
【作者】闫巧;冷成朝
【作者单位】深圳大学计算机与软件学院,广东深圳518060;深圳大学信息工程学院,广东深圳518060
【正文语种】中文
【中图分类】TP393
YAN Qiao,LENG Chengchao.Mixed spam feature selection approach based on information puter Engineering andApplications,2012,48(27):90-93.
随着互联网的发展,电子邮件已经成为人们日常生活和工作中不可或缺的通信工具。

电子邮件提供方便快捷的同时大量的垃圾邮件也给我们带来了无尽的痛苦与烦恼。

2009年第三季度中国反垃圾邮件状况调查报告显示:中国网民平均每周收到垃圾邮件数量为15.08封,占总量的53.38%[1]。

垃圾邮件的泛滥不仅危害网络安全,而且还会影响家庭和社会的稳定,给用户和社会造成巨大的经济损失。

垃圾邮件的治理是一个长期而艰巨的任务,现已成为全球共同面临的问题。

因此,反垃圾邮件技术的研究有着深远的社会意义和巨大的经济价值。

特征选择是垃圾邮件过滤的一个重要环节。

垃圾邮件过滤实质是二值文本分类,对于中文垃圾邮件过滤,经中文分词后,邮件中出现的特征字词高达几千甚至上万个,如果将这些字词都作为特征项,会导致计算量太大,因此,在对邮件进行过滤前必须进行特征选择。

特征选择算法的优劣不仅影响分类器的训练速度,还影响其精度。

目前文本分类中比较常用的特征选择方法有词频、CHI统计[2]、互信息、信息增
益等。

近年来文献中出现了利用粗糙集属性简约的特征选择算法[3]和利用SVM的
特征选择方法[4]。

这些方法都是按一定的评估方法计算出每个特征项的度量,再按这个度量从大到小排序,取前N个作为表示文本的特征向量。

这些方法主要考虑的是特征项与类别之间的关联度,忽略了特征间的冗余,对此本文在研究和比较常用特征选择方法的基础上提出了一种基于CHI的混合特征选择方法,利用SVM 在真实邮件集上的分类实验表明:新的特征选择方法不仅提高了分类准确率,还有效去除了特征间的冗余。

特征选择方法是从特征集中选取一部分对分类有贡献的特征子集[3]。

汉语中,词比字具有更强的表达力,和短语相比,词在切分难度比短语的切分难度小得多。

因此,目前大多数中文文本分类系统都采用词作为特征项,称做特征词。

通常特征选择算法都是以训练集经中文分词后得到的词作为特征集,再按不同的评估函数给出每个词对应的评估度量值。

以下是几种常用的特征选择方法和它们的评估函数:(1)信息增益
信息增益(Information Gain,IG)是一种基于熵的方法[3],在信息论中,样本的信息增益越大,它包含的信息量就越大。

用于特征选择便是衡量每个特征与类别间的信息增益,信息增益越大该特征所包含的分类信息就越大。

特征词t的IG评估函数为:
(2)互信息
互信息(Mutual Information,MI)是统计学用于表征两个变量相关性的方法,常被用于文本特征相关的统计模型及其相关应用标准[5]。

文本特征选择中,用其度量特征项与类别的相关性。

其评估函数为:
(3)CHI统计
CHI用来衡量特征项和类别之间的相关性,评估函数如下:
式中m为文档类别数,A,B,C,D的含义如表1。

(4)SVM选择方法
SVM由Vapnik等人[6]提出的一种机器学习方法,它建立在统计学习VC维理论
和结构风险最小原理基础上,通过最大化分类间隔构造最优分类超平面来提高分类器的泛化能力。

研究表明支持向量机(SVM)效果优于其他方法[7]。

通过线性SVM训练得到的分类器可表示如下形式:
其中,w是训练的最优分类超平面的法向量。

n为特征维数。

那么,特征项j所对应的|wj|越大,表明特征项j对分类贡献越大,wj越大,表明特征j对正类的分类
贡献越大,反之则对负类的分类贡献大。

上述特征选择方法的共同特点是用一个评价函数计算出各个特征在相关意义上的度量值,再根据这个度量值从大到小排列,取排列的前N个特征作为最优特征子集
从而达到降维的目的。

和文本分类特征选择不同的是:邮件过滤的选用的特征是垃圾邮件的特征,而上述特征选择方法主要是考虑特征与类别之间的关联度大小的排序,这样冗余特征可能获得较高的排序而被作为特征词而选出,而垃圾邮件集中种类的不均也可能使得一些比较有代表性低频词难以在某种方法取得较高的排序而选出。

这种依照特征的某种度量排序而取排序靠前的降维方法在邮件特征选择中是不合理的。

Yang Yiming和Dunja Mladenic分析和比较了词频、DF、IG、MI和CHI五种
特征选择方法,得出在文本分类中IG和CHI效果较好[7]。

在本文实验中,IG、CHI和SVM都表现出了不错的性能。

各种特征方法都是按照各自的评价函数对每个特征计算一个度量,虽然排序靠前的特征不一定都是最优特征,但可以肯定的是,各种方法排序靠后的特征项肯定是相对差的特征,特别是SVM,对应为负类的特
征可以认为是对分类有干扰作用,即使对分类有效那也很可能表明该特征是负类特征而非垃圾邮件特征。

基于这种思想,作出如下改进:对IG得到的特征排序,去掉SVM中wj小于零对应的特征项和CHI排序后10%的特征项,再去掉剩余特征项之间的冗余。

信息论中,2个信号间的相关性通常用互信息衡量,互信息也通常用来消除冗余。

X,Y的互信息定义:
虽然I(X,Y)越大表明X,Y越相关,但I(X,Y)的值域不固定,无法用统一的阈值标准判断相关性;再者由于互信息的对称性,X,Y的互信息I(X,Y)相等,无法确定X,Y哪个才是冗余;因此,利用特征项间的条件概率和特征的区分度来消除冗余,以达到降维的目的。

显然0≤p(X/Y)≤1,p(X/Y)越大说明Y出现的概率越接近X,Y的共现概率,Y越可能是冗余。

条件概率可以用来表征冗余,但若 p(x)<p(y),则 p(x/y)<p(y/x),说明出现概率小的特征项越可能被当做冗余,特征集中的高频词会将低频词屏蔽,对于只出现在垃圾邮件中的高频词,认为这种屏蔽是有效的,被其屏蔽的低频词可认为是冗余;但对于一些在垃圾邮件和合法邮件中都出现过的高频词,对只出现在垃圾邮件中的低频词的屏蔽是无效的,对此,利用特征项的分类的区分度来修正。

显然,特征项t在垃圾邮件S中出现越多,在合法邮件H中出现得越少,分类时它就越有代表性,它的分类区分度就越大,对此,定义特征词t对S的区分度为:那么t的分类区分度则为:
其中,df(t)为所有文档中出现t的文档总数,dfS(t)为垃圾邮件集中出现特征t的文档数。

对于特征集中的特征项x,y,给定一个阈值th,如果有th≤p(y/x)并且满足d(x)<d(y),那么认为x和y相关,x为冗余,去掉后对分类无影响,将其删除。

混合邮件特征选择方法步骤为:
实验语料集:采用CCERT 2005年7月收集的中文电子邮件语料集,从中随机选取spam,ham各500封为训练样本集,用于特征选择和SVM的训练,抽取spam,ham各3 000封作为测试样本集。

中文分词:利用中科院计算所的汉语分词系统ICTCLAS对邮件进行中文分词;并
去掉停用词,单字和字数大于4的词。

词频统计:对中文分词后的邮件集进行词频统计,分别统计出每个词出现的次数(词频),和出现该词的文档数,去掉词频小于5的词,以剩下的词作为特征集进行特征选择。

邮件表示:邮件采用向量空间模型(VSM)[8]表示,利用TF-IDF公式对特征词进行赋值。

邮件分类器:采用林智仁副教授开发的libsvm来训练分类器。

评价标准:本文采用邮件查全率来衡量分类效果。

邮件查全率为:
其中,S为分类正确的垃圾邮件数,H为分类正确的合法邮件数,N为测试样本集的邮件总数。

实验方法:分别使用MI、IG、CHI、SVM和本文的特征选择方法(IG_imp)对特征集进行特征选择,邮件集采用向量空间模型表示,分别取不同维数的特征词来训练分类器和对测试集测试,得到各种特征选择方法在不同维数下的分类效果。

实验在Windows xp VC++6.0下进行,IG_imp参数th设置为0.95,实验结果如表2所示。

实验结果分析:
经上述处理后特征选择集中共有1 300特征词,经本文特征选择算法后剩下的特征子集中只有447个词。

而传统特征选择方法只是将1 300特征词进行了排序。

从表2中可得到如下结论:
(1)本文方法IG_imp在各个维度上的分类效果都优于其他方法,说明本文方法选取的特征词更具代表性。

(2)随着维数的增加,CHI、SVM、IG和IG_imp特征选择方法的分类性能都出现了波动,如IG 80维和100维,150维与200维,这表明排序在80到100,150到200之间的特征词间存在冗余和噪声,这些特征影响了分类性能;同时也
表明排序靠前的特征不一定是最优特征,也可能是冗余和噪声;本文方法波动情况好于其他,表明本文特征选择方法得到的特征子集中噪声少于其他方法,同时还表明:只依据词的排序而取靠前的词作为特征词在邮件特征选择中是不合理的。

(3)本文方法选择的特征子集只有447个词,并且取前150维时已经达到了稳定的分类效果,150维后的词对分类没有影响,可视为冗余而去掉,则可认为本文方法的特征维数自然收敛于150;其他特征选择方法没有表现出稳定的迹象,取1 300个词中排序靠前的N个做为特征词也显然没有本文所确定的150更有说服力。

研究和比较了几种传统的特征选择方法在邮件特征选择上的效果,并针对邮件特征选择的特点在IG特征选择方法的基础上提出了一种混合特征选择方法,新的特征选择方法能有效去掉特征间的冗余,选出更有代表性的特征的同时大大降低了特征的维数并达到了特征维数上的收敛。

实验中本文特征选择方法在80到100维之间还存在部分噪声,这主要是因为本文只考虑了词与词之间两两的冗余而没考虑一对多的情况。

由于本文方法只出现了较少的噪声,并且判断多个词之间的冗余时带来了条件概率计算开销的急剧上升,因此,判断每两个词间的冗余而留下的噪声是可接受的。

【相关文献】
[1]中国互联网协会.2009年第三季度中国反垃圾邮件状况调查报告[EB/OL].(2009).http:
//.
[2]周茜,赵明生.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23.
[3]陈思睿,张永,杨志勇.基于粗糙集的特征选择方法的研究[J].计算机工程与应用,2006,42(21):159-161.
[4]姜鹤,陈亚丽.SVM文本分类中一种新的特征提取方法[J].计算机技术与发展,2010,30(3).
[5]朱颢东,陈宁,李红婵.优化的互信息特征选择方法[J].计算机工程与应用,2010,46(4):122-124.
[6]Vapnik V N.An overview of statistical learning theory[J].IEEE Transactions on Neural Networks,1999,10(5):988-999.
[7]Liu Zhijie,Liu Kun,Lv Xueqiang.Study on SVM compared with the other text classification methods[C]//2010 Second International Worksop on Education Technology and Computer Science,2010.
[8]林伟,柳荣其,徐熙.邮件过滤中一种改进的特征选择方法研究[J].计算机技术与发展,2009,19(1):84-87.。

相关文档
最新文档