邮件过滤中特征选择方法的性能评价与分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0
引言
随着互联网的发展, 电子邮件成为人们交流和通信的主要
少, 在反垃圾邮件过程中发挥了重要作用 。 因此, 研究内容过 滤的关键技术以提高垃圾邮件识别的准确率和召回率具有重 要的现实意义。
方式。同时, 网络中存在的大量垃圾邮件浪费了用户的时间 , 降低了用户使用邮箱的兴趣 , 损害了 ISP 的利益, 对用户和互 2011 年 联网造成巨大危害。Symantec Intelligence Report 显示, 7 月 垃 圾 邮 件 占 全 球 邮 件 总 量 的 77. 8% , 较 6 月份上升 4. 9% [1] 。中国互联网协会反垃圾邮件中心最新发布的 2011 年第一季度中国反垃圾邮件状况调查报告显示 : 中国网民平均 每周收到垃圾邮件的数量为 13. 8 封, 垃圾邮件占比 40. 1% ; “欺诈类 ” 超过 66% 的用户收到了 类型的垃圾邮件; 每周处理
[3 ]
式及其优缺点, 其性能的不同使得一方面在同一应用环境中性 7]针对英文语料 Ruters-22173 比较了 DF / 能不同。如文献[ IG / MI / CHI / TS 五种特征选择方法的性能 , 实验结果显示: IG DF 与 IG、 CHI 的性能相近, 和 CHI 最有效, 在需要降低计算复 节省开销时可用于代替 IG 和 CHI; MI 因偏向选择稀有 杂度、 词性能最差。另一方面, 同一特征选择算法用于不同应用领域 8] 针对中文网页比较 DF / CHI / IG / MI 时性能也不同。如文献[ 1]基本相同, 四种方法, 得到的结论与文献[ 且 CHI / IG / DF 能 9] 够过滤掉 85% 以上的特征; 文献[ 面向旅游领域的文本分类 IDF / ECE / IG / WET / MI 五种特征选择方法, ECE 因 比较了 TF既考虑词频又考虑词的出现与类别的关系使得分类效果最好 , IG 因考虑单词未出现情况使得性能最差 。 此外, 当训练数据 集分布不平衡时, 多数特征选择方法倾向于选择高频词 , 这样 对包含样本数较少的类别很不利 。 特征选择选取有类别代表性的特征用于分类器分类 , 其性 7 ~ 9]均采用 KNN 分类器为平 能还受分类器的影响。 文献[ 10]采 用 Nave Bayes 分 类 器 比 较 IG / 台进 行 研 究, 但 文 献[ ECE /WET / OR 等特征选择方法时发现优势率性能最优 。 文献 [ 11] Nave Bayes、 以人民网新闻语料、 文本相似度方法为平台 比较各特征选择方法, 发现其提出的类别区分词和多类优势率 IG 和 ECE 其次, DF 效果最差。 效果最好, 综上所述, 特征选择算法性能受数据集的文本语种 、 数据 分布信息、 分类算法等因素的影响 , 各个算法各有利弊, 不存在 在本文对中文邮 某种算法在所有应用领域都是最优的 。因此, “二值 ” 件过滤的特征选择方法的研究中 , 邮件过滤结果的 性 及邮件文本的特殊性, 必然使各特征选择算法在邮件过滤中的 性能规律与现有文本分类的研究有所不同 。 然而, 现阶段国内学者专注于研究某一特征选择算法在邮 12] 13] 件过滤中的应用及其改进 , 如文献[ 改进互信息、 文献[ 提出基于 Bayes 推理的特征选择方法以提高过滤效果 , 而对现 有各特征选择算法在邮件过滤领域的比较与分析尚未见诸刊 寻找适用于邮件样本集与分类模型的特征选择方法 出。因此, 对提高垃圾邮件过滤具有重要意义 。
i =1
m
IG 衡量某个特征是否存在对类别预测的影响 , 同时考虑 特征出现和未出现两种情况 , 倾向于选择在某一类别中出现频 率高而在其他类别中出现频率低的特征 。 由于不在文本中出 考虑其未出 现的特征词对分类的贡献往往小于其带来的干扰 , 尤其是在样本分布和特征 现情况反而降低了信息增益的效果 , 分布不均匀的情况下较为明显
计算和存储上的开销, 同时过滤部分噪声以提高分类的准确性, 是影响邮件过滤准确性和时效性的重要因素。 但各特征选择算法在同一评价环境中性能不同, 且对分类器和数据集分布特征具有依赖性。结合邮件过滤自身 特点, 从分类器适应性、 数据集依赖性及时间复杂度三个方面评价与分析各特征选择算法在邮件过滤领域的性 能。实验结果表明, 优势率和文档频数用于邮件过滤时垃圾邮件识别的准确率较高, 运算时间较少。 关键词: 邮件过滤; 特征选择; 朴素贝叶斯; 支持向量机 中图分类号: TP393 文献标志码: A 文章编号: 1001-3695 ( 2012 ) 02-0693-05 3695. 2012. 02. 078 doi:10. 3969 / j. issn. 1001-
收稿日期: 2011-08-12 ; 修回日期: 2011-09-13
基金项目: 国家自然科学基金资助项目( 60873247 ) ; 山东省高新自主创新专项工程资助
项目( 2008ZZ28 ) ; 山东省自然科学基金重点资助项目 ( ZR2009GZ007 ) 作者简介:赵静( 1987-) , 女, 山东聊城人, 硕士研究生, 主要研究方向为网络信息过滤 ( sdzhjing1987@ 163. com ) ; 刘培玉 ( 1960-) , 男, 教授, 博 导, 主要研究方向为网络信息安全 、 网络系统规划、 网络信息资源管理; 许明英( 1987-) , 女, 硕士研究生, 主要研究方向为网络信息过滤.
· 694·
计 算 机 应 用 研 究
WET( t) = p( t) ∑ p( c i ) | log
i =1 m
第 29 卷
p( c i ) ( 1 - p( c i ) ) | p( c i ) ( 1 - p( c i | t) ) ( 5)
评估函数。该方法假设噪声词或所含信息量少的稀有单词对 可以删去, 其优点是计算复杂度低 , 在实际应用中 分类影响小, 效果好, 能适应于大规模数据集 。 但在实际应用中, 稀有单词 可能包含重要的判断信息 , 简单舍弃将影响分类器的精度 。 2 ) 信息增益( information gain, IG) 信息增益是一种基于熵的评估方法 , 定义为特征 t 在文本 计算采用式( 1 ) 。 中出现前后的信息熵之差 ,
[2 ] 垃圾邮件已经成为 垃圾邮件的时间为 7. 9 min 。 由此可见,
1
相关研究
基于统计的邮件内容过滤技术将邮件分为合法邮件和垃
圾邮件, 是文本分类的应用领域之一 。特征选择作为文本分类 的重要环节, 解决了特征项集维数过高或存在较多噪音特征 词, 从而增加分类运算时间和空间复杂度 、 降低分类准确率的 问题。由于各方法的性能差异使得其在同一应用环境中有不 同分类结果, 且同一特征选择算法在不同应用领域中也表现出 不同特征。邮件过滤与一般的文本分类不同 , 一个性能良好的 特征选择算法应符合邮件过滤对实时性 、 准确性的要求。 1. 1 常用特征选择方法 目前, 文本分类常用的特征选择方法有文档频数 、 信息增 益、 期望交叉熵、 互信息、 文本证据权、 优势率等。 1 ) 文档频数( document frequency, DF) DF 表示训练集合中包含特征项的文本数目 , 是最简单的
Evaluation and analysis of feature selection methods for email filtering
b b b ZHAO Jing a, ,LIU Peiyu a, ,XU Mingying a,
( a. School of Information Science & Engineering,b. Shandong Provincial Key Laboratory for Novel Distributed Computer Software Technology, Jinan 250014 ,China)
第 29 卷第 2 期 2012 年 2 月
计 算 机 应 用 研 究 Application Research of Computers
Vol. 29 No. 2 Feb. 2012
邮件过滤中特征选择方法的性能评价与分析
赵
摘
a, b a, b a, b 静 ,刘培玉 ,许明英
*
( 山东师范大学 a. 信息科学与工程学院; b. 山东省分布式计算机软件新技术重点实验室,济南 250014 ) 要: 基于内容的邮件过滤本质是二值文本分类问题。特征选择在分类之前约简特征空间以减少分类器在
IG( t) = - ∑ p( c i ) log p( c i ) + p( t) ∑ log p( c i t) +
i =1 i =1 m m
7 ) 优势率( odds ratio, OR) 优势率只关心目标类别 , 体现了特征项作为目标类别类内 文本特征的优势
[6 ]
。当源自文库pos 表示目标类, neg 表示非目标类时,
Abstract: The nature of contentbased email filtering is a binary text classification problem. Feature selection methods rewhile filtering some duced the feature dimension before classifying emails in order to reduce the cost of computing and storage, noise features to improve the classification accuracy. Feature selection was an important factor which decided the accuracy and timeliness of email filtering. However,every feature selection algorithm had different performance in the same environment, and was affected by classifiers and data distribution. Combining characteristics of email filtering, this paper evaluated and analized the following aspects of feature selection methods which used to filter emails: classifier adaptability,data set dependence ,time complexity. Experimental results show that odds ratio and document frequency have higher accuracy and less computing time when they are used to filter emails. Key words: email filtering; feature selection; Nave Bayes; SVM
世界各国共同面临的棘手问题 。 为有效防止垃圾邮件, 国内外众多学者及研究机构提出多 种反垃圾邮件技术, 如基于黑白名单的过滤技术 、 基于规则的 基于统计的内容过滤技术 、 身份认证技术、 基于行为 过滤技术、 模式的垃圾邮件识别技术等 。其中, 基于统计的内容过滤技术 因过滤效果好、 能够及时捕捉垃圾邮件特征的变化 、 人工干预
p( t | c pos ) ( 1 - p( t | c neg ) ) ( 1 - p( t | c pos ) ) p( t | c neg )
采用式( 6 ) 计算。
OR( t) = log ( 6)
1. 2
( 1)
算法的性能分析 本文 1. 1 节分析了各算法用于特征空间降维时的计算公
p( 珋 t ) ∑ p( c i 珋 t ) log p( c i 珋 t)