基于内容的反垃圾邮件技术比较分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

B 憾
a9 》
准 哇 薅 确

09/ ,"
3 两种技 术在 反垃 圾 邮件系 统中 的应 用
纵 观现有的反垃圾 邮件技术 ,可谓 百花齐放 ,层 出不 穷 ,归纳一 下 ,大致有三种 :1 基于硼拘过滤 ;2 ) )基于内容的过滤 ;3)基于行 为 的过滤。而研究人员也致力于研究这三种层次上的新技术新方法 ,或者 对已有 的技术进行整合 、实践评测 、改进。本文分析 的技术是基于内容 的过滤 技 术 。 在反垃圾 邮件过滤系统中我们常会使用朴素贝叶斯算法 , 该模 型采 用特征变量独立假设 ,即假设每个特征变量 置都从属 于同一个类别变量 C,而它们彼此之间相互独立。 在反垃圾 邮件过滤系统 中,我们只考虑两 个类别 :一类 为垃圾 邮 件 ,一类为非 垃圾邮件 , C 表示 垃圾 邮件 ,C 0 设 =1 = 表示非垃 圾 邮 件,则应用朴素贝叶斯算法的目标是计算 :
生物免疫系统是一个高度进化的生物系统 ,它 旨在区分外部有害抗 原和 自身组织 , 从而清除病原并保持有机体的稳定 。而A s I则是以此为 原型从计算的角度产生的面向应用的计算模型。 AS I的免疫算法一般步骤为 :1 定义抗原 :将有待解决 的问题抽象 ) 成抗原 , 抗体则对应为问题的求解 。2 产生初始抗 体 : 体与抗 原之 ) 抗 间的亲和度对应 问题 的评估 :亲和度越高 ,说明解越好 。3 计算亲和 ) 度 :计算抗原与抗体之间的亲和度 。4)克隆选择 :与抗原有较大亲和 度的抗体即为问题的解 ,在这个过程中 ,要尽量抑制浓度过高的抗体即 是避免局部解 ,也要淘汰低亲和度的抗体 ,同时为获得解 的多样性以求 最佳解 ,抗体在克隆时会经历变异 ( 如高频变异等 )。5)评估新 的抗 体 :若不能满足终止条件 ,则转向第3)步 ,重新开始 ;若 满足终 止条 件 ,则当前的抗体为问题 的最优解 。 AS I因其复杂 的仿生原理往往在实践应用 中较难建模 ,但 又因其强 大的智能化、 自学习 、自适应等特性吸引着越来越多的研发者将其应用 于各技术领域 ,以期在智能化发展上有新 的突破。
信 息 科 学
3 1
基于 内容的反垃圾 邮件技术 比较 分析
赵 卓
( 长沙 市质量技术监督信 息管 理所 ,湖南长沙 4 0 1 ) 10 3
摘 要 当前 ,在基于 内容的各种反 垃圾邮件技术 中 ,基于 贝叶斯 的反 垃圾邮件技术 显示 出了较 强的分类 能力和较 高的准确性 ,而基于人 工 免 疫系统 的反垃 圾邮件技术则 具有 良好 的 自适应 、 自学习和鲁棒 性 。两个技 术 的结合 在实践测试 中取得 了良好 的效果 。 关键 词 反垃圾邮件 ;贝叶斯 ;人 工免疫系统 中圈 分 类号 T 文献 标识 码 A 文 章编 号 17—6 1( 1)7—0 10 P 63 97一2 0 2 03— 1 0 0
P ix ( =i X



P( )
基 于贝 叶斯算法的反垃圾 邮件过滤系统具有较强分类能力 ,但在识 别时很大程度依赖于以往的统计结果 ,自适应 能力较弱 ,且对已有样本 的变异样本辨识效果不尽人 意。 鉴于上述弱点 , 人工免疫系统以其 良 的 自 好 适应 、 自 学习和鲁棒性 启示着反垃圾邮件技术的研发 ,依据此开发的反垃圾 邮件过滤系统的运 作原理如下 : 当一封邮件到达时,提取邮件的特征向量 ,以此生成待定抗原 ,抗 原首先通过记 细胞检测器 ,与记忆细胞进行 匹配 ,若 出现匹配,则确 认该邮件为垃圾邮件;若未 出现匹配 , 则将抗原与未成熟细胞检测器中 的抗 体进行 匹配 ,匹配程度用亲和度表示 , 若亲和度达到设 定的阀值 , 则抗原为 阳性 ,邮件被判为垃圾邮件 ; 亲和度小于I 若 爵疽, 则抗原为阴 性, 这时 ,邮件被判为正常邮件。 为测试 两种技术在反垃圾邮件 系统 中的应用效果 ,我们进行 了基于 贝叶斯算法 和基 于贝叶斯及人 工免疫系统综合算 法的两种测试 ,使用 了中、英文语料库 ,中文语料库选取的是 中国教育和科研计算机 网紧急 相应组 ( C R 发布 的数据集 “0 5 J ” , C E T) 2 0 -u l 包含2 3 8 0 0 条垃圾邮件和 9 4 条正常邮件 , 02 英文语料库选用Sa s si p r A s s 语料 ,可从h p /w . n a n t :/ w t w s ns sn p a a i唧获得 ,该语料包含 了19条垃圾 邮件和45 ̄正常邮件。 m ss. 87 10. 所进行 的测试是把语料库 中邮件 分为1份 ,其 中的9 0 份作 为训 练集 , 另 外1 份作为测试集 ,如此交叉做 1次 , 0 最后取 1次 实验 的平均值作为最 0 后的实验数据 , 到了如图1 得 所示的对比结果。


其 中, , 表示两个事件 ,且 Pf >0,该公式表示在事件 发 生的前提下事件 发生的条件概率。 在此基础上 ,有贝叶斯 ( ae )公式如下 : Bys
PB I、 ( :
、 。 。 一


r, 、

>’ f l P 1 P B ) f
1 贝叶斯 理论
贝叶斯方法以概率理论为基础,用于处理统计学 中不确定性问题。 对于概率公式 : Pr l 1=二 = f) 1
其中 是若干特征变量值 ( , , 构成的一个实例 , , … X ) 在计算 的 过程 中,属于垃圾 邮件类情况下 ,特征变量 出现的概率可 以采用如下 方式计算 :


其中B, . 为一系列互不相容事件 ,RP B ) (=1 , , B . , ( >0 i , 2
n。 ) ‘ 般而言 , 人们能根据历史经验或主观判 断给 出某些事件发生 的概 率 ,这样的概率没有经过检验 , 被称之为先验概率 。贝叶斯方法则是利 用贝叶斯公式 ,结合调查 、统计、实验等方式获取新 的信息 , 对先验概


率进行修正 ,从而得到更符合实际的可能发生概率的预计 。 基于贝叶斯 的统计分析技术常常被应用 于各行各业的分类应用系统 中,因其模型塑造简单易行 ,运行效果良好而广受欢迎。
2 人 工免 疫系统 ( rica A t iilmmu eS se ,AI 理 论 f I n yt m S)
相关文档
最新文档