垃圾邮件的识别和过滤方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

垃圾邮件识别和过滤的方法

T大炮

北京理工大学计算机学院,北京100081

(******************.cn)

Methods for Identifying and Filtering Junk Mail or Spam

T Biggun

(Class 07111301,School of Computer Science, Beijing Institute of Technology, Beijing 100081)

Abstract Identifying and Filtering Spam is an important research subject in computer network. In this thesis, I have studied the history of spam filtering technology, which mainly includes the first generation of rule-based filtering technology, the second generation of content-based filtering technology and the third generation of behavior-based filtering technology. 1. Rule-based filtering includes IP address based filtering, mail header based filtering. 2. Content-based filtering includes Bayesian filtering, Memory-based method, decision tree, Boosting method, Support Vector Machine (SVM), etc. 3. Behavior-based filtering includes Email data stream based filtering, mail header based filtering, sender reputation based filtering, mail fingerprint based filtering, behavioral characteristics weighted based filtering, etc. The spammers’ common spurious methods are summarized. Through the reference to large amount of anti-spam documents and data from home and broad, an analysis is made on existing anti-spam techniques and in particular the content-based spam filtering methods.

Key words spam filtering; rule; content; text categorization; Naïve Bayes; behavior

摘要垃圾邮件识别和过滤是计算机网络领域的一个重要研究课题。垃圾邮件识别和过滤目前已经发展出了三代技术,第一代过滤技术是基于规则的,例如:基于IP地址、基于邮件头的过滤技术。第二代过滤技术是基于内容的,例如:贝叶斯分类算法、Memory-Based方法、决策树、Boosting方法、支持向量机等方法。第三代过滤技术是基于行为的,例如:基于邮件数据流、基于邮件头信息、基于发送方信誉、基于邮件指纹、基于行为特征加权的决策树等过滤方法。本文归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量反垃圾邮件文献和数据,对已有的垃圾邮件技术作出分析和总结,尤其是对基于内容的垃圾邮件过滤方法进行了研究。

关键词垃圾邮件过滤;规则;内容;文本分类;简单贝叶斯;行为

随着互联网的发展,垃圾邮件常常让人头痛不已,最新报告称美国为垃圾邮件第一大国,中国排名第三(图1)[1]。垃圾邮件问题如今已经成为一个社会热点,近些年来,研究人员们提出了很多垃圾邮件识别和过滤的方法。这些方法的发展经历了三代,第一代过滤技术是基于规则的,例如:基于IP地址、基于邮件头的过滤技术。第二代过滤技术是基于内容的,例如:贝叶斯分类算法、Memory-Based方法、决策树、Boosting方法、支持向量机等方法。第三代过滤技术是基于行为的,例如:基于邮件数据流、基于邮件头信息、基于发送方信誉、基于邮件指纹、基于行为特征加权的决策树等过滤方法。本文归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量反垃圾邮件文献和数据,对已有的垃圾邮件技术作出分析和总结,尤其是对基于内容的垃圾邮件过滤方法进行了研究。

图 1 世界垃圾邮件最多国家排名

Fig.1 Country Ranking on Spam

1 基于规则的垃圾邮件过滤

1.1 基于IP地址的垃圾邮件过滤方法

基于IP地址的过滤技术是目前使用最为广泛的一种过滤技术,包括基于网络的IP地址过滤技术,如BGP 和路由器访问控制列表;基于主机的IP地址过滤技术,如TCP Wrappers和主机路由表的过滤;以及目前最常用的IP地址黑、白名单的过滤[2]。

黑白名单技术基于这样的界定:白名单中的任何邮件都是合法邮件,而黑名单中的任何邮件都是垃圾邮件。故通常会收集一个黑白名单的列表,这个列表里的内容可以是电子邮件地址或邮件服务器的域名、IP地址等,收到邮件时进行实时检查,将符合黑名单的邮件放入垃圾文件夹中。黑白名单一般由权威的组织提供,如中国互联网协会等。个人也可以根据需要调整自己的黑白名单。

基于IP地址的过滤技术实现起来简单方便,可以应用与多个层次。但是缺点是可能会伤及无辜,因为有一些垃圾邮件是通过别人的服务器来转发的,这样就会将别人无辜的服务器给屏蔽掉。所以,黑白名单具有一定的局限性。

1.2 基于邮件头的垃圾邮件过滤方法

基于邮件头的过滤技术主要是使用正则表达式对邮件头进行关键字的匹配,检查发件人的信息是否符合过滤要求,根据匹配结果决定阻塞或者接收具有特定单词或短语的邮件。注意理解以下几点有助于识别含有伪造内容的信头。

(1)收件人地址和发件人地址

一般的MUA是从用户在SMTP的DA TA命令后输入的数据中提取From、To等字段的内容的,但是如果发件人的MUA不是按照这个逻辑工作,或者发件人故意让这两个字段的内容与SMTP会话时使用的MAIL FROM和RCPT TO的内容不一致时,就会发生发件人是自己的名字或者收件人不是自己的名字等情况。

(2)关于Open Relay

如果发件人使用的不是自己的服务器,而是使用别人的服务器的Open Relay的漏洞,这样就会给追踪邮件的真实来源带来困难。如果一个邮件服务器和发件人、收件人都不属于同一个域,就应该怀疑是否使用了Open Relay。

(3)Received信息

邮件头中的Received信息是由SMTP服务器自动加入的,发送者无法干预,因此,通过比较Received域,特别是第一次经过的邮件服务器的Received域,可以识别出伪造的发件人地址。

相关文档
最新文档