东南大学通信网络基础作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一题
垃圾邮件的处理是目前Internet中亟待解决的问题。针对这一问题,检索相关的背景资料和研究现状,并对查找到的材料进行简要论述,比较不同处理方法优缺点。
关键字:垃圾邮件、anti-spam、基于语义分析的电子邮件过滤系统设计
1、垃圾邮件概述
电子邮件是最常用的网络应用之一,已经成为网络交流沟通的重要途径。但是,垃圾邮件(spam)烦恼着大多数人,近来的调查显示,93%的被调查者都对他们接收到的大量垃圾邮件非常不满。一些简单的垃圾邮件事件也造成了很有影响的安全问题。垃圾邮件随着互联网的不断发展而大量增长,不再像以前一样,只是小小的一个骚扰,现在的垃圾邮件可以说是铺天盖地了。最初,垃圾邮件主要是一些不请自来的商业宣传电子邮件,而现在更多的有关色情、政治的垃圾邮件不断增加,甚至达到了总垃圾邮件量的40%左右,并且仍然有持续增长的趋势。另一方面,垃圾邮件成了计算机病毒新的、快速的传播途径。
某种程度上,对垃圾邮件的定义可以是:那些人们没有意愿去接收到的电子邮件都是垃圾邮件。比如商业广告、政治言论、蠕虫病毒邮件、恶意邮件等。
普通个人的电子邮箱怎么成为了垃圾邮件的目标呢,造成这样的结果有很多原因,比如在网站、论坛等地方注册了邮件地址,病毒等在朋友的邮箱中找到了你的电子邮箱,对邮件提供商进行的用户枚举,等等。通常情况下,越少暴露电子邮件地址越少接收到垃圾邮件,使用时间越短越少接收到垃圾邮件。一些无奈的用户就选择了放弃自己的邮箱而更换新的电子邮箱。
2、反垃圾邮件技术
2.1、过滤技术
过滤(Filter)是一种相对来说最简单却很直接的处理垃圾邮件技术。这种技术主要用于接收系统(MUA,如OUTLOOK EXPRESS或者MTA,如sendmail)来辨别和处理垃圾邮件。从应用情况来看,这种技术也是使用最广泛的,比如很多邮件服务器上的反垃圾邮件插件、反垃圾邮件网关、客户端上的反垃圾邮件功能等,都是采用的过滤技术。一般过滤技术包含:关键词过滤、黑白名单、HASH技术、基于规则的过滤、智能和概率系统。
2.1.1、关键词过滤
关键词过滤技术通常创建一些简单或复杂的与垃圾邮件关联的单词表来识别和处理垃圾邮件。式比较类似反病毒软件利用的病毒特征一样。可以说这是一种简单的内容过滤方式来处理垃圾邮件,它的基础是必须创建一个庞大的过滤关键词列表。
这种技术缺陷很明显,过滤的能力同关键词有明显联系,关键词列表也会造成错报可能比较
大,当然系统采用这种技术来处理邮件的时候消耗的系统资源会比较多。并且,一般躲避关键词的技术比如拆词,组词就很容易绕过过滤。
2.1.2、黑白名单
黑名单和白名单。分别是已知的垃圾邮件发送者或可信任的发送者IP地址或者邮件地址。许多ISP正在采用一些组织的BL来阻止接收垃圾邮件。白名单则与黑名单相反,对于那些信任的邮件地址或者IP就完全接受了。
BL技术也有明显的缺陷,因为不能在block list中包含所有的(即便是大量)的IP地址,而且垃圾邮件发送者很容易通过不同的IP地址来制造垃圾。
2.1.3 HASH技术
HASH技术是邮件系统通过创建HASH来描述邮件内容,比如将邮件的内容、发件人等作为参数,最后计算得出这个邮件的HASH来描述这个邮件。如果HASH相同,那么说明邮件内容、发件人等相同。这在一些ISP上在采用,如果出现重复的HASH值,那么就可以怀疑是大批量发送邮件了。
2.1.4 基于规则的过滤
这种过滤根据某些特征(比如单词、词组、位置、大小、附件等)来形成规则,通过这些规则来描述垃圾邮件,就好比IDS中描述一条入侵事件一样。要使得过滤器有效,就意味着管理人员要维护一个庞大的规则库。
2.1.5 智能和概率系统
广泛使用的就是贝叶斯(Bayesian)算法,可以学习单词的频率和模式,这样可以同垃圾邮件和正常邮件关联起来进行判断。这是一种相对于关键字来说,更复杂和更智能化的内容过滤技术。我将在下面详细描述这种在客户端和服务器中使用最广泛的技术。
2.1.6 局限性和缺点
现行的很多采用过滤器技术的反垃圾邮件产品通常都采用了多种过滤器技术,以便使产品更为有效。过滤器通过他们的误报和漏报来分等级。漏报就是指垃圾邮件绕过了过滤器的过滤。而误报则是将正常的邮件判断为了垃圾邮件。完美的过滤器系统应该是不存在漏报和误报的,但是这是理想情况。
一些基于过滤器原理的反垃圾邮件系统通常有下面的三种局限性:
·可能被绕过。垃圾邮件发送者和他们用的发送工具也不是静态的,他们也会很快适应过滤器。比如,针对关键字列表,他们可以随机更改一些单词的拼写,比如("强悍", "弓虽悍", "强-悍").Hash-buster(在每个邮件中产生不同的HASH)就是来绕过hash过滤器的。当前普遍使用的贝叶斯过滤器可以通过插入随机单词或句子来绕过。多数过滤器都最多只能在少数
几周才最有效,为了保持反垃圾邮件系统的实用性,过滤器规则就必须不断更新,比如每天或者每周更新。
·误报问题。最头痛的问题就是将正常邮件判断为垃圾邮件。比如,一封包含单词sample 的正常邮件可能因此被判断为垃圾邮件。某些正常服务器不幸包含在不负责任的组织发布的block list对某个网段进行屏蔽中,而不是因为发送了垃圾邮件(xfocus的服务器就是这样的一个例子)。但是,如果要减少误报问题,就可能造成严重的漏报问题了。
·过滤器复查。由于误报问题的存在,通常被标记为垃圾邮件的消息一般不会被立刻删除,而是被放置到垃圾邮件箱里面,以便日后检查。不幸的是,这也意味着用户仍然必须花费时间去察看垃圾邮件,即便仅仅只针对邮件标题。
目前更严重的问题是,人们依然认为过滤器能有效阻止垃圾邮件。实际上,垃圾邮件过滤器并不能有效阻止垃圾邮件,在多数案例中,垃圾邮件依然存在,依然穿过了网络,并且依然被传播。除非用户不介意存在被误报的邮件,不介意依然会浏览垃圾邮件。过滤器可以帮助我们来组织并分隔邮件为垃圾邮件和正常邮件,但是过滤器技术并不能阻止垃圾邮件,实际上只是在"处理"垃圾邮件。
尽管过滤器技术存在局限,但是,这是目前最为广泛使用的反垃圾邮件技术。
2.2、验证查询技术
如果我们能够采用类似黑白名单一样,能够更智能地识别哪些是伪造的邮件,哪些是合法的邮件,那么就能从很大程度上解决垃圾邮件问题,验证查询技术正是基于这样的出发点而产生的。其包括了反向查询技术、DKIM技术、SenderID技术、FairUCE技术、指纹技术。
2.2.1、反向查询技术
反向查询解决方案就是定义反向的MX纪录("RMX"--RMX,"SPF"--SPF,"DMP"--DMP),用来判断是否邮件的指定域名和IP地址是完全对应的。基本原因就是伪造邮件的地址是不会真实来自RMX地址,因此可以判断是否伪造。
2.2.2 DKIM技术
DKIM给邮件提供一种机制来同时验证每个域邮件发送者和消息的完整性。一旦域能被验证,就用来同邮件中的发送者地址作比较检测伪造。如果是伪造,那么可能是spam或者是欺骗邮件,就可以被丢弃。如果不是伪造的,并且域是已知的,可为其建立起良好的声誉,并绑定到反垃圾邮件策略系统中,也可以在服务提供商之间共享,甚至直接提供给用户。
2.2.3、SenderID技术
SenderID技术主要包括两个方面:发送邮件方的支持和接收邮件方的支持。Sender ID技术实际上并不是根除垃圾邮件的法宝,它只是一个解决垃圾邮件发送源的技术,从本质上来说,并不能鉴定一个邮件是否是垃圾邮件。比如,垃圾邮件发送者可以通过注册廉价的域名来发