网络内容安全过滤

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

信息安全综合实践设计报告

题目:网络内容安全过滤系统

姓名:01 02 05 22 27

班级学号:

指导教师:***

完成日期:2015年11月6日

一、设计任务与要求

任务:设计针对邮件、网页以及文件进行过滤的软件。

功能要求:

(1)对文本内容、url、网址、ip进行过滤;

(2)可以自动去一些网址下载黑名单;

(3)软件本身设置一定的安全保护措施,防止被篡改、非法访问等;

(4)可以根据需要增加其他的过滤和功能设置,比如限时上网、超时下线、黑屏警告一些非法行为等;

(5)增加一定的自学习功能,通过非法信息的特征来升级特征库。

二、可行性研究报告

1. 经济可行性

2. 技术可行性

3. 应用可行性

三、系统设计

Internet是全球信息共享的基础设施,是一种开放和面向

所有用户的技术。它一方面要保证信息方便、快捷的共享;另

~方面要防止垃圾信息的传播。网络内容分析是~种管理信

息传播的重要手段。它是网络信息安全核心理论与关键技术

研究网络内容分析所涉及的新理论、新体系结构、新方法和新

技术,是未来几年内容安全研究的重要挑战。

根据CNNIC在2007年1月的第19次中国互联网络发展

状况报告统计,中国网民总人数为13 700万人。这其中仅有

8.4%的网民对网络内容的健康性非常满意。也就是说有91.

6%的中国网民(12 550万人)都或多或少地对网络内容的健

康性不满意¨j。

网络内容传播以一种实时、连续的数据流(data streams)

方式进行口1。它不宜用持久稳定的方式建模,而适宜用实时

动态的方式建模。这类系统被称为数据流管理系统。数据流

管理技术具有非常广泛的应用领域,如网络内容安全、金融服

务、电信数据管理等。在这些应用中,数据通常以大量、快速、

持续的数据流形式到达。如何对这些数据进行有效处理将是

~个具有挑战性的问题。本文以互联网内容安全为背景,提出

一种互联网内容安全检测过滤系统。

1相关研究方法

STREAM项目由美国NSF(国家自然科学基金)提供支

持。其主要目标是研究一个通用的数据流管理系统,包括提供

一个通用和灵活的体系结构、相关的理论结果和算法、数据模

型、相关的语言和语义;探讨多个连续、快速、可变的数据流的

连续查询处理、优化和资源分配问题;希望最后提供一个通用

的数据流管理系统,使用户可以用类似于SQL的语言来指定

查询。目前其在DSMS的体系结构、数据模型和语义、语言、资

源分配和查询优化等方面取得了部分成果,但是系统还没有真

正完成。

NIAGARA项目也是由美国国家自然科学基金支持的,主

要研究目标是在Intemet环境下的XML数据检索和过滤系统。

该系统从Interact上采集和监管信息,然后包装为XML数据流

供检索和过滤使用。这样利用XML的语义信息可以提供更加

准确的数据流检索和过滤。目前其研究目标主要集中在可扩

展性和性能优化方面,主要技术是查询分组和增量维护。但是

收稿日期:2007—1I一25;修回日期:2008—01—11 基金项目:国家信息产业部重点基金资助项目(2007一R-103)

作者简介:顾杨(1955·),女,北京人,工程师,主要研究方向为信息安全;李剑(1976.),男,陕西西安人,讲师,博士,主要研究方向为信息安全、

电子商务(1ijian@bupt.edu.ca);景博(1980一),女,四川绵阳人,工程师,主要研究方向为信息安全、软件测试;王励成(1972一),男,讲师,博士,主要

研究方向为密码学.

万方数据

第9期顾杨,等:一种互联网内容安全检测过滤系统·2835·

在这个项目中,研究的数据仅仅限于XML数据,而没有考虑互

联网上众多的其他信息,如HTML、OWL、语音图像内容等的过

滤。

Berkeley的Telegraph项目的研究目标是对网络监听器的

输出数据流和Web数据流等提供自适应的查询。目前其特色

是数据流的自适应查询处理,包括自适应连接和自适应操作调

整。另外MIT和Brown大学的项目Aurora,目标也是对各种各

样的嵌入式设备产生的数据流进行监管和查询。其研究的内

容都没有应用在互联网上,并且也没有对于音/视频等信息进

行检测。

四、系统实现

1. 概要设计

。整

个系统中过滤的信息全部来自互联网应用层的海量信息。该

系统可以分为以下四层:

a)网络层。此层是互联网上通过的文本、音频以及图像

与视频信息等。这一层网络中的信息可以通过网络抓包器来

捕获网络数据包,并送给第二层信息识别层进行分类。

b)信息识别层。在这一层主要是对从网络上来的信息进

行识别,分清楚它们是文本、音频还是图像与视频信息。

e)信息流过滤层。这一层主要任务是对信息识别层传来

的信息进行多特征融合判定;对有用的信息进行过滤,对信息

的格式进行标准化等。

d)内容检测层。这一层是整个系统的核心部分。其主要

功能是通过模式匹配口1,检测过滤层传输上来的信息中是否

含有特定的内容。

2. 详细设计

文本识别技术主要表现在文本实时过滤与文本深度处理

技术两方面。图2为文本识别与处理子系统。

良平甲、 7。国I

≮迪

懂南匝主 I币固1

图1戛璧巴鬯窆曩全图2文本识别与处理子系统

监测过滤系统一一……………

2.2.1文本实时过滤技术

文本实时过滤最主要的技术就是字符串匹配¨o,涉及以

下主要内容:

a)复杂规则的匹配技术。由于过滤系统的功能不断增

强,基于关键词匹配的简单规则已经不能满足需求,系统需要

更复杂的规则支持更准确的判定和更快速的过滤¨1。复杂规

则匹配有近似、逻辑表达式和正则表达式等,它们的支持力度

不尽相同。在系统中,可以根据不同的应用场景采用不同的表

达式匹配方法一o。

(a)近似匹配中大部分都是基于动态规划的。本系统中

采用最经典的Sellers算法。Sellers算法是Sellers于1980年设计的近似匹配算法。动态规划算法的时间复杂度为O(mn),

但稍经修改便能适用于很多复杂的距离模型。

(b)逻辑表达式匹配是介于精确串匹配和正则表达式匹

配之间的一种复杂规则匹配,它是在多个特征串之间增加

“与”“或”“非”的逻辑关系以达到更强功能的过滤。使用带

条件的逻辑表达式匹配还可以解决定序、窗口中的复杂匹配等

问题。

(e)正则表达式匹配的功能最强,相应的复杂度也最高。

在本系统中采用由Thompson于1968年提出的正则表达式的

匹配技术,通过构建NFA自动机来识别正则表达式。该算法

空间开销为O(/?L),扫描匹配时间复杂度为O(mn)。

b)大规模串匹配技术。本系统采用的是L.SMmema提出

的方法,它基于模式串在文本中出现的概率较低的前提,将多

个模式串合并为一个模式串,采用r位并行的方法进行匹配。

算法仅在万级规模下表现良好,但当命中率高时,其性能下降

相关文档
最新文档