网络内容安全过滤
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息安全综合实践设计报告
题目:网络内容安全过滤系统
姓名:01 02 05 22 27
班级学号:
指导教师:***
完成日期:2015年11月6日
一、设计任务与要求
任务:设计针对邮件、网页以及文件进行过滤的软件。
功能要求:
(1)对文本内容、url、网址、ip进行过滤;
(2)可以自动去一些网址下载黑名单;
(3)软件本身设置一定的安全保护措施,防止被篡改、非法访问等;
(4)可以根据需要增加其他的过滤和功能设置,比如限时上网、超时下线、黑屏警告一些非法行为等;
(5)增加一定的自学习功能,通过非法信息的特征来升级特征库。
二、可行性研究报告
1. 经济可行性
2. 技术可行性
3. 应用可行性
三、系统设计
Internet是全球信息共享的基础设施,是一种开放和面向
所有用户的技术。它一方面要保证信息方便、快捷的共享;另
~方面要防止垃圾信息的传播。网络内容分析是~种管理信
息传播的重要手段。它是网络信息安全核心理论与关键技术
研究网络内容分析所涉及的新理论、新体系结构、新方法和新
技术,是未来几年内容安全研究的重要挑战。
根据CNNIC在2007年1月的第19次中国互联网络发展
状况报告统计,中国网民总人数为13 700万人。这其中仅有
8.4%的网民对网络内容的健康性非常满意。也就是说有91.
6%的中国网民(12 550万人)都或多或少地对网络内容的健
康性不满意¨j。
网络内容传播以一种实时、连续的数据流(data streams)
方式进行口1。它不宜用持久稳定的方式建模,而适宜用实时
动态的方式建模。这类系统被称为数据流管理系统。数据流
管理技术具有非常广泛的应用领域,如网络内容安全、金融服
务、电信数据管理等。在这些应用中,数据通常以大量、快速、
持续的数据流形式到达。如何对这些数据进行有效处理将是
~个具有挑战性的问题。本文以互联网内容安全为背景,提出
一种互联网内容安全检测过滤系统。
1相关研究方法
STREAM项目由美国NSF(国家自然科学基金)提供支
持。其主要目标是研究一个通用的数据流管理系统,包括提供
一个通用和灵活的体系结构、相关的理论结果和算法、数据模
型、相关的语言和语义;探讨多个连续、快速、可变的数据流的
连续查询处理、优化和资源分配问题;希望最后提供一个通用
的数据流管理系统,使用户可以用类似于SQL的语言来指定
查询。目前其在DSMS的体系结构、数据模型和语义、语言、资
源分配和查询优化等方面取得了部分成果,但是系统还没有真
正完成。
NIAGARA项目也是由美国国家自然科学基金支持的,主
要研究目标是在Intemet环境下的XML数据检索和过滤系统。
该系统从Interact上采集和监管信息,然后包装为XML数据流
供检索和过滤使用。这样利用XML的语义信息可以提供更加
准确的数据流检索和过滤。目前其研究目标主要集中在可扩
展性和性能优化方面,主要技术是查询分组和增量维护。但是
收稿日期:2007—1I一25;修回日期:2008—01—11 基金项目:国家信息产业部重点基金资助项目(2007一R-103)
作者简介:顾杨(1955·),女,北京人,工程师,主要研究方向为信息安全;李剑(1976.),男,陕西西安人,讲师,博士,主要研究方向为信息安全、
电子商务(1ijian@bupt.edu.ca);景博(1980一),女,四川绵阳人,工程师,主要研究方向为信息安全、软件测试;王励成(1972一),男,讲师,博士,主要
研究方向为密码学.
万方数据
第9期顾杨,等:一种互联网内容安全检测过滤系统·2835·
在这个项目中,研究的数据仅仅限于XML数据,而没有考虑互
联网上众多的其他信息,如HTML、OWL、语音图像内容等的过
滤。
Berkeley的Telegraph项目的研究目标是对网络监听器的
输出数据流和Web数据流等提供自适应的查询。目前其特色
是数据流的自适应查询处理,包括自适应连接和自适应操作调
整。另外MIT和Brown大学的项目Aurora,目标也是对各种各
样的嵌入式设备产生的数据流进行监管和查询。其研究的内
容都没有应用在互联网上,并且也没有对于音/视频等信息进
行检测。
四、系统实现
1. 概要设计
。整
个系统中过滤的信息全部来自互联网应用层的海量信息。该
系统可以分为以下四层:
a)网络层。此层是互联网上通过的文本、音频以及图像
与视频信息等。这一层网络中的信息可以通过网络抓包器来
捕获网络数据包,并送给第二层信息识别层进行分类。
b)信息识别层。在这一层主要是对从网络上来的信息进
行识别,分清楚它们是文本、音频还是图像与视频信息。
e)信息流过滤层。这一层主要任务是对信息识别层传来
的信息进行多特征融合判定;对有用的信息进行过滤,对信息
的格式进行标准化等。
d)内容检测层。这一层是整个系统的核心部分。其主要
功能是通过模式匹配口1,检测过滤层传输上来的信息中是否
含有特定的内容。
2. 详细设计
文本识别技术主要表现在文本实时过滤与文本深度处理
技术两方面。图2为文本识别与处理子系统。
良平甲、 7。国I
≮迪
懂南匝主 I币固1
图1戛璧巴鬯窆曩全图2文本识别与处理子系统
监测过滤系统一一……………
2.2.1文本实时过滤技术
文本实时过滤最主要的技术就是字符串匹配¨o,涉及以
下主要内容:
a)复杂规则的匹配技术。由于过滤系统的功能不断增
强,基于关键词匹配的简单规则已经不能满足需求,系统需要
更复杂的规则支持更准确的判定和更快速的过滤¨1。复杂规
则匹配有近似、逻辑表达式和正则表达式等,它们的支持力度
不尽相同。在系统中,可以根据不同的应用场景采用不同的表
达式匹配方法一o。
(a)近似匹配中大部分都是基于动态规划的。本系统中
采用最经典的Sellers算法。Sellers算法是Sellers于1980年设计的近似匹配算法。动态规划算法的时间复杂度为O(mn),
但稍经修改便能适用于很多复杂的距离模型。
(b)逻辑表达式匹配是介于精确串匹配和正则表达式匹
配之间的一种复杂规则匹配,它是在多个特征串之间增加
“与”“或”“非”的逻辑关系以达到更强功能的过滤。使用带
条件的逻辑表达式匹配还可以解决定序、窗口中的复杂匹配等
问题。
(e)正则表达式匹配的功能最强,相应的复杂度也最高。
在本系统中采用由Thompson于1968年提出的正则表达式的
匹配技术,通过构建NFA自动机来识别正则表达式。该算法
空间开销为O(/?L),扫描匹配时间复杂度为O(mn)。
b)大规模串匹配技术。本系统采用的是L.SMmema提出
的方法,它基于模式串在文本中出现的概率较低的前提,将多
个模式串合并为一个模式串,采用r位并行的方法进行匹配。
算法仅在万级规模下表现良好,但当命中率高时,其性能下降