有害信息发现和过滤技术手段

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

网络有害信息的发现和过滤技术手段

互联网的快速发展使得人们可以很方便的获得各种信息，与此同时，抵御互联网E的反动、淫秽或色情等有害信息的思想文化渗透成了一个迫切需要解决的问题。

互联网上主要有两类有害信息：

一类是反动、色情、迷信、谩骂和机密等有碍社会公德和不便公开的信息；

另一类是会影响互联网本身和用户计算机安全的不良代码，如特殊控制、计算机病毒等。

网络有害信息的发现机制主要有主动发现和被动防御两种方式。主动发现的方式主要有基于搜索引擎的有害信息主动监测，被动防御的方式以网络内容过滤为主。

1基于搜索引擎的有害信息主动监测技术

采用主动扫描探测方法进行有害信息监控的系统，首先要设计网络蜘蛛模块，实现对html、asp、php和jsp等网页的自动抓取，采用算法实现中文分词，开发信息索引模块，实现对网页的批量和增量索引，并且包含有害信息检索模块,实现有害信息监控及预警功能。

搜索引擎，概括起来其组成大致分为四个部分：

(1)搜索器。主要完成互联网上获取网页和链接结构信息进行分析处理；

(2)索引器。理解搜索器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表，为用户检索奠定基础。索引器可以使用集中式索引算法或分布式索引算法，

(3)检索器。用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。

(4)用户接口。主要作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要目的是方便用户使用搜索引擎，高效率和多方式地从搜索引擎中得到有效并且及时的信息。

2内容过滤技术

内容过滤技术一般包括名单过滤技术、关键词过滤技术、图像过滤技术、模版过滤技术和智能过滤技术等。

现阶段的内容过滤技术主要分为基于网关和基于代理两种，二者都不能解决的问题是对网络速度的负面影响。而且因为是串行处理，如果网关和代理出现故障都会使网络不通。目前过滤技术大多在网络处理的应用层实现，适应性和安全性较差。基于网络层的实现，最大的挑战有两个方面：首先，应用层分析技术必须全面，因为直接对网络包进行应用需要充分了解需要过滤的所有应用在网络层是如何实现的。其次，是实现兼容性，为实现与操作系统网络底层处理融合，需要充分了解操作系统网络实现机制，甚至替代部分功能，如何不影响操作系统的原有功能是相当困难的，

1．3有害信息监测的核心技术

有害信息监铡的核心技术包括分词技术、文本内容分类关键字识别、变形关键字识别、锚文本分析、有害代码特征识别等

1、分词技术

对网页进行监测时需要进行特征项的提取。对于英文文本，一般足进行词汇的提取，由于词汇之间有天然的分隔符(空格)，所以特征项的提取比较容易。中文信息没有这个特点，所以必须采用中文分词技术，把没有词汇标示的中文句子，通过某种特殊的技术切分出词汇。现有的分词算法可分为三大类：基于字符串匹配的分词方法(机械分词方法)、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法也称为基于词典的分词方法是目前二种分词方法中最快的。影响这种方法分词速度的因素主要有两点：词典的结构以及匹配算法。

2、文本内容分类

文本内容分类是一个广泛研究的课题，它的任务足把一文本内容分类是一个广泛研究的课题，它的任务足把一以通过文本分类的方法，把网页分为有害信息网页和普通信息网页。现有的文本分类方法有支持向量机(SVM)、决策树、Nearest neighbor、algorithm等。这些训练过程的基本思路都是从文章中抽取出一些特征关键词，根据这些关键词在文章中的出现次数对文章进行向量化之后进行训练。

3关键字识别

对关键字词进行过滤，最理想的方法就是先对字串的词法、句法和语义信息进行分析，再根据句义进行取舍。但计算机对语法、语义的自动分析目前仍处于研究阶段，还不成熟。通常的做法是先人工做成一个含有需要过滤词汇的词典，

再根据该词典对用户所发的信息进行检查，即在信息中逐个查找词典中的每一个词。如果找到，有两种方法处理：一是终止查寻，认为该留言不能发表；二是继续查找，直到找出文本中所有的关键词，然后计算该留言中关键词出现的频度，根据事先制定的规则，决定该信息能否通过发表。

4变形关键字识别

为了逃避过滤，不法分子会故意将留言中的关键字进行适当变形后进行提交。关键字常用的变形方法有同音字法、拼音法、字词颠倒法、字词间加其它字符串、以及多种变形混用法等。

由于关键字特征被完全打乱，基本上找不到可以匹配的关键字。因此首先根据关键词识别的情况，就可以判断出属于此类问题。然后只要采用矩阵的转秩算法就可以将这段文字恢复回正常的顺序，最后再进行过滤。

5锚文本分析

每一个超级链接都有一个描述文本即锚文本，这个文本反映了该网页与该链接所至网页的某种关系，是互联的关键所在。通过分析这个描述文本，就可以得到网页之间重要的关系。导向词是一组关键词，它们会引导搜索器按照一定顺序搜索网络。通过设置导向词以及对应的权值，锚文本中含有导向词的网页会被优先进行信息采集。权值的设定有根据经验手工设定和采用程序进行特征提取两种方法。

6有害代码特征识别

网络上除了有碍社会公德的有害信息外，还存在影响互联网本身和用户计算机安全的不良代码，如特殊控制、计算机病毒等。计算机病毒等可以通过各类防火墙的杀毒模块进机病毒等。计算机病毒等可以通过各类防火墙的杀毒模块进是网络过滤的重点。

(1)可执行代码的过滤

HTML足一种标记语言，即在普通文本中插人一些标记(Tag)来控制文本的显示属性。

通常HTML本身不具有执行程序的功能，但HTML支持插入功能各异的ActiveX 控件，如一般的客户端浏览器就支持非常流行的VbScript脚本语言和Java．Script 脚本语言。为使调用Script脚本语言的代码失效，可以用。&1t；”代替“<”。因