25.网络信息过滤技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Information, SDI),来自图书馆领域 路由(Routing),来自Message Understanding 最新资料公告(Current Awareness),来自数据挖 掘

无结构的或半结构化的数据
文本数据
图形和图像数据 大数据量

难点:对用户过滤需求的描述
信息检索 用户需求表示

应用层阻塞技术的部署方式
旁路式(Passby) ▪ 监听网络上所有信息,并有选择的对基于TCP的连接 (如HTTP/HTTPS/FTP/TELNET/POP3/SMTP等) 进行阻断 ▪ 旁路式过滤的原理基于TCP的连接性:跟踪所有TCP 连接,阻断时以服务器身份向客户端发送HTTP ACK PSH FIN,同时以客户端身份向服务器发送HTTP RST。 穿透式(Passthrough) ▪ 依赖于代理服务器或应用层网关,直接禁止通信过程

根据过滤模板所在的位置分类
下游过滤 ▪ 又叫客户端过滤,用户需求模板存放在客户端上,用 户根据自身需要设置一定的限定条件,将不感兴趣的 信息排除在外。 ▪ 优点是模板可用于不同的网络应用,缺点是只能实现 基于内容的过滤。 信息源过滤 ▪ 又叫剪辑服务,用户将需求模板提交给一个信息提供 者,由信息提供者为用户过滤信息。

根据信息过滤的目的分类
推荐系统 ▪ 根据用户对信息的评价把信息推荐给合适的接收者, 属于协作过滤系统的一部分。 阻挡系统 ▪ 通过设置一定的条件限制用户获取某些信息,而其他 信息可以利用。

根据过滤模板所在的位置分类
上游过滤 ▪ 又叫代理服务器过滤。用户需求模板存放在服务器端 或者代理端。过滤系统也可能处在信息提供者与用户 之间专门的中间服务器上,这种情况也叫做中间服务 器过滤。 ▪ 上游过滤的优点是不仅支持基于内容的过滤,也支持 协作过滤,缺点是模板不能用于不同的网络应用中。

wenku.baidu.com
PICS
PICS提供了对互联网上信息的内容进行标记的
一个开放平台 PICS提供了有关内容分级的元数据和一种方便 于任何独立群体开发自己元数据词汇的机制 元数据包括PICS标记词汇和PICS分级服务描述 词汇

RSACi分级系统
类似于电影分级制度,原先由娱乐厂商向购买
者提供产品的等级信息 在互联网内容等级协会(Internet Content Rating Association,ICRA)倡导下,形成了 RSACi分级服务( Recreational Software Advisory Council on the Internet) 将互联网上的信息大致分为性、暴力、语言和 裸体4个方面,每个方面的信息又分为0~4级。 0级表示无害, 级别越高,危害越大。
网络层阻塞
应用层阻塞

部署位置
互联网骨干节点
企业网/园区网出口

网络层阻塞技术
DNS过滤(DNS劫持) ▪ 指在特定的网络范围内,拦截域名解析的请求,分析 请求的域名,把审查范围以外的请求放行,否则返回 假的IP地址或者什么都不做使请求失去响应,其效果 就是对特定的网络不能反应或访问的是假网址。 ▪ 一般部署在互联网骨干节点 ▪ 可以通过指定DNS服务器来绕过审查
计算机网络安全技术

概述
内容阻塞
内容分级审查

背景
随着互联网内容的极大丰富,信息海量化正在
导致信息垃圾化

为什么要进行信息过滤
国家信息安全的迫切需求 使网络用户尤其是青少年学生远离非友善信息
的侵扰,净化网络空间 改善Internet信息查询技术的需要 信息个性化服务的基础 信息服务供应商(信息中介)开展网络增值服 务的手段

信息过滤技术的研究现状
当前信息过滤的研究以TREC会议为核心,主
要是文本过滤 。 国内有关信息过滤的研究以核心算法为主,主 要集中在特征抽取、学习算法和过滤算法上。 出现了一些过滤软件,但存在较多问题,过滤 效果不佳。

目的
对不良信息从源头进行控制,阻塞这些信息的
传入通道

两种方式

和信息抽取(Information Extraction)区 别
信息过滤关心相关性
信息抽取只关心抽取的那些部分,不管相关性

根据过滤系统的结构分类
1987年,Malone及其同事把信息过滤方法分
为3类:
▪ 基于内容的过滤(Content-based filtering),也叫认 知过滤(Cognitive filtering) ▪ 协作过滤(Collaborative filtering),社会过滤 (social filtering) ▪ 经济过滤(Economic filtering)。
信息源
过滤中心
分级
信息受众
添 级加 标分 签
分级
分级 分级标准
信息 发布者


任何接受监管的内容必须要按照统一的标 准被分级,内容分级标准是整个审查体系 的基础,一般一个信息包括内容类别标志 和等级标志,如“暴力 2级”。 目前,W3C提出的 Internet内容选择平台 (PICS,Platform for Internet Content Selection)标准是一个比较完整的分级标 准体系。
检索词(含组合条件)
信息过滤
兴趣模型
信息源
目标
相对静态的结构化的 相对静态的结构化的 数据库海量,动态的 数据库 无(半)结构数据 选择相关条目 过滤掉不相关的信息
需求
需要了解用户情况 涉及社会背景
动态变化
否 否
静态
是 是

和文本分类(Categorization)的区别
分类系统中的类不会经常改变 相对而言,User Profile会动态变化

PICS技术的实现
RDF的例子
<rdf : Description about=„http://www.textuality. com/RDF/Why-RDF.html‟> <Author> Liu </Author> <Home-Page rdf:resource='http://www.textuality.com/'> </rdf: Description>
经济过滤
▪ 这种方法依赖于成本和用户获益的计算,依赖于价格机制。

根据操作的主动性分类
主动过滤 ▪ 系统主动从Web上为其用户推送相关的信息。 ▪ 在有些主动信息过滤系统中,预先对网络信息进行处 理,例如对网页或者网站预先分级、建立允许或禁止 访问的地址列表等,在过滤时可以根据分级标记或地 址列表决定能否访问。 被动过滤 ▪ 系统不对网络信息进行预处理,当用户访问时才对地 址、文本或图像等信息进行分析以决定是否过滤及如 何过滤。

什么是信息过滤?
是指计算机根据用户提供的一个过滤需求(User

近义术语
Profile),从动态变化的信息流(比如Web)中自动 检索出满足用户个性化需求的信息 Profile:一组对用户过滤需求的描述,这种“profile” 描述了用户长期的、稳定的兴趣爱好
信息的选择分发(Selective Dissemination of

PICS技术的实现
资源描述框RDF(Resource Description
Framework)
▪ 同时携带多种元数据在网络上传播 ▪ 一个基础结构来支持彼此独立而又互补的元数据的共 存 ▪ 可以满足许多不同信息提供者对元数据的要求 ▪ RDF的核心定义基于以下假设:任一个可被标识的 “资源”都可以被一些可选择的”属性”描述,每一 个属性的描述都有一个“值”

按照从用户获取信息的方法分类
混合式过滤 ▪ 采用混合式 方法获取用户信息需求的方法介于显式 方法和隐含式方法之间,它要求尽量减少用户的参与。 ▪ 混合式获取用户信息需求的方法通常有两种
▪ 通过文档空间来获取知识(基于案例的方法) ▪ 通过原型参考来获取知识(推理,预先定义默认的profile,在 扫描过程中再改变)

按照从用户获取信息的方法分类
显式过滤 ▪ 用户直接填表 ▪ 用关键词表达用户过滤需求 ▪ 用文档集表达用户过滤需求 ▪ 通过用户交互提供的这些显式信息可以快速、明确描 述用户的信息需求,减少系统学习的负担。 ▪ 但是这种显式的获取用户信息需求的方式会增加用户 的负担,加重用户使用系统的困难。

根据过滤系统的结构分类
基于协作的过滤 ▪ 这种方法是“相似”用户间的相互协作过程。通过分 析用户兴趣,在用户群体中找到与指定用户兴趣相同 或相似的用户,综合这些相同或相似用户对某一信息 的评价,形成系统对该指定用户对此信息的喜好程度 预测。 ▪ 由于不依赖于内容,这种过滤方法不仅适用于文本信 息,也可以推广到非文本形式的信息。

根据过滤系统的结构分类
基于协作的过滤
▪ 这种方法是“相似”用户间的相互协作过程。通过分析用 户兴趣,在用户群体中找到与指定用户兴趣相同或相似的 用户,综合这些相同或相似用户对某一信息的评价,形成 系统对该指定用户对此信息的喜好程度预测。 ▪ 由于不依赖于内容,这种过滤方法不仅适用于文本信息, 也可以推广到非文本形式的信息。 ▪ 局限是活动用户只能获取具有相同兴趣的用户喜欢的信息, 而不能获取不同兴趣的用户喜欢的信息。

网络层阻塞技术
IP地址过滤 ▪ 利用网络设备的数据包过滤或访问控制功能,检查IP 包的来源或目的,通过审核的才予以放行,否则将进 行阻断 ▪ 一般部署在互联网骨干节点,或是企业网/园区网的 出口部分,通过防火墙、路由器等设备来实现 ▪ IP地址的过滤名单更新太慢,且容易“误伤无辜”

应用层阻塞技术

按照从用户获取信息的方法分类
隐含式过滤 ▪ 无需用户直接参与,通过观察用户的动作行为判断用 户需求 ▪ 用户在指定页面的停留时间、用户访问页面的频率、 是否选择保存数据、是否打印、是否转发数据等对信 息项的反应都能作为用户兴趣的标志。 ▪ 采用隐含式获取用户信息需求的方法容易受到干扰的 影响,所以这种方法通常用作显式方法的补充。
解释:指明被描述资源的URI, 它是Web资源的唯
一标识,它是统一资源定位符URL的超集;被描述 资源有一个叫Author即作者的属性,其值是Liu; 被描述资源有一叫Home-Page即主页的属性,其 值指向另一资源。

最典型的例子:GFW
Great Firewall,防火长城,也称“中国防火墙”
或“中国国家防火墙”,指中华人民共和国政府在 其管辖互联网内部建立的多套网络审查系统的总称, 包括金盾系统和相关行政审查系统。 一般所说的GFW,主要指公共网络监控系统,尤 其是指对境外涉及敏感内容的网站、IP地址、关键 词、网址等的过滤。 国家防火墙并非中国的专利。实际上,美国也有国 家网络监控系统,对进出美国的每一封电子邮件进 行内容扫描。不同的是,中国的国家防火墙会直接 切断一些敏感连接,而美国的国家防火墙则只是做 数据监控记录。
目前使用较多的就是基于内容的过滤和基于协
作的过滤。

根据过滤系统的结构分类
基于内容的过滤 ▪ 这种方法按照信息内容的特征作出选择,主要采用自 然语言处理、人工智能、概率统计和机器学习等技术 进行过滤。 ▪ 内容过滤能够监测现有信息的内容特征,为用户提供 与其曾经感兴趣信息相似的信息,但不能为用户发现 新的兴趣信息。 ▪ 这种方法比较适合于分析文本信息,但对声音、图像、 视频等形式的媒体信息还缺乏有效的自动分析方法。

GFW的主要技术
域名劫持 IP封锁 关键字过滤阻断 HTTPS证书过滤
对破网软件的反制

内容安全分级审查是一种主动的安全技术。 旨在内容发布前,在内容中嵌入分级标识, 随后的各种审查措施基于分级标识进行。 这种监管技术可以对信息提供的过程(信 源、信息服务和信息的中转等环节)实施 主动的审查,以避免不必要的信息及不良 信息的传播,通过监管来净化网络环境。
URL阻塞 ▪ 制定不能访问URL地址,以黑名单的形式存放在代理 服务器或应用层网关中。在进行HTTP请求的时候, 代理服务器或应用层网关会对URL进行审查,如果在 黑名单中将予以阻塞 关键字审查 ▪ 在互联网出口网关处收集信息,过滤、嗅探制定的关 键字,针对包含关键字的通信过程进行阻断 ▪ HTTP报文头部关键词 ▪ 数据流内文关键词
相关文档
最新文档