网络信息过滤技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于合作的信息过滤
基于合作的过滤技术根据人的判断为用户过滤信息,它使 用多个用户信息预测单个用户的偏好根据相同或相近兴 趣的用户对应信息做出评价,向其用户进行推荐。由于不 依赖于内容,这种模式不仅适用于文本格式,也可以适用于 非文本介质的资源,如视频、音频等。 基于合作的协同过滤,首先从数据库里获取他之前喜欢 的东西,然后从剩下的东西中找到和他历史兴趣近似的 东西推荐给他。核心是要计算两个东西的相似度。
基于合作的过滤优缺点
Fra Baidu bibliotek
优点:协作过滤系统利用用户之间的相似性来推荐信息, 它能够为用户发现新的感兴趣的内容,其关键问题是用户 聚类。并且能为用户发现新的感兴趣的信息。
缺点:需要用户的参与。稀疏性问题,在系统使用初期,由 于系统资源还未获取足够的信息,系统很难利用这些信息 来发现相似的用户。另一缺陷是系统可扩展性,即随着系 统用户和信息资源的增多,系统的性能会下降。
内容过滤 从网络信息过滤的依据 网址过滤
混合过滤
基于内容的信息过滤
基于内容的信息过滤通过用户模型 (user profile) 来描述用户的信息需求 , 将新获取的信息与用户 模型进行相似度计算 , 主动将相似度高的信息提 供给用户。 内容过滤的基本思想是,给用户推荐和他们之前 喜欢的物品在内容上相似的其他物品。核心任务 就是计算物品的内容相似度。
优点: ①从分级方而言, 可以进行自我分级,扩大分级的范围;可以由第三方进行分级; 可以根据主题或其他属性特征揭示网络信息; 可以根据用户或管理方需要制定或选择分级体系; 可以根据需要对分级类目作增、删、改 ; 用人工的方法可以对图 像、图形、音频、视频等多媒体信息准确分级。 ②从管理方而言, 可以按类目或者类目的级别过滤信息人工分级的过滤错误率相对 较低 通过类目的组合可以灵活设置过滤模板 不同分级体系的分级标记如果遵循PICS规范,这些分级体系的类目 可以组合使用,以满足用户多样化的需求b
网络信息过滤技术应用
• 不良信息过滤 • 个性化信息过滤
SNS
搜索引擎
SNS
FOLLOW机制 PageRank机制
算法
互联网的内容管理一直是一个敏感而颇具争议的问题。但是, 即使是在美国这样开放的西方国家,对于互联网内容也有一 定程度的管理。特别是在教学领域,美国法律规定所有提供 互联网教学的电脑必须采用信息过滤技术进行内容过滤。 我同国政府对于互联网有害信息清理工作极为重视。近年来, 分别下发和颁布实施了关于加强《非经营性互联网上网场所 信息安全管理》的文件和《互联网上网服务营业场所管理条 例》的法规。各级公安机关作为计算机及互联网安全管理的 主管机关,在互联网信息安全管理方面做了大量有益的工作。 信息过滤技术是通过URL过滤、关键词过滤、图像过滤、模 板过滤、智能过滤等手段,对互联网用户进行信息安全审计 管理和访问控制的技术。目前,信息过滤技术是各级公安网 络监察部门对互联网接入单位 (政府机关、企事业单位、学校、 网吧等 )的网络出口进行信息安全审计管理的主要技术手段之 一。因此,根据国家法律法规的规定和政府有关文件要求, 结合公安网监工作实际,加强信息过滤技术发展趋势的研究, 对于搞好公安网监工作,指导“三个中心”建设具有重大的 现实意义。
网络信息过滤技术采取适当的技术措施, 对互联网不良信息进行过滤,既可阻止不良 信息对人们的侵害,适应社会对意识形态方 面的要求,同时,通过规范用户的上网行为, 提高工作效率,合理利用网络资源,减少病 毒对网络的侵害,这就是信息过滤技术的根 本内涵。
网络信息过滤是根据一定的标准运 用一定的工具从动态的网络信息流中选 取用户需要的信息或剔除用户不需要的 信息的方法和过程。
网络信息过滤有利于减轻用户的认知压 力。它在为用户提供所需要信息的同时,着 重剔除与用户不相关的信息,从而提高用户 获取信息的效率;它根据用户信息需求的变 化提供稳定的信息服务,能够节约用户获取 信息的时间,从而极大地减轻用户的认知负 担,起到减压阀的作用。
目前网络信息过滤的工作概括为2项:一 是建立用户需求模型。即用户模板,用于表 达用户对于信息的具体需求。建立用户需求 模型的主要依据是用户提交的关键词、主题 词或示例文本。
信息过滤依据的具体内容过滤
首先分级体系,网页的分级也像电影、电视的分级一样 必须按照一定的标准进行,这个标准就是分级体系。分级 体系是对网络信息内容进行分级的依据,它规定了分级的 类目、子类目或者类目的级别和分级的具体方法,实质上 就是一种网络信息内容分类法。
例2:RSACi分级体系
暴力
语言
O无暴力 1打斗
0非冒犯性的语言 1轻微的脏话
2一般性的脏话 3下流的手势 4暴露或粗鲁的语言
2杀戮
3带血腥的杀戮场面 4 态意的非常无理的暴 力行为
对于包含分级标记的 HTML 文件 , 过滤软件
会把按类目设置的过滤模板与分级标记进 行比较,过滤软件会比较邮件头中的分级 标记,拒绝不良信息;由代理服务器过滤请求 和响应的信息;过滤软件利用分级服务系统 传输的标记,决定是否过滤相应的信息。
基于内容的过滤优缺点
优点:基于内容过滤利用资源和用户兴趣的相似 性来过滤信息 , 它的关键问题是相似性计算 , 其优 点是简单、有效。这种过滤技术已经比较成熟 , 使用也相对较广。 缺点:基于内容过滤难以区分资源内容的品质和 风格 , 而且不能为用户发现新的感兴趣的资源 , 只 能发现和用户已有兴趣相似的资源 . 随着信息的 剧增 , 效率和质量会降低 ; 使用过程中难以发现新 的感兴趣的信息 ; 一旦过滤方法选择错误 , 后果将 很严重。
计算机协会上。 1992 年,代表了世界文本检索领域最高水 平和文本检索领域最权威的国际会议之一 的文本检索会议召开,并将过滤作为其一 个重要的议题。 会议对信息过滤学科形成和发展提供了强 有力的支持。
网络信息过滤技术方法
基于内容的信息过滤 从网络信息过滤结构 基于合作的信息过滤(协同过滤)
对比
可以注意到基于内容的信息过滤和基于合作的信息过滤 (协同过滤)的相同点都是要计算两个物品的相似度, 但不同点是前者是根据物品的内容相似度来做推荐,给 物品内容建模的方法很多,最著名的是向量空间模型, 要计算两个向量的相似度。而后者根据两个物品被越多 的人同时喜欢,这两个物品就越相似。 由此可以看到两种方法的不同点在于计算两个物品的相 似度方法不同,一个根据外界环境计算,一个根据内容 计算。
二是匹配技术,即用户模板与文本的匹 配技术。简单地讲,任何信息过滤系统就是 根据用户的查询创建用户需求模型。将信息 源中的文本有效表示出来,然后根据一定的 匹配规则,将信息源中可以满足用户需求的 信息返回给用户,并根据一定的反馈机制, 不断地调整改进用户需求模型,以期获得更 好的过滤结果。
网络信息过滤对个性化信息服务起到了 巨大的推动作用。在个性化信息服务中,最 重要的是收集和分析用户的信息需求。由于 信息过滤的反馈机制具有自我学习和自我适 应的能力,可以动态地了解用户兴趣的变化, 掌握用户的信息需求,从而为用户提供更有 针对性的信息。在协作过滤系统中,还可以 根据用户之间的相似性来推荐信息,从而有 可能为用户提供新的感兴趣的信息,拓宽用 户的视野。
信息过滤技术和防火墙技术的区别
信息过滤技术和防火墙技术是有区别的,其主要区别有以下几个方面: 1· 工作的协议层不同 防火墙主要工作于网络层,有应用层分析,但不是主要任务。信息过滤技术既要工作于网 络层,也要工作于应用层。因为有些过滤功能必须在应用层实现。例如: URL过滤和关键 词过滤。 2· 过滤的内容不同 防火墙主要是 IP过滤,主要是检查、记录和分析管理对象在连接哪个地址、发送和接收那 些数据包,当前连接状态 等等。并且防火墙过滤的 IP不能太多。否则会影响网络速度和防火墙性能。信息过滤技术 除了IP过滤之外,一般还具备 URL过滤、关键词过滤等功能。主要记录和检查管理对象访问了哪个地址、哪个网站、发 送和接收了哪些页面或文件等。 信息过滤技术过滤的IP和URL量可以很大,一般可达几万条或几十万条。 3· 工作方式不同 防火墙提供的过滤功能仅仅是一个控制工具,如何控制需要用户自行设置。而信息过滤技 术提供给用户的既有工具,又有各种库和模板等,这可以由用户自行选择。 4· 功能设计面向对象不同 防火墙功能设计主要面向单个用户。信息过滤技术除此之外,在面向管理机关要求的系统 化多种报警审计上,在面 向用户的分类访问控制上都有许多功能是防火墙中所没有的。因此,在现阶段防火墙技术 不能代替信息过滤技术。
例1
用户u1喜欢的电影是A,B,C 用户u2喜欢的电影是A, C, E, F 用户u3喜欢的电影是B,D 我们需要解决的问题是:决定对u1是不是应该推荐F这部电影 基于内容的做法:要分析 F 的特征和 u1 所喜欢的 A 、 B 、 C的特 征,需要知道的信息是A(战争片),B(战争片),C(剧情 片),如果F(战争片),那么F很大程度上可以推荐给u1,这 是基于内容的做法,你需要对item进行特征建立和建模。 协同过滤的办法:那么你完全可以忽略 item的建模,因为这种 办法的决策是依赖user和item之间的关系,也就是这里的用户 和电影之间的关系。我们不再需要知道 ABCF 哪些是战争片, 哪些是剧情片,我们只需要知道用户u1和u2按照item向量表示, 他们的相似度比较高,那么我们可以把u2所喜欢的F这部影片 推荐给u1。
信息过滤依据的混合过滤
动态文本分析法 利用分级法或URL地址列表法进行信息过滤,实际上是以分级 的方法表达用户的信息需求和描述网络信息,它们的优点是 简单直接,容易实现,缺点是分级的覆盖面有限而且无法实现 动态过滤,直接影响过滤的效果。对于这两种方法的缺陷,在 一定程度上可以通过第三种方法 — 动态文本分析予以解决。 在信息过滤系统中,动态文本分析法首先把用户的信息需求 描述成为用户需求模板,然后根据这一模板对动态的文本信 息进行过滤,再利用反馈机制改进用户需求模板。由于用户 需求模板可以用关键词、规则或分类的类目来描述,其中大 家比较熟悉的是使用关键词列表,所以这一方法有时候又简 单地称之为关键词法。采用动态文本分析法着重要解决四 个方面的问题:描述用户需求模板、描述网络信息文档、匹 配技术、反馈机制。
组长:刘伟
1221330048
组员:史波 1221330053 张旭 1221330056
伍思同 1221330068
目录
基本信息与发展历史
——刘伟 网络信息过滤技术方法 ——史波 网络信息过滤技术应用 ——伍思同 现状分析及发展趋势 ——张旭
互联网的飞速发展在给人们的工作、生活、 学习等诸多方面带来巨大便利的同时也带来 诸如“信息超载”以及“不良信息”和垃圾 信息的侵害等问题。信息过滤技术由此产生, 并广泛应用到了网络的各种信息处理过程中, 对网络信息实用化具有极大的推动作用。
通过网络信息过滤,可以减少不必 要的信息传递,节约宝贵的信道资源。 利用网络信息过滤,可以对网络信息的 流量、流向和流速进行合理的配置,使 网络更加畅顺。而对于用户来说,信息 过滤由于剔除了大量的不相关信息的流 人,可以避免塞车现象。
网络信息过滤技术的发展历史
“信息过滤”最早出现在1982年的3月美国
信息过滤依据的网址过滤
URL地址列表法 URL 地址列表法是利用预先编制好的 URL 地址列 表决定允许还是禁止用户访问网络信息的一种方 法 , 这是信息过滤中最为直接也最为简单的方法。 URL地址列表可以分为两种:白名单和黑名单,前者 是允许访问的 URL 地址列表 , 后者是禁止访问的 URL地址列表。
优点: 实现比较简单 ; 可用于弥补过滤软件的过滤过度或过滤不 足的缺陷;白名单可作为绕开过滤的一种手段 ;采用白名单 可以限定访问的范围。 采用URL地址列表过滤不良信息是一种十分直接也十分简 单的方法 , 在 1995 年以前的过滤软件以及现在的儿童搜索 引擎、儿童浏览器、邮件过滤软件中用得比较多 , 用户也 可用来弥补过滤软件的过滤过度或过滤不足的缺陷。另外, 白名单能够有效地限制用户访问的网址 , 特别适合向儿童 推荐网站。如果只采用黑名单进行过滤 , 则无法满足用户 多样化的信息需求。