搜索引擎垃圾网页检测模型研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
和链接 特征 的检 测 模 型 以及 各种 其 它类 型 的检 测模 型 , 对搜 索 引 擎垃圾 网 页检 测 的 未 来研 并
究 方 向 进 行 了展 望 .
[ 关键 词 ] 索引 擎 ; 搜 垃圾 网页 ; 垃圾 网 页检 测 ; 作 弊 反 [ 图分类 号 ] P9 .8 [ 献标 志码 ] [ 章编 号 ]63—8 1 (0 10 0 5 0 中 T 3 30 3 文 A 文 17 02 2 1 )5— 0 3— 5 随着 互联 网各 种 网页数 量 爆 炸式 增 长 , 户 用
型 主要 针对 采用 了关 键词 堆砌 技 术 的垃 圾 网 页 ,
页及 垃圾 网页 检 测都 进 行 了深 人 的研 究 . 方便 为 各 国学者进行 对 比研究 ,atlC Csl .等 组织志愿 io
者 收集 整理 了 WE S A —U <0 6垃圾 网页集 . BP M l 0 2
元 分类 问题 . 它首 先 需 要 学 习一 个 网 页分 类 器 , 这 个 网页分 类器 可 以预测 网页 的类 别 : 正常 网页
或 垃圾 网页 . 分 类 原 理 为 : 先 模 拟 搜 索 引 擎 其 首 的网 络爬 虫从 We b爬 行 一 定 数 量 的 网页 , 后 然
手 工识 别 已下载 的网页是 否 为垃 圾 网页 . 载 的 下
其 中的垃圾 网页都 由志愿 者 手 工挑 选 出, 供 给 提
使用搜索引擎查 找信 息 已经成 为了最近几年信 息检 索 的主要 方式 . 多数 网站管 理 者 都希 望 他 大 们的网站在搜索引擎的搜索结果中排名靠前 , 很 多 的 网站 管 理者 会 采 取 合 理 的搜 索 引 擎优 化技 术 ( E 1通 过 在 网页 中提 供 给 用 户 更 多 、 S O)1, 更
其典 型 为 Aeado t ls l nrsNo a 等 设 计 的 垃圾 网 x u
页检 测 模 型. lxn rsN o l 等 根 据正 常 网页 A ea do tua s
WE S A — K 06于 20 B P M U 20 06年 5月 开始 , 收集 了 1000个 U 5 0 K域名 下 的 总计 7 0 0 79000个 网页 ,
有效 的信 息 , 以提 升他们 的网 站在 搜索 引擎 的搜 索结 果 中 的排名 . 有 些 网站 则 通 过 一 些 “ 道 而 不 德” 的方式 来 提升在 搜 索 引擎 的搜索 结果 中 的排 名 . 有 甚者 , 了吸 引访 问量 , 动 或 自动 地 制 更 为 手 造一些 网页. 些 网页 没有 提供 给 用户 任 何 有效 这 信息 . 这些 网页 是 直 接 针 对 搜 索 引 擎 的 , 是 在 但 搜索 引擎 的搜 索结 果 中获得 了很 高 的排 名 , 当用
[ 收稿 日期 ]0 1— 5— 7 2 1 0 0
和垃 圾 网页 的 内容差 别 , 网页 的 内容 特征 进 行 对
了提取 , 统计 了数据集 中网页的语言相关和语言
[ 基金项 目] 国家 自然 科学基 金项 目( 0 0 1 1 云南省 教育厅科 学研究 基金项 目( 0 0 0 ) 6 9 33 ); 2 1 Y18 [ 作者简介 ] 贾志洋( 90一) 男 , 18 , 吉林市人 , 讲师 , 硕士 , 主要从事信息检索方面 的研究.
网页集 被划 分为 训练 网页 集 和测试 网 页集 , 据 根
索 引擎 垃圾 网页 ( bSa ) . We pr e 搜 索引擎 垃圾 网页 导致 的主 要后 果 为 : 索 搜
引擎检索结果质量下降 , 搜索引擎公司的资源的
消耗 和用户 体 验 的 降低 . 为解 决 数 量 日益 增 长 的
垃圾 网页产 生 的 各种 问题 , 内外 学者 对 垃 圾 网 国
源自文库
机器学习的算法 , 使用训 练网页集学 习分类器 , 然后 使 用分 类 器 对 测 试 网 页集 中的 每 一个 网 页 进行 分 类预测 , 以测试 分 类器 的分 类效 果 . 1 1 基 于 内容 的垃圾 网 页检 测模 型 . 基 于 网页 内 容 特 征 分 析 的 垃圾 网 页 检测 模
户查询 某些 关键 词 的时候 , 就有 可 能访 问这 些搜
相关 实验研究 免费使用 . 大量 的学者 都使用 WE — B SA P M—U 20 为其实验 样本集 . K 06作
1 垃 圾 网 页 常 见 检 测 模 型
国 内外 的学 者 提 出 了各 种 基 于 机 器 学 习 的 垃圾 网页检 测模 型 . 大多 数基 于 机器 学 习 的垃 圾 网页检 测模 型 都 将 垃 圾 网 页 的 检 测 视 为 一个 二
[ 摘
要] 索引擎垃圾 网页的检测 已经成为近年来机 器学习领域的研 究热点. 搜 在对搜 索引擎
垃圾 网页及 其使 用的各 种作 弊技 术进 行介 绍 的基 础上 , 对各种 垃圾 网 页检 测模 型进 行综 述 , 针
分别介 绍 和分析 基 于网 页 内容特 征 的检 测模 型 、 于链 接 结构 的检 测模 型 、 基 结合 网 页 内容特 征
0c ..2 1 t 01
V0 . 0 No 5 13 .
搜 索 引擎 垃 圾 网 页检 测 模 型 研 究
贾志洋 夏 幼明 , , 高 炜 王勇刚 ,
(. 1 云南大学旅游文化学 院,云南 丽江 6 4 0 ; .云南 师范大学信息学 院,云南 昆明 7 10 2 609 ) 5 0 2
21 0 1年 1 O月 第3 O卷 第 5期
重庆文理学 院学报 ( 自然科学版 )
Jun l f hn qn nvrt f r n cecs( aua c neE io ) ora ogigU ie i o t adSine N trl i c dt n oC sy A s Se i