网络爬虫技术研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 2 3 主题 爬 虫流 程 设计 ..
主题 爬虫 需要 根据 一定 的网页 分析算 法 ,过 滤掉 与主 题无关 的链接 ,保 留有 用 的链接并 将 其放入 等 待 抓取 的 U L队列 。然后 ,它会 根据 一定 的搜 索策 略 从 待抓 取 的队 列 中选 择 下 一个 要 抓 取 的 U L,并 R R 重 复上 述 过程 ,直 到满 足系 统停 止条 件 为 止 。所 有 被 抓 取 网页 都 会 被 系统 存 储 ,经 过 一 定 的分 析 、过 滤 ,然 后 建立 索引 ,以便 用 户查 询 和检索 ;这 一过 程所 得 到 的分 析结 果 可 以对 以后 的抓 取过 程提 供反 馈
1 1 通 用 网络爬 虫 ( e ea p ro e w bca e ) . g n rl up s e rwlr
通 用 网络爬 虫 根据 预先 设定 的一 个 或 若 干初 始 种 子 U L开 始 ,以此获 得 初 始 网页 上 的 U L列 表 , R R 在 爬行 过 程 中不 断从 U L队列 中获 一个 的 U L R R ,进 而访 问并 下 载该 页 面 。页 面 下 载后 页 面解 析 器 去 掉
量 网页 和关 键资 源不仅 可 以大 大提 高主题 爬 虫搜 集 We 面 的效 率 和质 量 ,还 可 以 为 主题 表示 模 型 的 b页 优 化等 应用 提供 支持 ¨ 。
1 2 2 主题 爬 虫模块 设计 ..
主题爬虫的目标是尽可能多的发现和搜集与预定主题相关 的网页 ,其最大特点在于具备分析网页内
于成 龙 于 洪 波
17 1 ) 50 1 ( 牡丹江大学 电子信 息工 程系 ,黑龙江牡丹江
摘要 :网络爬 虫为搜 索引擎从 互联 网上下载 网页,是搜 索引 擎不可或缺 的组成部 分。介 绍网络爬 虫的分 类、工作原理及存在 的问题 ,并对主题爬 虫进 行 了详细设计 ,最后 总 结 了设计 高性能 网络爬 虫需要解 决的技
统 ,它对 主题 的定 义既 不是 采用 关键 词也 不是 加权 向量 ,而是一 组具 有相 同主题 的网 页 。国 内南 京大 学
的张 福炎 、潘 金贵 教授 等设 计 了一个 数 据采集 系 统 I G (ne e D t G te yt ,该 系统 主要是 对 D S It t a a r s m) m a h S e
3 )通 用搜 索引擎 大 多是基 于关 键 字 的检 索 ,对 于 支 持 语 义 信 息 的 查 询 和 索 引擎 智 能 化 的要 求 难 以实
现。
由此 可见 ,通用爬 虫 想在爬 行 网页 时 ,既保证 网页 的质量 和数 量 ,又要 保证 网页 的时效 性是 很难 实
现 的。
1 2 主题 网络爬 虫 ( o i l bCrwlr . T pc a We a e ) 1 2 1 主题 爬 虫原 理 . .
第 3期
于成龙 ,等 :网络爬虫技术研 究
图 2 主 题 爬 虫结 构 图
的爬行 策 略用 以指 导爬 虫 的爬 行 过程 。U L的超 链 接评 价 得 分 越 高 ,爬 行 的优 先 级就 越 高 。其 主要 思 R
想是 ,在 系统 爬行 之 前 ,页面 相关 度计 算模 块根 据用 户输 入 的关键 字 和初始 文本 信息 进行 学 习 ,训 练一 个 页 面相 关度 评价 模 型 。当一个 被认 为 是 主题相 关 的页 面爬行 下来 之后 ,该 页 面就被 送入 页面 相关度 评
术难题。
关键词 :网络爬 虫;搜 索引擎;高性 能 中图分类号 :T 3 1 P 9 文 献标 识码 :A 文章编号 :10 0 1 ( 0 1 3— 05— 5 0 9~ 32 2 1 )0 0 2 0
网络爬 虫 ( rwe) 也称 网络 蜘 蛛 ,或 网络 机 器 人 。它 为搜 索 引擎从 万 维 网上 下 载 网 页 ,并 沿着 Ca l r 网页 的相 关链 接在 w b中采 集资 源 ,是一 个功 能很 强 的网 页 自动 抓取 程序 ,也 是搜 索 引擎 的重要组 成部 e 件 ,它 的处理 能力 往往 决定 了整 个搜 索 引擎 的性 能及扩 展 能力等 。 传 统 的 网络爬 虫从 一个 或若 干个 初 始 种 子 开 始 爬 行 ,获 得 初 始 的 U L R ,在爬 取 网页 的 过程 中 ,不
主题爬 虫并 不追 求大 的覆 盖率 ,也 不 是全 盘接 受 所 有 的 网 页和 U L,它 根 据 既 定 的抓 取 目标 ,有 R 选 择 的访 问万维 网上 的 网页与相 关 的链接 ,获取所需 要 的信息 ,不 仅 客服 了通用爬 虫存 在 的问题 ,而 H -
返 回的数据 资源 更精 确 。主题爬 虫 的基本 工作 原理是 按 照预先 确定 的主 题 ,分析 超链接 和 刚刚抓 取 的网 页 内容 ,获取下 一个要 爬行 的 U L,尽 可 能保 证 多爬 行 与 主 题 相关 的 网页 ,因此 主 题爬 虫 要 解 决 以下 R 关键 问题 :1 如何判 定一 个 已经抓 取 的 网页是 否 与 主题 相 关 ;2 如 何过 滤 掉海 量 的 网页 中与 主题 ) )
第 1 卷第 3 8 期
2 1 年 6 月 0 1
J RNAL OF DO OU NGGU I RST F T HNOL GY AN UN VE I Y O EC O
东 莞 理 工 学 院 学 报
V 1 8N . o 1 o3 .
J n u. 2 1 01
网络 爬 虫 技 术 研 究
断从当前页面上获取新的 U L R 放入 队列 ,直到满足系统结束条件为止。然而随着网络资源的爆炸式膨 胀和信息量的飞速增长 ,通用的爬虫技术在索引规模 、更新速度和个性化等很多方面都 已不能满足用户 的需 求 ,与此 同时 ,应 运而 生 的主题 爬虫 则不 像通 用爬 虫那 样采 集全 部 网络 资源 ,而是 从互 联 网上采 集 特定主题资源的网页 ,大大提高搜 索效率 , 日 渐受到人们 的青睐 ,逐渐成为研究 的热点。早期研究 者 D r 人 于 19 eBaP等 94年 提 出 了 fhsac 法 ,它 是 最早 使 用 查 询 来 指 导 爬 虫 爬 行 的 系统 。 19 i . rh算 s e 9 8年 M Hrvi . e oi 等研究人员将 fhs r 算法进一步拓展为 sa . a h算法¨ ,他们的搜索策略都是来源 s c i .a h s ec hr s r kec J 于文本 检 索 ,拥有 很 好 的 理 论 基 础 而 且 容 易计 算 ,但 却 忽 略 了 网页 链 接 的 结 构 信 息 ,所 以预 测 相 关
容 和判 别 主题相 关度 的能 力 。根 据 主题爬 虫 的工作原 理 ,下 面设计 了一 个 主题 爬 虫系统 ,主要有 页 面采 集模块 、页面分 析模 块 、相关度 计算 模块 、页面过 滤模块 和链 接排 序模 块几 部分 组成 ,其 总体功 能模块 结 构 如图 2所示 。 页面采 集模 块 :主要 是根据 待访 问 U L队列进 行 页 面下 载 ,再 交 给 网 页分 析模 型处 理 以抽 取 网页 R 主题 向量 空间模 型 。该模 块是 任何爬 虫 系统都 必不 可少 的模块 。 页面 分析模 块 :该模 块 的功能 是对采 集 到 的页面进 行分析 ,主要用 于连 接超链 接排 序模 块 和页 面相 关度计 算模 块 。 页面 相关 度计算 模块 :该 模块 是整个 系 统 的核 心模 块 ,主要 用于评 估 与主题 的相关 度 ,并提 供相 关
价器计算其主题相关度值 ,若该值大于或等于给定的某阂值 ,则该页面就被存入页面库 ,否则丢弃¨ 。
页面 过滤 模块 :过滤掉 与 主题无 关 的链 接 ,同 时将 该 U L及 其 所有 隐含 的 子链 接 一并 去除 。通 过 R 过滤 ,爬 虫就 无需 遍历 与 主题 不相关 的页面 ,从 而保 证 了爬行 效率 。 排 序 模块 :将 过滤 后 页面按 照优 先 级高低 加 入到 待访 问 的 U L队列 里 。 R
2 6
东 莞 理 工 学 院 学 报
上新 的 U L R ,保存 到 U L队列 ,直 到满 足系 统停止 条件 。其 工作 流程 如 图 1所示 。 R
图 1 通 用 网络 爬 虫 工作 流 程 图
通 用爬 虫 主要存 在 以下几 方面 的局 限性 J ) 由于抓 取 目标是 尽 可能 大 的覆 盖 网络 ,所 以爬 行 的 :1 结 果 中包 含大量 用户 不需 要 的网 页 ;2 )不 能 很 好地 搜 索 和 获取 信 息 含 量 密集 且 具 有 一定 结 构 的 数 据 ;
不 相关 的或 者相 关度较 低 的 网页 ;3 )如何 有 目的 、有控 制 的抓 取 与特定 主题 相关 的 we b页面信 息 ;4 )
如何决 定待访 问 U L的访 问次序 ;5 如何 提高 主题 爬 虫 的覆 盖度 ;6 如何 协 调抓 取 目标 的描 述 或定 R ) ) 义 与 网页分 析算 法及候 选 U L排 序算法 之 问 的关系 ;7 R )如 何 寻找和 发现 高质 量 网页和关 键资 源 。高 质
页面上的 H M 标记后得到页面内容 ,将摘要 、U L等信息保存 到 We TL R b数据库 中,同时抽取 当前页面
收 稿 日期 : 0 1 2—2 2 1 一O 2
作者简介 : 于成龙 ( 9 7 ) 17 一 ,男 ,黑龙 江牡丹 江人 ,讲师 ,硕士,主要从 事计算机视觉 和图像处理研究 。
和指导 。其工 作流 程如 图 3所示 。
1 2 4 深 度 网络爬 虫 ( e pWe a e ) .. D e bCrwlr
19 94年 D.i lw r rjl l ot 出 D eWe ( 层页 面 ) 的概 念 ,即 D eWe 是 指 普通搜 索 引 擎难 以发 lE s h提 ep b 深 ep b 现 的信 息 内容 的 We 面 ¨ b页 。D eWe ep b中的信息 量 比普通 的网页 信 息量 多 ,而 且 质量 更 高 。但是 普 通
We b上 中英 文技 术 资料进 行 自动搜 集 。
1 网络爬 虫的分类及工作原理
网络 爬虫 按照 系统 结构 和 实现技 术 ,大致 可 以分为 以下几 种 类 型 :通用 网络 爬 虫 ( eea Proe G nrl ups We r l ) bCa e 、主题 网络 爬 虫 ( oi l bCa lr 、深层 网络爬 虫 ( epWe rwe) w r T pc rwe) a We D e bCa lr。实 际应用 中 通 常是 将 系统 几种 爬虫 技术 相互 结合 。
U L的准 确度 不 高 。另外 ,美 国卡 内基 梅隆 大学 的 A K Mc au 和 M. ia 等人 于 19 R . . Cl m l Ngm 99年针 对 计 算
机科学设计了主体型搜索引擎 C R O A系统 J i et等人研究设计 了 C n x Fcs r l 聚焦爬虫 。Dl n i i g ot t oue Ca e e d wr 系统 J . gaw l 。C A gra 等学 者 利用 H b n uhri 逻辑 分组 算 法和 向量 空 间模 型 ,提 出了一 种 网页 u s dA toie a ts 主题管理系统 WT S M 系统。M E r 等学者 提出了一种基于计算 otoy . hi g n l 相关度的主题爬虫 ,并设计 og 了其 体 系结构 和框 架 。S C arbr 提 出 了一 种 新 的 We . hkaat i b资 源爬 行 系 统 ,即 IM oue r l 。 系 B FcsdCa e 。 w r
相关文档
最新文档