搜索引擎中网络蜘蛛的研究与实现
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
la e o c st r ug nty we d r s he n l z h b p g nd g tt e lnk ,t n t b s i e x n t o dsr s ur e h o h a e r b a d es,t n a a y e t e we a e a e h i s he hewe p d re pa dsi-
Ab t a t h b S i e h a ea d k y t n e n ts a c n i e T i p p ri l me t t e we p d r a d d w — sr c :T e We p d ri t e b s n e o I tr e e rh e gn . h s a e s mp e n s h b s i e 。 n o n
s l w t h I n t e wat g q e e T s te a i t ft eS i e o g tw b r s u c s a d d s u s a o tt e p u e n ef i t e UR i h i n u u . e t h b l y o p d rt e e e o r e , n i s b u l s sa d h S i i h c h
络 资 源 ,并 对 其 分 析 ,获 得 包含 的 其他 链 接 ,利 用这 些链 接 向 整 个 网络 扩散 ,下 载 其 他 资 源。 测 试 了蜘 蛛 程 序 抓 取
网页的能力,并对 多线程 实现的利弊进行讨论 ,总结 了常 用的算法搜 索策略 ,提 出了后 续的研究方向。 关键词 : 搜 索引擎 ;网络蜘蛛 ;多线程 ; 索策略 搜
电脑 编 程 技 巧 与 维 护
搜 索引擎 中 网络蜘 蛛 的研 究与实现
毛晓 蛟
( 南京师范大学强化培养学院 ,南京 2 04 ) 10 6
摘 要 : 网络 蜘蛛 程序 是 搜 索 引 擎 工作 的 基 础 和 关键 , 实现 了抓 取 网络 资 源 的 网络 蜘 蛛 程 序 ,通过 入 口 网址 下 栽 网
3 网页抓取 的 多线 程实现
在 c #中 ,网 页下 载可 以用 H tWeR q et 来 实 现 ,该 t p b eu s类
2 工 作 原 理
网 络 蜘 蛛 的基 本 思 想 是 利 用 一 个 或 多 个 网 址 来 获 得 更 多 的U L R ,通 过 这 些 U I下 载 网络 资 源 ,然 后 进 行 分 析 ,找 到 R
mi us so n e fmuhih e di .Alo dic s a o o s a c tae y i e d r a d p s fr r r ci n ffrh rr - t r a ng s s us b uts me e r h sr tg n W b Spie , n ut o wa d die to s o u t e e sac e . e r h s Ke y wor s:Se r he i d a c ngne;W e pde b s i r;mu t e dng;s a c ta e y hihr a i e r hsr t g
1 引言
随着互联 网的高速发 展 ,网络信 息越来 越多 。 目前列 大
其 作 流 程 如 图 1 J : 。
多数互联 网用户来说 ,搜索 引擎是其 获得各种 数据 的重要 途
径 。搜索 引擎 以一定 的策略在 互联 网中搜集 、发现 信息 ,对 信息进行理解 、提取 、组织 和处 理 ,并为用户提供检 索服务 , 从 而起到信息 导航 的 目的 ,著 名的搜索 引擎有 G ol、B iu oge ad
等 。 G ol 过 程 序 不 断 地 从 网 络 下 载 网 页 ,然 后 利 用 一 些 og e通
智能算法分 析这些 网页 ,最后 对这些 数据进行 索引 ,形成 了
一
套 完整 的 、基 本 无 需 人 T _ 的 搜 索 引 擎 。 T预
网络蜘蛛程序 是搜索 引擎 的核心 部分之 一 ,它 主要用 于 采集 网页信息 ,是实现搜索引擎 的第 一步 ,也是重要 的一步 。
类 使 用 户 能够 直 接与 使 用 Ht t p的服 务 器 进 行信 息 的交 互 。
We R sos 象 是 来 自 It nt 源 的 响 应 ,ቤተ መጻሕፍቲ ባይዱ 通 过 G t e b ep ne对 ne e 资 r eR —
其 中包含 的其 他 UR L,依此 类 推 ,直纠 没有 可 下 的 U L为 R
止 ,具体 流程如下 。 首先 网络 蜘蛛获得一 个 U L R ,根据数据 库 的记 录判 断该 U L是否处 理过 ,如 果没有 ,则下载对 应 网页 ,并 进行 网页 R
Re e r h a d I lme t fS ac gn e pd r s ac n mp e n e rh En ieW b S ie o
M io a AO X aj o i
( nigN r l nvrt t s ct nC l r ol e, aj g 10 6 Naj oma U iesyI e i a o ut eC l g N ni 20 4 ) n i nnf i i u e n
正如 它的名 字那样 ,网络蜘 蛛在 互联 网 内,通过 网页链 接 , 从 一 个 网 页爬 到 另 外 一 个 网 页 ,并 收 集 网 页 内 容 , 再 分 析 其 中的 链 接 ,进 入 另 一 个 页 面 。 理 论 上 , 网络 蜘 蛛 可 以 收 集 全
图 1
球所有服务器上的 网页信息 。
Ab t a t h b S i e h a ea d k y t n e n ts a c n i e T i p p ri l me t t e we p d r a d d w — sr c :T e We p d ri t e b s n e o I tr e e rh e gn . h s a e s mp e n s h b s i e 。 n o n
s l w t h I n t e wat g q e e T s te a i t ft eS i e o g tw b r s u c s a d d s u s a o tt e p u e n ef i t e UR i h i n u u . e t h b l y o p d rt e e e o r e , n i s b u l s sa d h S i i h c h
络 资 源 ,并 对 其 分 析 ,获 得 包含 的 其他 链 接 ,利 用这 些链 接 向 整 个 网络 扩散 ,下 载 其 他 资 源。 测 试 了蜘 蛛 程 序 抓 取
网页的能力,并对 多线程 实现的利弊进行讨论 ,总结 了常 用的算法搜 索策略 ,提 出了后 续的研究方向。 关键词 : 搜 索引擎 ;网络蜘蛛 ;多线程 ; 索策略 搜
电脑 编 程 技 巧 与 维 护
搜 索引擎 中 网络蜘 蛛 的研 究与实现
毛晓 蛟
( 南京师范大学强化培养学院 ,南京 2 04 ) 10 6
摘 要 : 网络 蜘蛛 程序 是 搜 索 引 擎 工作 的 基 础 和 关键 , 实现 了抓 取 网络 资 源 的 网络 蜘 蛛 程 序 ,通过 入 口 网址 下 栽 网
3 网页抓取 的 多线 程实现
在 c #中 ,网 页下 载可 以用 H tWeR q et 来 实 现 ,该 t p b eu s类
2 工 作 原 理
网 络 蜘 蛛 的基 本 思 想 是 利 用 一 个 或 多 个 网 址 来 获 得 更 多 的U L R ,通 过 这 些 U I下 载 网络 资 源 ,然 后 进 行 分 析 ,找 到 R
mi us so n e fmuhih e di .Alo dic s a o o s a c tae y i e d r a d p s fr r r ci n ffrh rr - t r a ng s s us b uts me e r h sr tg n W b Spie , n ut o wa d die to s o u t e e sac e . e r h s Ke y wor s:Se r he i d a c ngne;W e pde b s i r;mu t e dng;s a c ta e y hihr a i e r hsr t g
1 引言
随着互联 网的高速发 展 ,网络信 息越来 越多 。 目前列 大
其 作 流 程 如 图 1 J : 。
多数互联 网用户来说 ,搜索 引擎是其 获得各种 数据 的重要 途
径 。搜索 引擎 以一定 的策略在 互联 网中搜集 、发现 信息 ,对 信息进行理解 、提取 、组织 和处 理 ,并为用户提供检 索服务 , 从 而起到信息 导航 的 目的 ,著 名的搜索 引擎有 G ol、B iu oge ad
等 。 G ol 过 程 序 不 断 地 从 网 络 下 载 网 页 ,然 后 利 用 一 些 og e通
智能算法分 析这些 网页 ,最后 对这些 数据进行 索引 ,形成 了
一
套 完整 的 、基 本 无 需 人 T _ 的 搜 索 引 擎 。 T预
网络蜘蛛程序 是搜索 引擎 的核心 部分之 一 ,它 主要用 于 采集 网页信息 ,是实现搜索引擎 的第 一步 ,也是重要 的一步 。
类 使 用 户 能够 直 接与 使 用 Ht t p的服 务 器 进 行信 息 的交 互 。
We R sos 象 是 来 自 It nt 源 的 响 应 ,ቤተ መጻሕፍቲ ባይዱ 通 过 G t e b ep ne对 ne e 资 r eR —
其 中包含 的其 他 UR L,依此 类 推 ,直纠 没有 可 下 的 U L为 R
止 ,具体 流程如下 。 首先 网络 蜘蛛获得一 个 U L R ,根据数据 库 的记 录判 断该 U L是否处 理过 ,如 果没有 ,则下载对 应 网页 ,并 进行 网页 R
Re e r h a d I lme t fS ac gn e pd r s ac n mp e n e rh En ieW b S ie o
M io a AO X aj o i
( nigN r l nvrt t s ct nC l r ol e, aj g 10 6 Naj oma U iesyI e i a o ut eC l g N ni 20 4 ) n i nnf i i u e n
正如 它的名 字那样 ,网络蜘 蛛在 互联 网 内,通过 网页链 接 , 从 一 个 网 页爬 到 另 外 一 个 网 页 ,并 收 集 网 页 内 容 , 再 分 析 其 中的 链 接 ,进 入 另 一 个 页 面 。 理 论 上 , 网络 蜘 蛛 可 以 收 集 全
图 1
球所有服务器上的 网页信息 。