面向主题的快速搜索引擎的设计与研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中图分类号 : P 9 T 3 文献标 识码 : A 文章编号 :10 7 6 (0 1 0 0 1 0 0 9— 9 1 2 1 )3— 0 2— 4
OnF s e rh E gn s na d Ree rhB sdo u jc — re td a t a c n ieDei n sa c ae n S bet—o ine S g
密 度较 高 。
( )对 等 待 队列 中 的 U L 先 根据 q值 大 小 2 R ,
排 序 , 根 据相关 度 的大 小排 序 。 再
() 3 根据第二步排好序的等待队列 , 将排序最
前 的 U L拿 出放 进抓取 队列 , 虫 开始抓 取 。 R 爬
网站 内不 同主题 网页
必 须 核查链 接 和文 档 , 以防 网页被 重复 抓取 。
评 价 主 题 网络 爬 虫 系 统 的 指 标 主 要 有 两 个 : 爬 准率 ( rcs n 和爬 全率 ( ea ) Pei o ) i Rcl 。 1
爬 准 率 : rcs n=采 集 的 目标 网 页 数/ 爬 Peio i 总
tcn lg , n y uig sbet—o e t pi i d n tok rp l a oi m,ds n ujc —o etd eh o y a d b s u jc o n i d r ne ot z e r e te l rh m e w i g t ei ssbet r ne g i
( )算法结束。 8
12 主 题 爬 虫 抓 取 算 法 .
爬虫 抓 取 过 程 中使 用 了 四个 队 列 , 别 是 等 分 待 队列 、 抓取 队列 、 错误 队列 、 成 队列 。 完
等待 队列 : 爬虫解析到 的 U L先被保存到等 R 待队列中, 在等待 队列 中的 U L按照特定的排序 R
第 2 第 3期 0卷 2 1 年 6月 01
淮
阴
工
学
院
学
报
V0, l20 No. 3
J u n lo a yn I si t fT c n l g o r a fHu i i n t u e o e h oo y t
J n 2 1 u .0 1
面 向主题 的快速搜 索 引擎的设计 与研究
主题确定 : 采用主题词集来确立主题 , 对每个 主题 词指 定不 同的权 值 。权 值 设 置 采 用 特 征 提 取
和手 工设 置两 种方 法 。
网页 抓 取 : 题爬 虫 由给 定 的一 个 链 接 集 开 主
1 4
淮 阴 工
学 院
学
报
始 。按照链 接 的 权 重 次 序 进 行 检 索 , 些 网页 被 这 传 递 到预 处 理 模 块 。对 重 定 向链 接 和 镜 像 站 点 ,
进行比较 , 其结果分为三种情况 : ①相关度值 大于相关度 阈值 , 父网页 的相 且 关性消息 q 值等于初始值 , 则直接传递父网页的 q
值 给子 网 页 。
主题爬虫算法
<识 结 描 > \ 别 果 述/ \
/
\
② 相 关 度 值 大 于 相 关 度 阈值 , 父 网页 的相 且 关 性消 息 q值小 于初 始 值 , 恢 复 q值 为 初 始 值 , 则
规则进 行 排序 , 等候 爬 虫 的抓取 。
抓 取 队列 : R U L在 抓 取 时被 放 进 抓 取 队 列 , 目 的是 防止 U L被 同时多 次抓 取 。 R
错 误 队列 : 抓 取 过 程 中 出错 的 U L被 保 存 在 R
到错误 队列 。
完成 队列 : 一个 U L被爬 虫完 全 抓取 之 后 , R 就
s a c n i o s tsy t e n s o ifr n s r t ifr n pe ily a d h b e .Th s s a c n i e e r h e gne t a if he d ma d fd fe e tu e s wi d fe e ts c at n o bis h i e r h e gn ha h h r ce sis o i h efce c st e c a a t r tc fh g fi in y,p a tc b l y a d l w o twhih c n ma e r h a d t s falt i r c ia ii n o c s t c a ke s a c n e to l he do si l me tc wel—k o b ie n wn we sts,a d t e e pe me a a i d c t st a hi e r h e gne d t e ala d t n h x r ntd t n i ae h tt ss a c n i  ̄ aa r c n he i l
W e p i sO p i ia i n Al o ihm b Re tl tm z to g rt e
Z HANG —n ,JANG Hu ,HAO Xin An i I a a g—l n i a
(hnogY lwRvr n r t nC ne, ia 503, hn ) Sadn eo i f mao et Jnn20 1 C ia l e Io i r
张 安妮 , 姜 华 , 相 莲 郝
( 山东黄河信息 中心 ,济南 2 0 1 ) 50 3 摘 要 : 目前 流行的搜索 引擎 技术进行分 析 、 对 比较 , 采用 面向主题 的优 化网络爬虫算 法 , 设计 能更好地满 足用 户不同专业
和爱好需 求的主题搜索引擎 。该搜 索引擎具有高效 、 用、 实 低成本等优 点 , 可对 国内各大知 名网站进行 搜索测试 。实验结 果表 明 , 该搜索引擎 的数据 查全率和查准率都 高于普通 搜索引擎 , 可以进一 步推广应用到各类办公 、 商务网站上。 关键词 :主题 ; 搜索引擎 ; 网络爬虫
势之一。
收稿 日期 : 0 1 0 0 2 1 — 4— 8 作者简介 :张安 妮( 9 9一) 女 , 17 , 山东东营人 , 硕士 , 工程 师 , 主要从事 电子 政务 、 数据挖掘研究 。
() 2 对网页或数据的分析与过滤 ; ( ) U L的搜索策略 。 3对 R
第 3期
被 放进 完 成 队列 。
图 1 主 题 爬 虫 搜 索 框 架
面 向主题 爬 虫 搜 索 框 架 见 图 1 具 体 算 法 如 ,
下 :
( )将初 始 页 面 U L集 合 放 进 等 待 队列 , 1 R 分
2 搜 索 引 擎模 型 设 计
该搜索引擎模 型设计 分为五个模 块 : 主题 确
张安妮 , 姜华 , 郝相莲 :面 向主题 的快速搜索 引擎 的设 计与研究
1 3
抓取 目 标定义是网页分析算法与 U L 索策 R 搜 略的基础 , 网页分析算法 和排序算法是 决定搜 而 索 引擎所 提供 的服 务 形 式 和爬 虫 网 页抓 取 行 为 的
关键 , 两部分 算 法是 紧密 相关 的 。 这
网页 预处 理 : 取 网 页 先存 人 本 地 硬 盘 , 用 行 网页 数 ; 抓 利
网页 清洗 工 具 ( :ty 对 网页 代 码 进 行 纠 错 及 如 Jd ) i
规 范 化处 理 。文 本 预 处 理 技 术 用 于 规 范 化 文 本 ,
Ab t a t h s p p rma e n a ay i a d c mp rs n o e t c n q e ft e p e e tp p lrs a c n i e s r c :T i a e k s a n l ss n o a ioLeabharlann Baidu ft e h i u so r s n o ua e r h e gn h h
Ke y wor s:t me; e c n i e; b r pt e d he s a h e gn we e i s r l
O 引言
WE B搜索 引擎 (erhE gn ) 随着 It nt Sac nie 是 ne e r
1 面 向主题 的优化爬虫算法设计
1 1 网络 爬 虫 的 工作 原 理 .
() 4 下载网页到本地磁盘 , 并建立索引 , 然后
将 U L地 址放 进完 成 队列 。 R ( )利用解 析 器解 析 出 网页 中的链 接 与对 应 5
的链接 文本 , 计算 链 接地 址相 关度值 。
抽取特征信息
查询搜索引擎
( )将第 四步得 到 的相关度 值 与相关 度 阈值 f 6
传递 q 值给子网页。
图 2 搜索引擎模型设计
③相关度值小于相关度阈值 , 则将父网页的 q (< < ) 0 q 1 值乘以遗传基因 比例 m, 传递子网页的
相 关性 消息 值 q m。
( )将 U L q值 和 相 关 度 值 放 进 等 待 队列 , 7 R 、 重 复第 二 步 。
技术和 We 信息的迅速发展 , b 从上世纪 9 O年代初 网络爬 虫是 一个 功能 强 大 的 自动提 取 网页 程 开始 逐渐 发 展 起 来 的 。一 般 地 , 索 引 擎 是 指 根 序 , 搜 通过 请求 站点 上 的 H ML文 档 访 问某 一 站 点 , T 据一 定 的策 略 、 用 特 定 的计 算 机 程 序 搜 集 互 联 遍历 We 间 , 一个 站 点移 动到 另 一个 站 点 , 运 b空 从 自 网上 的信息 , 在对信息进 行组织和处理后 , 为用户 动建 立 索 引 , 加 入 到 网页 数 据 库 中。 网络 爬 虫 并 提供 检 索服务 。 进 入某个 超 级 文 本 时 , 用 H ML语 言 标 记 结 构 利 T 随着 网络信 息技术 的高速发展 , 搜索引擎 的 来搜索信 息及获取 指 向其他 超级文本 的 U L地 R 关注点从如何找到更 多的信息转移到如何找到准 址 , 可以完全不依赖用户干 预实现 网络 上的 自动 确、 有用 的 信 息 , 准 率 成 为 搜 索 引 擎 的 首 要 目 查 “ 行” 爬 和搜 索 。 标, 而这正是 综合 型搜 索 引擎 面临 的问题 所在 。 主题爬 虫还 要解 决 的主要 问题 : 于是 , 为查 询 某 一 主 题 或 学 科 信 息 的 主题 搜 索 专 () 1 对抓 取 目标 的定 义 ; 引擎便应运而生 , 并成为搜索 引擎 发展的 主要 趋
a c r c ai r ih rt a h to e o d n r e r h e gn ,whc a e f r e x e d d t l kn so c u a y r t a e h g e h n t a f h r i a y s a c n i e o t ih c n b u t re tn e o a l id f h o e a d c mme c a b i s w t o e e e c a u . mc n o r i we st i s me r fr n e v e l e h l
配每个 U L一 个 相 关 性 消 息 值 q 并 给 每 个 U L R , R
网页抓 取 、 网页 预 处 理 、 网页 分类 和 网 页选 择 , 相等的相关度值 , 到后面将要计算到的值较大 , 初 定 、 始 页面 会 人 为 地 根 据 主 题 进 行 筛 选 , 主 题 的 紧 如 图 2所示 。 与
OnF s e rh E gn s na d Ree rhB sdo u jc — re td a t a c n ieDei n sa c ae n S bet—o ine S g
密 度较 高 。
( )对 等 待 队列 中 的 U L 先 根据 q值 大 小 2 R ,
排 序 , 根 据相关 度 的大 小排 序 。 再
() 3 根据第二步排好序的等待队列 , 将排序最
前 的 U L拿 出放 进抓取 队列 , 虫 开始抓 取 。 R 爬
网站 内不 同主题 网页
必 须 核查链 接 和文 档 , 以防 网页被 重复 抓取 。
评 价 主 题 网络 爬 虫 系 统 的 指 标 主 要 有 两 个 : 爬 准率 ( rcs n 和爬 全率 ( ea ) Pei o ) i Rcl 。 1
爬 准 率 : rcs n=采 集 的 目标 网 页 数/ 爬 Peio i 总
tcn lg , n y uig sbet—o e t pi i d n tok rp l a oi m,ds n ujc —o etd eh o y a d b s u jc o n i d r ne ot z e r e te l rh m e w i g t ei ssbet r ne g i
( )算法结束。 8
12 主 题 爬 虫 抓 取 算 法 .
爬虫 抓 取 过 程 中使 用 了 四个 队 列 , 别 是 等 分 待 队列 、 抓取 队列 、 错误 队列 、 成 队列 。 完
等待 队列 : 爬虫解析到 的 U L先被保存到等 R 待队列中, 在等待 队列 中的 U L按照特定的排序 R
第 2 第 3期 0卷 2 1 年 6月 01
淮
阴
工
学
院
学
报
V0, l20 No. 3
J u n lo a yn I si t fT c n l g o r a fHu i i n t u e o e h oo y t
J n 2 1 u .0 1
面 向主题 的快速搜 索 引擎的设计 与研究
主题确定 : 采用主题词集来确立主题 , 对每个 主题 词指 定不 同的权 值 。权 值 设 置 采 用 特 征 提 取
和手 工设 置两 种方 法 。
网页 抓 取 : 题爬 虫 由给 定 的一 个 链 接 集 开 主
1 4
淮 阴 工
学 院
学
报
始 。按照链 接 的 权 重 次 序 进 行 检 索 , 些 网页 被 这 传 递 到预 处 理 模 块 。对 重 定 向链 接 和 镜 像 站 点 ,
进行比较 , 其结果分为三种情况 : ①相关度值 大于相关度 阈值 , 父网页 的相 且 关性消息 q 值等于初始值 , 则直接传递父网页的 q
值 给子 网 页 。
主题爬虫算法
<识 结 描 > \ 别 果 述/ \
/
\
② 相 关 度 值 大 于 相 关 度 阈值 , 父 网页 的相 且 关 性消 息 q值小 于初 始 值 , 恢 复 q值 为 初 始 值 , 则
规则进 行 排序 , 等候 爬 虫 的抓取 。
抓 取 队列 : R U L在 抓 取 时被 放 进 抓 取 队 列 , 目 的是 防止 U L被 同时多 次抓 取 。 R
错 误 队列 : 抓 取 过 程 中 出错 的 U L被 保 存 在 R
到错误 队列 。
完成 队列 : 一个 U L被爬 虫完 全 抓取 之 后 , R 就
s a c n i o s tsy t e n s o ifr n s r t ifr n pe ily a d h b e .Th s s a c n i e e r h e gne t a if he d ma d fd fe e tu e s wi d fe e ts c at n o bis h i e r h e gn ha h h r ce sis o i h efce c st e c a a t r tc fh g fi in y,p a tc b l y a d l w o twhih c n ma e r h a d t s falt i r c ia ii n o c s t c a ke s a c n e to l he do si l me tc wel—k o b ie n wn we sts,a d t e e pe me a a i d c t st a hi e r h e gne d t e ala d t n h x r ntd t n i ae h tt ss a c n i  ̄ aa r c n he i l
W e p i sO p i ia i n Al o ihm b Re tl tm z to g rt e
Z HANG —n ,JANG Hu ,HAO Xin An i I a a g—l n i a
(hnogY lwRvr n r t nC ne, ia 503, hn ) Sadn eo i f mao et Jnn20 1 C ia l e Io i r
张 安妮 , 姜 华 , 相 莲 郝
( 山东黄河信息 中心 ,济南 2 0 1 ) 50 3 摘 要 : 目前 流行的搜索 引擎 技术进行分 析 、 对 比较 , 采用 面向主题 的优 化网络爬虫算 法 , 设计 能更好地满 足用 户不同专业
和爱好需 求的主题搜索引擎 。该搜 索引擎具有高效 、 用、 实 低成本等优 点 , 可对 国内各大知 名网站进行 搜索测试 。实验结 果表 明 , 该搜索引擎 的数据 查全率和查准率都 高于普通 搜索引擎 , 可以进一 步推广应用到各类办公 、 商务网站上。 关键词 :主题 ; 搜索引擎 ; 网络爬虫
势之一。
收稿 日期 : 0 1 0 0 2 1 — 4— 8 作者简介 :张安 妮( 9 9一) 女 , 17 , 山东东营人 , 硕士 , 工程 师 , 主要从事 电子 政务 、 数据挖掘研究 。
() 2 对网页或数据的分析与过滤 ; ( ) U L的搜索策略 。 3对 R
第 3期
被 放进 完 成 队列 。
图 1 主 题 爬 虫 搜 索 框 架
面 向主题 爬 虫 搜 索 框 架 见 图 1 具 体 算 法 如 ,
下 :
( )将初 始 页 面 U L集 合 放 进 等 待 队列 , 1 R 分
2 搜 索 引 擎模 型 设 计
该搜索引擎模 型设计 分为五个模 块 : 主题 确
张安妮 , 姜华 , 郝相莲 :面 向主题 的快速搜索 引擎 的设 计与研究
1 3
抓取 目 标定义是网页分析算法与 U L 索策 R 搜 略的基础 , 网页分析算法 和排序算法是 决定搜 而 索 引擎所 提供 的服 务 形 式 和爬 虫 网 页抓 取 行 为 的
关键 , 两部分 算 法是 紧密 相关 的 。 这
网页 预处 理 : 取 网 页 先存 人 本 地 硬 盘 , 用 行 网页 数 ; 抓 利
网页 清洗 工 具 ( :ty 对 网页 代 码 进 行 纠 错 及 如 Jd ) i
规 范 化处 理 。文 本 预 处 理 技 术 用 于 规 范 化 文 本 ,
Ab t a t h s p p rma e n a ay i a d c mp rs n o e t c n q e ft e p e e tp p lrs a c n i e s r c :T i a e k s a n l ss n o a ioLeabharlann Baidu ft e h i u so r s n o ua e r h e gn h h
Ke y wor s:t me; e c n i e; b r pt e d he s a h e gn we e i s r l
O 引言
WE B搜索 引擎 (erhE gn ) 随着 It nt Sac nie 是 ne e r
1 面 向主题 的优化爬虫算法设计
1 1 网络 爬 虫 的 工作 原 理 .
() 4 下载网页到本地磁盘 , 并建立索引 , 然后
将 U L地 址放 进完 成 队列 。 R ( )利用解 析 器解 析 出 网页 中的链 接 与对 应 5
的链接 文本 , 计算 链 接地 址相 关度值 。
抽取特征信息
查询搜索引擎
( )将第 四步得 到 的相关度 值 与相关 度 阈值 f 6
传递 q 值给子网页。
图 2 搜索引擎模型设计
③相关度值小于相关度阈值 , 则将父网页的 q (< < ) 0 q 1 值乘以遗传基因 比例 m, 传递子网页的
相 关性 消息 值 q m。
( )将 U L q值 和 相 关 度 值 放 进 等 待 队列 , 7 R 、 重 复第 二 步 。
技术和 We 信息的迅速发展 , b 从上世纪 9 O年代初 网络爬 虫是 一个 功能 强 大 的 自动提 取 网页 程 开始 逐渐 发 展 起 来 的 。一 般 地 , 索 引 擎 是 指 根 序 , 搜 通过 请求 站点 上 的 H ML文 档 访 问某 一 站 点 , T 据一 定 的策 略 、 用 特 定 的计 算 机 程 序 搜 集 互 联 遍历 We 间 , 一个 站 点移 动到 另 一个 站 点 , 运 b空 从 自 网上 的信息 , 在对信息进 行组织和处理后 , 为用户 动建 立 索 引 , 加 入 到 网页 数 据 库 中。 网络 爬 虫 并 提供 检 索服务 。 进 入某个 超 级 文 本 时 , 用 H ML语 言 标 记 结 构 利 T 随着 网络信 息技术 的高速发展 , 搜索引擎 的 来搜索信 息及获取 指 向其他 超级文本 的 U L地 R 关注点从如何找到更 多的信息转移到如何找到准 址 , 可以完全不依赖用户干 预实现 网络 上的 自动 确、 有用 的 信 息 , 准 率 成 为 搜 索 引 擎 的 首 要 目 查 “ 行” 爬 和搜 索 。 标, 而这正是 综合 型搜 索 引擎 面临 的问题 所在 。 主题爬 虫还 要解 决 的主要 问题 : 于是 , 为查 询 某 一 主 题 或 学 科 信 息 的 主题 搜 索 专 () 1 对抓 取 目标 的定 义 ; 引擎便应运而生 , 并成为搜索 引擎 发展的 主要 趋
a c r c ai r ih rt a h to e o d n r e r h e gn ,whc a e f r e x e d d t l kn so c u a y r t a e h g e h n t a f h r i a y s a c n i e o t ih c n b u t re tn e o a l id f h o e a d c mme c a b i s w t o e e e c a u . mc n o r i we st i s me r fr n e v e l e h l
配每个 U L一 个 相 关 性 消 息 值 q 并 给 每 个 U L R , R
网页抓 取 、 网页 预 处 理 、 网页 分类 和 网 页选 择 , 相等的相关度值 , 到后面将要计算到的值较大 , 初 定 、 始 页面 会 人 为 地 根 据 主 题 进 行 筛 选 , 主 题 的 紧 如 图 2所示 。 与