主题爬虫的搜索策略研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Survey on searching strategies of focused crawler
LIU Han-xing, LIU Cai-xing (College of Informatics, South China Agricultural University, Guangzhou 510642, China)
针对网站级别的算法,主要考虑网站之间的链接关系,按 照 一 定 的 模 型 计 算 链 接 的 权 重 ,关 键 之 处 在 于 站 点 的 划 分 和 站点等级 (SiteRank) 的计算[7-8]。Wu 和 Aberer 讨论了在分布式 情况下,通过对同一个域名下不同主机、服务器的 IP 地址进 行站点划分,构造站点图,计算出站点的 SiteRank。实验表明 能 有 效 减 少 运 算 的 代 价 ,间 接 说 明 了 网 页 的 重 要 性 ,另 外 还 可 避 免 针 对 网 页 统 计 算 法 的 欺 骗 行 为[7]。
Web 页面是一种含有丰富链接结构的半结构化文档,其 中 链 接 结 构 是 爬 虫 工 作 的 基 础 。链 接 分 析 是 基 于 这 样 一 个 前 提:把超链接看作是对它所指的页面的赞许。当页面 A 通过 超链接指向页面 B 时说明两点:①页面 B 与页面 A 是相关联 的;②页面 B 是值得关注的质量较好的页面。通过网页之间 的 链 接 结 构 ,来 评 价 与 网 页 有 直 接 或 间 接 链 接 关 系 的 对 象 ( 网 页 或 网 站 ) 的 算 法 ,本 文 称 为 基 于 网 络 拓 扑 结 构 的 搜 索 策 略 。
不同,Deep Web 主要是由结构化的数据源动态生成,搜索引擎 只能覆盖大约 1/3 的页面。根据网页组织形式的不同,将基于 网页内容的分析算法,分为两类:一类主要针对 Surface Web, 以分析直接可见的文本和超链接为主的网页;另一类针对 Deep Web,主要分析动态生成的网页。 2.2.1 基 于 Surface Web 的 网 页 评 价 算 法
这 类 算 法 以 分 析 页 面 可 见 的 文 本 内 容 为 主 ,主 要 利 用 文 本相似度的计算方法评价页面文本与主题集之间相似程度, 然后再根据相似度的高低决定页面中的链接的访问顺序。
Fish Search 算法[1]将用户输入的查询关键词或短语作为主 题 ,将 包 含 查 询 串 的 页 面 看 作 与 主 题 相 关 ( 相 关 度 为 一 个 离 散 的 值 ),且 仅 搜 索 主 题 相 关 页 面 。优 点 是 模 式 简 单 、动 态 搜 索 , 但不能评价相关程度的高低。Shark Search 算法[1]在前者的基 础上加以改进,充分利用了锚文本及其上下文,采用基于连续 值 的 相 似 度 函 数 计 算 链 接 价 值 ,在 计 算 出 页 面 是 否 相 关 的 同 时,还可以得出相关性的大小。Best-First 算法 [4],利用向量空 间模型计算页面与主题的相似度,实验说明其性能优于 PageRank 算法 ,其 [1-2] 计算方法如公式(1)所示
针对网页级别的分析算法中,典型的有 PageRank [3] 和 HITS [3],两 者 都 是 通 过 对 网 页 间 链 接 度 的 递 归 和 规 范 化 计 算 , 得到每个网页的重要度评价。PageRank 算法的“用户冲浪”模 型 考 虑 了 用 户 访 问 行 为 的 随 机 性 ,但 忽 略 了 用 户 访 问 行 为 目 的性,即网页和链接与查询主题的相关性。针对这个问题, HITS 算法计算页面的 Authority 权重和 Hub 权重,并以此决定 页面中链接的访问顺序。
网络爬虫 (Crawler,或 Spider 程序) 是一个自动下载 Web 网 页 的 程 序 ,是 搜 索 引 擎 的 基 础 与 核 心 。 主 题 搜 索 引 擎 中 的 主题爬虫,首先需要定义“主题概念”,明确“主题”的范围和内 容 ,即 对“主 题”进 行 描 述 或 定 义 。 主 题 概 念 可 以 用 主 题 词 集 来 表 示 ,也 可 以 表 示 为 示 例 文 档 ( 由 用 户 选 定 的 种 子 样 本 ),也 可来源于某一领域概念。主题爬虫在工作时,只抓取与主题 相关的网页或内容。为了保证采集到的信息的主题相关性, 以何种策略来决定访问 Web 的搜索路径,是主题爬虫研究的 焦点 。该 [1-4] 文根据网页评价算法的不同,对比分析了主题爬虫 的几种搜索策略,总结了提高主题爬虫搜索效率的几个方面。
页面的结构化特征,很难反映 Web 的整体情况,存在“近视”
的缺点 。 [10]
ቤተ መጻሕፍቲ ባይዱ
- 3160 -
(a) 通用搜索引擎搜索顺序 (b) 主题搜索引擎搜索顺序
图 1 两类搜索引擎爬虫搜索顺序
即一个站点倾向于说明一个或多个主题;②Hub 特征,Hub 页 面 是 指 该 页 面 不 但 含 有 许 多 指 出 链 接 ,并 且 这 些 链 接 趋 向 于 同一主题;③Linkage/Sibling Locality 特征,Linkage Locality 是指 页面倾向于拥有链接到它的页面的主题,Sibling Locality 是指 对 于 一 个 链 接 到 某 个 主 题 页 面 的 页 面 而 言 ,它 所 链 接 指 向 的 其它页面也倾向于和这个主题相关;④Tunnel 特征,在不同的 主 题 页 面 之 间 ,往 往 是 通 过 许 多 主 题 无 关 链 接 连 接 在 一 起 。由 此 ,网 页 评 价 算 法 可 归 纳 为 不 同 类 型 。 2.1 基 于 网 络 拓 扑 结构 的 评 价 算 法
Abstract:While focused Crawler collect information, it needs to evaluate the relevance of web pages, and process firstly pages which have higher relevance, thus deciding the search path and efficiency of crawler. Web crawler's searching strategies based on the way they evaluate the web page is categorized. The character of each class of searching strategy is described and the advantage and disadvantage is discussed, several ways to improving the efficiency of web crawlers are summed up. Key words:focused crawler; searching strategy; page evaluating; search engine; optimization
基于网页内容的分析算法指的是利用网页内容(词条等) 特征进行的网页评价。网页的内容由最初静态的 Html 页面 (surface web),发展到以动态页面(Deep Web 或 Hidden Web)为 主 的 页 面 分 布 情 况[9],相 对 于 可 以 被 搜 索 引 擎 直 接 处 理 的 前 者
主题搜索引擎索引的内容只限于特定主题或专门领域, 因而在搜索的过程中无须对整个 Web 进行遍历,如图 1 (b) 所 示 ,它 只 需 选 择 与 主 题 页 面 相 关 的 页 面 进 行 访 问 。
网络爬虫对网页的抓取策略分为广度优先和最佳优先两 种,主题爬虫主要采用后者 。 [1-2] 广度优先能较快找到高质量 的 网 页 ,同 时 页 面 覆 盖 率 较 高 ,但 随 着 爬 虫“爬 行”的 深 入 ,抓 取 页 面 的 相 关 度 也 随 之 降 低 。最 佳 优 先 策 略 的 基 本 思 想 是 按 照 一 定 的 网 页 评 价 算 法 ,计 算 网 页 与 主 题 的 相 关 性 ,选 取“价 值”最 高 的 网 页 中 的 链 接 进 行 抓 取 。因 此 ,如 何 评 价 页 面 价 值 成为研究主题爬虫搜索策略的关键。
*
,=
=1
(1)
2
2
=1
=1
式中:, ——主题向量和页面向量, , ——主题和页面的
特 征 项 的 权 重 ,M—— 维 数 。
以上算法都考虑以文本的内容与主题的相似度来评价链
接 价 值 的 高 低 ,从 而 决 定 其 搜 索 策 略 。优 点 是 计 算 简 单 ,在 距
离相关页面较近的地方搜索时性能较好,但由于忽略了 Web
第 29 卷 第 12 期 Vol. 29 No. 12
计算机工程与设计
Computer Engineering and Design
2008 年 6 月 June 2008
主题爬虫的搜索策略研究
刘汉兴, 刘财兴 (华南农业大学 信息学院,广东 广州 510642)
摘 要:主题爬虫 收集主题相关信 息时,需要评 价网页的主题 相关度,并优 先爬取相关度较 高的网页,在 决定了搜索路 径的 同时 也决定了主题爬 虫的搜索效率 。针对不同的网 页评价算法,对现 有的主题爬虫的 搜索策略进行 分类,指出了各类 搜索 策略 的特点和优缺点 ,总结了能够提 高主题爬虫搜索 效率的几方面 内容。 关键 词:主 题爬虫; 搜索策 略; 页面评价; 搜索引擎; 优 化 中图 法分类号:TP391 文献标 识码:A 文章编号:1000-7024 (2008) 12-3160-03
2 网页评价算法研究
Web 上的页面分布表面看似杂乱无章,但主题页面的分 布却有一定的规律,可总结为 4 个特征 :① [3,6,10] 站点主题特征,
收稿日期:2007-06-25 E-mail:liuhx666@21cn.com 基金项目:国家 863 高技术研究发展计划基金项目 (2006AA10Z246)。 作者简介:刘汉兴 (1971-),男,湖北鄂州人,硕士,讲师,研究方向为智能检索、自然语言处理; 刘财兴 (1962-),男,副教授,研究方向 为无线传感器网络、计算机网络。
基于链接结构评价的搜索策略,考虑了链接的结构特征, 对 主 题 相 关 网 站 搜 索 时 使 用 效 果 较 好 ,但 由 于 忽 略 页 面 内 容 与主题的相关性,容易出现搜索偏离主题的“主题漂移”问题, 另外在搜索过程中需要迭代计算 PageRank 值或 Authority 及 Hub 权重,当页面和链接数量不断增长时计算复杂度也呈指 数级增 长 。 [3] 2.2 基 于 网 页 内 容 的评 价 算 法
0引言
目前的谷歌、百度等搜索引擎,自动搜集整理互联网上的 信 息 ,为 一 般 用 户 提 供 检 索 服 务 ,可 以 称 为 通 用 搜 索 引 擎 。但 对于专业用户及研究人员来说,他们的查询往往是针对某 个领域或面向特定主题,使用通用搜索引擎进行检索效果 不 理想 ,准确 率和 召回 率都很 低,因此 就出现 了主 题搜 索引 擎(topic-specific search engine,又称专业搜索引擎)。
1 主题爬虫的工作原理
网络爬虫在采集 Web 信息时,通常从一个“种子集”(种子
链接) 出发,下载页面并提取其中的子链接,然后再访问子链 接对应的内容,如此不断重复即可实现遍历 Web 信息。网络 爬虫的搜索策略与搜索引擎的性质和任务密切相关[5],为了获 得较高的 Web 覆盖率,通用搜索引擎网络爬虫通常采用图的 遍历算法搜索 Web,如图 1(a)所示,其中白框代表主体无关页 面 ,黑 框 代 表 主 体 相 关 页 面 ,虚 线 代 表 链 接 ,实 箭 头 代 表 访 问 顺 序 )。
LIU Han-xing, LIU Cai-xing (College of Informatics, South China Agricultural University, Guangzhou 510642, China)
针对网站级别的算法,主要考虑网站之间的链接关系,按 照 一 定 的 模 型 计 算 链 接 的 权 重 ,关 键 之 处 在 于 站 点 的 划 分 和 站点等级 (SiteRank) 的计算[7-8]。Wu 和 Aberer 讨论了在分布式 情况下,通过对同一个域名下不同主机、服务器的 IP 地址进 行站点划分,构造站点图,计算出站点的 SiteRank。实验表明 能 有 效 减 少 运 算 的 代 价 ,间 接 说 明 了 网 页 的 重 要 性 ,另 外 还 可 避 免 针 对 网 页 统 计 算 法 的 欺 骗 行 为[7]。
Web 页面是一种含有丰富链接结构的半结构化文档,其 中 链 接 结 构 是 爬 虫 工 作 的 基 础 。链 接 分 析 是 基 于 这 样 一 个 前 提:把超链接看作是对它所指的页面的赞许。当页面 A 通过 超链接指向页面 B 时说明两点:①页面 B 与页面 A 是相关联 的;②页面 B 是值得关注的质量较好的页面。通过网页之间 的 链 接 结 构 ,来 评 价 与 网 页 有 直 接 或 间 接 链 接 关 系 的 对 象 ( 网 页 或 网 站 ) 的 算 法 ,本 文 称 为 基 于 网 络 拓 扑 结 构 的 搜 索 策 略 。
不同,Deep Web 主要是由结构化的数据源动态生成,搜索引擎 只能覆盖大约 1/3 的页面。根据网页组织形式的不同,将基于 网页内容的分析算法,分为两类:一类主要针对 Surface Web, 以分析直接可见的文本和超链接为主的网页;另一类针对 Deep Web,主要分析动态生成的网页。 2.2.1 基 于 Surface Web 的 网 页 评 价 算 法
这 类 算 法 以 分 析 页 面 可 见 的 文 本 内 容 为 主 ,主 要 利 用 文 本相似度的计算方法评价页面文本与主题集之间相似程度, 然后再根据相似度的高低决定页面中的链接的访问顺序。
Fish Search 算法[1]将用户输入的查询关键词或短语作为主 题 ,将 包 含 查 询 串 的 页 面 看 作 与 主 题 相 关 ( 相 关 度 为 一 个 离 散 的 值 ),且 仅 搜 索 主 题 相 关 页 面 。优 点 是 模 式 简 单 、动 态 搜 索 , 但不能评价相关程度的高低。Shark Search 算法[1]在前者的基 础上加以改进,充分利用了锚文本及其上下文,采用基于连续 值 的 相 似 度 函 数 计 算 链 接 价 值 ,在 计 算 出 页 面 是 否 相 关 的 同 时,还可以得出相关性的大小。Best-First 算法 [4],利用向量空 间模型计算页面与主题的相似度,实验说明其性能优于 PageRank 算法 ,其 [1-2] 计算方法如公式(1)所示
针对网页级别的分析算法中,典型的有 PageRank [3] 和 HITS [3],两 者 都 是 通 过 对 网 页 间 链 接 度 的 递 归 和 规 范 化 计 算 , 得到每个网页的重要度评价。PageRank 算法的“用户冲浪”模 型 考 虑 了 用 户 访 问 行 为 的 随 机 性 ,但 忽 略 了 用 户 访 问 行 为 目 的性,即网页和链接与查询主题的相关性。针对这个问题, HITS 算法计算页面的 Authority 权重和 Hub 权重,并以此决定 页面中链接的访问顺序。
网络爬虫 (Crawler,或 Spider 程序) 是一个自动下载 Web 网 页 的 程 序 ,是 搜 索 引 擎 的 基 础 与 核 心 。 主 题 搜 索 引 擎 中 的 主题爬虫,首先需要定义“主题概念”,明确“主题”的范围和内 容 ,即 对“主 题”进 行 描 述 或 定 义 。 主 题 概 念 可 以 用 主 题 词 集 来 表 示 ,也 可 以 表 示 为 示 例 文 档 ( 由 用 户 选 定 的 种 子 样 本 ),也 可来源于某一领域概念。主题爬虫在工作时,只抓取与主题 相关的网页或内容。为了保证采集到的信息的主题相关性, 以何种策略来决定访问 Web 的搜索路径,是主题爬虫研究的 焦点 。该 [1-4] 文根据网页评价算法的不同,对比分析了主题爬虫 的几种搜索策略,总结了提高主题爬虫搜索效率的几个方面。
页面的结构化特征,很难反映 Web 的整体情况,存在“近视”
的缺点 。 [10]
ቤተ መጻሕፍቲ ባይዱ
- 3160 -
(a) 通用搜索引擎搜索顺序 (b) 主题搜索引擎搜索顺序
图 1 两类搜索引擎爬虫搜索顺序
即一个站点倾向于说明一个或多个主题;②Hub 特征,Hub 页 面 是 指 该 页 面 不 但 含 有 许 多 指 出 链 接 ,并 且 这 些 链 接 趋 向 于 同一主题;③Linkage/Sibling Locality 特征,Linkage Locality 是指 页面倾向于拥有链接到它的页面的主题,Sibling Locality 是指 对 于 一 个 链 接 到 某 个 主 题 页 面 的 页 面 而 言 ,它 所 链 接 指 向 的 其它页面也倾向于和这个主题相关;④Tunnel 特征,在不同的 主 题 页 面 之 间 ,往 往 是 通 过 许 多 主 题 无 关 链 接 连 接 在 一 起 。由 此 ,网 页 评 价 算 法 可 归 纳 为 不 同 类 型 。 2.1 基 于 网 络 拓 扑 结构 的 评 价 算 法
Abstract:While focused Crawler collect information, it needs to evaluate the relevance of web pages, and process firstly pages which have higher relevance, thus deciding the search path and efficiency of crawler. Web crawler's searching strategies based on the way they evaluate the web page is categorized. The character of each class of searching strategy is described and the advantage and disadvantage is discussed, several ways to improving the efficiency of web crawlers are summed up. Key words:focused crawler; searching strategy; page evaluating; search engine; optimization
基于网页内容的分析算法指的是利用网页内容(词条等) 特征进行的网页评价。网页的内容由最初静态的 Html 页面 (surface web),发展到以动态页面(Deep Web 或 Hidden Web)为 主 的 页 面 分 布 情 况[9],相 对 于 可 以 被 搜 索 引 擎 直 接 处 理 的 前 者
主题搜索引擎索引的内容只限于特定主题或专门领域, 因而在搜索的过程中无须对整个 Web 进行遍历,如图 1 (b) 所 示 ,它 只 需 选 择 与 主 题 页 面 相 关 的 页 面 进 行 访 问 。
网络爬虫对网页的抓取策略分为广度优先和最佳优先两 种,主题爬虫主要采用后者 。 [1-2] 广度优先能较快找到高质量 的 网 页 ,同 时 页 面 覆 盖 率 较 高 ,但 随 着 爬 虫“爬 行”的 深 入 ,抓 取 页 面 的 相 关 度 也 随 之 降 低 。最 佳 优 先 策 略 的 基 本 思 想 是 按 照 一 定 的 网 页 评 价 算 法 ,计 算 网 页 与 主 题 的 相 关 性 ,选 取“价 值”最 高 的 网 页 中 的 链 接 进 行 抓 取 。因 此 ,如 何 评 价 页 面 价 值 成为研究主题爬虫搜索策略的关键。
*
,=
=1
(1)
2
2
=1
=1
式中:, ——主题向量和页面向量, , ——主题和页面的
特 征 项 的 权 重 ,M—— 维 数 。
以上算法都考虑以文本的内容与主题的相似度来评价链
接 价 值 的 高 低 ,从 而 决 定 其 搜 索 策 略 。优 点 是 计 算 简 单 ,在 距
离相关页面较近的地方搜索时性能较好,但由于忽略了 Web
第 29 卷 第 12 期 Vol. 29 No. 12
计算机工程与设计
Computer Engineering and Design
2008 年 6 月 June 2008
主题爬虫的搜索策略研究
刘汉兴, 刘财兴 (华南农业大学 信息学院,广东 广州 510642)
摘 要:主题爬虫 收集主题相关信 息时,需要评 价网页的主题 相关度,并优 先爬取相关度较 高的网页,在 决定了搜索路 径的 同时 也决定了主题爬 虫的搜索效率 。针对不同的网 页评价算法,对现 有的主题爬虫的 搜索策略进行 分类,指出了各类 搜索 策略 的特点和优缺点 ,总结了能够提 高主题爬虫搜索 效率的几方面 内容。 关键 词:主 题爬虫; 搜索策 略; 页面评价; 搜索引擎; 优 化 中图 法分类号:TP391 文献标 识码:A 文章编号:1000-7024 (2008) 12-3160-03
2 网页评价算法研究
Web 上的页面分布表面看似杂乱无章,但主题页面的分 布却有一定的规律,可总结为 4 个特征 :① [3,6,10] 站点主题特征,
收稿日期:2007-06-25 E-mail:liuhx666@21cn.com 基金项目:国家 863 高技术研究发展计划基金项目 (2006AA10Z246)。 作者简介:刘汉兴 (1971-),男,湖北鄂州人,硕士,讲师,研究方向为智能检索、自然语言处理; 刘财兴 (1962-),男,副教授,研究方向 为无线传感器网络、计算机网络。
基于链接结构评价的搜索策略,考虑了链接的结构特征, 对 主 题 相 关 网 站 搜 索 时 使 用 效 果 较 好 ,但 由 于 忽 略 页 面 内 容 与主题的相关性,容易出现搜索偏离主题的“主题漂移”问题, 另外在搜索过程中需要迭代计算 PageRank 值或 Authority 及 Hub 权重,当页面和链接数量不断增长时计算复杂度也呈指 数级增 长 。 [3] 2.2 基 于 网 页 内 容 的评 价 算 法
0引言
目前的谷歌、百度等搜索引擎,自动搜集整理互联网上的 信 息 ,为 一 般 用 户 提 供 检 索 服 务 ,可 以 称 为 通 用 搜 索 引 擎 。但 对于专业用户及研究人员来说,他们的查询往往是针对某 个领域或面向特定主题,使用通用搜索引擎进行检索效果 不 理想 ,准确 率和 召回 率都很 低,因此 就出现 了主 题搜 索引 擎(topic-specific search engine,又称专业搜索引擎)。
1 主题爬虫的工作原理
网络爬虫在采集 Web 信息时,通常从一个“种子集”(种子
链接) 出发,下载页面并提取其中的子链接,然后再访问子链 接对应的内容,如此不断重复即可实现遍历 Web 信息。网络 爬虫的搜索策略与搜索引擎的性质和任务密切相关[5],为了获 得较高的 Web 覆盖率,通用搜索引擎网络爬虫通常采用图的 遍历算法搜索 Web,如图 1(a)所示,其中白框代表主体无关页 面 ,黑 框 代 表 主 体 相 关 页 面 ,虚 线 代 表 链 接 ,实 箭 头 代 表 访 问 顺 序 )。