基于关键词的主题网络爬虫
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ELECTRONICS WORLD ·技 术 交 流
基 -3=荚 键 词 g- 3重 题 网 络 爬 密
南京航 空航天大学 周 萍
【摘要 】通常来说 ,用户从搜索引擎获取的网页中,大部分都是不符合特定需求的,只有一小部分才是想要的结果。网络爬虫在搜 索引擎中 扮 演着 重要 的角 色 ,起 着 关键 性 的作 用 。本文 主要讲 述 了基 于 关键 词 的 网络爬 虫,通过使 用相 关性 决策机 制 和本 体 的知识 来设 计 出最合 适 的 爬 虫抓取 路 径。和 传统 的 网络爬 虫相 比较 ,本 文设 计的爬 虫具有 最优 性 ,并通 过 高准确 性 来提 高搜 索效 率。 【关键词 】网络爬 虫;基于特定主题的网络爬虫;本体 ;关键词;知识路径
网 络爬 虫 的关 键 问题 就 是从web中只 下载 重要 的网 页 ,然 后分 析 这些 网页 中uRL的优 先级 ,并根 据 优先 级放 到uRL队列 中 的合适 位 置 。 网路爬 虫 的 两大 问题 如 下 所示 : (1)计 算 爬 虫抓 取 的 网页 的优 先级 ; (2)设计爬 虫抓 取 Leabharlann Baidu页 的爬行 策 略。
0 引言
网络爬 虫 主要 下载 主题 相 关 的网页 或者 满足 用户 需 求的特 定 网 页 ,而 不是 像传 统 的搜索 引擎 那样 下 载整 个Web网页 库 。因 此 ,主 题 爬 虫 的基本 要求 是选 择那 些满 足 用户 需求 的 网页 。链接 分析 算 法 和 网页排 序 算法 一样 ,通 常 根据URLs的相 关性 和搜 索 策略 对URLs 进 行排 序 ,然 后优 先下载 那些 特定 网页 。
本 文提 出了基 于关 键词 的主 题 网络爬 虫 算法 ,该 算法 是根 据优 先级 和领 域 本体 找 出网 页 的URLs。此 外 ,知 识路 径在 寻 找主 题相 关 网页 中也 发挥 着重 要 的作用 。
网络爬 虫 是搜 索 引擎的 重要 模块 。在 传统 的 网络爬 虫 中 ,将种 子URL作为 爬 虫工 作 的初始URL。在 分析 了种 子URL的 网页 内容之 后 ,爬 虫开 始 下载 网页 ,然后 抽 取 出所 有 的超 链接 ,并 把 这些 链接 存 储到uRL队列 中 ,递 归 执行 上述过 程 ,直到 获得 了相 关结 果 。
1 基于关键词的主题 网络爬虫算法
1.1 背 景 如今 网络 的规模越来 越大 ,信息的更新 率变快 。网络拥有 大量 的
数据信息 ,所 以爬虫需要根据URL的优先级来 下载满足 需求 的网页 。 爬 虫 根据 领域 知识 下载 一 小部 分 网页 ,这些 网 页的 大部 分 内容
是主 题相 关 的 ,因此没 有 必要 从 网上下 载所 有 的网 页 。网页 内容 的 主题 重要 度主 要取 决于 链接 和被 访 问量 。 因此 ,很有 必要 提 出一个 可靠 的爬 虫算 法 。 1.2 爬 虫算法 的研 究设 计及 具体 步骤
假 设本 体 结 构 如 图2.1所 示 ,其 中包 括 不 同 的结 点 以及 相 互 之 间 的联 系 ,这 些联 系代 表 了结 点之 间的 关系 。
择 一个URL种 子作为 算法 的输入 ; (2)构造 本体 知识树 , 并找 出知 识路 径: (3)下载初始 输入URL对 应 的网页; (4)从下载 的网页 中 抽取 出超 链接 内容 ,并把它们插 入到URL队列 中; (5)挖 掘 更 多的 主题 相关 的URL,下 载该URL对应 的 网页 ,并 从 中抽取 出超 链接 , 最后 把 这些 超 链接 插入 到 URL队列 中; (6)重 复上 述 步 骤 ,获 得 更 多 的主题 相关 的 结果 。
基于相 同的软件 系统和硬件环境 ,实验获得 的结果如表2.1所示 : 表2.1两种爬虫系统的 比较
2_2 本 体和 知识 路径 本 体 是 结构 信 息 的其 中一 项 技 术 , 它 也 叫树 或者 图 。本 体 将
信 息系 统 进 行分 层 设 置 ,分 层 的 结构 是 一 个有 向无 环 图 (directed acyclic graph,DAG)。参考 本体 根据 不 同的关 联 关系设 置 了“is a”, “has ’,“part of’。本 体被 用来 构 造信 息和 过滤 信 息 。
爬 虫 算 法 的基 本 步骤 是将 URLs种子 队列作 为 输 入 ,然 后 重 复 执 行 分布 式 的步骤 。从 地址 列表 中取 出某 个地 址 ,确 认该 地址 的主 机 名 ,然 后将 网页 翻译 成对 应 的文档 信 息 ,接 着抽 取 出其 中 的超链 接 。对 于 每一 个被 抽取 的链 接 ,检查 它们 的绝 对地 址 ,并 把它 们添 加 到uRLs的 列表 中, 前提 是 它们 之 前没 有 被访 问过 。该算 法 规则 需要一 个组 件来存 储 下载 的URLs队列 。
验 。 实验 中 ,软件 系统 和硬 件 环境 是 不变 的 。分 别 比较 网络爬 虫 的 关 键词 有本 体和 没有 本体 这 两种情 况 。
实 验 中用 到 的参 数 是 :Depth for looking out=2;Number of
thread=5; Initial seed=1; Seed universal resource locator is=http:// 、)l .google.corn ;Concept in ontology=Java。
此 外 ,还 需 要将 主 机地 址 解 析成 以下三 部 分 : (1)一 部 分用 来 下载 文 档 ; (2)一 部分 用 来 从超 文本 标 记 语 言 中抽取 超 链接 :
(3)一部分 用来 判 断该地 址之 前是 否被 访 问过 。 本文 设计 的爬虫 算法 主要分 六步 ,具体 步骤如 下所 示 : (1)选
基 -3=荚 键 词 g- 3重 题 网 络 爬 密
南京航 空航天大学 周 萍
【摘要 】通常来说 ,用户从搜索引擎获取的网页中,大部分都是不符合特定需求的,只有一小部分才是想要的结果。网络爬虫在搜 索引擎中 扮 演着 重要 的角 色 ,起 着 关键 性 的作 用 。本文 主要讲 述 了基 于 关键 词 的 网络爬 虫,通过使 用相 关性 决策机 制 和本 体 的知识 来设 计 出最合 适 的 爬 虫抓取 路 径。和 传统 的 网络爬 虫相 比较 ,本 文设 计的爬 虫具有 最优 性 ,并通 过 高准确 性 来提 高搜 索效 率。 【关键词 】网络爬 虫;基于特定主题的网络爬虫;本体 ;关键词;知识路径
网 络爬 虫 的关 键 问题 就 是从web中只 下载 重要 的网 页 ,然 后分 析 这些 网页 中uRL的优 先级 ,并根 据 优先 级放 到uRL队列 中 的合适 位 置 。 网路爬 虫 的 两大 问题 如 下 所示 : (1)计 算 爬 虫抓 取 的 网页 的优 先级 ; (2)设计爬 虫抓 取 Leabharlann Baidu页 的爬行 策 略。
0 引言
网络爬 虫 主要 下载 主题 相 关 的网页 或者 满足 用户 需 求的特 定 网 页 ,而 不是 像传 统 的搜索 引擎 那样 下 载整 个Web网页 库 。因 此 ,主 题 爬 虫 的基本 要求 是选 择那 些满 足 用户 需求 的 网页 。链接 分析 算 法 和 网页排 序 算法 一样 ,通 常 根据URLs的相 关性 和搜 索 策略 对URLs 进 行排 序 ,然 后优 先下载 那些 特定 网页 。
本 文提 出了基 于关 键词 的主 题 网络爬 虫 算法 ,该 算法 是根 据优 先级 和领 域 本体 找 出网 页 的URLs。此 外 ,知 识路 径在 寻 找主 题相 关 网页 中也 发挥 着重 要 的作用 。
网络爬 虫 是搜 索 引擎的 重要 模块 。在 传统 的 网络爬 虫 中 ,将种 子URL作为 爬 虫工 作 的初始URL。在 分析 了种 子URL的 网页 内容之 后 ,爬 虫开 始 下载 网页 ,然后 抽 取 出所 有 的超 链接 ,并 把 这些 链接 存 储到uRL队列 中 ,递 归 执行 上述过 程 ,直到 获得 了相 关结 果 。
1 基于关键词的主题 网络爬虫算法
1.1 背 景 如今 网络 的规模越来 越大 ,信息的更新 率变快 。网络拥有 大量 的
数据信息 ,所 以爬虫需要根据URL的优先级来 下载满足 需求 的网页 。 爬 虫 根据 领域 知识 下载 一 小部 分 网页 ,这些 网 页的 大部 分 内容
是主 题相 关 的 ,因此没 有 必要 从 网上下 载所 有 的网 页 。网页 内容 的 主题 重要 度主 要取 决于 链接 和被 访 问量 。 因此 ,很有 必要 提 出一个 可靠 的爬 虫算 法 。 1.2 爬 虫算法 的研 究设 计及 具体 步骤
假 设本 体 结 构 如 图2.1所 示 ,其 中包 括 不 同 的结 点 以及 相 互 之 间 的联 系 ,这 些联 系代 表 了结 点之 间的 关系 。
择 一个URL种 子作为 算法 的输入 ; (2)构造 本体 知识树 , 并找 出知 识路 径: (3)下载初始 输入URL对 应 的网页; (4)从下载 的网页 中 抽取 出超 链接 内容 ,并把它们插 入到URL队列 中; (5)挖 掘 更 多的 主题 相关 的URL,下 载该URL对应 的 网页 ,并 从 中抽取 出超 链接 , 最后 把 这些 超 链接 插入 到 URL队列 中; (6)重 复上 述 步 骤 ,获 得 更 多 的主题 相关 的 结果 。
基于相 同的软件 系统和硬件环境 ,实验获得 的结果如表2.1所示 : 表2.1两种爬虫系统的 比较
2_2 本 体和 知识 路径 本 体 是 结构 信 息 的其 中一 项 技 术 , 它 也 叫树 或者 图 。本 体 将
信 息系 统 进 行分 层 设 置 ,分 层 的 结构 是 一 个有 向无 环 图 (directed acyclic graph,DAG)。参考 本体 根据 不 同的关 联 关系设 置 了“is a”, “has ’,“part of’。本 体被 用来 构 造信 息和 过滤 信 息 。
爬 虫 算 法 的基 本 步骤 是将 URLs种子 队列作 为 输 入 ,然 后 重 复 执 行 分布 式 的步骤 。从 地址 列表 中取 出某 个地 址 ,确 认该 地址 的主 机 名 ,然 后将 网页 翻译 成对 应 的文档 信 息 ,接 着抽 取 出其 中 的超链 接 。对 于 每一 个被 抽取 的链 接 ,检查 它们 的绝 对地 址 ,并 把它 们添 加 到uRLs的 列表 中, 前提 是 它们 之 前没 有 被访 问过 。该算 法 规则 需要一 个组 件来存 储 下载 的URLs队列 。
验 。 实验 中 ,软件 系统 和硬 件 环境 是 不变 的 。分 别 比较 网络爬 虫 的 关 键词 有本 体和 没有 本体 这 两种情 况 。
实 验 中用 到 的参 数 是 :Depth for looking out=2;Number of
thread=5; Initial seed=1; Seed universal resource locator is=http:// 、)l .google.corn ;Concept in ontology=Java。
此 外 ,还 需 要将 主 机地 址 解 析成 以下三 部 分 : (1)一 部 分用 来 下载 文 档 ; (2)一 部分 用 来 从超 文本 标 记 语 言 中抽取 超 链接 :
(3)一部分 用来 判 断该地 址之 前是 否被 访 问过 。 本文 设计 的爬虫 算法 主要分 六步 ,具体 步骤如 下所 示 : (1)选