基于Heritrix的网页内容过滤抓取
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学 院Biblioteka Baidu网 站 ( t :w wz ue uc / 作 为 内 容 定 向爬 取 的 ht / w . . .n) p/ q d
}
r t n tu ; e ur r e
l
r t m as ; e u f le
信 息 源 。 肇 庆 学 院 网 站 的 网址 作 为种 子 , 行 经 过 扩 把 运 展 的 H rr 。 察 H rr eii 观 tx eii 抓 取 结 果 。 过 程 中 。 定 tx的 指 搜 索 的 U L的范 围 条件 : R R U L中 包 含 有 zu ,即 肇 庆 q 学 院 的 相 关 网 页 :网 页 文 件 格 式 约 定 必 须 包 含 “ . H M ” “ S ” “ H ”“ S X 等 有 用 的 网页 信 息 文 T L 、. P 、. P 、. P ” A P A
搜 索 引 擎 中 核 心 部 件 之 一 是 网 页 收 集 .它 又 称 网 页爬 虫 ( bCa l )它 实 际 上 是 一 程 序 能 自动地 浏 览 We r e . w r 和 收 集 网页 爬 虫 的设 计 目标 是 尽 可 能 及 时地 . 可能 更
多 地 抓 取 网 络 中 的 各 种 网 页数 据 。 般 还 具 通 用 性 。 一 各
关 的 内容 。Hei i 用 的 是 模 块 化 的设 计 . 由控 制 rr t x采 并 器 类 ( rwlo t l r类 ) 协 调控 制 每 个 模 块 Hei i C a C nr l oe 来 rr tx 的组 织 结 构 如 图 1所 示 C a l o t l r类 是 整 个 爬 虫 的 总控 制 者 . 制 整 rw C nr l oe 控
本 :网页 内容 指 定 下 载 到 本 地 的 网 页 文本 须 含 有 一 个
} 1 )
由 于有 些 网页 链 接 , 别 是 动 态链 接 , 表 达 式 并 特 其 非 正 则 表 达 式 , 于 此 类 连 接 , 法 使 用 ui ot n (. 对 无 rcna s” . i
ap ) 方 法 , 得 我 们 所 需 的 所 有 文 本 , 以 只 能 选 s” 的 获 所
或 多个特定 的关键词 。 例如文本须含有“ 肇庆 ”“ 、化学 ”
两个 关 键 词
择 淘 汰法 . 然 存 在 某 些 不 足 , 至 少 还 是 利 大 于 弊 。 虽 但 而在 内容 过 滤 ,我 们 编 写 了一 个 C n n ie 类 , ot t h r eF 其 类 继 承 Fl r , 过 对 外 部 传 来 的 关 键 词 组 , 网 ie 类 通 t 对 页内容进行检查 , 如果 包 含关 键 词 组 的 , 网页 文 本 将 此
e s le
{
i !cn n. na sky ]) f ot to tn (e[) ( e c i i
r um et ’ : ”
r t r as ; eu n fle
l
rt e um o t n ; c ne t
l
r t m r e eu tu ;
/ 入 代 码 片 段 / 写
F l i t e f=n w i ( e t eP t ( ) e Fl d s. tah ) ; e g
l
p bi s t ola r ie(tn eU L Sr g口 u l ti boenul h rSr gky R , tn c ac F i i
k y i Sr gui e Fl t n r) e, i
增 加 过 滤 处 理 功 能 。 这 些 功 能 扩 展 的 实现 是 通 过 面 向 对 象分 析 与 设 计 技 术 . 定 义 类 对
Hei i rr t x中相 关的 类 进 行 继 承 。在 校 园 网范 围 内运 行 Hei i 行 网 页收 集 实验 。实验 结 果 rr tx进
fscoe ) o .ls ( ;
rpa i.ls ( ; e lys oe ) c
{ i ! rcna sky i [); f ui o tn (eFl i ) ( . i e】
es le
)
r t r fle eu n a s ;
3 实 验
为 了检验我们扩展类 的有效性 .本文选取 了肇 庆
的部 分 截 图 , 照 之 前 设 置 , 含 “ 庆 ” “ 学 ” 个 按 包 肇 、化 两
包 含有 “q ” zu :
实现的代码片段 :
/ / 传参 代码 片段
R pa I p tt a e ly n u S r m r p a i e e l ys = r csg t o t n R p a I p t e i.e C n e t e ly n u —
图 6 H rr 是 e tx在 抓取 特 定 文 本 格 式 的部 分 截 图 . ii 其 中包 括 :. m ”“ h ” “ s ”“ h ” “ sx ; “ t l 、. t 、. p 、. p 、. p ” h s ml a p a
在 文 献 中 . 于 垂 直 搜 索 引 擎 的研 究 和设 计 方 面 . 大 关 有 量 的工 作 [1 在 商 业 领 域 . 5 而 - 9 有像 句 酷 网这 样 的主 题 搜 索 引 擎 , 搜 索 引 擎 专 注 于 中英 、 日 、 1 双 语 例 该 中 英 3的
句 搜 索 网 站
被 写入 本 地 硬 盘 。
图 4是 H rr e tx在 M E l s ii y c pe中启 动 . 组 件 初 设 i 各 化 的部 分 截 图, 各 组 件 启 动 顺 序 : 印证 图 5是 H rr e tx在 按 域 名 抓 取 的 过 滤 .创 建 的 类 ii 域 名 文 件 夹 的 部 分 截 图 . 照 实 验 配 置 , 个 文 件 夹 都 按 每
现代计算机
2 1 .7下 0 20
{
fr iti o (n =0; i<k y i . n t i + e Fl 1 gh; + ) ee
friti o (n =0;<k y1n h;+ i e. g et i+)
{ i ! rcna sk y i [); f uioti (eFl i ) ( . n e】
FlOup tte m s=n w FlO tuSra i) i e tuSra f o e i up tt m(f; e e
t r y{
rpa i.rae i (o , o tn ) e lys e tFl fs c ne t ; e e S se o t r t ( Fl a rae: f : y tm.u. i l ” i h sce t ”+t) pn n e
一
些 开 源 的 网 页爬 虫 比较 有影 响 的 开 源 网 页 爬 虫 例 如 Hei i N th, rr tx、 uc 都是 通 用 的 网页 爬 虫 。网 页爬 虫 当然 也
是 垂 直搜 索 引 擎 的 核 心 部 件 之 一 为 了 实 现 垂 直 搜 索 引 擎 所设 定 的 主 题 内容 搜 索 .因 此需 要 对 网 页 爬 虫 所 收 集 的 网页 范 围进 行 定 制 主 题 内容 的搜 索 这 样 做 不 仅 可 以节 省 网络 带 宽 .而 且 还 可 以剔 除 不 符 合 内 容 要 求 的 网页 , 快 处 理 效 率 。对 于 通 用 的 网页 爬 虫 , 这 加 在
表 明 , 增 的过 滤 功 能 运 行 有 效 。 新 关键 词 :垂 直 搜 索 引 擎 ;网络 爬 虫 ; rr ;内容过 滤 Heii tx
0 引 言
伴 随 互 联 网 技 术 的快 速 发 展 .搜 索 引擎 应 运 而 生 了 。 索 引擎 就是 一 个 对 Itme 上 的 各 种 信息 资 源进 搜 n e t 行 搜 集 整 理 . 后 根 据 用 户 的查 询 请 求 把 搜 索 的 结 果 以 然 网页 的方 式 反 馈 给 用 户 的 系 统 .该 系 统 可 以搜 索 和 处 理 的 信 息 包 括 网页 、 图片 、 他 格 式 的 文件 l 搜 索 引 擎 其 l J 。
1 He ii 介 rr tx简
Hei i 一 款 基 于 Jv rtx是 r a a语 言 开 发 的 开 源 的 爬 虫
框 架 。被 用 来 获 取 完 整 的 、 确 的 、 点 内 容 的 深 度 复 精 站 制 . 括 获 取 图像 以及 其 他非 文 本 内 容 . 取 并 存 储 相 包 抓
可 以满 足 用 户 的 需 求 但 是 面 对 互 联 网信 息量 的 日益 增 多 . 询 返 回结 果 变 得 越 来 越 不 够 准 确 . 够 精 准 。 查 不 为 了 应 对 这 方 面 的挑 战 .垂 直 搜 索 引擎 作 为 一 种 解 决
方 案 被 提 出 了【 。和 通 用 的 搜 索 引 擎例 如 百 度 、 歌 相 谷 比 , 直 搜 索 引 擎 专 注 于特 定 的搜 索 领域 和 搜 索 需 求 。 垂
{
i ui o t n ( e U L Ir c na s ” o a ” ) f rc na s k y R )u . ti (t b o ) ( . i l o n a i
{
fr iti o (n =0; <k y i . n h;+ i e Fl 1 g ee t i+)
} nl i y{ f al
U L 均 衡 处 理 各 个 We访 问 . 存 着爬 虫 的状 态 。 R . b 保
种 商 业 搜 索 引擎 都 开 发 了 自 己的 网 页 爬 虫 .但 也 有 一
收 稿 日期 :0 2 0 —1 21— 6 5 修 稿 日 期 :0 2 7 5 2 1 —0 —1
作 者 简介 : 陈锦 伟 (9 8 , , 东潮 安 人 , 科 , 究方 向 为 搜 索 引 擎 、 算 机 网络 18 一) 男 广 本 研 计
个 抓 取 工 作 的 起 点 . 定 整 个 抓 取 任 务 的开 始 和结 束 。 决 C a lot l r Fot r获 取 U L rwC nr l 从 rni oe e R .传 递 给 线 程 池
( oP o ) 的 T e he d处 理 。 T e o 1中 o T ra F o t r边 界 控 制 器 ) 要 确 定 下一 个 将 被 处 理 的 rni ( e 主
基 于 H rr eii tx的网页 内容 过滤抓取
陈锦伟 . 徐 勇
( 庆 学 院数 学 与信 息 计 算 科 学 学 院 , 庆 5 6 6 ) 肇 肇 2 0 1
摘 要 :在 深 入 研 究 开 源 网 页爬 虫— — Hei i rr tx系 统框 架和 源代 码 的基 础 上 . 对其 搜 索 内容 和 范 围
图 7是 Hei i rr tx内容 过 滤 后 写 到本 地 的文 本 内 容
Sra ) t m( ; e C ne t ie f n w C ne t ie ( et+” l r ) o tnFh rc = e o tnFl rd s t ie ft ” ; Sr gc ne t e lysc iv Co tn ( ; t n o tn =rpa i. e e ne t ) i h
方 面 的 功 能 扩展 是 开 发 垂 直 搜 索 引 擎 的关 键 步骤
般 有 三个 主要 部件 , : 网页 收集( bCa l g 即 ① We rwi ) n;
②索 引创 建( dx g; I ei )③搜 索[像 百度 和谷歌 等都 是 n n 2 1 ,
搜索 引擎 的代表 对 于一般 的信息搜索 . 百度和谷歌都
}
r t n tu ; e ur r e
l
r t m as ; e u f le
信 息 源 。 肇 庆 学 院 网 站 的 网址 作 为种 子 , 行 经 过 扩 把 运 展 的 H rr 。 察 H rr eii 观 tx eii 抓 取 结 果 。 过 程 中 。 定 tx的 指 搜 索 的 U L的范 围 条件 : R R U L中 包 含 有 zu ,即 肇 庆 q 学 院 的 相 关 网 页 :网 页 文 件 格 式 约 定 必 须 包 含 “ . H M ” “ S ” “ H ”“ S X 等 有 用 的 网页 信 息 文 T L 、. P 、. P 、. P ” A P A
搜 索 引 擎 中 核 心 部 件 之 一 是 网 页 收 集 .它 又 称 网 页爬 虫 ( bCa l )它 实 际 上 是 一 程 序 能 自动地 浏 览 We r e . w r 和 收 集 网页 爬 虫 的设 计 目标 是 尽 可 能 及 时地 . 可能 更
多 地 抓 取 网 络 中 的 各 种 网 页数 据 。 般 还 具 通 用 性 。 一 各
关 的 内容 。Hei i 用 的 是 模 块 化 的设 计 . 由控 制 rr t x采 并 器 类 ( rwlo t l r类 ) 协 调控 制 每 个 模 块 Hei i C a C nr l oe 来 rr tx 的组 织 结 构 如 图 1所 示 C a l o t l r类 是 整 个 爬 虫 的 总控 制 者 . 制 整 rw C nr l oe 控
本 :网页 内容 指 定 下 载 到 本 地 的 网 页 文本 须 含 有 一 个
} 1 )
由 于有 些 网页 链 接 , 别 是 动 态链 接 , 表 达 式 并 特 其 非 正 则 表 达 式 , 于 此 类 连 接 , 法 使 用 ui ot n (. 对 无 rcna s” . i
ap ) 方 法 , 得 我 们 所 需 的 所 有 文 本 , 以 只 能 选 s” 的 获 所
或 多个特定 的关键词 。 例如文本须含有“ 肇庆 ”“ 、化学 ”
两个 关 键 词
择 淘 汰法 . 然 存 在 某 些 不 足 , 至 少 还 是 利 大 于 弊 。 虽 但 而在 内容 过 滤 ,我 们 编 写 了一 个 C n n ie 类 , ot t h r eF 其 类 继 承 Fl r , 过 对 外 部 传 来 的 关 键 词 组 , 网 ie 类 通 t 对 页内容进行检查 , 如果 包 含关 键 词 组 的 , 网页 文 本 将 此
e s le
{
i !cn n. na sky ]) f ot to tn (e[) ( e c i i
r um et ’ : ”
r t r as ; eu n fle
l
rt e um o t n ; c ne t
l
r t m r e eu tu ;
/ 入 代 码 片 段 / 写
F l i t e f=n w i ( e t eP t ( ) e Fl d s. tah ) ; e g
l
p bi s t ola r ie(tn eU L Sr g口 u l ti boenul h rSr gky R , tn c ac F i i
k y i Sr gui e Fl t n r) e, i
增 加 过 滤 处 理 功 能 。 这 些 功 能 扩 展 的 实现 是 通 过 面 向 对 象分 析 与 设 计 技 术 . 定 义 类 对
Hei i rr t x中相 关的 类 进 行 继 承 。在 校 园 网范 围 内运 行 Hei i 行 网 页收 集 实验 。实验 结 果 rr tx进
fscoe ) o .ls ( ;
rpa i.ls ( ; e lys oe ) c
{ i ! rcna sky i [); f ui o tn (eFl i ) ( . i e】
es le
)
r t r fle eu n a s ;
3 实 验
为 了检验我们扩展类 的有效性 .本文选取 了肇 庆
的部 分 截 图 , 照 之 前 设 置 , 含 “ 庆 ” “ 学 ” 个 按 包 肇 、化 两
包 含有 “q ” zu :
实现的代码片段 :
/ / 传参 代码 片段
R pa I p tt a e ly n u S r m r p a i e e l ys = r csg t o t n R p a I p t e i.e C n e t e ly n u —
图 6 H rr 是 e tx在 抓取 特 定 文 本 格 式 的部 分 截 图 . ii 其 中包 括 :. m ”“ h ” “ s ”“ h ” “ sx ; “ t l 、. t 、. p 、. p 、. p ” h s ml a p a
在 文 献 中 . 于 垂 直 搜 索 引 擎 的研 究 和设 计 方 面 . 大 关 有 量 的工 作 [1 在 商 业 领 域 . 5 而 - 9 有像 句 酷 网这 样 的主 题 搜 索 引 擎 , 搜 索 引 擎 专 注 于 中英 、 日 、 1 双 语 例 该 中 英 3的
句 搜 索 网 站
被 写入 本 地 硬 盘 。
图 4是 H rr e tx在 M E l s ii y c pe中启 动 . 组 件 初 设 i 各 化 的部 分 截 图, 各 组 件 启 动 顺 序 : 印证 图 5是 H rr e tx在 按 域 名 抓 取 的 过 滤 .创 建 的 类 ii 域 名 文 件 夹 的 部 分 截 图 . 照 实 验 配 置 , 个 文 件 夹 都 按 每
现代计算机
2 1 .7下 0 20
{
fr iti o (n =0; i<k y i . n t i + e Fl 1 gh; + ) ee
friti o (n =0;<k y1n h;+ i e. g et i+)
{ i ! rcna sk y i [); f uioti (eFl i ) ( . n e】
FlOup tte m s=n w FlO tuSra i) i e tuSra f o e i up tt m(f; e e
t r y{
rpa i.rae i (o , o tn ) e lys e tFl fs c ne t ; e e S se o t r t ( Fl a rae: f : y tm.u. i l ” i h sce t ”+t) pn n e
一
些 开 源 的 网 页爬 虫 比较 有影 响 的 开 源 网 页 爬 虫 例 如 Hei i N th, rr tx、 uc 都是 通 用 的 网页 爬 虫 。网 页爬 虫 当然 也
是 垂 直搜 索 引 擎 的 核 心 部 件 之 一 为 了 实 现 垂 直 搜 索 引 擎 所设 定 的 主 题 内容 搜 索 .因 此需 要 对 网 页 爬 虫 所 收 集 的 网页 范 围进 行 定 制 主 题 内容 的搜 索 这 样 做 不 仅 可 以节 省 网络 带 宽 .而 且 还 可 以剔 除 不 符 合 内 容 要 求 的 网页 , 快 处 理 效 率 。对 于 通 用 的 网页 爬 虫 , 这 加 在
表 明 , 增 的过 滤 功 能 运 行 有 效 。 新 关键 词 :垂 直 搜 索 引 擎 ;网络 爬 虫 ; rr ;内容过 滤 Heii tx
0 引 言
伴 随 互 联 网 技 术 的快 速 发 展 .搜 索 引擎 应 运 而 生 了 。 索 引擎 就是 一 个 对 Itme 上 的 各 种 信息 资 源进 搜 n e t 行 搜 集 整 理 . 后 根 据 用 户 的查 询 请 求 把 搜 索 的 结 果 以 然 网页 的方 式 反 馈 给 用 户 的 系 统 .该 系 统 可 以搜 索 和 处 理 的 信 息 包 括 网页 、 图片 、 他 格 式 的 文件 l 搜 索 引 擎 其 l J 。
1 He ii 介 rr tx简
Hei i 一 款 基 于 Jv rtx是 r a a语 言 开 发 的 开 源 的 爬 虫
框 架 。被 用 来 获 取 完 整 的 、 确 的 、 点 内 容 的 深 度 复 精 站 制 . 括 获 取 图像 以及 其 他非 文 本 内 容 . 取 并 存 储 相 包 抓
可 以满 足 用 户 的 需 求 但 是 面 对 互 联 网信 息量 的 日益 增 多 . 询 返 回结 果 变 得 越 来 越 不 够 准 确 . 够 精 准 。 查 不 为 了 应 对 这 方 面 的挑 战 .垂 直 搜 索 引擎 作 为 一 种 解 决
方 案 被 提 出 了【 。和 通 用 的 搜 索 引 擎例 如 百 度 、 歌 相 谷 比 , 直 搜 索 引 擎 专 注 于特 定 的搜 索 领域 和 搜 索 需 求 。 垂
{
i ui o t n ( e U L Ir c na s ” o a ” ) f rc na s k y R )u . ti (t b o ) ( . i l o n a i
{
fr iti o (n =0; <k y i . n h;+ i e Fl 1 g ee t i+)
} nl i y{ f al
U L 均 衡 处 理 各 个 We访 问 . 存 着爬 虫 的状 态 。 R . b 保
种 商 业 搜 索 引擎 都 开 发 了 自 己的 网 页 爬 虫 .但 也 有 一
收 稿 日期 :0 2 0 —1 21— 6 5 修 稿 日 期 :0 2 7 5 2 1 —0 —1
作 者 简介 : 陈锦 伟 (9 8 , , 东潮 安 人 , 科 , 究方 向 为 搜 索 引 擎 、 算 机 网络 18 一) 男 广 本 研 计
个 抓 取 工 作 的 起 点 . 定 整 个 抓 取 任 务 的开 始 和结 束 。 决 C a lot l r Fot r获 取 U L rwC nr l 从 rni oe e R .传 递 给 线 程 池
( oP o ) 的 T e he d处 理 。 T e o 1中 o T ra F o t r边 界 控 制 器 ) 要 确 定 下一 个 将 被 处 理 的 rni ( e 主
基 于 H rr eii tx的网页 内容 过滤抓取
陈锦伟 . 徐 勇
( 庆 学 院数 学 与信 息 计 算 科 学 学 院 , 庆 5 6 6 ) 肇 肇 2 0 1
摘 要 :在 深 入 研 究 开 源 网 页爬 虫— — Hei i rr tx系 统框 架和 源代 码 的基 础 上 . 对其 搜 索 内容 和 范 围
图 7是 Hei i rr tx内容 过 滤 后 写 到本 地 的文 本 内 容
Sra ) t m( ; e C ne t ie f n w C ne t ie ( et+” l r ) o tnFh rc = e o tnFl rd s t ie ft ” ; Sr gc ne t e lysc iv Co tn ( ; t n o tn =rpa i. e e ne t ) i h
方 面 的 功 能 扩展 是 开 发 垂 直 搜 索 引 擎 的关 键 步骤
般 有 三个 主要 部件 , : 网页 收集( bCa l g 即 ① We rwi ) n;
②索 引创 建( dx g; I ei )③搜 索[像 百度 和谷歌 等都 是 n n 2 1 ,
搜索 引擎 的代表 对 于一般 的信息搜索 . 百度和谷歌都