基于SES通用爬行器的设计与实现

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

S S提供 了相应 的接 口供用 户开发符合 自己 E
需 求 的爬 行器 插件 , 系统利 用了这 些接 口开发 了 本
通用爬行器 插件 , 该爬 行器 可以对 Lt / o i o sD mn u o
的相 关 内容 、 于 Mi oo hrPit e e( P ) 基 c sfSaeon Sr rS S r t v 门 户 网 站 、 业 数 据 库 ( rc 企 Oal e和 SlSre) q e r 和 v
s a c n ef c n e r h efce ty e r h i tra e a d s a c fi in l . Ke r s: r wlr ES;e tr rs e r h e g n y wo d c a e ;S n e ie s a c n i e p
第2 卷 第4 7 期
21 年 8月 0 1
哈 尔 滨 商 业 大 学 学 报 (自然科 学版 )
J u n l fHa bnUnvri fC mmec Nau a ce csE io ) o r a o r i ies yo o t re( tr l i e dt n S n i

6 6・ 0
哈 尔 滨 商 业 大 学 学 报 (自 然 科 学 版 )
第2 7卷
果 上都 必须满 足对 数 据源 的完 全 爬行 , 于 D m— 对 oi n 、T o F P的相 关 内容 还 应 提 供 增 量爬 行 机 制 , 采 即 集 新增 的或 有更新 情 况 的文档 , 保证 了搜 索 的时效
V17 。 o2 N. . 4
A g2 1 u.0 1
基 于 S S通 用 爬 行 器 的 设 计 与 实 现 E
文必龙 , 叶 静
( 东北石油大学 计算机与信息技 术学院 , 黑龙 江 大庆 13 1 ) 6 38 摘 要: 基于 S S开发通 用爬 行器 , 以对企业数 据库 、 E 可 门户 网页、 文档文件 、 办公 系统 内容等进行抓
特定“ 数据源 ” 搜索器 也 可 以通 过 “ . 插件 ” 扩展 ( 插 件 是 Oal rc e提供 的 或 客 户 开 发 的 Jv aa类 , 搜 索 与
应 用程序 运 行 在 同 一 个 O 4 容 器 中 ) 在 定 义 插 CJ .
件后, 它们 将作 为新 数据 源列 出 . 进行 配置 后 , 在 插 件 可以将 数据 提供给 搜 索器 , 且可 以像其他 数 据 并
对 不 同类型 的信 息 书 写不 同 的处 理 函 数 以提 取 文
于 企 业 的数 据 库 中 , 子 邮件 的附 件 中 , 用 内容 电 专 管 理服 务器 中 、 布 式 文 件 系统 或 私 人 工 作 区 中 , 分 以及 内部 网和面 向公 众的 网站 中. 户需 要有效 的 用 企 业搜 索 , 分布 各 处 的 信 息转 化 为 运 营 优 势 , 将 企 业 搜索 引 擎 ¨ 成 为研 究 热 点 . 业 搜 索 引 擎 与 因 企 特 网搜 索 引 擎 比 较 具 有 其 特 殊 的特 性 : 业 搜 企 索 引擎 需要 面 向企业 网 , 对企 业 内部 的信 息资源 进 行搜 索 ; 因特 网搜 索 引擎 的搜 索对 象是 网 页和 多媒
为 搜索提 供 了高度 安全 的基 础 . rc Oal 主要 的 认 e与 证 机 制和库 进行 了集 成 , 用户 不仅 可 以安全 有效 地 查 找信 息 、 解信 息 过 载 , 可 以 发 掘深 层 内联 网 缓 还 中难 以触及 的隐 藏信 息. S S提供 的搜 索 器 是 一个 多线 程 Jv 应 用 程 E aa
性.
数据 采 集是企 业搜 索 引擎工作 的 第一步 , 通过
SS E 提供的相应接 口开发出通用爬行器插件 , 根据 需要爬取 数 据源 类型 的不 同 , 选择相 应 的爬行 器类
型并填 写好爬 行 参 数 , 对爬 取 的数 据 进行 索 引 , 并 存储 到 索 弓库 当中 . 户 在 We 1 用 b界面 中输 入相 应 的关键 词 并对其 进 行 简单 的切 词 操作 后 提 交 到企 业搜索 引擎 当中 , 将命 中的结果 的前 2 0条分 页显 0
2 1 总体 设计 .
图 2 爬 行 器 的 系统 架 构
Hale Waihona Puke Baidu
本 系统采 用分层 设计 , 构清晰 , 扩展 眭强 . 结 可 系统 的总体 结 构如 图 1 示 . 所
1 通过源 类 型注 册 , ) 系统知 道 该 到哪 个 jr a 文
件 中查 找 实 现 Calrlg Maae 类 名 , 类 rwePui ngr的 n 该
取和分析 , 取企业级用户所 关注的信 息 , 提 并对抓取 的数据进行 索 引, 存储 到索引库 当中, 以及提供 增
量爬行机制. 系统 界 面友 好 , 确 高效 . 准
关键词 : 爬行 器 ;E ; S S 企业搜 索引擎 中图分类号 :P 1 T3 1 文献标识码 : A 文章编号 :62— 9 6 2 1 )4— 6 5— 4 17 04 (0 1 0 0 0 0
ta td i fr t n wh c h o o ae u e s c n e ne r ce n o mai ih t e c r r t s r o c r d,i d x t aa,so e i t h n e o p n e he d t t r t o t e i d x
e ( P ) 户网站 、 rS S 门 基于 C ne t ngmet ytm o tn Ma ae n s S e
索; 因特 网 搜 索 的 内容 和 展 现 的信 息 都 是 完 全 开
放, 不存在安全性 问题 , 但企业 的数据涉及企业的
核心 利益 , 求具 有 很 高 的保 密性 ; 要 因特 网 搜 索 和
述和 参数 表, 中 gt ui a m t s 其 e lg Pr e r 返回一组类 P n a e 参数描述和缺省值 自动生成参数输入界面.
t r l e paa e Vau s r ms,bo la f r e c a ,Da e a t o e n o c Re r wl t ls—
是爬 行器程 序 的入 口.
2 创建 源 时 选 择 源 类 型 , 统 通 过 调 用 管 理 ) 系
器 类 的三 个 成 员 函 数 :ePu iP rm t s gtlg gt1gn aa e r、e u — e P
应用 接
i e r tn gt ui a e 获 取插件 名 称 、 n s ii 和 e l n m , D cpo P gN 描
信息社会 的快速发展使得信息的容量达 到了 空 前 的高 度 . 大 部 分 行 业 中 , 业 内 容 每年 增 加 在 企 倍 以上 . 要而 敏 感 的 内 容遍 及 各 处 , 重 它们 存 在

展现 的内容 都是 网页和 文件 的原 始形 态 , 企业 数 但 据库 中的数据 有 的是 以编 码形 式保 存 , 需要 进行 专 门 的语 义处 理 和 代 码 转 换 , 成 用 户 能 读 懂 的 文 变 字、 图形 和报 表等 方式 . 数据 采 集 是 搜 索 引 擎 工 作 的 第 一 步 , 有 只 相 关 的 信息被 爬 行 器抓 取 到 才能 进 行 下 一 步 的数 据 分 析 工 作 . 于 企 业 搜 索 引 擎 素 要 处 理 的信 由 息 包括 了大 量 的 异 构 数 据 库 和 异 构 文 档 , 需要
体 文件 , 企业搜 索 引擎 可以 对企 业数 据库 进行 搜 而
本. 本文根 据 企业 搜 索 引擎 的相 关特 性 , 开发 出基
于 S S 的 通 用 爬 行 器 . 爬 行 器 可 以 对 L ts E 该 o / u D mn o io的相 关 内容 、 基于 Mi oo hrP it ev c sf S ae o r・ r t nS
示在 界面 当 中.
2 2 爬行 器设计 .
1 S S简 介 E
Sc r nepi erh S S 安 全 企业 搜 索 , eueE trr eS a ( E ) s c
是由 Oa e r l 公司针对企业用户的企业搜索需求推 c 出的一款安全企业搜索产品 , 并提供了用于二次开 发的相应的接 口. r l 搜索解决方案基于 O a e Oa e c rl c 数据库构建 ( 定期对可靠性 和安全性进行检查 ) ,
FP r 上的相关内容进行爬行. 从爬行效果上满足了 对 数据源 的完全爬 行和 对部 分数据源 的增量爬 行 .
图 2为爬 行器 的 系统 架构 , 中①②③ ④⑤ 为 其
爬 行器 的 工作顺序 , 体工作 流程如 下 . 具
序, 负责从用户在配置期间指定的数据源中收集文 档 . 搜索 其他 信 息 库 ,E 要 S S搜 索 器允 许 用 户定 义
Ab t a t s r c :Th sg v l p d t e u i e s lc a e a e n S e de i n de eo e h n v r a r wl rb s d o ES,whih c u d c a n c o l r wla d a ay e e tr rs aa a e,p ra g n l z n e p ie d tb s o tlpa e,d c o ume t nd f e ns a l s,o ie s se n O o i f c y t ms a d S n.Ex -
d tb s ,a d p o i e h c a i o n r me t l c a . T e e gn f r r n l a a a e n r v d d t e me h n s m f i c e n a r w1 h n i e of s a f e d y e i
收 稿 日期 :0 0—0 21 8—1 . 0
(M ) C S 内容管理 系统、 业数据库 ( r l 和 Sl 企 Oa e c q Sr r 和 F P上的相 关内容进行爬 行. e e) T v 从爬行效
基金项 目: 国家高技术研究发展计划( O 6 A 9 l2 5 ; 2 0 A O A O —1 ) 国家科技 重大 专项 ( 08 X 52 0 O ) 20 Z 0 03— 5一 5 作者简 介: 文必龙 ( 97一) 男 , 16 , 教授 , 博士 , 研究方 向: 软件 工程与集成技 术.
De i n a d i plm e a i n o ur e c r wlr b s d o ES sg n m e nt to fc r n y c a e a e n S
W E io g N B — n ,YE Jn l ig (col f o pt n f m tnTcnl y N res Pt l m U v ̄t, aig1 38 C i ) Sho o Cm u r dI o ao eho g , ohat eo u m e i D q 6 1, h a ea nr i o t re y n 3 n
源一样进行索引. 从技术上讲 , 插件 负责收集指向
要 索 引文档 的 U L 它 们 将 这 些 U L传 递 给 搜 索 R , R
器进行索引. 用户可以根据 自己的实际需求 , 利用
S S提供 的相 应接 口 , 照一 定 的规 范 实现 自己的 E 按
插件.
2 系统 设 计
相关文档
最新文档