基于Nutch和Hadoop的分布式搜索引擎探究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
理P B级 数 据 的能 力 。
1 Apa h t h c eNu c
了运行搜索引擎所需 的全部工具, 包括全文搜索和 We 爬虫。 b
H d o 为 G o l M aR d c 技 术 的开 源 实 现 ,借 鉴 了 a op”作 o ge p eu e G o l G o lFlS s m 文 件 系 统 、 p eu e 行 算 法 o ge的 o ge i yt e e MaR d c 并
力, 分布 式 搜 索 引 擎 应 运 而 生 。 Ap ceNuc 一个 用 于 网络 搜 索 的开 源 框 架 ,它 提 供 ah t h是
以及 B g al。 因此 , ao p也是 一 个 能够 分 布 式 处 理 大 规 iT be H do 模 海 量 数 据 的软 件 框 架 。H d o ao p的可 靠 性 是 因 为 H d o a o p假
企 业 的 主要 业 务 流 程 和 基 本 组 织 结 构 , 要 包 括 业 务 架构 、 主 数 据 架构 、 用 架 构 及 技术 架 构 。 应
系统迁移及变更主要是从现有系统到 目标系统的实现 。 包括制 定优先次序 , 确定不同功能的子系统 实施 的先后次序 ; 实施计划 , 建立详细的实施和迁移计划 , 包括 每个 子系统 的实

Nuc 由Jv 实现的, th 是 aa 刚刚诞生开放源 代@ (pnSU J e. . o O
+- — ” + — ”。一”‘一”‘ “ _ — 一” 卜 — + — + — 卜”— 一 “ + “ ‘ “ ● + + ・ ・ ・ + ・ 一 + + 一 + ・ ・ ・ + ・ ” + + 一 + 一 + 一 + ・ ・ ” + + ・ ・ ・ + ・ ・ + ・ ・ + ・ 一 + + 一 + 一 ・+ ・+ ・+ .+ 一+ 一+ 一+ 一+ 一+ + ・ ・ ・ .
( )业务架构。将企业战略 目标转换成可操作的业务模 1
块 , 明 业 务 如 何满 足 其 功 能 的需 求 。包括 角色 , 定 系 统 的 表 确 使 用 者 , 每 个 使 用 者 的权 限 ; 程 , 理 企 业 的 每 个 业 务 流 及 流 梳 程 , 别 是 主要 业 务 流 程 ; 能 , 确 系 统 功 能 , 每 个 功 能模 特 功 明 对 块提供一个非常清晰的定义。
和管理 。特别要注意 , 在系统迁移及变更时 , 一定要有企业高
层领导来实施监督 。
()数据架构。数据架构主要是从企业整体来看数据 资 2 源和信息流结构 。包 括数据对象 ,定义业务架构中所涉及 的 所有实体对象,用数据对企业业务架构中的产 品或服务进行 描述; 数据存储 , 分析数据存储方式及过程, 更新流程 ; 数据交 换机制。确 定数据传输接 口及传输机制 。
2 1 年 第 5 期 02 ( 第 1 1期 ) 总 2
信 息 通 信
I OR AT ON & COM MU NI NF M I CATI ONS
2O1 2
(u . N 2 ) Sm o 1 1
基于 Nuc t h和 Hao p的分布式搜索 引擎探 究 do
李 伟
( 贵州师范大学数学与计算机 科学学院, 州 贵 阳 5 0 0 ) 贵 50 1
( ) 用 架 构 。应 用 架 构 主要 是 用 于 支 持企 业 业 务 , 3应 为业
过程 管理 是指在 整个 架构 建立和 系统 开发 过程 中,都 要进 行 监督和 管 理 。包括 在每 一阶 段是 否按 照 要求进 行 ,
对 每 一 阶 段 提 交 的 文 档 进 行 管 理 ;整 个 架 构 的 建 立 是 否 按
文 章 编 号 :63 13 (0 2 0 — 100 17 .1 12 1 )50 2 .2
0 引言
随着互联 网的迅速发展,ne t 的信息量快速 增长 。 Itme 上 集 中式搜索引擎从海 量的信息 中快速检索 出用户真正需要 的 信息正变得很困难,搜索 引擎系统应 向着具有分布式 处理 能 力方 向发展 ,不断地扩展系统规模来增强系统处理信 息的能
施 途 径 和 方 法 等 ; 构变 更 实施 监 管 , 架 根据 迁 移 的计 划 进 行 变 更 。首 先 , 定 开 发 规 范 后 , 行 软件 的 开 发 。其 次 , 件 测 制 进 软 试 , 进 行 局 部 的 调 整 。最 后 , 入使 用 , 提 供 持 续 的监 测 并 投 并
照企 业要 求的 原则进行 , 每一 阶段遇 到 的 问题 进பைடு நூலகம்解 决 及
备案 。
务架构 、 数据架构及技术架构之 间建立联系。 包括系统层次结
构 , 计可 以支 持企 业 业 务 的系 统 功 能点 , 合 所 有功 能 点 , 设 集 建
3结 语
敏 捷 企 业 架 构 框 架 是 一 种 适 合 中小 企 业 的 简 单 、 快速 可
摘要 : 分析 A ah 开源框架 N t 和 H do pce uh c aop的系统结构 , 利用 N t 和 H do 设计 高效 、 uh c aop 可靠、 可扩展 的分布式搜 索 引擎, 决搜 索引擎对海量数据 的处理和存储 问题 。 来解
关键词 : th H d o ; Nuc ; a op 分布式搜 索引擎 中图 分 类 号 :P 3 . T 3 8 文献 标 识 码 : 6 A
设计算元素和存储会出现 故障,因为它维护多个工作数据副 本 , 出现故障 时可 以对失败的节点重新分布 处理 。H d o 在 aop
的高 效 性 是 在 MaR d c 思想 下 , d o p eu e的 Ha op是 并行 工 作 的 ,
以加快任务处理速度 。 d o Hao p的可扩展是依赖于部署 H d o aop 软件框架计算集群的规模 , d o 的运算 是可扩展的, Hao p 具有处
相关文档
最新文档