Hadoop的核心技术研究或概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( )超 大 规 模 数 据 集 。 T 级 或 者 P 级 是 3 B B
图二是 H S的结 构示 意 图。例 如 客 户端要 访 DF 问一 个文 件 , 户 端从 N me d 客 a No e获得 组 成 文 件 的
数据块的位置列表 ,也就是要知道数据块被存储在
哪些 Da No e ;然 后 ,客户 端 直接 从 Daa d t d上 a t Noe


△ o o
p 的核心技术研究或概述
的 核



研 究
或 概 述
l_0 -。 l| _毫 _I 0。
强蠹 。 = : 00 \ 0
‘_ 媾 _i _: -_ 誊 l 一 \
- 枣 哆0 誊 蠹 ≯
≯ 0 黉 : 0 薅 蚤 暑\ 毒1
H F D S的一般企业级的文件规模 。H F D S支持大文 件存储 , 提高数据传输带宽。单一的 H F 实例可 DS 以支撑数 以千万计的文件 , 而且可以在一个集群 中
扩展 到几百 个节 点 。
Hale Waihona Puke Baidu
上读取文件数据。N m N d 不参与文件的传输。 a e oe
() 4简单 一致 性模 型 。对 文 件实 行一 次性 写 、 多
i ss m) feyt 的分布式文件系统 它 是 H d o l e ao p的期 间 文件系统
, 。
3 g

1 设计 前提 与 目标 . 1 HD S的设 计前 提 与 目标 如下 : F
由 D t d 重 新建 立 。 aa e No
D t oe a N d 是分布式文件系统的工作者 , a 负责它 们所在的物理节点上 的存储管理。这些节点在客户 端或者 N me oe a N d 需要时起到存储和检索 的作用 , 并且把它们存储的块的信息通过块清单的方式周期
t ≤
能 时 把 据 通 大 的器 行 布 十 力 ,数 集 过量 机进 分 是 分
必要的。 文件系统称做分布式文件系统, 它跨网络进
行存储管理。 因为是基于网络 的, 所以会带来很多复
杂的网络编程问题。 这使得分布式文件系统比 起常
规的文件系统要复杂得多。 例如, 其中一个重要的挑
誊 誊 臻 镬 誉 攀 \ 嚣 誊 患 =
图 分式ap架 一 布 Ho构图 d o
) AN一可知 , 主节点包括 N m N d、eo dr a e o eScna y N m N d 和 Jb akr a e o e ot ce 守护进程( r 即所谓 的主守护
战 是o p有统个 称 为 HDFS d o丢srbu。 就a 件 一 置 误 (时 pd ti t H o 琶 容 错 的h 不 失 据d 文 数 e d ao i
() 2副本 存放 。通 常情 况下 , 副本 的存放 策 略很 关 键 ,机架 内节 点之 间 的带宽 比跨机 架 节 点之 间 的 带宽 要大 。 它能影 响 H S的可 靠性 和 性 能 。 DF 图三体
现了复制因子为 3的情况下, 各数据块的分布情况。
( ) 跳检测 。集群 中的每个 D t d 周期 性 3心 aa e No
地向 N m N d 发送心跳包和块报告。如果正确接 a e oe 收到心跳包 , 则证明该 D t oe a N d 工作没有异常。 a () 4 安全模式。启动系统时 , a e o e N m N d 首先进 入一个安全模式 。此时不会出现数据块 的写操作。 N me oe a N d 会收到各个 D t oe 有的数据块列 aN d 拥 a
性地 回馈 给 Na No e me d 。
() 1硬件错误可能经常出现 , 其属于常态并非异
常 。HD S允许 硬件 出故 障 ,DF F H S的最 核心设 计 目
标就是错误检测并快速 自动恢复。
() 2 流式 数 据访 问 。流式 读 为 主 H S上 的应 DF
用 的主要处理方式 。支持批量处理 , 高吞吐量是数 据访问的关注重点。
户端联系 N m N d a e oe以获取文件的元 数据 , 而真正 的文件 I / O操作是直接和 D t o e a N d 进行交互的。 a
N m N d 维护文件系统树和这个树中所有的 a e oe 文件和 目录。N m N d 也记录着每个文件的每个 a e oe
Daa d t Noe块所 在 的位 置 , 而 , 然 它并 不永 久 性 地 存
用平 台 。
善 的冗余备份和故障恢复机制 ,可以实现将海量文 件存储在集群中, 并保证其可靠性 。 () 1冗余备份 。H F D S将文件按数据块 ( l k Bo ) c 存储 , 默认块大小为 6MB 可配置 )并采取了一 系 4 ( ,
列 的容错处 理 。
1 . 系结构 2体 HD S是 一 个 管 理 者 一 工 作 者 结 构 的 体 系 。 F H S集 群 由 一 个 Na Noe ( 理 者 )和 一 些 DF me d 管 D t d( 者) aa e工作 No 组成 。 me d 管 理文 件系统 的 Na No e 元 数 据 ,aa d Dt Noe存 储 实 际 的 数 据 。客 户 端 通 过 Na Noe和 Da No e me d t d 交互 访 问这 个文 件系统 。 a 客
和减少 网络 的拥塞 。
图二 HD S 的结 构 示 意 图 F
l _ 障可靠性 的措 施 3保
H S的主要设 计 目标 之 一就 是 在 故 障情 况 下 DF
也 能保 证数 据存 储 的 可靠性 。HD S具 备 了较 为 完 F
( ) 构软 硬 件平 台问 的 可移 植 性 。可移 植 性 6异 使 得 H S可 以作 为 适 应 性 很 强 的 大 规模 数据 应 DF
次读 的访问模 式 , H F 是 D S的应用程序常用的处理
方 式 。文件 建 立之后 , 据写 人 完 成 之后 就 不再 做 数 更 改 。解决 了数据 一致 性 问题 , 吐 量 问题 也得 以 吞
解决。
( ) 动计算 比移 动 数据 更 简 单 。移 动数 据 比 5移 移 动计算 在大 文件上 来 的代价 更 高 。操 作海 量数据 的时候 效 果愈 加 明显 , 样 可 以提 高 系统 的吞 吐 量 这
相关文档
最新文档