Hadoop分布式文件系统的模型分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 分布式文件系统模型
分布式文件系统是分布式系统的关键技术之一,能够
以文件的方式实现信息资源的共享。 在云计算环境中,分 布式文件系统承担着为用户提供文件服务的重任,它要保 证用户在访问、保存在云中的文件时能够获得接近甚至在 某些方面超出其在使用本地磁盘时的服务质量 (包括性 能、可靠性等)。
分布式文件系统通过网络为用户提供远程文件服务, 它的设计目标是要使得用户感知不到其访问的是存储在 远程服务器中的文件[2]。 因此,分布式文件系统的设计特别 强调系统对用户的透明性。 系统的透明体现在多个方面, 具体内容见表 1。
ຫໍສະໝຸດ Baidu
电信科学 2010 年第 12 期
的文件操作。 Datanode 定期将自身的状态 (如当前保存的 文 件 数 据 块 信 息 ) 提 交 给 Namenode, 并 接 受 Namenode 的 管控,例如实施热点文件数据块的复制和迁移。
根 据 HDFS 的 体 系 架 构 描 述 并 基 于 图 1 所 示 文 件 服 务模型,可以建立 HDFS 的模型,如图 3 所示。
研究与开发
电信科学 2010 年第 12 期
Hadoop 分布式文件系统的模型分析 *
摘要
王 峰,雷葆华 (中国电信股份有限公司北京研究院 北京 100035)
Hadoop 分 布 式 文 件 系 统 是 遵 循 Google 文 件 系 统 原 理 进 行 开 发 和 实 现 的 ,受 到 了 业 界 极 大 关 注 ,并 已 被 广 泛 应 用 。 鉴 于 当 前 缺 乏 从 系 统 设 计 理 论 的 角 度 对 其 开 展 的 相 关 研 究 ,本 文 从 Hadoop 分 布 式 文件系统架构的建模入手,通过对模型各组成部分进行分析,并将其与传统的分布式文件系统进 行 比 较 ,总 结 出 Hadoop 分 布 式 文 件 系 统 具 有 的 海 量 、高 可 扩 展 性 、高 可 靠 性 、高 性 能 等 面 向 云 计 算 领 域 应 用 的 重 要 特 征 。 本 文 有 助 于 研 究 者 系 统 、 深 入 地 研 究 Hadoop 分 布 式 文 件 系 统 的 设 计 与 实 现,并为云计算背景下的分布式文件系统设计提供重要的参考。
性能透明 用户程序始终能够获得高效的文件访问能力,即使远 程服务器上的文件服务负载在一定范围内发生了变化
扩展透明 用户程序导致的文件服务需求的增大或者网络规模的 扩张等问题,能够通过系统的自动扩展得到有效的解决
等)的实现提供了有效的支撑 。 同样,HDFS 本身以及 以它 为基础的一系列开源软件技术的研究和开发, 已被业界广 泛应用到云计算的具体实践中,获得了非常好的效果。
针对这些需求,已经有数量众多的分布式文件系统被 提出,它们在设计和实现上各具特点。 为能够对这些文件 系统进行分析和比较,参考文献[2]提出了如图 1 所示的分 布式文件系统的远程文件服务模型。
该文件服务模型得到了学术界和产业界的广泛认同, 主要 由 扁 平 文 件(Flat File)服 务 、目 录 服 务 和 客 户 端 模 块 3 部分组成。 其中,扁平文件服务实现对服务器磁盘上保存
· 采用文件数据分块和数据块复制机制。 文件数据被 划为多个数据块, 有利于对其内容进行查找和定 位,同时数据块的多个拷贝能够提高系统在文件级 和 数 据 块 级 的 可 靠 性 ;同 时 ,分 布 在 不 同 Datanode 上的数据块可以被并行访问,改善了访问性能。
· 采用多种通信机制。 根据通信对象和传输内容的不 同,分别提供了远程过程调用和数据流两种通信方 式,实现了带外控制,提高了访问性能。
图 1 分布式文件系统的文件服务模型
图 2 HDFS 的 体 系 架 构 96
的文件内容的操作,负责创建、删除文件以及读写文件的 内容和属性,为每个文件创建惟一的文件标识符供后续操 作时引用;目录服务实现的是文件的文本名字与其对应标 识符之间的映射,负责目录的创建、删除以及目录中文件 的增删和查找,生成的目录也是以文件方式保存并由扁平 文件服务负责管理; 客户端模块则是运行在客户端上,负 责封装对扁平文件服务和目录服务的访问,提供了从客户 端本地文件系统的文件操作接口到远程服务器的相关功 能调用的映射。
2008. K-INGN 2008. First ITU-T Kaleidoscope Academic Conference, 2008
2 刘 伟 彦 ,张 顺 颐.下 一 代 网 络 中 基 于 遗 传 算 法 的 QoS 组 播 路 由 算 法 . 电 子 与 信 息 学 报 ,2006,28(11) :2157~2161
表 1 分布式文件系统的透明性需求
需求
描述
访问透明 用户程序不必考虑文件的分布问题, 能够通过完全相 同的编程接口对本地文件和远程文件进行访问和操作
位置透明 用户程序能够看到统一的文件名字空间,对文件进行 访问的路径名与其在远程服务器中的存放位置无关
移动透明 用户程序无需关心文件的存放位置发生移动所产生 的影响,这一需求的满足与位置透明性的实现相关
在图 3 所示的模型中, 服务器侧的目录服务主要 由 Namenode 提 供 , 负 责 对 文 件 系 统 的 名 字 空 间 进 行 操 作,如打开、关闭、重命名文件和目录等,还需要管控数 据 块 与 Datanode 之 间 的 映 射 关 系 。 服 务 器 侧 的 扁 平 文 件 服 务 主 要 由 Datanode 提 供 , 负 责 处 理 客 户 端 发 来 的 文件读写请求,执行数据块的创建、删除等操作以及根 据 Namenode 的 指 令 进 行 节 点 间 的 数 据 块 复 制 等 。 客 户 端 模 块 则 主 要 负 责 向 应 用 程 序 提 供 基 于 Java 语 言 的 文 件访问功能接口, 并处理应用程序的文件操作请求和 从服务器侧返回的响应。 模型中各个部分之间的通信 包括两类: 一类是远程过程调用, 主要用于客户端与 Namenode 、Datanode 与 Namenode 之 间 的 通 信 , 如 客 户 端 申 请 的 发 送 与 反 馈 、Datanode 状 态 信 息 的 提 交 等 ; 另 一 类 是 基 于 流 的 数 据 传 输 , 用 于 客 户 端 与 Datanode 之 间 的文件数据块传递。
Abstract By building a intelligent NGN Service-aware model, proposing a QoS control and management architecture of NGN
data flow, this paper presents a approach for the key technologies of multi-services transport, service identification, QoS control
从模型的角度出发 ,可 以 分 析 出 HDFS 在 设 计 和 实 现 上的主要特征。
· 采用 专 用 的 服 务 器 提 供 目 录 服 务 。 Namenode 对 文 件元数据进行管理,能够维护统一的文件名字空间 供用户访问以及从全局上对系统进行控制,提高了 系统的透 明 性 和 可 扩 展 性 ;同 时 ,Namenode 不 承 担 文件内容的供给,减轻了节点压力。
and management applied in the design and implementation of NGN.
Key words next generation network, service-aware, QoS control
(收 稿 日 期 :2010-10-15)
95
研究与开发
当前,针对 HDFS 的研究普遍关注其具体的技术细节和 实施效果, 尚缺乏对其进行系统设计理论上的分析和比较。 本文从模型分析的角度入手,首先介绍在业界获得普遍认同 的分布式文件系统的用户需求和架构模型, 然后针对 HDFS 的体系架构进行特征描述和建模分析,最后将 HDFS 与传统 的分布式文件系统进行比较,总结了 HDFS 在云计算领域中 应用的优势及存在的问题,并对其设计和应用提出建议。
关键词 Hadoop 分布式文件系统;系统模型;云计算
1 引言
Hadoop 分布式文件系统(hadoop distributed file system,
* 国家高技术研究发展专项经费资助项目(No.2008AA01A317-3)
HDFS)是 具 有 高 可 靠 性 和 高 可 扩 展 性 的 分 布 式 文 件 系 统 , 能够提供海量的文件存储能力[1]。 它的 开 发 和 实 现 遵 循 了 Google 文件系统 (Google file system,GFS) 的 核 心 原 理 ,而 GFS 作为 Google 云计算核心技术体系的底层,为相关技术 ( 如 MapReduce 分 布 式 计 算 模 型 、Bigtable 分 布 式 数 据 库
与 之 前 的 分 布 式 文 件 系 统 相 比 ,HDFS 的 设 计 与 实 现 更着重考虑了如何对海量数据进行高可扩展和高可靠的 存储和管理,其体系架构如图 2 所示[1]。
HDFS 体系架构采用了主—从方式。 其中,作为惟一主 节点的 Namenode 负责对文件系统树和文件 、 目录等元数 据信息进行管理和维护, 以提供统一的文件名字空间;作 为 从 节 点 的 数 量 众 多 的 Datanode 除 了 具 备 基 本 的 存 储 能 力外,还具有计算能力以对节点自身携带的存储资源进行 管理。 在 HDFS 中,一个文件被划分成一个或多 个 数 据 块 并被分散存储在不同的 Datanode 上,每个数据块都可以通 过 Datanode 之间的互相复制而具有多个备份。当客户端访 问文件时,首先把相关的包含了文件文本名字的申请发送 给 Namenode,然 后 ,Namenode 将 相 关 的 元 数 据 信 息 (主 要 是文件数据块在 Datanode 上的存储位置) 反馈给客户端 , 进 而 客 户 端 直 接 和 相 应 的 Datanode 建 立 连 接 并 进 行 具 体
Research on the Service-Aware Model of NGN Architecture and Key Technologies
Rao Xiang1, Zhang ShunYi1, Zhou Yun2
(1.Nanjing University of Posts and Telecommunication,Nanjing 210003,China; 2.Nanjing University of Finance & Economics,Nanjing 210046,China)
4 文件系统比较
扁平文件服务和目录服务向客户端模块提供高效、基 于网络通信的调用接口,这些接口的功能能够组成完备的 文件操作集合。 客户端模块将这些操作接口进行进一步封 装,再以与常规的本地文件操作接口接近的方式提供给应 用程序,尽量减少远程文件存放对用户应用程序执行造成 的影响,实现透明化。
3 HDFS 分析与建模
满足用户的透明性需求对于分布式文件系统设计非 常 关 键 ,直 接 影 响 了 用 户 对 远 程 文 件 的 访 问 体 验 。除 此 以 外,还有其他一些设计需求,包括分布式文件系统需要具 有高可用性,能够支持异构客户端的并发访问,能够提 供文件数据的多个拷贝并保证文件数据的一致性和安 全性等。
· 采用数目众多的服务器提供扁平文件服务。 多个 Datanode 可以同时为用户提供文 件 数 据 块 服 务 ,它 们分布广泛并互为备份,提高了系统在节点级的可 靠性, 因此, 单个节点可以由普通的 PC 服务器担 当,有利于降低系统成本。
图 3 HDFS 的 文 件 服 务 模 型 97
研究与开发