分布式文件系统Hadoop+HDFS与传统文件系统Linux+FS的比较与分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

6苏州大学学报(工科版)第30卷

图1I-IDFS架构

2HDFS与LinuxFS比较

HDFS的节点不管是DataNode还是NameNode都运行在Linux上,HDFS的每次读/写操作都要通过LinuxFS的读/写操作来完成,从这个角度来看,LinuxPS是HDFS的底层文件系统。

2.1目录树(DirectoryTree)

两种文件系统都选择“树”来组织文件,我们称之为目录树。文件存储在“树叶”,其余的节点都是目录。但两者细节结构存在区别,如图2与图3所示。

一二

Root

图2ItDFS目录树围3LinuxFS目录树

2.2数据块(Block)

Block是LinuxFS读/写操作的最小单元,大小相等。典型的LinuxFSBlock大小为4MB,Block与DataN-ode之间的对应关系是固定的、天然存在的,不需要系统定义。

HDFS读/写操作的最小单元也称为Block,大小可以由用户定义,默认值是64MB。Block与DataNode的对应关系是动态的,需要系统进行描述、管理。整个集群来看,每个Block存在至少三个内容一样的备份,且一定存放在不同的计算机上。

2.3索引节点(INode)

LinuxFS中的每个文件及目录都由一个INode代表,INode中定义一组外存上的Block。

HDPS中INode是目录树的单元,HDFS的目录树正是在INode的集合之上生成的。INode分为两类,一类INode代表文件,指向一组Block,没有子INode,是目录树的叶节点;另一类INode代表目录,没有Block,指向一组子INode,作为索引节点。在Hadoop0.16.0之前,只有一类INode,每个INode都指向Block和子IN-ode,比现有的INode占用更多的内存空间。

2.4目录项(Dentry)

Dentry是LinuxFS的核心数据结构,通过指向父Den姆和子Dentry生成目录树,同时也记录了文件名并

指向INode,事实上是建立了<FileName,INode>,目录树中同一个INode可以有多个这样的映射,这正是连

分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较

与分析

作者:许春玲, 张广泉, Xu ChunLing, Zhang Guangquan

作者单位:许春玲,Xu ChunLing(苏州大学计算机科学与技术学院,江苏,苏州,215006), 张广泉,Zhang Guangquan(苏州大学计算机科学与技术学院,江苏,苏州,215006;中国科学院软件研究所计算

机科学国家重点实验室,北京,100080)

刊名:

苏州大学学报(工科版)

英文刊名:JOURNAL OF SUZHOU UNIVERSITY(ENGINEERING SCIENCE EDITION)

年,卷(期):2010,30(4)

被引用次数:0次

1.John Howard.Michael Kazar.Sherri Menees Scale and performance in a distributed file system 1988(1)

2.Luiz A Barroso.Jeffrey Dean.Urs H¨olzle Web search for a planet:the Google cluster architecture 2003(2)

1.期刊论文曹宁.吴中海.刘宏志.张齐勋.CAO Ning.WU Zhong-hai.LIU Hong-zhi.ZHANG Qi-xun HDFS下载效率的优化-计算机应用2010,30(8)

针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下栽效率和数据块的下载效率两方面提出了优化方法.实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法能更好地提高下载效率和均衡DataNode的负载.

2.学位论文黄晓云基于HDFS的云存储服务系统研究2010

随着互联网技术的飞速发展,数据量呈现出爆炸性增长的趋势,企业面临着

海量数据管理困难、数据存储成本高、可靠性低等难题。越来越多的企业开始将

数据存储分离出来,向专业云存储服务供应商寻求帮助以进行数据的分布式管理。

云存储服务具有高可靠性、高通用性、高扩展性及大容量存储等特点,因此进行

云存储服务系统的研究不仅紧跟IT技术发展的趋势,而且具有较高的应用价值。

本文的研究内容为基于HDFS的云存储服务系统研究,旨在通过构建基于

HDFS的云存储服务系统,解决企业的海量数据存储难题,降低实施分布式文件系

统的成本,促进Hadoop技术的推广。云存储是在当前广泛讨论的云计算概念上延

伸和发展出来的,可以将网络中大量不同类型的存储设备进行整合,从而对外提

供数据存储和业务访问的功能。Hadoop分布式文件系统(Hadoop Distributed File

System,HDFS)是开源云计算软件平台Hadoop框架的底层实现部分,具有高传输

率、高容错性等特点,可以以流的形式访问文件系统中的数据,从而解决访问速

度和安全性问题,实现海量数据的存储管理。

本文首先阐述了云存储的相关理论,介绍了云存储的定义、云存储系统结构

和云存储服务系统的应用等内容;接着对HDFS数据管理机制及其实现技术进行

了详细分析,为论文下一步的研究提供了技术保障;最后,通过结合实际需求,

在对某云存储服务系统业务分析的基础上,对服务系统存储体系结构、功能结构、

数据库及运行环境进行了设计,并对该系统加以实现,从而为企业海量数据存储

提供了一个有效的解决方案。

本文主要实现了一个面向企业应用的云存储服务系统,解决了大规模非结构

化数据的在线存储、查询、备份等问题,为企业应用提供了高效能、高可靠性的

服务。尽管云存储服务系统目前已经取得了一定的研究成果,但对于如何保障云

中数据的安全和隐私这一问题,仍是今后研究的重点,也是亟待解决的难题。

关键词:Hadoop;HDFS;云存储;云存储服务系统

3.期刊论文林清滢.LIN Qing-ying基于Hadoop的云计算模型-现代计算机(专业版)2010(7)

Hadoop是一个更容易开发和并行处理大规模数据的分布式计算平台,也是目前最为广泛应用的开源云计算软件平台.在对Hadoop平台上的分布式文件系统HDFS和计算模型Map/Reduce进行深入分析和研究的基础上,给出基于Hadoop的云计算模型和实现步骤.

4.期刊论文王润华基于Hadoop集群的分布式日志分析系统研究-科技信息2009(15)

当数据存储和计算遇到瓶颈时,分布式技术相对于传统的向上扩展技术在伸缩性和成本上都具有巨大的优势.本文介绍了开源的分布式编程框架Hadoop,并通过具体的代码说明了基于Hadoop集群的分布式日志分析系统的工作方式.

5.会议论文孙兆玉.袁志平.黄宇光面向数据密集型计算Hadoop 及其应用研究2008

当前的数据密集型计算需要处理PB级数据集和GB级数据流,面临着大规模数据管理、复杂计算环境管理、可扩展计算平台等方面的难题。Hadoop是一种易扩展的分布式计算架构,能将廉价PC节点联合起来提供大型计算服务—其HDFS提供大规模存储管理,其Map-Reduce并行框架为用户提供容易使用的并行编程模式。本文研究了Hadoop架构并探讨了在数据密集型计算中的应用。

6.期刊论文拓守恒.Tuo Shouheng云计算与云数据存储技术研究-电脑开发与应用2010,23(9)

在介绍了现有的云计算定义和特点的基础上,设计出了通用云计算的体系结构,针对云计算与其存储技术,给出了云存储系统的结构模型,分析了两种新型存储技术:GFS(Google File System)和HDFS(Hadoop Distributed File System);最后深入分析云计算和存储的发展趋势.

相关文档
最新文档