Hadoop原理和架构
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
成的集群中运行海量数据的分布式计算, 它可以让应用程序支持上千个节点和PB 级别的数据。 Hadoop是项目的总称, 主要是由分布式存储(HDFS) 分布 主要是由分布式存储(HDFS)、分布 式计算(MapReduce)等组成 。
Hadoop解决了传统IT架构什么难题?
分布式架构,海量数据存储 分布式架构 海量数据存储 移动计算而非移动数据,化整为零,分片处理; 本地化计算,并行IO,降低网络通信
Map:任务的分 解 Reduce:结果 的汇总
两大核心设计
分布式存储HDFS 文件分块 自行备份 HDFS
NameNode: 文件管理 DataNode:文 件存储 Client:文件获 取
目录
Hadoop的基本概念 HDFS基础 Hbase基础
Map/Reduce基础
Hadoop生态系统案例介绍
Hadoop的创立和沿革
起源: 谷歌三大论文 GFS(2003)
Sanjay Ghemawat(美国工程院士) (GFS,MR,BigTable) Howard Gobioff Shun Tak Leung Shun-Tak
map/reduce (2004)
Dean Jeffrey(美国工程院士) (Adsense,pb,News,Code search) Sanjay Ghemawat
HDFS基础知识
HDFS基础知识
Rack1 NN meta -> foo.bar blk1 blk2 blk3 blk4 blk5 blk1,blk2,blk3,blk4,blk5 Rack2 DN3 blk2,blk3,blk5 DN4 blk1,blk3,blk4
DN1 blk1,blk2,blk3,blk5
大数据分布式处理技术——Hadoop
据IDC的预测,全球大数据市场 2015年将达170亿美元规模,市场发展 前景很大。而Hadoop作为新一代的架 构和技术 因为有利于并行分布处理 构和技术,因为有利于并行分布处理 “大数据”而备受重视。 ApacheHadoop 是一个用java语 言实现的软件框架,在由大量计算·机组 优点: 可扩展 不论是存储的可扩展还是计算的可扩展 可扩展: 都是Hadoop的设计根本。 经济:框架可以运行在任何普通的 经济 框架可以运行在任何普通的PC上。 上。 可靠:分布式文件系统的备份恢复机制以及 MapReduce的任务监控保证了分布式处理的可靠 性。 高效:分布式文件系统的高效数据交互实现以及 MapReduce结合Local Data处理的模式 为高效 MapReduce结合LocalData处理的模式,为高效 处理海量的信息作了基础准备。
BigTable(2006)
Fay Chang Dean Jeffrey Sanjay Ghemawat ... Doug Cutting和Yahoo Lucene -> Nutch -> Hadoop
Hadoop体系架构
Hadoop核心设计
分布式计算Map/Reduce 函数式设计 将计算移动到数据 MapReduce p
简单的一致性模型
– –
一次写入多次读取的文件访问模型型 附加写操作。
Commodity y
–
hardware
错误检测和快速、自动的恢复是HDFS的核心架构目标
在异构的软硬件平台间的可移植性
–
Java编写
HDFS 基本组件
– –
Data Model
Blocks Replication
Block数据结构
– blockId:
一个long类型的块id 块大小 块更新的时间戳
– numBytes: y
– generationStamp:
元数据运行模式
HDFS 基本组件-Namenode
管理文件系统名字空间 维护元数据 维护 数据
– 信息包括: • 文件信息,根目录 hdfs://master:9000/ • 每一个文件对应的文件块的信息 • 每一个文件块在DataNode的信息 – 将所有的文件和文件夹的元数据保存在一个文件系统树中 – 元数据的持久化 • 名字空间镜像(namespace image) • 修改日志(edit log)
DN2 blk1,blk4,blk5
பைடு நூலகம்
DN5 blk2,blk4
HDFS的设计目标
Very
– – –
large files
大数据集合为目标数 以千万计的文件 典型文件大小一般都在千兆至T字节
Streaming
– –
data access
流式读为主 比之关注数据访问的低延迟 更关键在 数据访问的高 吐量 比之关注数据访问的低延迟,更关键在于数据访问的高吞吐量
– – –
Operation model:Master / Slaves / Client
Namenodes Datanodes Clients
HDFS 基本组件-Block
Block是HDFS中的基本读写单元
– files fil
i HDFS are broken in b k into i t block-sized bl k i d chunks(64 h k (64 MB by b default) d f lt)
支持客户端对文件的访问
– 减少元数据的量 – 有利于顺序读写(在磁盘上数据顺序存放) – 副本的默认数目是3 –a
file can be larger than any single disk in the network.
– making
the unit of abstraction a block rather than a file simplifies the storage subsystem.
Hadoop分布式处理技术
2013年12月 中国电信北京研究院云计算产品线 刘圆
目录
Hadoop的基本概念 HDFS基础 Hbase基础
Map/Reduce基础
Hadoop生态系统案例介绍
目录
Hadoop的基本概念 HDFS基础 Hbase基础
Map/Reduce基础
Hadoop生态系统案例介绍