Hadoop基础知识培训
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高性能搜索 高性能全文 索引工具包 把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
对应Cloudera公司的CDH3u5
引擎工具包
版本演进
对应Cloudera 公司的CDH4
企业信息化部
企业信息化部
3 HDFS 之漫画读写
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
3 HDFS 之漫画读写
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
4 HDFS 之漫画容错
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
4 HDFS 之漫画容错
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
HADOOP生态系统
·
发展目标
(1)实时应用场景(0~5s):Storm、S4等; (2)交互式场景(5s~1m):这种场景通常能要求必须支持SQL,则可行系统有: Cloudera Impala、Apache Drill、Shark等; (3)非交互式场景(1m~1h):通常运行时间较长,处理数据量较大,对容错性和扩 展性要求较高,可行系统有:MapReduce、Hive、Pig、Stinger等; (4)批处理场景(1h+):通常运行时间很长,处理数据量很大,对容错性和扩展性要 求很高,可行系统有:MapReduce、Hive、Pig、Stinger等。
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
HADOOP厂商
Hadoop处于近时间的大数据革命的风暴眼,在Hadoop取得成功的同时也促使主 流市场对其稳定性、成熟的管理,丰富的SQL环境等提出更高要求,于是Hadoop 厂商通过技术创新各显神通。
· 第二篇 HDFS 分布式文件系统
· 第三篇 MapReduce 分布式计算框架 · 第四篇 常用Hadoop组件介绍
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
2
企业信息化部
企业信息化部
4 HDFS 之漫画容错
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
4 HDFS 之漫画容错
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
2014年中国电信大数据技术与应用培训
Hadoop基础知识培训
江西电信大数据支撑团队
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
主要内容
· 第一篇 Hadoop综述
Hadoop的特点
Hadoop运用于海量数据处理,主要有如下几个优势:
方便 Hadoop可以运行在一般商业机器(X86服务器)构成的大型集群 上 弹性 Hadoop通过增加集群节点,可以线性扩展以处理更大的数据集; 同时在负载下降时,也可减少节点,以便高效使用资源。 健壮 Hadoop设计之初,将故障检测和自动恢复作为设计目标,可以
典型的MapReduce过程可以细分为Input(Split)、Mappers、(Shuffle/Partition/Sort)、 Reducers和Output等阶段
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
• 对输入的文 本进行单词 统计
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
2 MapReduce 执行过程
从MapReduce在整个Hadoop框架 的位置可以看出作为Hadoop最成熟 的批处理框架,MapReduce起到承 上启下的作用,一方面可以操作 HDFS中的数据,另一方面可以被封 装,提供Hive、Pig这样的上层组件 的调用
Hadoop是什么?
Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式 文件系统(HDFS)和分布式计算框架(MapReduce)为核心,为用户 提供了底层细节透明的分布式基础设施。
y HDFS的高容错性、高伸缩性等优点,允许用户将Hadoop部署 在廉价的硬件上,构建分布式系统。 y MapReduce分布式计算框架允许用户在不了解分布式底层细节 的情况下开发并行、分布的应用程序,利用大规模计算资源,解 决传统高性能单机无法解决的大数据处理问题 Hadoop Nutch Lucene
y 经过几年的快速发展,Hadoop现在已经发展成为包含多个相关项目的软件生 态系统,成为大数据处理技术的事实标准,目前典型的Hadoop生态系统如下 所 示:
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
逻辑部署的Hadoop集群
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
江西电信物理部署的Hadoop集群
简介: 江西电信Hadoop批 处理平 台共由62台PC服务 器构成, 形成物理上独立的 3个RACK ,按照功能角色分组,主控 节点、数据节点、Hive接入 节点、元数据节点、监控告
:MapReduce工作原理
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
24
企业信息化部
1 MapReduce基础
MapReduce是一种编程模型,用于大规模数据集的并行计算。核心操作 由"Map(映射)"和"Reduce(归约)"组成,极大地方便了编程人员在不会分 布式并行编程的情况下,将自己的程序运行在分布式系统上
第一篇Hadoop综述
: 什么是Hadoop : Hadoop生态系统
: Hadoop的厂商
: Hadoop的部署
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
3
企业信息化部
从容处理通用计算平台上出现的硬件失效情况。
简单 Hadoop允许用户快速编写出高效的并行分布式代码。
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
HADOOP生态系统
基 本 概 念
Namenode:主要负责存储一些metadata信息,主要包括文件目录、block 和文件对应关系,以及block和datanote的对应关系 Datanode:负责存储数据,数据以block的形式存在
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
1 MapReduce示例
1.输入端根据输入文本大小进行切片形成适合Map处理的数据片 MapReduce 过程示例 2.分片后的数据申请Map资源,执行本地单词映射操作 3.通过交换将map生成的结果按照单词进行归并重组 4.重组后的结果,申请Reduce资源,进行单词的合并统计 5.对Reduce的结果进行记录合并生成输出文件
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
MapReduce优劣
• 通过MapReduce这个分布式处理框架,不仅能用于处理大规模数据, 而且能将很多繁琐的细节隐藏起来,比如,自动并行化、负载均衡和 灾备管理等,这样将极大地简化开发者工作 • MapReduce的伸缩性非常好,也就是说,每增加一台服务器,其就 能将差不多的计算能力接入到集群中,而过去的大多数分布式处理 框 架,在伸缩性方面都与MapReduce相差甚远。
警节点和ETL节点。 主控节
点6台 (2台Namenode、1 台 Jobtracker、3台 Zookeeper)
数据节点56台
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
物理上的Hadoop集群
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
来自百度文库
企业信息化部
2 HDFS 架构
Block:大文件的存储会被分割为多个block进行存储。默认64MB,每一个 blok会在多个datanode上存储多份副本,默认3份
12
企业信息化部
1 HDFS简介
HDFS(HADOOP DISTRIBUTED FILE SYSTEM),是一个分布式文件系统。它 是谷歌的GFS提出之后出现的一种用户级文件系统。有一定的容错性, 能提供高吞吐量的数据访问,适合大规模数据集上的应用。 HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案
企业信息化部
3 HDFS 之漫画读写
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
3 HDFS 之漫画读写(续)
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
第二篇HDFS
一: HDFS简介
二: HDFS 架构
三: 漫画HDFS之读写机制 四: 漫画HDFS之容错性 五: 漫画HDFS之复制策略
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
5 HDFS 之漫画复制策略
把信息化打造成为中国电信企业核心竞争力之一
PDF created with pdfFactory Pro trial version www.pdffactory.com
企业信息化部
第二篇 MapReduce
一:MapReduce基础
二:MapReduce优劣 三