《云计算(第三版)》第5章 Hadoop 2.0 主流开源云架构(二)PPT课件
合集下载
《云计算(第三版)》配套PPT之五:第2章 Google云计算原理与应用(四)
MapReduce
优点:便携 缺点:效率低
Google的团队结合其自身的实际需求,借鉴搜 索引擎和并行数据库的一些技术,开发出了实 时的交互式查询系统Dremel。
5 of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件
Dremel支持的典型应用
《云计算》第三版配套PPT课件
云 计 算 (第三版)
CLOUD COMPUTING Third Edition
第2章
Google云计算原理与应用(四)
主编:刘鹏 教授
of 64
《云计算》第三版配套PPT课件
目 录
2.1 Google文件系统GFS 2.2 分布式数据处理MapReduce 2.3 分布式锁服务Chubby 2.4 分布式结构化数据表Bigtable 2.5 分布式存储系统Megastore 2 . 6 大规模分布式系统的监控基础架构Dapper 2.7 海量数据的交互式分析工具Dremel 2.8 内存大数据分析系统PowerDrill 2.9 Google应用程序引擎
符合该模式的两条记录
11 of 64
《云计算》第三版配套PPT课件
2.7 海量数据的交互式分析工具Dremel
2.7.1 产生背景 2.7.2 数据模型 2.7.3 嵌套式的列存储 2.7.4 查询语言与执行 2.7.5 性能分析 2.7.6 小结
of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件 数据结构的无损表示
15 of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件
《云计算(第三版)》配套PPT之十九:第5章 Hadoop 2.0 主流开源云架构(五).pptx
17 of 42
《云计算》第三版配套PPT课件
2.HDFS编程基础
of 42
5.6 Hadoop 2.0编程接口
HDFS 编程
1)Hadoop统一配置文件类Configuration
《云计算》第三版配套PPT课件
Hadoop的每一个实体(Common, HDFS,Yarn)都有与其相对应的配置 文件,Configuration类是联系几个配 置文件的统一接口。
5.5 Hadoop 2.0访问接口
《云计算》第三版配套PPT课件
命令行接口
4.其他常用命令 sbin/目录下的脚本主要分为两种类型:启停服务脚本和管理服务脚本。 其中,脚本hadoop-daemon.sh可单独用于启动本机服务,方便本机调试, start/stop类脚本适用于管理整个集群,读者只要在命令行下直接使用这些脚本, 它会自动提示使用方法。
请编写一简单程序,要求实现在HDFS里新建文件myfile,并且 写入内容“china cstor cstor cstor china”。
【例2】
请编写一简单程序,要求输出HDFS里刚写入的文件myfile的内 容。
【例3】
请编写一简单代码,要求输出HDFS里文件myfile相关属性(如 文件大小、拥有者、集群副本数,最近修改时间等)。
《云计算》第三版配套PPT课件
fs包下的FSDataInputStream
io包下的缓冲流DataInputBuffer
util包下的LineReader
……
用户可以和Java流相互配合使用
21 of 42
5.6 Hadoop 2.0编程接口
5.6.1 HDFS 编程 5 .6 .2 Ya r n 编 程
15.【云计算 精品讲义】之十五:第5章 Hadoop 2.0 主流开源云架构(一二三四五 五部分全)
cSlave0 存储真实数据
cSlave1
cSlaveN
存储真实数据
……
存储真实数据
10
5.1 引例 分布式存储
对内 对外
客户-服务器模式
只要保证store master正常工作,我们很容易随意添加 store slave,硬盘存储空间无限大。
统一存储空间,统一文件接口
整个集群就像是一台机器、一片云,硬盘显示为统一 存储空间,文件接口统一。
<china,2> <cstor,1>
处理本机数据
cSlave1存储file1 cstor china cstor
cSlave1处理file1
<china,1> <cstor,2>
cSlave0处理汇 总至本机数据
<china,2> <china,1>
cSlave1处理汇 总至本机数据
<cstor,1> <cstor,2>
5.1 引例 5.2 Hadoop 2.0简述 5.3 Hadoop 2.0部署 5.4 Hadoop 2.0体系架构 5.5 Hadoop 2.0访问接口 5.6 Hadoop 2.0编程接口
人均5TB
5.1 引例
5.1.1 5.1.2 5.1.3 5.1.4
问题概述 常规解决方案 分布式下的解决方案 小结
<cstor,1> <cstor,2>
计算后 得结果
<cstor,3>
结果存至DFS
洗牌
汇总计算
存结果
分布式计算
13
5.1 引例 分布式计算
本地计算 (Map)
《云计算(第三版)》第3章_Amazon_云计算_AWS(二)精要
服务请求字符串 Secret Access Key
数字 签名B
计算
HMAC
3.3 简单存储服务S3
《云计算》第三版配套PPT课件
S3的安全措施
访问控制列表(Access Control List)
访问控制列表是S3提供的可供用户自行定义的访问控制策略列表。S3的访问控制策 略(ACP)提供如下所列的五种访问权限。
提供了强大的查询功能,并便 询功能,且由于不同数据库之间
于在各种关系数据库间移植
API的不同而造成移植性较差
22 of 44
3.4 非关系型数据库服务SimpleDB和DynamoDB
非关系型数据库与传统关系数据库的比较
总结:
《云计算》第三版配套PPT课件
关系型 数据库
优点 具有高一致性,在ACID方面很强,移植性很高 缺点 可扩展性方面能力较弱
《云计算》第三版配套PPT课件
新用户注册时,Amazon会给每个用户分配一个Access Key ID和一个 Secret Access Key 。
Access Key ID是一个20位的由字母和数字组成的串, Secret Access Key 是一个40位的字符串。
Access Key ID用来确定服务请求的发送者, Secret Access Key 参与数字 签名过程,用来证明用户是发送服务请求的账户的合法拥有者。
第3章
Amazon 云计算 AWS (二)
of 44
《云计算》第三版配套PPT课件
目 录
3.1 基础存储架构Dynamo 3.2 弹性计算云EC2 3.3 简单存储服务S3 3 . 4 非关系型数据库服务SimpleDB和DynamoDB 3.5 关系数据库服务RDS 3.6 简单队列服务SQS 3.7 内容推送服务CloudFront 3.8 其他Amazon云计算服务 3.9 AWS应用实例 3.10 小结
第6章 Hadoop 2.0 大家族(四)
Web server
Source Channel
Sink
6 of 42
HDFS
6.7 Flume Flume组成
Source
《云计算》第三版配套PPT课件
Flume
Channel
Sink
ቤተ መጻሕፍቲ ባይዱ
7 of 42
6.7 Flume Flume组成
《云计算》第三版配套PPT课件
Source
它负责读取原始数据,目前Flume支持大量类型 用户可以自定义Source,使用时在配置文件里声明即可。
《云计算》第三版配套PPT课件
Flume部署
集群中只有一台机器部署Flume就可以接收数据了,此外下面的例题中还要有一 台机器做为数据源,负责向Hadoop集群发送数据,故须在cMaster与iClient上 部署Flume。
(1)部署Flume接收端:
[root@cMaster ~]# sudo yum install flume-ng-agent
14 of 42
6.7 Flume
《云计算》第三版配套PPT课件
Flume访问接口
对于问题③
首先,在cMaster上新建文件“/etc/flume-ng/conf/flume.conf.hdfs”,并填入如下内容:
# 命令此处agent名为a1,并命名此a1的sources为r1,channels为c1,sinks为k1 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 定义sources类型及其相关属性 # 即此sources为avro类型,且其在cMaster上开启4141端口接收avro协议发来的数据 a1.sources.r1.type = avro a1.sources.r1.bind = cMaster a1.sources.r1.port = 4141 # 定义channels类型其实相关属性,此处指定此次服务使用memory暂存数据 a1.channels.c1.type = memory
《云计算与大数据概论》课件第5章 Hadoop开发平台
一个案例为Hadoop做了良好的宣传:《纽约时报》使用Amazon的EC2云计 算将4TB的报纸扫描文档压缩,转换成用于Web的PDF文件,整个过程使用 100台机器运行,历时不到24小时,如果不结合Amazon的按小时付费的模 式(即允许《纽约时报》在很短的一段时间内访问大量机器)和Hadoop易 于使用的并行程序设计模型,该项目很可能不会这么快就能完成。
ZooKeeper典型的应用场景: 统一命名服务 配置管理 集群管理 共享锁(Locks) 队列管理
HBase(分布式NoSQL数据库)
HBase位于结构化存储层,是一个分布式的列存储数据库。该技术来源于Google的论 文《BigTable:一个结构化数据的分布式存储系统》。HBase是Hadoop项目的子项目, 如同BigTable利用了Google文件系统(Google File System)提供的分布式数据存储方 式一样,HBase在Hadoop之上提供了类似于BigTable的功能。 HBase不同于一般的RDBMS:其一,HBase是一个适合于存储非结构化数据的数据库; 其二,HBase使用基于列而不是基于行的模式。HBase和BigTable使用相同的数据模型, 用户将数据存储在一个表里,一个数据行拥有一个可选择的键和任意数量的列,由 于HBase表是疏松的,用户可以给行定义各种不同的列。HBase主要用于需要随机访 问、实时读写的大数据(BigData)。
MapReduce很适合处理那些需要分析整个数据集的问题(以批处理的方式),而RDBMS则适用于点查询和更新 (其中,数据集已经被索引以提供低延迟的检索和短时间的少量数据更新)。MapReduce适合数据被一次写入和 多次读取的应用,而RDBMS更适合持续更新的数据集。
MapReduce是一种线性的可伸缩的编程模型,程序员编写两个函数——Map函数和Reduce函数——每一个都定义 一个键值对集映射到另一个。这些函数无视数据的大小或者它们正使用的集群的特性,可以原封不动地应用到 小规模数据集或者大的数据集上。
ZooKeeper典型的应用场景: 统一命名服务 配置管理 集群管理 共享锁(Locks) 队列管理
HBase(分布式NoSQL数据库)
HBase位于结构化存储层,是一个分布式的列存储数据库。该技术来源于Google的论 文《BigTable:一个结构化数据的分布式存储系统》。HBase是Hadoop项目的子项目, 如同BigTable利用了Google文件系统(Google File System)提供的分布式数据存储方 式一样,HBase在Hadoop之上提供了类似于BigTable的功能。 HBase不同于一般的RDBMS:其一,HBase是一个适合于存储非结构化数据的数据库; 其二,HBase使用基于列而不是基于行的模式。HBase和BigTable使用相同的数据模型, 用户将数据存储在一个表里,一个数据行拥有一个可选择的键和任意数量的列,由 于HBase表是疏松的,用户可以给行定义各种不同的列。HBase主要用于需要随机访 问、实时读写的大数据(BigData)。
MapReduce很适合处理那些需要分析整个数据集的问题(以批处理的方式),而RDBMS则适用于点查询和更新 (其中,数据集已经被索引以提供低延迟的检索和短时间的少量数据更新)。MapReduce适合数据被一次写入和 多次读取的应用,而RDBMS更适合持续更新的数据集。
MapReduce是一种线性的可伸缩的编程模型,程序员编写两个函数——Map函数和Reduce函数——每一个都定义 一个键值对集映射到另一个。这些函数无视数据的大小或者它们正使用的集群的特性,可以原封不动地应用到 小规模数据集或者大的数据集上。
3.《云计算(第三版)》配套PPT之三:第2章 Google云计算原理与应用(二)
4 of 56
2.3 分布式锁服务Chubby 系统的约束条件
《云计算》第三版配套PPT课件
p1:每个acceptor只接受它得到的第一个决议。
p2:一旦某个决议得到通过,之后通过的决议必须和该决议保持一致。
p2a:一旦某个决议v得到通过,之后任何acceptor再批准的决议必须是v。 p2b:一旦某个决议v得到通过,之后任何proposer再提出的决议必须是v。 p2c:如果一个编号为n的提案具有值v,那么存在一个“多数派”,要么它们中没有谁批 准过编号小于n的任何提案,要么它们进行的最近一次批准具有值v。
《云计算》第三版配套PPT课件
目 录
2.1 Google文件系统GFS 2.2 分布式数据处理MapReduce 2.3 分布式锁服务Chubby 2.4 分布式结构化数据表Bigtable 2.5 分布式存储系统Megastore 2 . 6 大规模分布式系统的监控基础架构Dapper 2.7 海量数据的交互式分析工具Dremel 2.8 内存大数据分析系统PowerDrill 2.9 Google应用程序引擎
为了保证决议的唯一性,acceptors也要满足一个约束条件:当且仅当 acceptors 没有收到编号大于n的请求时,acceptors 才批准编号为n的提案。
5 of 56
2.3 分布式锁服务Chubby 一个决议分为两个阶段
《云计算》第三版配套PPT课件
1
准备阶段
proposers选择一个提案并将它的编号设为n 将它发送给acceptors中的一个“多数派”
远程过程调用
客户端
Chubby
应用程序 程序率
客户端进程
主服务器
客户端
在客户这一端每个客户应用程序都有 一个Chubby程序库(Chubby Library),客户端的所有应用都是通 过调用这个库中的相关函数来完成的。
高级培训-20.《云计算(第三版)》配套PPT之二十:第6章 Hadoop 2.0 大家族(一)3
12 Apache Chukwa
分布式的数据收集与传输系统
它可以将各种各样类型的数据收集与导入Hadoop。
6
6.1 Hadoop 2.0大家族概述 组件简介
13 Apache Hama
基于HDFS的BSP并行计算框架
可用于包括图、矩阵和网络算法在内的大规模、大数据计算。
14 Apache Giraph
23
6.2 ZooKeeper
6.2.1 ZooKeeper简介 6.2.2 ZooKeeper 入门
6.2 ZooKeeper ZooKeeper部署
1.部署前提
2.部署规划
3.下载并安装ZooKeeper服务
5.配置ZooKeeper
4.初始化ZooKeeper
6.启动ZooKeeper服务
8
6.1 Hadoop 2.0大家族概述
组件分类
1 分布式存储 HDFS
2 分布式操作系统 Yarn
3 分布式处理算法 MapReduce 4 分布式锁服务 ZooKeeper
5 分布式数据库 Hbase Cassandra 6 分布式锁服务 Oozie 7 高层语言 Pig Hive Impala RHadoop
6 Apache Flume
分布式日志数据聚合与传输工具
可用于日志数据收集、处理和传输,功能类似于Chukwa,但比Chukwa更小巧
实用。
7 Apache Mahout
基于Hadoop的分布式程序库
提供了大量机器学习算法的MR实现,并提供了一系列工具,简化了从建模到测 试流程。
8 Apache Sqoop
8 机器学习库 Mahout Giraph Hama RHadoop
云计算(第三版)
2.3.5 通信协 议
2 Google云计算原理与应用
2.3 分布式锁服务Chubby
2.3.3 Chubby中 的Paxos
2.3.6 正确性 与性能
2 Google云计算原理与应用
06
2.4.6 性能 优化
05
2.4.5 子表
服务器
04
2.4.4 主服
务器
03
2.4.3 系统
架构
02
2.4.2 数据
2 Google 云计算原 理与应用
2.2 分布式数据处理 MapReduce
https:///
2.2.2 编程模 型
2.2.4 案例分 析
1
2
3
4
2.2.1 产生背 景
2.2.3 实现机 制
2.3.1 Paxos 算法
2.3.2 Chubby 系统设计
2.3.4 Chubby 文件系统
0 3 . 41. 1 非 关 系 型 数据库
与传统关系数据库的比 较
0 3
3.4.3 DynamoDB
0 2
3.4.2 SimpleDB
0 4
3.4.4 SimpleDB和 DynamoDB的比较
3.4 非关系型数据库服务 SimpleDB和DynamoDB
3 Amazon 云计算 AWS
3.5 关系数据库服务RDS
2.9 Google应用程序引擎
06
3 Amazon云计算AWS
3 Amazon云计算AWS
A
C
3.2 弹性计算云 EC2
3.4 非关系型数据 库服务SimpleDB
和DynamoDB
E
3.6 简单队列服 务SQS
精选-《云计算(第三版)》配套PPT之十七:第5章 Hadoop 2.0 主流开源云架构(三)
5.1 引例 5.2 Hadoop 2.0简述 5.3 Hadoop 2.0部署 5.4 Hadoop 2.0体系架构 5.5 Hadoop 2.0访问接口 5.6 Hadoop 2.0编程接口
5.4 Hadoop 2.0体系架构
5.4.1 Hadoop 2.0公共组件Common 5.4.2 分布式文件系统HDFS 5 . 4 . 3 分 布 式 操 作 系 统 Ya rn 5.4.4 Hadoop 2.0安全机制简介
HDFS内部特性
客户端缓存
客户端创建文件的请求不是立即到达NameNode,HDFS客户端先把数据缓存 到本地的一个临时文件,程序的写操作透明地重定向到这个临时文件。
当这个临时文件累积的数据超过一个块的大小(64MB)时,客户端才会联系 NameNode。
如果NameNode在文件关闭之前死机,那么文件将会丢失。 如果不采用客户端缓存,网络速度和拥塞都会对输出产生很大的影响。
NameNode
DataNode
DataNode
13
DataNode
5.4 Hadoop 2.0体系架构 HDFS体系架构
ZooKeeper集群 至少三个ZooKeeper实体,用来选举ActiveNamenode。
JourNalNode集群 至少三个,用于与两NameNode交换数据,也可使用NFS。
HDFS内部特性
超大规模数据集
一般企业级的文件大小可能都在TB级甚至PB级,HDFS支持大文件存储,而且 提供整体上高的数据传输带宽。
一个单一的HDFS实例应该能支撑数以千万计的文件,并且能在一个集群里扩 展到数百个节点。
5.4 Hadoop 2.0体系架构 HDFS对外功能
1 NameNode高可靠性
5.4 Hadoop 2.0体系架构
5.4.1 Hadoop 2.0公共组件Common 5.4.2 分布式文件系统HDFS 5 . 4 . 3 分 布 式 操 作 系 统 Ya rn 5.4.4 Hadoop 2.0安全机制简介
HDFS内部特性
客户端缓存
客户端创建文件的请求不是立即到达NameNode,HDFS客户端先把数据缓存 到本地的一个临时文件,程序的写操作透明地重定向到这个临时文件。
当这个临时文件累积的数据超过一个块的大小(64MB)时,客户端才会联系 NameNode。
如果NameNode在文件关闭之前死机,那么文件将会丢失。 如果不采用客户端缓存,网络速度和拥塞都会对输出产生很大的影响。
NameNode
DataNode
DataNode
13
DataNode
5.4 Hadoop 2.0体系架构 HDFS体系架构
ZooKeeper集群 至少三个ZooKeeper实体,用来选举ActiveNamenode。
JourNalNode集群 至少三个,用于与两NameNode交换数据,也可使用NFS。
HDFS内部特性
超大规模数据集
一般企业级的文件大小可能都在TB级甚至PB级,HDFS支持大文件存储,而且 提供整体上高的数据传输带宽。
一个单一的HDFS实例应该能支撑数以千万计的文件,并且能在一个集群里扩 展到数百个节点。
5.4 Hadoop 2.0体系架构 HDFS对外功能
1 NameNode高可靠性
精选-《云计算(第三版)》配套PPT之十五:第5章 Hadoop 2.0 主流开源云架构(一)
5.1 引例
分布式存储
对于第一类存储问题,若能将多台机器硬盘以某种方式连接到一起,则问题迎刃 而解。取机器cSlave0,cSlave1和cMaster0,采用客户-服务器模式构建分布式 存储集群,让cMaster0管理cSlave0,cSlave1。
cMaster0 统一管理cSlave0~N
存储空间
<cstor,1> <cstor,2>
计算后 得结果
结果存至DFS
<china,3>
计算后 得结果
<cstor,3>
结果存至DFS
分布式存储
本地计算shuffle 洗牌 shuffle
汇总计算Reduce
分布式计算
20
存结果
冗余存储与冗余计算
只要保证存于cSlave0上的数据,同 时还存在于别的机器上,即使 cSlave0宕机,数据依旧不会丢失。
第二类问题,计算。
问题③:在问题①下,统计file0和file1这两个文件里每个单词出现的次数。
第三类问题,可靠性。
问题④:假设用于解决上述问题的机器宕机了,问如何保证数据不丢失。
4
5.1 引例
5.1.1 问题概述 5.1.2 常规解决方案 5.1.3 分布式下的解决方案 5.1.4 小结
5.1 引例
5.1 引例 冗余存储与冗余计算
存储时 计算时
引入新机器cSlave2和cSlave3,将存于cSlave0的file0同 样存储于cSlave2,存于cSlave1的file1同样存一份于 cSlave3。
cSlave0~3的计算任务统一由cMaster1指派。 cMaster1选中先结束的那台机器的计算结果,并停止另一 台机器里还在计算的进程
《云计算通俗讲义 第3版 》读书笔记思维导图PPT模板下载
05 第5章 “云”技术
07 第7章 “云”应用
06 第6章 “云”安全 08 第8章 “云”实验
本书力求简明扼要地阐述云计算的基本概念,让非IT专业人士也能轻松看懂这一现在人人都能接触(以后程 度会更深)的事物――云计算。本书遵循一条由感性到理性、由浅入深的主线展开:首先采用情景描述,让外行 的人对云计算也能产生感性认识;其次从计算机的基本知识开始逐步引出云计算的概念,使人产生理性认识;接 着列举一系列生活中的典型云应用例子,让人们明白云计算给生活带来的确切好处;最后采用OpenStack搭建单 节点和三节点方案让人们感受组建云计算中心的过程,以达到抛砖引玉之功效。本书可作为高等院校学生教材。
最新版读书笔记,下载可以直接修改
《云计算通俗讲义 第3 版》
思维导图PPT模板
本书关键字分析思维导图
网络
云计算
中间件
技术
设备
概念
数据
软件
计算机
应用 服务
目的
云
服务提供 商
节点
信息
模式
中心
第章云
目录
01 第1章 “云”畅想
03 第3章 “云”架构
02 第2章 “云”概念 04来自第4章 “云”组件目录
第1章 “云”畅想
第2章 “云”概念
2.1 软件的概念 2.2 计算机系统
2.3 计算机网络 2.4 IT系统组成
2.5 云计算概念 2.6 3种服务模式
2.7 4种部署模型
2.8 云计算的优 劣分析
第3章 “云”架构
01
3.1 云 架构的参 考模型
02
3.2 云 服务消费 者
03
3.3 云 服务提供 商
Hadoop 2.0 大家族(二)
元素由行健、列(<列族>:<限定符>)和时间戳唯一确定,元素中的数据以字节码 的形式存储,没有类型之分。
8 of 40
Hbase数据模型
物理模型 概念模型中的一个行进行分割
并按照列族存储 表中的空值是不被存储的 如果没有指名时间戳,则返回指定列的最新数据值 可以随时向表中的任何一个列添加新列,而不需要事先声明
列族mime mime:type="t
ext/html"
7 of 40
6.3 Hbase
《云ቤተ መጻሕፍቲ ባይዱ算》第三版配套PPT课件
Hbase数据模型
行键是数据行在表中的唯一标识,并作为检索记录的主键。
在Hbase中访问表 中的行有三种方式
通过单个 行健访问
给定行健的 范围访问
全表扫描
Hbase提供了两个版本的回收方式: 1 对每个数据单元,只存储指定个数的最新版本 2 保存最近一段时间内的版本(如七天),客户端可以按需查询
6.3.1 Hbase简介 6.3.2 Hbase入门
of 40
6.3 Hbase Hbase部署
1 部署前提
2 Hbase 部署规划
《云计算》第三版配套PPT课件
3 部署Hbase
4 配置Hbase
5 HDFS里新建 Hbase存储 目录
6 启动 Hbase集群
15 of 40
6.3 Hbase
云 计 算 (第三版)
CLOUD COMPUTING Third Edition
第6章
Hadoop 2.0 大家族(二)
of 40
目 录
《云计算》第三版配套PPT课件
6.1 Hadoop 2.0大家族概述 6.2 ZooKeeper 6.3 Hbase 6.4 Pig 6.5 Hive 6.6 Oozie 6.7 Flume 6.8 Mahout 6.9 小结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在一台单机上运行,用不同的进程模仿分 布式运行中的各类节点
分布式模式
在不同的机器上部署系统
13
5.3 Hadoop 2.0部署 部署步骤
制定部署规划
测试 Hadoop
准备机器
准备机器 软件环境
部署前工作
启动 Hadoop配置 Hadoop源自部署Hadoop14
下载 Hadoop
解压 Hadoop
5.3 Hadoop 2.0部署
5.3 Hadoop 2.0部署
5.3.1 部署综述 5.3.2 传统解压包部署
5.3 Hadoop 2.0部署
部署综述
安装 方式
传统解压包方式 烦琐易错 有助于读者深入理解Hadoop Linux标准方式 简单易用 隐藏了太多细节
部署 环境
单机模式 伪分布模式
不需要与其他节点交互,不需要使用 HDFS,直接读写本地的文件系统
考虑到集群中每台机器都可能会出问题(如硬件失效),Hadoop 2.0本身从设 计上就在程序层规避了这些问题。
4
5.2 Hadoop 2.0简述
Hadoop 2.0由来
Hadoop至少应当包含分布式存储和分布式计算两个模块,下面给出Hadoop1.0 项目模块。
Hadoop Common
HDFS
8
5.2 Hadoop 2.0简述
5.2.1 Hadoop 2.0由来 5.2.2 Hadoop 2.0相关项目 5.2.3 Hadoop应用
5.2 Hadoop 2.0简述 Hadoop应用
构建大型分布式集群
数据仓库
10
数据挖掘
5.1 引例 5.2 Hadoop 2.0简述 5.3 Hadoop 2.0部署 5.4 Hadoop 2.0体系架构 5.5 Hadoop 2.0访问接口 5.6 Hadoop 2.0编程接口
5.2 Hadoop 2.0简述 Hadoop 2.0由来
2002年
2004年
2006年
开源组织Apache成 立开源搜索引擎项 目Nutch
Apache实现了 Nutch版的NDFS和 MapReduce
NDFS和MapReduce移 出Nutch,形成独立项 目,称为Hadoop。
工业界称Hadoop 1.X及其以前的版本(0.23.X除外)为Hadoop 1.0, 称Hadoop 2.X及其以后版本为Hadoop 2.0
5.2.1 Hadoop 2.0由来 5.2.2 Hadoop 2.0相关项目 5.2.3 Hadoop应用
5.2 Hadoop 2.0简述
Hadoop 2.0相关项目
Google云计算组件和Hadoop及其相关项目之间的对应关系:
Hadoop云计算系统
Hadoop HDFS Hadoop MapReduce
5.1 引例 5.2 Hadoop 2.0简述 5.3 Hadoop 2.0部署 5.4 Hadoop 2.0体系架构 5.5 Hadoop 2.0访问接口 5.6 Hadoop 2.0编程接口
5.2 Hadoop 2.0简述
5.2.1 Hadoop 2.0由来 5.2.2 Hadoop 2.0相关项目 5.2.3 Hadoop应用
HBase ZooKeeper
Pig
Google云计算系统
Google GFS Google MapReduce
Google BigTable Google Chubby Google Sawzall
7
5.2 Hadoop 2.0简述
Hadoop 2.0相关项目
近几年工业界围绕Hadoop进行了大量的外围产品开发,下图描述了各个产品项目 之间的层次关系。
3
5.2 Hadoop 2.0简述 Hadoop 2.0由来
分布式存储 (HDFS)
Hadoop 2.0
分布式操作系统 (Yarn)
将Hadoop 2.0部署至集群后,通过调用Hadoop 2.0程序库,能够用简单的编 程模型来处理分布在不同机器上的大规模数据集。
由于采用客户-服务器模式,Hadoop 2.0很容易从一台机器扩展至成千上万台 机器,并且每台机器都能提供本地计算存储和本地计算。
17
5.3 Hadoop 2.0部署
5.3.1 部署综述 5.3.2 传统解压包部署
5.3 Hadoop 2.0部署 传统解压包部署
【例5-5】 现有三台机器,且它们都刚装好64位CentOS-6.5,安装系统时用户名为joe,请 按要求完成: ① 修改三台机器名为cMaster,cSlave0和cSlave1,并添加域名映射、关闭防火 墙和安装JDK。 ② 以cMaster作为主节点,cSlave0和cSlave1作为从节点,部署Hadoop。
联系HDFS和MapReduce的纽带,它一方面为另外两组件提供一 些公用jar包,另一方面也是程序员访问其他两模块的接口。
Hadoop的分布式文件系统。 主要提供分布式存储服务。
Hadoop
分布式计算框架。
MapReduce 主要负责资源管理、任务调度和MapReduce算法实现。
5
5.2 Hadoop 2.0简述
准备环境
1)硬件环境 由于分布式计算需要用到很多机器,部署时用户须提供多台机器,至于提供几台,须 根据 “部署规划”确定。 实际上,完全模式部署Hadoop时,最低需要两台机器(一个主节点,一个从节点), 此外,硬件方面,每台机器最低要求有1GB内存,20GB硬盘空间。
5.3 Hadoop 2.0部署 准备环境
Cloudera Manager/Ambari
Hue Avro Mahout RHadoop Hive
Sqoop Flume Chukwa
MapReduce
Web HDFS
BigTop
Pig Imapla Serach Oozie Hcata Log
Hbase
Cassan dra
Yarn
HDFS
Zookeeper
2)软件环境
大量的实践证明,在Linux环境下使用 Hadoop则更加稳定高效
须注意的是新装系统(CentOS)的机器不可以直接部署Hadoop
修改机器名
添加域名映射
关闭防火墙
安装JDK
16
5.3 Hadoop 2.0部署 关于Hadoop依赖软件
SSH只是给sbin/start-yarn.sh等几个start-x.sh与stop-x.sh脚本使用 Hadoop本身是一堆Java代码,而Java代码并不依赖SSH 本节使用的Hadoop版本为稳定版Hadoop-2.2.0.tar.gz CentOS版本为64位CentOS-6.5 JDK版本为jdk-7u40-linux-x64.rpm
分布式模式
在不同的机器上部署系统
13
5.3 Hadoop 2.0部署 部署步骤
制定部署规划
测试 Hadoop
准备机器
准备机器 软件环境
部署前工作
启动 Hadoop配置 Hadoop源自部署Hadoop14
下载 Hadoop
解压 Hadoop
5.3 Hadoop 2.0部署
5.3 Hadoop 2.0部署
5.3.1 部署综述 5.3.2 传统解压包部署
5.3 Hadoop 2.0部署
部署综述
安装 方式
传统解压包方式 烦琐易错 有助于读者深入理解Hadoop Linux标准方式 简单易用 隐藏了太多细节
部署 环境
单机模式 伪分布模式
不需要与其他节点交互,不需要使用 HDFS,直接读写本地的文件系统
考虑到集群中每台机器都可能会出问题(如硬件失效),Hadoop 2.0本身从设 计上就在程序层规避了这些问题。
4
5.2 Hadoop 2.0简述
Hadoop 2.0由来
Hadoop至少应当包含分布式存储和分布式计算两个模块,下面给出Hadoop1.0 项目模块。
Hadoop Common
HDFS
8
5.2 Hadoop 2.0简述
5.2.1 Hadoop 2.0由来 5.2.2 Hadoop 2.0相关项目 5.2.3 Hadoop应用
5.2 Hadoop 2.0简述 Hadoop应用
构建大型分布式集群
数据仓库
10
数据挖掘
5.1 引例 5.2 Hadoop 2.0简述 5.3 Hadoop 2.0部署 5.4 Hadoop 2.0体系架构 5.5 Hadoop 2.0访问接口 5.6 Hadoop 2.0编程接口
5.2 Hadoop 2.0简述 Hadoop 2.0由来
2002年
2004年
2006年
开源组织Apache成 立开源搜索引擎项 目Nutch
Apache实现了 Nutch版的NDFS和 MapReduce
NDFS和MapReduce移 出Nutch,形成独立项 目,称为Hadoop。
工业界称Hadoop 1.X及其以前的版本(0.23.X除外)为Hadoop 1.0, 称Hadoop 2.X及其以后版本为Hadoop 2.0
5.2.1 Hadoop 2.0由来 5.2.2 Hadoop 2.0相关项目 5.2.3 Hadoop应用
5.2 Hadoop 2.0简述
Hadoop 2.0相关项目
Google云计算组件和Hadoop及其相关项目之间的对应关系:
Hadoop云计算系统
Hadoop HDFS Hadoop MapReduce
5.1 引例 5.2 Hadoop 2.0简述 5.3 Hadoop 2.0部署 5.4 Hadoop 2.0体系架构 5.5 Hadoop 2.0访问接口 5.6 Hadoop 2.0编程接口
5.2 Hadoop 2.0简述
5.2.1 Hadoop 2.0由来 5.2.2 Hadoop 2.0相关项目 5.2.3 Hadoop应用
HBase ZooKeeper
Pig
Google云计算系统
Google GFS Google MapReduce
Google BigTable Google Chubby Google Sawzall
7
5.2 Hadoop 2.0简述
Hadoop 2.0相关项目
近几年工业界围绕Hadoop进行了大量的外围产品开发,下图描述了各个产品项目 之间的层次关系。
3
5.2 Hadoop 2.0简述 Hadoop 2.0由来
分布式存储 (HDFS)
Hadoop 2.0
分布式操作系统 (Yarn)
将Hadoop 2.0部署至集群后,通过调用Hadoop 2.0程序库,能够用简单的编 程模型来处理分布在不同机器上的大规模数据集。
由于采用客户-服务器模式,Hadoop 2.0很容易从一台机器扩展至成千上万台 机器,并且每台机器都能提供本地计算存储和本地计算。
17
5.3 Hadoop 2.0部署
5.3.1 部署综述 5.3.2 传统解压包部署
5.3 Hadoop 2.0部署 传统解压包部署
【例5-5】 现有三台机器,且它们都刚装好64位CentOS-6.5,安装系统时用户名为joe,请 按要求完成: ① 修改三台机器名为cMaster,cSlave0和cSlave1,并添加域名映射、关闭防火 墙和安装JDK。 ② 以cMaster作为主节点,cSlave0和cSlave1作为从节点,部署Hadoop。
联系HDFS和MapReduce的纽带,它一方面为另外两组件提供一 些公用jar包,另一方面也是程序员访问其他两模块的接口。
Hadoop的分布式文件系统。 主要提供分布式存储服务。
Hadoop
分布式计算框架。
MapReduce 主要负责资源管理、任务调度和MapReduce算法实现。
5
5.2 Hadoop 2.0简述
准备环境
1)硬件环境 由于分布式计算需要用到很多机器,部署时用户须提供多台机器,至于提供几台,须 根据 “部署规划”确定。 实际上,完全模式部署Hadoop时,最低需要两台机器(一个主节点,一个从节点), 此外,硬件方面,每台机器最低要求有1GB内存,20GB硬盘空间。
5.3 Hadoop 2.0部署 准备环境
Cloudera Manager/Ambari
Hue Avro Mahout RHadoop Hive
Sqoop Flume Chukwa
MapReduce
Web HDFS
BigTop
Pig Imapla Serach Oozie Hcata Log
Hbase
Cassan dra
Yarn
HDFS
Zookeeper
2)软件环境
大量的实践证明,在Linux环境下使用 Hadoop则更加稳定高效
须注意的是新装系统(CentOS)的机器不可以直接部署Hadoop
修改机器名
添加域名映射
关闭防火墙
安装JDK
16
5.3 Hadoop 2.0部署 关于Hadoop依赖软件
SSH只是给sbin/start-yarn.sh等几个start-x.sh与stop-x.sh脚本使用 Hadoop本身是一堆Java代码,而Java代码并不依赖SSH 本节使用的Hadoop版本为稳定版Hadoop-2.2.0.tar.gz CentOS版本为64位CentOS-6.5 JDK版本为jdk-7u40-linux-x64.rpm