《云计算(第三版)》第5章 Hadoop 2.0 主流开源云架构(二)PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

8
5.2 Hadoop 2.0简述
5.2.1 Hadoop 2.0由来 5.2.2 Hadoop 2.0相关项目 5.2.3 Hadoop应用
5.2 Hadoop 2.0简述 Hadoop应用
构建大型分布式集群
数据仓库
10
数据挖掘
5.1 引例 5.2 Hadoop 2.0简述 5.3 Hadoop 2.0部署 5.4 Hadoop 2.0体系架构 5.5 Hadoop 2.0访问接口 5.6 Hadoop 2.0编程接口
3
5.2 Hadoop 2.0简述 Hadoop 2.0由来
分布式存储 (HDFS)
Hadoop 2.0
分布式操作系统 (Yarn)
将Hadoop 2.0部署至集群后,通过调用Hadoop 2.0程序库,能够用简单的编 程模型来处理分布在不同机器上的大规模数据集。
由于采用客户-服务器模式,Hadoop 2.0很容易从一台机器扩展至成千上万台 机器,并且每台机器都能提供本地计算存储和本地计算。
5.1 引例 5.2 Hadoop 2.0简述 5.3 Hadoop 2.0部署 5.4 Hadoop 2.0体系架构 5.5 Hadoop 2.0访问接口 5.6 Hadoop 2.0编程接口
5.2 Hadoop 2.0简述
5.2.1 Hadoop 2.0由来 5.2.2 Hadoop 2.0相关项目 5.2.3 Hadoop应用
2)软件环境
大量的实践证明,在Linux环境下使用 Hadoop则更加稳定高效
须注意的是新装系统(CentOS)的机器不可以直接部署Hadoop
修改机器名
添加域名映射
关闭防火墙
安装JDK
16
5.3 Hadoop 2.0部署 关于Hadoop依赖软件
SSH只是给sbin/start-yarn.sh等几个start-x.sh与stop-x.sh脚本使用 Hadoop本身是一堆Java代码,而Java代码并不依赖SSH 本节使用的Hadoop版本为稳定版Hadoop-2.2.0.tar.gz CentOS版本为64位CentOS-6.5 JDK版本为jdk-7u40-linux-x64.rpm
Cloudera Manager/Ambari
Hue Avro Mahout RHadoop Hive
Sqoop Flume Chukwa
MapReduce
Web HDFS
BigTop
Pig Imapla Serach Oozie Hcata Log
Hbase
Cassan dra
Yarn
HDFS
Zookeeper
联系HDFS和MapReduce的纽带,它一方面为另外两组件提供一 些公用jar包,另一方面也是程序员访问其他两模块的接口。
Hadoop的分布式文件系统。 主要提供分布式存储服务。
Hadoop
分布式计算框架。
MapReduce 主要负责资源管理、任务调度和MapReduce算法实现。
5
5.2 Hadoop 2.0简述
5.2 Hadoop 2.0简述 Hadoop 2.0由来
2002年
2004年
2006年
开源组织Apache成 立开源搜索引擎项 目Nutch
Apache实现了 Nutch版的NDFS和 MapReduce
NDFS和MapReduce移 出Nutch,形成独立项 目,称为Hadoop。
工业界称Hadoop 1.X及其以前的版本(0.23.X除外)为Hadoop 1.0, 称Hadoop 2.X及其以后版本为Hadoop 2.0
准备环境
1)硬件环境 由于分布式计算需要用到很多机器,部署时用户须提供多台机器,至于提供几台,须 根据 “部署规划”确定。 实际上,完全模式部署Hadoop时,最低需要两台机器(一个主节点,一个从节点), 此外,硬件方面,每台机器最低要求有1GB内存,20GB硬盘空间。
5.3 Hadoop 2.0部署 准备环境
HBase ZooKeeper
Pig
Google云计算系统
Google GFS Google MapReduce
Google BigTable Google Chubby Google Sawzall
7
5.2 Hadoop 2.0简述
Hadoop 2.0相关项目
近几年工业界围绕Hadoop进行了大量的外围产品开发,下图描述了各个产品项目 之间的层次关系。
5.2.1 Hadoop 2.0由来 5.2.2 Hadoop 2.0相关项目 5.2.3 Hadoop应用
5.2 Hadoop 2.0简述
Hadoop 2.0相关项目
Google云计算组件和Hadoop及其相关项目之间的对应关系:
Hadoop云计算系统
Hadoop HDFS Hadoop MapReduce
5.3 Hadoop 2.0部署
5.3.1 部署综述 5.3.2 传统解压包部署
5.3 Hadoop 2.0部署
部署综述
安装 方式
传统解压包方式 烦琐易错 有助于读者深入理解Hadoop Linux标准方式 简单易ห้องสมุดไป่ตู้ 隐藏了太多细节
部署 环境
单机模式 伪分布模式
不需要与其他节点交互,不需要使用 HDFS,直接读写本地的文件系统
考虑到集群中每台机器都可能会出问题(如硬件失效),Hadoop 2.0本身从设 计上就在程序层规避了这些问题。
4
5.2 Hadoop 2.0简述
Hadoop 2.0由来
Hadoop至少应当包含分布式存储和分布式计算两个模块,下面给出Hadoop1.0 项目模块。
Hadoop Common
HDFS
在一台单机上运行,用不同的进程模仿分 布式运行中的各类节点
分布式模式
在不同的机器上部署系统
13
5.3 Hadoop 2.0部署 部署步骤
制定部署规划
测试 Hadoop
准备机器
准备机器 软件环境
部署前工作
启动 Hadoop
配置 Hadoop
部署Hadoop
14
下载 Hadoop
解压 Hadoop
5.3 Hadoop 2.0部署
17
5.3 Hadoop 2.0部署
5.3.1 部署综述 5.3.2 传统解压包部署
5.3 Hadoop 2.0部署 传统解压包部署
【例5-5】 现有三台机器,且它们都刚装好64位CentOS-6.5,安装系统时用户名为joe,请 按要求完成: ① 修改三台机器名为cMaster,cSlave0和cSlave1,并添加域名映射、关闭防火 墙和安装JDK。 ② 以cMaster作为主节点,cSlave0和cSlave1作为从节点,部署Hadoop。
相关文档
最新文档