高级培训-20.《云计算(第三版)》配套PPT之二十:第6章 Hadoop 2.0 大家族(一)3

合集下载

《云计算(第三版)》配套PPT之五:第2章 Google云计算原理与应用(四)

《云计算(第三版)》配套PPT之五:第2章 Google云计算原理与应用(四)

MapReduce
优点:便携 缺点:效率低
Google的团队结合其自身的实际需求,借鉴搜 索引擎和并行数据库的一些技术,开发出了实 时的交互式查询系统Dremel。
5 of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件
Dremel支持的典型应用
《云计算》第三版配套PPT课件
云 计 算 (第三版)
CLOUD COMPUTING Third Edition
第2章
Google云计算原理与应用(四)
主编:刘鹏 教授
of 64
《云计算》第三版配套PPT课件
目 录
2.1 Google文件系统GFS 2.2 分布式数据处理MapReduce 2.3 分布式锁服务Chubby 2.4 分布式结构化数据表Bigtable 2.5 分布式存储系统Megastore 2 . 6 大规模分布式系统的监控基础架构Dapper 2.7 海量数据的交互式分析工具Dremel 2.8 内存大数据分析系统PowerDrill 2.9 Google应用程序引擎
符合该模式的两条记录
11 of 64
《云计算》第三版配套PPT课件
2.7 海量数据的交互式分析工具Dremel
2.7.1 产生背景 2.7.2 数据模型 2.7.3 嵌套式的列存储 2.7.4 查询语言与执行 2.7.5 性能分析 2.7.6 小结
of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件 数据结构的无损表示
15 of 64
2 . 7 海 量 数 据 的 交 互 式 分 析 工 具 D r e m e l 《云计算》第三版配套PPT课件

《云计算(第三版)》配套PPT之31:第9章云计算数据中心(一)PPT资料33页

《云计算(第三版)》配套PPT之31:第9章云计算数据中心(一)PPT资料33页
of 38
9.2 云数据中心网络部署 无线数据中心网络
21 of 38
《云计算》第三版配套PPT课件
无线技术可以在不必 进行重新布线的情况 下灵活调整拓扑,省 去了复杂的布线工作, 但无线技术在提供足 够带宽的前提下,其 传输距离是有限的, 因而限制了其在大规 模数据中心的部署。
《云计算》第三版配套PPT课件
of 38
9.2 云数据中心网络部署 改进型树结构
《云计算》第三版配套PPT课件
核心
Pod0
Pod1
Pod2
图9-1 FatTree网络拓扑结构
8 of 38
汇聚 接入 Pod3
9.2 云数据中心网络部署
《云计算》第三版配套PPT课件
改进型树结构
与传统层次结构相比, FatTree结构有如下特点:
11 of 38
9.2 云数据中心网络部署 改进型树结构
《云计算》第三版配套PPT课件
在VL2中,IP地址仅仅作为名字使用,没有拓扑含义。 VL2的寻址机制将服务器的名字与其位置分开。 VL2使用可扩展、可靠的目录系统来维持名字和位置间的映射。 当服务器发送分组时,服务器上的VL2代理开启目录系统以得到实际的目的位置,
《云计算》第三版配套PPT课件
BCube使用交换机构建层次 化网络,网络中主要包括服 务器和交换机两种组件。
一个BCubek有N=nk+1个 服务器和k+1层交换机,每 一层有nk个n端口交换机。
16 of 38
《云计算》第三版配套PPT课件
9.2 云数据中心网络部署
9.2.1 改进型树结构 9.2.2 递归层次结构 9.2.3 光交换网络 9.2.4 无线数据中心网络 9.2.5 软件定义网络

21. 云计算 之二十一:第6章 Hadoop 2.0 大家族(二)

21. 云计算 之二十一:第6章 Hadoop 2.0 大家族(二)

《云计算》第三版配套PPT课件
Hbase接口
Hbase提供了诸多访问接口,下面简单罗列各种访问接口。
Native 最常规和高效的访问方式,适合Hadoop MapReduce Job并行批 Java API 处理Hbase表数据。
Hbase Shell
Hbase的命令行工具,最简单的接口,适合管理、测试时使用。
底层采用HDFS存储数据
of 40
client
Hbase架构
HMaster
6.3 Hbase
《云计算》第三版配套PPT课件
Hbase架构
1)Client Client端使用Hbase的RPC机制与HMaster和HRegionServer进行通信
2)ZooKeeper 存储了ROOT表的地址、HMaster的地址和HRegionServer地址
列族anchor anchor:= "CNN" anchor:my.look.ca= ""
列族mime mime:type="text/html"
9 of 40
《云计算》第三版配套PPT课件
Hbase采用master/slave架构
主节点运行的服务称为HMaster 从节点服务称为HRegionServer
元素由行健、列(<列族>:<限定符>)和时间戳唯一确定,元素中的数据以字节码 的形式存储,没有类型之分。
7 of 40
Hbase数据模型
物理模型 概念模型中的一个行进行分割
并按照列族存储 表中的空值是不被存储的 如果没有指名时间戳,则返回指定列的最新数据值 可以随时向表中的任何一个列添加新列,而不需要事先声明

云计算培训-PPT

云计算培训-PPT
投巨资建设基于云计算的数据中心(已建36 个,最近3年投资67亿美金),降低成本, 快速交付业务
现有业务全部构建于云架构的统一IT平台 08年推出GAE(Google APP Engine),战略进入
Web Hosting市场,目前处于试用阶段
GAE客户及商业模式
互联网Web应用开发者(个人/公司) 计算,存储,带宽,互联网基础能力作为服
• 每台机器上有多个负载 • 软件相对于硬件独立
虚拟化技术提高了资料利用率
资源共享
虚拟化前 虚拟化后 20% 30% 10% …
Server 1 Server 2 Server n
20% 60%
30 VM 1 %
Server
VM n 10%
VM 2

分时共享
虚拟化前 虚拟化后
60% 10% 10% 60 %
云计算技术和商业模式的创新者,IT即服务的市场领导者
-PaaS & SaaS运营商
Google 云计算IT架构
Google应用
办公套件 日历
视频分享
照片分享 邮件 P A
VoIP/IM 地图服务 A S
搜索
广告
托管的第三方应用
Google App Engine(GAE)
Dynamic,Scalable Runtime Python&Django
Provision
系统扩容(Grid Grow)
Grow Instance
WW ee bb
Grid Grow
DB
DB
虚拟机的效率是关键,效率取决于对整体 虚拟机的资源管理和调度自动化管理
Park Instance
SnapShot

Hadoop技术介绍ppt课件

Hadoop技术介绍ppt课件

ppt课件.
18
ppt课件.
19
此课件下载可自行编辑修改,供参考! 感谢您的支持,我们努力做得更好!
4
目录
Hadoop是什么 Hadoop是如何运作的 Hadoop能做什么 大数据时代三架马车
ppt课件.
5
MapReduce
➢ 化大为小 ➢ 化繁为简
开发方式 ✓ 实现map函数 ✓ 实现reduce函数
ppt课件.
6
统计词频
➢ 方法一 写一个小程序遍历整个文件,统计每一个遇到的词的出现次数。
张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务 进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的 MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分 析。
数据存储 Table
每个表对应HDFS上一个目录。 Partition
Hadoop技术介绍
ppt课件.
1
目录
Hadoop是什么 Hadoop是如何运作的 Hadoop能做什么 大数据时代三架马车
ppt课件.
2
前言
ppt课件.
3
Hadoop是由Apache基金会研发的开源 的分布式计算框架和分布式文件系统。是对 Google的MapReduce和GFS的开源实现。
对指定列根据列值进行分区,每个区一个目录。 Bucket
对指定列进行Hash分区,每个区一个目录。 External Table
对应HDFS一个目录路径,删除表,数据不会删除
ppt课件.
15
Hbase (Hadoop DataBase) HBase是一个分布式的、面向列的开源数据库。Hbase依托于Hadoop的HDFS

《hadoop培训》PPT课件

《hadoop培训》PPT课件

Blocksize指数据尾 加上数据尾部之后 补齐的长度,多用 于64M边界处的数据 段,大于或等于 Datasize
Data/Tails
Garbage data
垃圾数据,用于补齐 数据到64M边界用。 以保证每一个分块被 map读取时都能读到 完整的data。在非 64M边界处,该段长 度为0,否则为恰好 补齐64M的长度
Page 13
Streaming编程框架
自定义Streaming支持的文件内数据结构
Datasize 指 本数据的数 据尾总长 度,(不包括 头部)
One data One data One data One … data … … … … … … … … … … … … One data
16bit uuid/date Key/Head 4bit Datasize Sdata 4bit Blocksize Sblock 231bit the rest of head data
Page 16
Байду номын сангаас
Streaming编程框架
子程序的调试方法
数据的准备,可使用fetchdata_hdp.jar工具从hdfs上下载到文件中 的一块作为调试程序的输入文件分块 调试环境的准备,将提交任务时的命令行作为调试命令行,提交 任务时上传的文件作为资源文件放在执行目录下 IDE的选择: linux下使用gdb或者codelite windows下使用visual studio,调试过程和普通的C++/C程序一致
提交任务过程:用户与JobTracker交互,提交任务资源和配置 运行任务过程:JobTracker将队列中的tasks按调度算法分配给各 tasktracker的空闲槽,tasktracker随后就运行之并监视汇报tasks 的运行情况。

[PPT]《云计算(第二版)》教材配套课件9—第六章 Hadoop:Google云计算的开源实现

[PPT]《云计算(第二版)》教材配套课件9—第六章 Hadoop:Google云计算的开源实现

物理模型
物理模型实际上就是把概念模型中的一个行进行分割,并按照 列族存储
查询时间戳为t7的“contents:”将返回空值,查询时间戳为t8, “anchor:”值为“look.ca”的项也返回空值 (空的单元格不存储 ) 查询“contents:”而不指明时间戳,将返回t5时刻的数据;查询 “anchor:”的“look.ca”而不指明时间戳,将返回t7时刻的数据 (未指 明时间戳,则返回指定列的最新数据值 )
"CNN"
""
行关键字
"n.www"
时 间 戳
t6
列 "mime:"
"text/html"
子表服务器
客户端进行更新操作时,首先连接相关的子表服务器,之后向 子表提交变更。提交的数据被添加到子表的HMemcache和子表服务 器的HLog 提供服务时,子表首先查询缓存HMemcache。若没有,再查找磁 盘上的HStore HRegion.flushcache()定期被调用,把HMemcache中的内容写到 磁盘上HStore文件里
访问接口
Hadoop API (1)org.apache.hadoop.conf (2)org.apache.hadoop.dfs (3)org.apache.hadoop.fs (4)org.apache.hadoop.io (5)org.apache.hadoop.ipc (6)org.apache.hadoop.mapred (7)org.apache.hadoop.metrics (8)org.apache.hadoop.record (9)org.apache.hadoop.tools (10)org.apache.hadoop.util 浏览器接口 典型HDFS安装会配置一个Web服务器开放自己的命名空间,其TCP 端口可配;默认配置下http://namenode-name:50070这个页面列 出了集群里的所有DataNode和集群的基本状态

《云计算(第三版)》配套PPT之一:第1章 大数据与云计算

《云计算(第三版)》配套PPT之一:第1章 大数据与云计算

“大数据”(Big词从2012年才引起关注,之后搜索量便迅猛增长。
为什么大数据这么受关注?
4 of 39
1.1大数据时代
《云计算》第三版配套PPT课件
全球数据总量变化图
(EB)
40000
35000 30000
35000
25000
20000 15000
配置工具负责在分配的节点上准备任务 运行环境。
监视统计模块负责监视节点的运行状 态,并完成用户使用节点情况的统计。
26 of 39
目 录
大数据时代 云计算——大数据的计算 云计算发展现状
云计算实现机制
云计算压倒性的成本优势
1.5云计算压倒性的成本优势
《云计算》第三版配套PPT课件
全球企业IT开销发展趋势
任务管理 安全管理
命期管理等
用户管理
保障云计算设施的整体安全,包 括身份认证、访问授权、综合防 护和安全审计等
25 of 39
1.4云计算实现机制
《云计算》第三版配套PPT课件
简化的IaaS实现机制图
用户交互接口向应用以Web Services方 式提供访问接口,获取用户需求。 服务目录是用户可以访问的服务清单。 系统管理模块负责管理和分配所有可用 的资源,其核心是负载均衡。
电子工业出版社《云计算(第三版)》配套课件
云 计 算 (第三版)
CLOUD COMPUTING
Third Edition
第1章
大数据与云计算
主编:刘鹏 教授
of 39
电子工业出版社《云计算(第三版)》配套课件
本套PPT下载地址:/list.aspx?cid=20
电子工业出版社《云计算(第三版)》配套课件

20. 云计算 之二十:第6章 Hadoop 2.0 大家族(一)

20. 云计算 之二十:第6章 Hadoop 2.0 大家族(一)

提供Hadoop集群的部署、管理和监控等功能,为运维人员管理Hadoop集群提 供了强大的Web界面。
12 Apache Chukwa
分布式的数据收集与传输系统
它可以将各种各样类型的数据收集与导入Hadoop。
6 of 39
6.1 Hadoop 2.0大家族概述 组件简介
《云计算》第三版配套PPT课件
数据相互转移的工具
将一个关系型数据库(MySQL 、Oracle 、Postgres等)中的数据导入 Hadoop的HDFS中,也可以将HDFS的数据导入关系型数据库中。
5 of 39
6.1 Hadoop 2.0大家族概述
《云计算》第三版配套PPT课件
组件简介
9 Apache Cassandra
一套开源分布式NoSQL数据库系统
《云计算》第三版配套PPT课件
组件分类
1 分布式存储 HDFS
2 分布式操作系统 Yarn
3 分布式处理算法 MapReduce 4 分布式锁服务 ZooKeeper
5 分布式数据库 e 7 高层语言 Pig Hive Impala RHadoop
6 Apache Flume
分布式日志数据聚合与传输工具
可用于日志数据收集、处理和传输,功能类似于Chukwa,但比Chukwa更小巧
实用。
7 Apache Mahout
基于Hadoop的分布式程序库
提供了大量机器学习算法的MR实现,并提供了一系列工具,简化了从建模到测 试流程。
8 Apache Sqoop
基于Google的FlumeJava库编写的Java库
用于创建MR程序,与Hive、Pig类似,Crunch提供了用于实现如连接数据、执 行聚合和排序记录等常见任务的模式库。

3.《云计算(第三版)》配套PPT之三:第2章 Google云计算原理与应用(二)

3.《云计算(第三版)》配套PPT之三:第2章 Google云计算原理与应用(二)

4 of 56
2.3 分布式锁服务Chubby 系统的约束条件
《云计算》第三版配套PPT课件
p1:每个acceptor只接受它得到的第一个决议。
p2:一旦某个决议得到通过,之后通过的决议必须和该决议保持一致。
p2a:一旦某个决议v得到通过,之后任何acceptor再批准的决议必须是v。 p2b:一旦某个决议v得到通过,之后任何proposer再提出的决议必须是v。 p2c:如果一个编号为n的提案具有值v,那么存在一个“多数派”,要么它们中没有谁批 准过编号小于n的任何提案,要么它们进行的最近一次批准具有值v。
《云计算》第三版配套PPT课件
目 录
2.1 Google文件系统GFS 2.2 分布式数据处理MapReduce 2.3 分布式锁服务Chubby 2.4 分布式结构化数据表Bigtable 2.5 分布式存储系统Megastore 2 . 6 大规模分布式系统的监控基础架构Dapper 2.7 海量数据的交互式分析工具Dremel 2.8 内存大数据分析系统PowerDrill 2.9 Google应用程序引擎
为了保证决议的唯一性,acceptors也要满足一个约束条件:当且仅当 acceptors 没有收到编号大于n的请求时,acceptors 才批准编号为n的提案。
5 of 56
2.3 分布式锁服务Chubby 一个决议分为两个阶段
《云计算》第三版配套PPT课件
1
准备阶段
proposers选择一个提案并将它的编号设为n 将它发送给acceptors中的一个“多数派”
远程过程调用
客户端
Chubby
应用程序 程序率
客户端进程
主服务器
客户端
在客户这一端每个客户应用程序都有 一个Chubby程序库(Chubby Library),客户端的所有应用都是通 过调用这个库中的相关函数来完成的。

《hadoop培训》课件

《hadoop培训》课件

Hadoop的数据类型和处理模型
总结词
介绍Hadoop支持的数据类型和处理模型,如 MapReduce、Hive、Pig等。
详细描述
Hadoop支持多种数据类型和处理模型,其中最核心的 是MapReduce。MapReduce是一种编程模型,用于处 理大规模数据集。它可以将数据集拆分成多个小数据集 ,并在多个节点上并行处理,最后将结果汇总得到最终 结果。除了MapReduce外,Hadoop还支持其他数据处 理工具,如Hive、Pig等。这些工具提供了更高级别的抽 象,使得用户可以更加方便地进行数据分析和处理。
案例三:推荐系统实现
数据来源
用户行为数据、物品属性数据等 。
数据处理
使用Hadoop的MapReduce框架 对数据进行处理,提取用户和物 品的特征,生成分析所需的数据 集。
分析方法
利用机器学习、深度学习等技术 ,构建推荐算法模型,如协同过 滤、基于内容的推荐等。
总结词
通过Hadoop处理大规模用户数 据和物品数据,构建推荐算法模 型,实现个性化推荐。
应用场景
根据分析结果,优化系统性能、加强安全 防护、提高系统的可用性和安全性。
数据来源
各类服务器、网络设备、应用系统的日志 数据。
分析方法
利用日志分析技术,监控系统的性能指标 、安全事件等,及时发现和解决潜在的问 题。
数据处理
使用Hadoop的MapReduce框架对日志 数据进行处理,提取关键信息,生成分析 所需的数据集。
置等。
Hadoop文件系统(HDFS)
要分布式文件系统(HDFS)的特点、架构 和操作方式。
Hadoop分布式文件系统(HDFS)是Hadoop的核心组件 之一,它为Hadoop提供了大容量数据的存储和处理能力 。HDFS采用主从架构,由一个NameNode和多个 DataNode组成。NameNode负责管理文件系统的元数据 ,而DataNode负责存储实际的数据。在操作方式上, HDFS提供了基于命令行的接口和编程接口(如Java API) ,方便用户进行数据存储、访问和管理。

云计算课件 第6章_Hadoop大家族_4

云计算课件 第6章_Hadoop大家族_4
对于问题① 直接在iClient上执行如下命令即可:
[root@iClient ~]# flume-ng
《云计算》第三版配套PPT课件
#查看Flume常用命令
对于问题② 首先需要在cMaster上按要求配置并开启Flume,接着在iClient上使用telnet向 cMaster发送数据,具体过程参见如下几步。 在cMaster上以root权限,新建文件“/etc/flume/conf/flume.conf”,并填入 如下内容:
目 录
6.1 Hadoop 2.0大家族概述 6.2 ZooKeeper 6.3 Hbase 6.4 Pig 6.5 Hive 6.6 Oozie 6.7 Flume 6.8 Mahout 6.9 小结
6.7 Flume
6.7.1 Flume简介 6.7.2 Flume入门
《云计算》第三版配套PPT课件
【例6-7】 按要求完成问题: ① 进入Flume命令行,查看常用命令。 ② 要求发送端iClient使用telnet向cMaster发送数据,而接收端cMaster开启
44444端口接收数据,并将收到的数据显示于命令行。 ③ 要求发送端iClient将本地文件“/home/joe/source.txt”发往接收端cMaster,
Web server
Source Channel
Sink
5 of 42
HDFS
6.7 Flume Flume组成
Source
《云计算》第三版配套PPT课件
Flume
Channel
Sink
6 of 42
6.7 Flume Flume组成
《云计算》第三版配套PPT课件
Source
它负责读取原始数据,目前Flume支持大量类型 用户可以自定义Source,使用时在配置文件里声明即可。

《云计算通俗讲义 第3版 》读书笔记思维导图PPT模板下载

《云计算通俗讲义 第3版 》读书笔记思维导图PPT模板下载

05 第5章 “云”技术
07 第7章 “云”应用
06 第6章 “云”安全 08 第8章 “云”实验
本书力求简明扼要地阐述云计算的基本概念,让非IT专业人士也能轻松看懂这一现在人人都能接触(以后程 度会更深)的事物――云计算。本书遵循一条由感性到理性、由浅入深的主线展开:首先采用情景描述,让外行 的人对云计算也能产生感性认识;其次从计算机的基本知识开始逐步引出云计算的概念,使人产生理性认识;接 着列举一系列生活中的典型云应用例子,让人们明白云计算给生活带来的确切好处;最后采用OpenStack搭建单 节点和三节点方案让人们感受组建云计算中心的过程,以达到抛砖引玉之功效。本书可作为高等院校学生教材。
最新版读书笔记,下载可以直接修改
《云计算通俗讲义 第3 版》
思维导图PPT模板
本书关键字分析思维导图
网络
云计算
中间件
技术
设备
概念
数据
软件
计算机
应用 服务
目的

服务提供 商
节点
信息
模式
中心
第章云
目录
01 第1章 “云”畅想
03 第3章 “云”架构
02 第2章 “云”概念 04来自第4章 “云”组件目录
第1章 “云”畅想
第2章 “云”概念
2.1 软件的概念 2.2 计算机系统
2.3 计算机网络 2.4 IT系统组成
2.5 云计算概念 2.6 3种服务模式
2.7 4种部署模型
2.8 云计算的优 劣分析
第3章 “云”架构
01
3.1 云 架构的参 考模型
02
3.2 云 服务消费 者
03
3.3 云 服务提供 商
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

12 Apache Chukwa
分布式的数据收集与传输系统
它可以将各种各样类型的数据收集与导入Hadoop。
6
6.1 Hadoop 2.0大家族概述 组件简介
13 Apache Hama
基于HDFS的BSP并行计算框架
可用于包括图、矩阵和网络算法在内的大规模、大数据计算。
14 Apache Giraph
23
6.2 ZooKeeper
6.2.1 ZooKeeper简介 6.2.2 ZooKeeper 入门
6.2 ZooKeeper ZooKeeper部署
1.部署前提
2.部署规划
3.下载并安装ZooKeeper服务
5.配置ZooKeeper
4.初始化ZooKeeper
6.启动ZooKeeper服务
8
6.1 Hadoop 2.0大家族概述
组件分类
1 分布式存储 HDFS
2 分布式操作系统 Yarn
3 分布式处理算法 MapReduce 4 分布式锁服务 ZooKeeper
5 分布式数据库 Hbase Cassandra 6 分布式锁服务 Oozie 7 高层语言 Pig Hive Impala RHadoop
6 Apache Flume
分布式日志数据聚合与传输工具
可用于日志数据收集、处理和传输,功能类似于Chukwa,但比Chukwa更小巧
实用。
7 Apache Mahout
基于Hadoop的分布式程序库
提供了大量机器学习算法的MR实现,并提供了一系列工具,简化了从建模到测 试流程。
8 Apache Sqoop
8 机器学习库 Mahout Giraph Hama RHadoop
9 元数据与表管理工具 Hcatalog
10 数据传输工具 Flume Avro Chukwa Sqoop
11 集群管理工作 Ambari Cloudera Manager 12 各组件的Web化编辑器 Hue 13 组件间版本依赖处理工具 BigTop
9
6.1 Hadoop 2.0大家族概述
组件分类
Ambari/Clouddera Manager Hue
Map Reduce
Pig Hive Impala
Flume Sqoop Avro Chukwa
Mahout R Giraph Hama
Hbase Cassandra
Whirr Search
WebHdfs Hcatalog
10 Apache Avro
数据序列化系统
用于大批量数据实时动态交换,它是新的数据序列化与传输工具,估计会逐步
取代Hadoop原有的RPC机制。
11 Apache Ambari
Hadoop及其组件的Web工具
提供Hadoop集群的部署、管理和监控等功能,为运维人员管理Hadoop集群提 供了强大的Web界面。
下载与此Hadoop版本兼容版本的Pig
解压,配置Pig
按需将解压且配置好的Pig发送到需要部署的机器上
新建相应用户、文件夹等,并赋予合适权限
12
6.1 Hadoop 2.0大家族概述 部署过程
商业版(Cloudera或Hortonworks)部署步骤: 部署前提与规划
部署,配置Pig
新建相应存储目录,并赋予合适权限。 社区版部署须解决版本兼容与本地权限文件的问题,烦琐易错; Cloudera版本身已经解决了版本与权限问题,并且其部署时只要使用标准的 Linux安装命令并做些中文配置即可。
基于Hadoop的分布式迭代图处理系统
灵感来自BSP (Bulk Synchronous Parallel) 和Google 的Pregel。
15 Apache Crunch
基于Google的FlumeJava库编写的Java库
用于创建MR程序,与Hive、Pig类似,Crunch提供了用于实现如连接数据、执 行聚合和排序记录等常见任务的模式库。
6.2 ZooKeeper
ZooKeeper工作过程
Pa产生这条消息后将此消息注册到ZooKeeper中,Pb需要这条消息时直接从 ZooKeeper中读取即可。
ZooKeeper 服务
机器A中 进程Pa
机器B中 进程Pb
ZooKeeper提供了松耦合交互 方式,即交互双方不必同时存 在,也不用彼此了解。 比如Pa在ZooKeeper中留下一 条消息后,进程Pa结束,此后 进程Pb才刚开始启动。
iClient iClient
joe
14
6.1 Hadoop 2.0大家族概述 部署规划
组件
机器 cMaster
Hadoop
master
cSlave0
slave
cSlave1
slave
cSlave2
slave
cProxy
proxy
Hbase
master
slave
slave
slave
ZooKeeper
proxyser ver
hadoop client
17
6.1 Hadoop 2.0大家族概述 商用版Hadoop部署
6 安装Hadoop
11 建立HDFS相关目录
7 配置HDFS
12 配置Yarn

8 建立本地目录
13 建立本地目录
9 格式化存储主节点
14 启动Yarn服务
10 启动HDFS服务
15 Web界面与进程信息
18 Apache HCatalog 基于Hadoop的数据表和存储管理工具
可用于管理HDFS元数据,它跨越Hadoop和RDBMS,可以利用Pig和Hive提供 关系视图。
19 Cloudera Hue
Hadoop及其生态圈组件的Web编辑工具
实现对HDFS、Yarn、MapReduce、Hbase、Hive、Pig等的Web化操作。
6.1 Hadoop 2.0大家族概述
6.1.1 分布式组件 6.1.2 部署概述
6.1 Hadoop 2.0大家族概述
组件简介
1 Apache ZooKeeper 分布式、开源的协调服务
主要是用来解决多个分布式应用遇到的互斥协作与通信问题,大大简化分布式 应用协调及其管理的难度。
2 Apache Hbase
Yarn: 分布式操作系统
BigTop
Hcatalog
HDFS: 分布式存储
ZooKeeper
Hadoop生态圈分类
10
6.1 Hadoop 2.0大家族概述
6.1.1 分布式组件 6.1.2 部署概述
6.1 Hadoop 2.0大家族概述
部署过程
Apache社区版分布式组件部署步骤: 部署前提与规划
ZooKeeper3
读操作 在各个节点上实现
写操作
必须发送到领导者, 并经领导者同意才可执行
首先会从中选择一个作为领导者,其他则作为追随者。
ZooKeeper集群内选取领导时,内部采用的是原子广播协议,此协议是对 Paxos算法的修改与实现。
集群中ZooKeeper个数必须以奇数出现(3、5、7、9…),并且 当构建ZooKeeper集群时,最少需3个节点。
Pig Hive Flume Oozie Mahout
Flume汇 Oozie
ZooKeeper ZooKeeper ZooKeeper
15
iClient
Hadoop Client
Hbase Client
ZooKeeper Client
Pig Hive Flume源 Client Mahout
6.1 Hadoop 2.0大家族概述 商用版Hadoop部署
13
6.1 Hadoop 2.0大家族概述
部署规划
集群共五台机器,cMaster为主节点,cProxy为主节点代理,其他为Slave节点, 注意iClient并不属于集群,用户还须确保集群中所有机器和iClient都可以连网。
系统 JDK 集群 客户端 执行例题的机器 执行例题时用户
CentOS-6.4 64bit jdk-7u45-linux-x64.rpm cMaster、cSlave0、cSlave1、cSlave2、cProxy
16 Apache Whirr
一套运行于云服务的类库
提供高度的互补性,Whirr支持Amazon EC2和Rackspace服务。
7
6.1 Hadoop 2.0大家族概述 组件简介
17 Apache Bigtop 针对Hadoop及其周边组件的打包、分发和测试工具
解决组件间版本依赖、冲突问题,实际上当用户用rpm或yum方式部署时,脚 本内部会用到它。
18
6.1 Hadoop 2.0大家族概述 6.2 ZooKeeper 6.3 Hbase 6.4 Pig 6.5 Hive 6.6 Oozie 6.7 Flume 6.8 Mahout 6.9 小结
6.2 ZooKeeper
6.2.1 ZooKeeper简介 6.2.2 ZooKeeper 入门
Hadoop 2.0 大家族
本章主要介绍分布式环境下除Hadoop外的其他组件
分布式存储服务 分布式操作系统服务 分布式数据库 分布式锁 数据挖掘库 … …
6.1 Hadoop 2.0大家族概述 6.2 ZooKeeper 6.3 Hbase 6.4 Pig 6.5 Hive 6.6 Oozie 6.7 Flume 6.8 Mahout 6.9 小结
分布式存储系统
高可靠性、高性能、面向列、可伸缩。可在廉价PC Server上搭建大规模结构化
存储集群。
3 Apache Pig
基于Hadoop的大规模数据分析工具
相关文档
最新文档