hadoop生态圈

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

运算符 语 法
操作名称 LOAD FOREACH
功能 载入待处理数据 逐行处理Tuple 过滤不满足条件的Tuple 将结果打印到屏幕 将结果保存到文件
函数
FILTER DUMP STORE
Pig
实例
部 署
iClient
yum install pig
例 题
①使用Pig Latin实现WordCount
Hdfs
实例
yum install hadoop-hdfs-namenode
cMaster
部 署
cSlave0
yum install hadoop-hdfs-datanode
cSlave1
cSlave2
yum install hadoop-client
iClient
Hdfs
实例
①在hdfs集群里新建joe用户并初始化hdfs里joe用户家目录。 ②使用joe用户,在iClient上将/ect/hadoop/conf/下所有文件导入joe用户家目录下input目录。
执行例题时用户
joe
cMaster
cSlave0 cSlave2
iClient
cProxy
cSlave1
部署规划
cMaster
cSlave0
cSlave1
cSlave2
cProxy
iClient
Hadoop HBase Zookeeper
Pig Hive Flume Oozie Mahout
master master
p3 p2 p1
m l m
例 题
Value列键 Key行键 列族personalAttr 身份ID 201401 201402 201403 姓名 aa bb cc 性别 0 1 1 年龄 21 22 23 列族socialAttr 教育 e0 e1 e2 职业 p3 p2 P1 收入 m l m
Pig
例 题
cMaster
cSlave0 cSlave2
iClient
cProxy
cSlave1
Zookeeper
为什么
部 分 失 败 现 实 需 求
zookeeper
当一条消息在网络中的两个节点之间传送时,由于可能会出现各 种问题,发送者无法知道接收者是否已经接收到这条消息,比如 在接收者还未接收到消息前,发生网络中断,再比如接收者接收 到消息后发生网络中断,甚至是接收进程死掉。发送者能够获取 真实情况的唯一途径是重新连接接收者,并向它发出询问。
slave slave
slave slave
slave slave zookeeper
proxy
Hadoop client Hbase client Zookeeper client
Pig Hive
zookeeper zookeeper
Flume汇 Oozie Server
Flume源 Oozie client mahout
zookeeper
概 念
iSend
iReceive iSend iReceive
Zookeeper典型应用-工作过程
Zookeeper
架构
工作原理:Paxos算法
z3 z1
架 构
z2
iSend
iReceive
Zookeeper
实例
cSlave0 cSlave1 cSlave2
部 署
yum install zookeeper-server
是什么
是一个高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统
适合于存储非结构化数据 概 念
基于列的而不是基于行的模式
HBase架构在hadoop之上
怎么架构在hadoop之上
HBase架构
HBase
是什么
Zookeeper
HMaster
iClient
HRegionServer HRegion Store
Hfile
DFSClient
DFSClient
Hadoop
DataNode DataNode DataNode DataNode DataNode DataNode
HBase
数据模型
行健 逻 辑 模 型 时间戳 t9 t8 "com.cnn.www" t6 t5 t6 行健 "com.cnn.www" 物 理 模 型 contents:html="<html>…" contents:html="<html>…" contents:html="<html>…" 时间戳 t6 t5 t3 行健 "com.cnn.www" 行健 时间戳 t9 t8 时间戳 列族contents contents:html="<html>…" contents:html="<html>…" contents:html="<html>…" 列族anchor anchor:cnnsi.com= "CNN" anchor:my.look.ca= "CNN.com" 列族mime 列族contents 列族anchor anchor:cnnsi.com= "CNN" anchor:my.look.ca= "CNN.com" mime:type="text/html" 列族mime
RHadoop
Phoenix
Giraph
Search Whirr
HttpFs
WebHdfs
YARN:分布式操作系统 HDFS:分布式存储
Avro
Zookeeper
目录
1. Hdfs 2. Yarn
从社会需求角度:为什么出现
3. MapReduce
4. Zookeeper 5. HBase 6. Pig
即在分布式 环境下甚至 不知道一个 操作是否已 经失败。
分布式 系统固 有特征
iReceive宕机
网络中断
iSend iReceive
Zookeeper
概念
Zookeeper(又称分布式锁)是由开源组织Apache开发的一个的高效、可靠的分布式协调服务。
zookeeper1
zookeeper2
zookeeper3
cProxy
功能好熟悉
和Pig有和区别
1.编写MR程序 2.组织处理流
iClient
Hive
是什么
Hive是一个构建在hadoop上的数据仓库框架
cSlave2
cMaster
cSlave0
Hive向hadoop提交任务
概 念 工 作 过 程
Hive会将写好的数 据流处理脚本翻 译成多个Hdfs, Map和Reduce操作 向Hive提交任务 程序员或分析师 根据业务逻辑写 好数据流脚本
为什么-是什么
程序员 使用MR 处理 HDFS里 数据
cSlave2
cMaster
cSlave0
1.编写MR程序 2.组织处理流
1.太慢 2.要求高
现 实 需 求 概 念
cSlave1
cProxy
Pig是用来 处理大规模 数据集的脚 本语言平台
提交任务 程序员使用Pig脚本指挥 HDFS、MapReduce 1.编写MR程序 2.组织处理流
"com.cnn.www"
t6
mime:type="text/html"
HBase
实例
yum install hbase-master
cMaster
cSlave0
部 署
cSlave2
yum install hbase-regionserver
cSlave1
yum install hbase
iClient
例 题
cMaster
cSlave0 cSlave2
iClient
cProxy
cSlave1
Yarn
实例
yum install hadoop-yarn-resourcemanager
cMaster
部 署
cSlave0
hadoop-yarn-nodemanager
cSlave1
cSlave2
yum install hadoop-yarn-proxyserver
HiveQL:SQL类似
函数
Hive内置了上百个函数 基本同SQL一样
count like RaHale Waihona Puke Baiduk ------map子句 reduce子句
Hive
实例
部 署 方 式
Hive
实例
部 署
iClient
yum install hive
①在hive里新建member表,并将表6-6中的数据载入hive里的member表中 ②查询member表中所有记录;查询member表中gender值为1的记录;查询member 表中gender值为1且age为22的记录;统计member中男性和女性出现次数 ③试比较pig中“单词计数”和“统计男女出现次数”异同点 例 题
HLog
MemStore MemStore
HRegionServer HRegion Store
HLog
MemStore MemStore
架 构
StoreFile
Hfile
StoreFile
Hfile
StoreFile
Hfile
StoreFile
Hfile
StoreFile
Hfile
StoreFile
例 题
①分别使用命令行接口和API接口向zookeeper存储树中新建一 节点并存入信息 ②假设机器cSlave0上有进程Pa,机器cSlave2上有进程Pb,使 用zookeeper实现进程Pa与Pb相互协作
HBase
为什么
cSlave2
客户欲实 时读HDFS 里数据
太 慢
缓存机制 索引机制
iClient
HBase
实例
①假定Mysql里有member表,要求使用HBase的shell接口,在HBase中新建并存储此表 ②简述HBase是否适合存储问题①中的结构化数据
身份id 201401 201402 201403 姓名 性别 年龄 教育 职业 收入
aa bb cc
0 1 1
21 22 23
e0 e1 e2
iClient
Pig
是什么
cSlave2
Pig向hadoop提交任务 Pig会将写好的数 据流处理脚本翻 译成多个Hdfs, Map和Reduce操作 向Pig提交任务 程序员或分析师 根据业务逻辑写 好数据流脚本
iClient
cMaster
cSlave0
工 作 过 程
cSlave1
Pig
cProxy
iClient
cSlave1
Hive
cProxy
Hive
是什么
cSlave2
cMaster
cSlave0
架 构
cSlave1
Hive
cProxy
Hive
是什么-语法
数据类型 基本类型:数值型、布尔型、字符串 复杂类型:ARRAY、MAP和STRUCT
操作符 语 法
关系操作:如x='a' 算术操作:加法x+1 逻辑操作:如逻辑或x or y
cMaster
cSlave0
现 实 需 求 2006年谷歌发表论文BigTable, 年末、微软旗下自然语言搜索 公司Powerset出于处理大数据 的需求,按论文思想,开启了 HBase项目 在 线 访 问 在线 实时 服务
Hbase
cProxy
cSlave1
分布式 数据库
iClient
HBase
实题
为什么
是什么
技术角度:概念、架构
7. Hive
实战:部署、例题
8. Oozie
3.MapReduce模板
相关约定
系统 JDK 集群 客户端 执行例题的机器 CentOS-6.4 64bit jdk-7u45-linux-x64.rpm cMaster、cSlave0、cSlave1、cSlave2、cProxy iClient iClient
Pig
是什么
cSlave2
cMaster
cSlave0
Pig Latin 解释器 架 构 Pig Latin 环境
Pig
cProxy
cSlave1
Pig
是什么
(1)基本数据类型:int、long、float、double、chararray和bytearray (2)复杂数据类型:字符串或基本类型与字符串的组合 (1)算术运算符:+,-,*,/,% (2)三目运算符:?: (3)比较运算符:==,!= 数据类型
cProxy
MapReduce
实例
cSlave0
yum install hadoop-mapreduce
cSlave1
部 署
cSlave2
yum install hadoop-mapreduce-historyserver
cProxy
MapReduce
实例
①使用WordCount,统计input目录下文件里单词出现次数 ②使用Grep程序,查询input下所有文件里,以dfs开头且中间字母a到z的单词
Hive
为什么
cSlave2
Hive起源于Facebook内部信息处理平台。由于需 要处理大量新兴社会网络数据,考虑到扩展性, Facebook最终选择hadoop作为存储和处理平台 现 实 需 求
cMaster
cSlave0
cSlave1
Hive的设计目的即是让Facebook内精通SQL的分析 师能够以类SQL的方式查询存放在HDFS的大规模 数据集 提交任务
Hadoop生态圈
组件简介
Ambari/Cloudera Manager Hue BigTop
Shark
Storm
Spark
Mesos
Tez Drill
Hama
Flume
Hcatalog
Sqoop
Map Reduce
Chukwa
Pig
HBase
Hive
Cassandra
Impala
Mahout
Accumulo
相关文档
最新文档