1.2.Hadoop概述

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

4
Hadoop 1.0与 2.0
5
内容
▪ Hadoop生态系统特点 ▪ Hadoop介绍 ▪ Hadoop生态系统
6
Hadoop介绍
▪ 分布式存储系统HDFS（ Hadoop Distributed File System）
• 分布式存储系统 • 提供了高可靠性、高扩展性和高吞吐率的数据存储服务
• 发表于2006年 • Zookeeper是Chubby克隆版
▪ 解决分布式环境下数据管理问题
• 统一命名 • 状态同步 • 集群管理 • 配置同步
30
Zookeeper应用
▪ HDFS ▪ Yarn ▪ Storm ▪ Hbase ▪ Flume ▪…
31
Sqoop
▪ 连接Hadoop与传统数据库之间的桥梁
36
23
SQL vs. Pig Latin
24
Mahout
▪ 基于Hadoop的机器学习和数据挖掘的分布式计算框架 ▪ 实现了三大类算法
• 推荐(Recommendation) • 聚类(Clustering) • 分类(Classification)
25
Mahout
26
Hbase
▪ 源自Google的Bigtable论文
• 支持多种数据库，包括MySQL、 DB2等 • 插拔式，用户可根据需要支持新的数据库
▪ 本质上是一个MapReduce程序
• 充分利用了MR分布式并行的特点 • 充分利用MR容错性
32
Sqoop
33
Flume（日志收集工具）
▪ Cloudera开源的日志收集系统 ▪ Flume特点
• 分布式 • 高可靠性 • 高容错性 • 易于定制与扩展
▪ 多维度数据分析 ▪ 大部分互联网公司使用Hive进行日志分析，包括百
度、淘宝等 ▪ 其他场景
• 海量结构化数据离线分析 • 低成本进行数据分析（不直接编写MR）
21
Hive
22
PIG
▪ 由Yahoo开源，设计动机是提供一种基于MapReduce的 ad-hoc数据分析工具
▪ 构建在Hadoop之上的数据仓库 ▪ 数据流语言：Pig Latin ▪ 通常用于离线分析
• 发表于2006年 • HBase是Google Bigtable克隆版
▪ 列族:列 ▪ 基于Rowkey的快速查询 ▪ 特点
• 高可靠性 • 高性能 • 面向列（列族） • 高扩展性
27
Hbase数据模型
28
Hbase架构
29
Zookeeper（分布式协作服务）
▪ 源自Google的Chubby论文
Hadoop概述
内容
▪ Hadoop生态系统特点 ▪ Hadoop介绍 ▪ Hadoop生态系统
2
Google: The Big Picture
Hadoop是GFS和MapReduce的克隆开源版
3 3
Hadoop生态系统特点
▪ 源代码开源 ▪ 社区活跃，参与者众多 ▪ 涉及分布式存储和计算的方方面面 ▪ 已得到企业界验证
▪ 特点
• 高可扩展性 • 高容错性 • 适合PB级以上海量数据的存储
8
HDFS
▪ 原理
• 将文件切分成等大的数据块，存储到多台机器上 • 将数据切分、容错、负载均衡等功能透明化 • 可将HDFS看成一个容量巨大、具有高容错性的磁盘
▪ 应用场景
• 海量数据的可靠性存储 • 数据归档
9
HDFS架构图
34
Flume
35
Hadoop发行版介绍（开源）
▪ Apache Hadoop
• 最新版本3.0 • 稳定版2.7
▪ CDH （Cloudera Distributed Hadoop）
• 最新版本CDH5.8.0
▪ Other popular tools of Cloudera
• Impala • Kudu
▪ 资源管理系统YARN（ Yet Another Resource Negotiator）
• 负责集群资源的统一管理和调度
▪ 分布式计算框架MapReduce
• 分布式计算框架 • 具有易于编程、高容错性和高扩展性等优点
7
HDFS
▪ 源自于Google的GFS论文
• 发表于2003年 • HDFS是GFS克隆版
▪ 源自于Google的MapReduce论文
• 发表于2004年 • Hadoop MapReduce是Google MapReduce克隆版
Байду номын сангаас▪ 特点
• 高扩展性 • 高容错性 • 适合PB级以上海量数据的离线处理
14
MapReduce
15
MapReduce
16
内容
▪ Hadoop生态系统特点 ▪ Hadoop介绍 ▪ Hadoop生态系统
• 类SQL语言
▪ 通常用于进行离线数据处理（采用MapReduce）
▪ 可认为是一个HQL=>MR的语言翻译器
Hive – A Petabyte Scale Data Warehouse Using Hadoop, ICDE 2010
20
Hive
▪ 日志分析
• 统计网站一个时间段内的pv、 uv
10
Yarn
▪ Yarn是什么
• Hadoop 2.0新增系统 • 负责集群的资源管理和调度
使得多种计算框架可以运行在一个集群中
▪ 特点
• 高扩展性、高可用性 • 对多种类型的应用程序进行统一管理和调度 • 自带了多种多用户调度器，适合共享集群环境
11
Yarn
12
Yarn
13
MapReduce
17
Hadoop 1.0 生态系统
18
Hadoop 2.0 生态系统
19
Hive
▪ 由Facebook开源，最初用于解决海量结构化的日志数据统计问题
• ETL工具
▪ 构建在Hadoop之上的数据仓库
• 数据计算使用MapReduce，数据存储使用HDFS
▪ Hive 定义了一种类 SQL 查询语言：HQL