1-大数据组件概述-实战Hadoop2.0

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

TaskManager
send allocated request
NodeResourceManager release resource
launch task
stop task
Report node resource
TaskExecutor
TaskCToanstkaCiTnoaensrtkaCinoenrtainer
Parquet Lucene
HDFS
NameNode cmaster
DataNode
DataNode
cslave0
cslave1
HDFS Client
iclient0
DataNode cslave2
DataNode cslave3
DataNode cslave4
Zookeeper
Zookeeper
Sawzall:交互式MR引擎
Dremel:分布式数据库
Megastore:分布式存储系统
MapReduce:分布式批处理引擎 Pregel:分布式图处理引擎
BigTable:分布式数据库
GFS:分布式文件系统
Cluster1
Chubby:分布式锁服务
Cluster2
ClusterN
谷歌大数据组件
NodeStatusUpdater
Response commond Send status
TajoMaster
Crunch
HDFS,YARN从服务
HDFS,YARN从服务
HDFS,YARN从服务
HDFS,YARN从服务
HDFS,YARN从服务
cslave0
cslave1
cslave2
cslave3
Java Client JDBC Client
Lens服务层
REST API for querying and schema update
Lens Sever
OLAP Cube Based on underlying Metastore Hive Metastore/HCatalog
执行引擎层 持久化层
Tez
DataFu Mahout Hama Cassandra
Accumulo
MRUnit MapReduce:分布式处理引擎 Giraph
Drill
Slider
Yarn:分布式操作系统
Hbase:分布式数据库 Twill
ZooKeeper
Hdfs:分布式文件系统
Flume Sqoop
Chukwa Kafka Gora Avro
Tez
DataFu Mahout Hama Cassandra
Accumulo
MRUnit MapReduce:分布式处理引擎 Giraph
Drill
Slider
ቤተ መጻሕፍቲ ባይዱ
Yarn:分布式操作系统
Hbase:分布式数据库 Twill
ZooKeeper
Hdfs:分布式文件系统
Flume Sqoop
Chukwa Kafka Gora Avro
Apache大数据组件
正在 孵化 成熟
Samoa Storm Spark Tinker Pop Ignite Flink Reef
Ambari
Hive
MRQL
Oozie
Falcon
Kylin
Tajo
Lens
Bigtop Ranger Sentry Knox
Pig Crunch Blur
Phoenix
DataFu Client
iclient0
HDFS,YARN 主服务
cmaster0
Kylin
Third Part App (Web, App , Mobile) ------- ------------ -------
REST API
SQL
SQL-Based Tool (BI tools: Tableau ) ------- ------------ -------
Reducing
all en,1 all en,1
all en,2
china,1 china,1
china,2
cstor,1 cstor,1 cstor,1
cstor,3
njupt,1 njupt,1
njupt,2
Final Result
all en,2 china,2 cstor,3 njupt,2
HDFS,YARN从服务
HDFS,YARN从服务
HDFS,YARN从服务
cslave0
cslave1
cslave2
cslave3
cslave4
Pig Client
iclient0
HDFS,YARN 主服务
cmaster
Mahout
HDFS,YARN从服务
HDFS,YARN从服务
HDFS,YARN从服务
Hive(MR) HDFS
JDBC
Pluggable Execution Engines
HBase
Columnar DWH
S3
Spark SQL Redshift Data Stores
Drill
C++ API Client
Drill Web Console
Drill Shell
JDBC/ODBC Client
cslave2
HDFS
HRegionServer
HRegionServer
cslave3
cslave4
Zookeeper 集群
HBase Client
iclient0
HMaster
cmaster
Tez
MR上的Pig或Hive
Tez上的Pig或Hive
Pig
HDFS,YARN从服务
HDFS,YARN从服务
大数据定义
“学术”定义
定义:大小超出常规的数据库获取、存储、管理和分析能力的数据集
四大特征
Volume
Velocity Variety Value
通俗定义
超过了一台计算机处理能力的数据
收集、存储 分析、应用
大数据组件
代码/软件
结构化 半结构化数据 无结构数据
大数据组件
大数据组件
代码/软件
结构化 半结构化数据 无结构数据
cslave4
Crunch Client
iclient0
HDFS,YARN 主服务
cmaster0
DataFu
HDFS,YARN从服务
HDFS,YARN从服务
HDFS,YARN从服务
HDFS,YARN从服务
HDFS,YARN从服务
cslave0
cslave1
cslave2
cslave3
cslave4
大数据组件
收集、存储 分析、应用
大数据组件
代码/软件
结构化 半结构化数据 无结构数据
大数据组件
收集、存储 分析、应用
大数据集群
HDFS、MapReduce2、YARN、Tez HBase、Sqoop、Oozie、Flacon、Metrics Pig、Hive、ZooKeeper、Storm、Flume
Apache大数据组件
Apache是什么
apache Apache
性质 软件 组织
全称/别称 Http Server Apache Software Foundation
作用 Web服务器软件 软件开发组织
Apache大数据组件
Apache是什么
本书 参考
http://www.apache.org/
Parquet Lucene
核心组件
正在 孵化
成熟
Samoa
Storm Spark
Tinker Pop
Ignite
Flink Reef
Ambari
Hive
MRQL
Oozie
Falcon
Kylin
Tajo
Lens
Bigtop Ranger Sentry Knox
Pig Crunch Blur
Phoenix
YouTube,Gmail等
孟小峰, 慈祥. 大数据管理: 概念, 技术与挑战[J]. 计算机研究与发展, 2013, 50(1): 146-169.
谷歌大数据组件
Spanner:全数据数据中心数据库
Caffeine:分布式索引架构
Drapper:分布式系统监控软件
Percolator:增量处理引擎
ResourceManager cmaster
NodeManager cslave1
NodeManager cslave2
NodeManager cslave3
NodeManager cslave3
YARN Client iclient0
MapReduce思想/算法
Input
cstor china njupt njupt allen cstor allen cstor china
HDFS,YARN从服务
HDFS,YARN从服务
cslave0
cslave1
cslave2
cslave3
cslave4
Mahout Client
iclient0
HDFS,YARN 主服务
cmaster
Hive
HDFS,YARN从服务
HDFS,YARN从服务
HDFS,YARN从服务
HDFS,YARN从服务
组件关系
MapReduce Pergel
Dremel
Based on MapReduce
Caffeine
PowerDrill
Colossus Megastore Spanner
BigTable GFS
Chubby
硬盘
硬盘
硬盘
硬盘
硬盘
硬盘
Apache大数据组件
目录
• Apache是什么 • Apache产品分类 • Apache大数据组件
HDFS,YARN从服务
cslave0
cslave1
cslave2
cslave3
cslave4
Hive Server cmaster1
Hive Client
iclient0
HDFS,YARN 主服务
cmaster0
Tajo
QueryMaster
Request butch resource Cancel resource requests
Routing Metadata Cube build Engine
Kylin主服务
高速存储器/执行器
Low Latency-Seconds
OLAP Cube
Hbase as Storage
Key Value Data
用户应用程序层
CLI
Lens
Applications—Reporting, Ad Hoc Queries
Splitting
cstor china njupt njupt allen cstor allen cstor china
Mapping Shuffling
cstor,1 china,1 njupt,1
njupt,1 all en,1 cstor,1
all en,1 cstor,1 china,1
MapReduce软件/框架
HDFS
MRAppMaster
Map MRSlave机
Reduce MRSlave机
Map MRSlave机
Reduce MRSlave机
HDFS
HBase
HRegionServer
cslave0
HDFS
HRegionServer
cslave1
HDFS
HRegionServer
JDBC/ODBC
SQL
Kyin具有 如下显 著特点 : 1.在线 分析数 据流 2.离线 数据流 3.SQL终端 用户 3.OLAP Cube用户透明
低速存储器/执行器
HDFS Hive
Mid Latency-Minutes
Star Schema Data
REST Server Query Engine
Drillbit DataSet
Drillbit DataSet
Drillbit DataSet
Tablet Server cslave0
Kafka、Slider、Spark、Ranger、Knox
大数据集群
谷歌大数据组件
Analytics System Indexing System Database System File System Lock Server
MapReduce 2004
Based on MapReduce
2004
大数据组件概述
目录
• 大数据含义 • 大数据组件 • 大数据集群 • Google大数据组件 • Apache大数据组件
目录
Hadoop核心组件 基于MapReduce的数据分析组件
• Apache大数据组件
数据库组件 BSP组件 框架型组件 基于YARN的编程类库组件
搜索引擎组件 工作流组件 数据流组件 序列化与持久化组件 调试工具组件 安全性组件 兼容性组件 集群部署与管理组件
(Follower)
cslave0
Zookeeper
(Follower)
cslave0
Zookeeper
(Leader)
cslave0
Zookeeper
(Follower)
cslave0
Zookeeper
(Follower)
cslave0
Zookeeper Client
iclient0
YARN
NodeManager cslave0
GFS 2003
Pergel 2010
Percolator 2010
Bigtable 2006
Colossus 2006*
Chubby 2006
Dremel 2010
Caffeine 2010*
Megastore 2011
PowerDrill 2012
Spanner 2012
搜索
Google技术演化图
相关文档
最新文档