Hadoop大数据技术揭秘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Container
Resource Manager (全局资源管理者)
请求资源 上报节点状态
NM:节点上的资源和任务管理器。A. 上报本节点信息;B. 处理来自Ma的 Container启动/停止请求。
Node Manager
Container Container
Map Task MR App Mstr
Node Manager
Container
Spark Task
Node Manager
上报任务状态
Spark App Mstr
Container Container
Container:资源抽象,包括CPU、 内存、磁盘、网络等多维度资源。 AM或Task运行在Container之中。 AM:应用管理器(一个应用程序一 个AM)。A. 为Task申请资源; B. 启 动停止Task、监控Task执行情况
BigData 系列
Hadoop 大数据技术揭秘
目录 1. 大数据介绍
2. 数据库及存储
3. 计算框架 4. 数据访问
2
大数据介绍
大数据应用 运营商大数据应用 金融大数据应用 数据即服务DAAS 多维分析 自助分析 H3C业务运维管理 系统管理 安装部署 版本管理 集群管理 云管理接口 运行监控 故障管理 应用性能分析 数据仓库 Hive SQL on Hadoop 数据分析 Pig 搜索引擎 Lucene/Elastic 计算框架 批处理计算 MapReduce 内存计算 Spark 实时流式计算 Storm MPP并行计算 数据搜索 数据共享 …… 数据访问 数据挖掘 Mahout 多维度建模 数据可视化 R语言 多算法引擎 交通大数据应用 公安大数据应用 服务及接口 Restful 安全大数据应用 无线大数据应用 可编程接口 ODBC JDBC 系统服务 集群资源管理 YARN 协调与同步系统 ZooKeeper 分布式消息队列 Kafka 作业调度 Oozie 统一存储 CEPH NewSQL 数据库 名字空间管理系统 ApacheDS 安全管理 Kerberos/LDAP ……
Server分如下3种角色:
角色 领导者(Leader)
描述 领导者负责进行投票的发起和决 议,更新系统状态。
学习者 (Learner)
Follower用于接收客户请求并向 跟随者 客户端返回结果,在选主过程中 (Follower) 参与投票。 Observer可以接收客户端连接, 观察者 将写请求转发给Leader节点。但 (Observer) Observer的目的是为了扩展系 统,提高读取速度。
性能监控
短信Email中心
运营管理 资源管理 业务管理 安全管理 认证/授权 Portal 数据安全
关系数据库 PostgreSQL
NoSQL数据库 HBase
数据库及存储 分布式文件系统 HDFS 数据采集及管理 关系数据库连接 Sqoop
合规审计
ETL 工具 Kettle
日志采集 Flume
数据交换
MapReduce
(批处理)
Storm (流计算)
Spark (内存计算)
HBase (数据库)
Hive (数据仓库)
其他
ZooKeeper (协调服务)
YARN(集群资源管理)
HDFS(Hadoop分布式文件系统)
YARN架构
Client:提交作业
Client
Client
Client
提交作业
RM:全局资源管理器
6
协调服务ZooKeeper简介
ZooKeeper:分布式协调服务 为集群提供一致性服务,包括配置维护、名字服务、分布式同步、组成员管理等。 特点 高性能:能处理每秒上万的请求。 高可靠性:不会单点故障而造成任何问题。 有序的访问:使客户端可以实现较为复杂的同步操作。
Spark (内存计算)
集群资源管理YARN简介
YARN:另一种资源协调者( Yet Another Resource Negotiator ),Hadoop2.0新增的资源 管理器。 YARN支持多种框架运行在一个集群之上(如MapReduce、Storm),所有框架共享集群资源。 在较高层次上,可以把YARN看做是一个集群操作系统,它为应用程序提供了基本的服务来更 好的利用大的、动态的、并行的基础设施资源。
数据管理
Linux OS
3
目录
1. 大数据介绍
பைடு நூலகம்
2. 数据库及存储
3. 计算框架 4. 数据访问
4
分布式文件系统HDFS简介
HDFS:Hadoop分布式文件系统(Hadoop Distributed File System), Hadoop集群首选文件系统。 一种虚拟文件系统,数据最终还是存储在操作系统文件里。
MapReduce
(批处理)
Storm (流计算)
Spark (内存计算)
HBase (数据库)
Hive (数据仓库)
其他
ZooKeeper (协调服务)
YARN(集群资源管理)
HDFS(Hadoop分布式文件系统)
HDFS——分布式文件系统
HDFS架构基本组成元素: • NameNode:维护整个文件系统的命 名空间,文件/目录的元信息和文件的 数据块索引。 • DataNode:根据NameNode的调度 存储和检索数据,并且定期向 NameNode发送他们所存储的块 (block)的列表。 • Client:Client包括命令行、应用程序、 Web 管 理 界 面 等 。 Client 是 用 户 和 HDFS 的交互手段。用户通过 Client 与 名字节点、数据节点进行通信,访问 HDFS文件系统。
MapReduce
(批处理)
Storm (流计算)
HBase (数据库)
Hive (数据仓库)
其他
ZooKeeper (协调服务)
YARN(集群资源管理)
HDFS(Hadoop分布式文件系统)
ZooKeeper组成
Client: ZooKeeper服务的享受者,它负责向 Server发起读写请求。 Client包括命令行、HBase、Kfaka、各类Java应用程序等。 Server(集群) 建议奇数个Server(如3、5、7),数目越多可靠性越高。 所有Server上存储的数据保持一致,Leader负责写操作。