大数据技术基础培训-Hadoop集群管理与维护
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 根据业务类型选择所需服务
— — 服务Zookeeper,HDFS,MapReduce,Inceptor一般业务都需要 按关键字精确查询的实时在线系统需要使用HBase
—
— —
离线统计分析系统需要使用Hive
从传统数据库或者本地文件导入数据需要使用Sqoop 采集日志业务需要使用Flume
• •
集群节点可分为主节点和从节点 主节点角色包括:
物理硬盘的需要预估集群数据规模
—
—
假设数据量预估为 n (TB),则需要硬盘大小为 n*1.2*(3+1) / 3 (TB).
系数1.2表示对数据建立索引的大小,3+1中的3表示复制份数,1表示预留空间, 除以的3表示使用Snappy压缩比。
TRANSWARP © 2013
TRANSWARP © 2013
3
Hadoop集群优化配置和部署
• • • Hadoop集群规划 Hadoop集群基本配置参数 Hadoop集群高级配置参数
TRANSWARP © 2013
4
Hadoop集群规划
• • 规划集群需要使用的Hadoop的服务
— 服务包括:ZooKeeper,HDFS,MapReduce,Inceptor,HBase,Hive等
HBase主节点,用 以管理 RegionServer
推荐配置三个以上节点,可 与其他角色共享节点
与DataNode运行在相同节 点上
2GB
HBase HBase中用以管理 RegionServe 数据的进程 r
32GB
TRANSWARP © 2013
8
节点角色规划 cont’d
角色 Hive Metastore 描述 存放Hive元数据信 息,以及驱动程序 Hive的服务器程序 节点规划 可与其他角色共享 主节点,高可用性 时部署于多个节点 一或多台主节点, 可与其他角色共享 节点 内存需求 4GB
MapReduce的主节 大规模集群使用独立节点, 点,负责调度任务 小规模集群可以与 和分配资源 NameNode共享节点,高 可用性需要两个节点 MapReduce计算节 与DataNode运行在相同节 点 点上
TaskTracker
2GB,slots 所需内存为 2GB*slot数
HBase Master
TRANSWARP © 2013
9
集群硬件规划
• • 服务器运行TDH至少需要英特尔至强处理器,推荐使用双路4核英特尔处理器。 集群网络配置推荐使用千兆交换机,每台机器配置多块网卡,并对这些网卡 做模式6的多网卡绑定
•
服务器运行TDH的推荐配置64G以上内存,可根据节点角色来计算具体内存。
— 比如一个服务器计划配置以下角色:DataNode, Inceptor Worker 和 HBase Region Server, 同时计划Inceptor Worker的Executor使用64G内存。这样,对于这个服务器的推荐内存为: 2GB + 4GB + 64G + 32GB = 102GB.
ห้องสมุดไป่ตู้Hive Server
8GB
Inceptor Master Inceptor Worker Management Node
Inceptor的主节点, 运行与一台主节点,4GB 用于调度任务和分 可与其他角色共享 配资源 节点 Inceptor的计算节 点 管理节点 与DataNode运行 在相同节点上 可与其他角色共享 一台主节点 2GB,用于计算的 Executor推荐3264GB 8GB
Secondary NameNode Journal Node DataNode
配置了高可用性时, 3个或3个以上奇数个节点, HDFS修改日志存储 可与NameNode共享节点 节点 HDFS数据存储节点 位于集群中的从节点
2GB
TRANSWARP © 2013
7
节点角色规划 cont’d
角色 JobTracker 描述 节点规划 内存需求 2GB
TRANSWARP © 2013
10
集群硬件规划 cont’d
•
• • •
通常多个小容量硬盘 比少数大容量硬盘性能要好
— 如8 * 1.5TB的硬盘比6*2TB的硬盘I/O性能好
推荐使用转速为7200 RPM的SATA盘
— 没有必要使用转速为15000 RPM的硬盘
物理硬盘不要使用RAID。
— 若RAID无法被移除的情况下,每块盘可以被设为一个单独的RAID 0.
TRANSWARP © 2013
6
节点角色规划
角色 描述 节点规划 内存需求
ZooKeeper
NameNode
为高可用性提供选 举服务
3个或3个以上的奇数个节点
4GB
HDFS的主节点,存 一个独立节点,配置了高可用 16GB 性时,需要两个独立节点 储文件系统目录结 构以及元数据信息 对NameNode做冷 备份的节点 非NameNode的一台主节点, 16GB 配置了高可用性时,不得配置 Secondary NameNode 2GB
大数据技术基础培训
1
Hadoop集群管理与维护
TRANSWARP © 2013
2
主要内容
hadoop集群管理和维护
包括Hadoop集群部署配置、 管理和监控,以及Hadoop集 群的安全保障
(1) Hadoop集群优化配置和部署 (2) Hadoop集群管理和监控 (3) Hadoop集群数据导入 (4) Hadoop集群安全保障 (5) Hadoop集群生产运维最佳实践
规划集群的节点角色
— 根据需要使用的服务为节点指定角色,如NameNode、Inceptor Master等
•
规划集群的硬件配置
— 如服务器数量,机架分布,每台机器的CPU型号以及磁盘、内存的大小
•
规划集群的网络
— 包括网络拓扑,交换机型号以及机器网卡型号
TRANSWARP © 2013
5
集群服务角色规划
ZooKeeper,NameNode,Secondary NameNode,Journal Node,JobTracker, HBase Master,Hive Metastore,Hive Server,Inceptor Master
•
从节点角色包括:
DataNode,TaskTracker,HBase RegionServer,Inceptor Worker
— — 服务Zookeeper,HDFS,MapReduce,Inceptor一般业务都需要 按关键字精确查询的实时在线系统需要使用HBase
—
— —
离线统计分析系统需要使用Hive
从传统数据库或者本地文件导入数据需要使用Sqoop 采集日志业务需要使用Flume
• •
集群节点可分为主节点和从节点 主节点角色包括:
物理硬盘的需要预估集群数据规模
—
—
假设数据量预估为 n (TB),则需要硬盘大小为 n*1.2*(3+1) / 3 (TB).
系数1.2表示对数据建立索引的大小,3+1中的3表示复制份数,1表示预留空间, 除以的3表示使用Snappy压缩比。
TRANSWARP © 2013
TRANSWARP © 2013
3
Hadoop集群优化配置和部署
• • • Hadoop集群规划 Hadoop集群基本配置参数 Hadoop集群高级配置参数
TRANSWARP © 2013
4
Hadoop集群规划
• • 规划集群需要使用的Hadoop的服务
— 服务包括:ZooKeeper,HDFS,MapReduce,Inceptor,HBase,Hive等
HBase主节点,用 以管理 RegionServer
推荐配置三个以上节点,可 与其他角色共享节点
与DataNode运行在相同节 点上
2GB
HBase HBase中用以管理 RegionServe 数据的进程 r
32GB
TRANSWARP © 2013
8
节点角色规划 cont’d
角色 Hive Metastore 描述 存放Hive元数据信 息,以及驱动程序 Hive的服务器程序 节点规划 可与其他角色共享 主节点,高可用性 时部署于多个节点 一或多台主节点, 可与其他角色共享 节点 内存需求 4GB
MapReduce的主节 大规模集群使用独立节点, 点,负责调度任务 小规模集群可以与 和分配资源 NameNode共享节点,高 可用性需要两个节点 MapReduce计算节 与DataNode运行在相同节 点 点上
TaskTracker
2GB,slots 所需内存为 2GB*slot数
HBase Master
TRANSWARP © 2013
9
集群硬件规划
• • 服务器运行TDH至少需要英特尔至强处理器,推荐使用双路4核英特尔处理器。 集群网络配置推荐使用千兆交换机,每台机器配置多块网卡,并对这些网卡 做模式6的多网卡绑定
•
服务器运行TDH的推荐配置64G以上内存,可根据节点角色来计算具体内存。
— 比如一个服务器计划配置以下角色:DataNode, Inceptor Worker 和 HBase Region Server, 同时计划Inceptor Worker的Executor使用64G内存。这样,对于这个服务器的推荐内存为: 2GB + 4GB + 64G + 32GB = 102GB.
ห้องสมุดไป่ตู้Hive Server
8GB
Inceptor Master Inceptor Worker Management Node
Inceptor的主节点, 运行与一台主节点,4GB 用于调度任务和分 可与其他角色共享 配资源 节点 Inceptor的计算节 点 管理节点 与DataNode运行 在相同节点上 可与其他角色共享 一台主节点 2GB,用于计算的 Executor推荐3264GB 8GB
Secondary NameNode Journal Node DataNode
配置了高可用性时, 3个或3个以上奇数个节点, HDFS修改日志存储 可与NameNode共享节点 节点 HDFS数据存储节点 位于集群中的从节点
2GB
TRANSWARP © 2013
7
节点角色规划 cont’d
角色 JobTracker 描述 节点规划 内存需求 2GB
TRANSWARP © 2013
10
集群硬件规划 cont’d
•
• • •
通常多个小容量硬盘 比少数大容量硬盘性能要好
— 如8 * 1.5TB的硬盘比6*2TB的硬盘I/O性能好
推荐使用转速为7200 RPM的SATA盘
— 没有必要使用转速为15000 RPM的硬盘
物理硬盘不要使用RAID。
— 若RAID无法被移除的情况下,每块盘可以被设为一个单独的RAID 0.
TRANSWARP © 2013
6
节点角色规划
角色 描述 节点规划 内存需求
ZooKeeper
NameNode
为高可用性提供选 举服务
3个或3个以上的奇数个节点
4GB
HDFS的主节点,存 一个独立节点,配置了高可用 16GB 性时,需要两个独立节点 储文件系统目录结 构以及元数据信息 对NameNode做冷 备份的节点 非NameNode的一台主节点, 16GB 配置了高可用性时,不得配置 Secondary NameNode 2GB
大数据技术基础培训
1
Hadoop集群管理与维护
TRANSWARP © 2013
2
主要内容
hadoop集群管理和维护
包括Hadoop集群部署配置、 管理和监控,以及Hadoop集 群的安全保障
(1) Hadoop集群优化配置和部署 (2) Hadoop集群管理和监控 (3) Hadoop集群数据导入 (4) Hadoop集群安全保障 (5) Hadoop集群生产运维最佳实践
规划集群的节点角色
— 根据需要使用的服务为节点指定角色,如NameNode、Inceptor Master等
•
规划集群的硬件配置
— 如服务器数量,机架分布,每台机器的CPU型号以及磁盘、内存的大小
•
规划集群的网络
— 包括网络拓扑,交换机型号以及机器网卡型号
TRANSWARP © 2013
5
集群服务角色规划
ZooKeeper,NameNode,Secondary NameNode,Journal Node,JobTracker, HBase Master,Hive Metastore,Hive Server,Inceptor Master
•
从节点角色包括:
DataNode,TaskTracker,HBase RegionServer,Inceptor Worker