大数据平台规划部署

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

16
DataEngine 大数据平台部署流程

Hadoop1 Hadoop2
交换机高可用

Hadoop3
Hadoop4

MPP SG1-1 MPP SG1-2
节点高可用
– –
MPP SG2-1
MPP SG2-2
服务器机柜
服务器机柜
11
Hadoop组件部署规划

支持高可用性的服务建议开启HA,如NameNode、ResourceManager,防止单点故障造成的 影响 绿色 必装 ,黄色为选装, 红色为不装
9
组网规划
管理网交换机

推荐集群规划
Βιβλιοθήκη Baidu
Hadoop集群

低配置:要求3台物理服务器, Hadoop集群管理节点和数据节点共用 物理服务器 高配置:要求5台及以上物理服务器, Hadoop集群管理节点和数据节点使用 不同的物理服务器 若对数据安全性要求较低,选择2个节 点为1个safegroup,推荐配置4台及以 上服务器 若对数据安全性要求高,选择3个节点 为1个safegroup,推荐配置6台及以上 服务器

系统盘建议使用两块盘做成一个RAID1,保证系统运行安全可靠。
HDFS天然支持复本冗余存储策略,数据盘无需做RAID,在必须配置RAID的 情况下,每个数据盘单独设置为RAID0。
多块盘做一个RAID0,会将HDFS并行流式读写操作变成随机读写,降低性能。 多块盘做一个RAID0,其读写性能受制于阵列中速度最慢的磁盘。
2
配置要求

硬盘RAID
集群类型 HDP MPP 操作系统配置 2块硬盘做RAID1 2块硬盘做RAID1 数据存储配置 剩余部分每块做一个RAID0 剩余部分做成一个RAID5
注意:共享存储系统不适用于集群数据存储,单点存储是大数据集群的运算 性能瓶颈。
3
配置要求

硬盘RAID(HDP集群)

5
配置要求

操作系统要求
操作系统
Red Hat Enterprice Linux Centos
版本
6.4/6.5(minimal最小安装方式)64位 6.4/6.5(minimal最小安装方式)64位

不建议操作系统安装Desktop版。
6
配置要求

支持的游览器
游览器
Google Chorme(推荐) FireFox Safari Internet Expoloer
HDFS
Yarn MapReduce2
App Timeline Server NodeManager HistoryServer
12
MPP组件部署规划

集群高可用方案—safegroup配置

1个节点为1个safegroup的方案不推荐使用


对数据安全性要求高,选择3个节点为1个safegroup
版本
26.0+ 18+ 5+ 10+
7
配置要求

集群软件环境
环境
Java Python SSL
版本
Oracle JDK 1.7.0_79 for Linux Python 2.6.6 openssl-1.0.1e-30
注意:DataEngine 会自动安装以上软件环境。
8
服务器网络规划

业务交换机采用堆叠 服务器网卡配置聚合
从磁盘损坏率考虑,多块盘做一个RAID0会带来更大的数据损失,造成大量
数据需要复制重建。
4
配置要求

硬盘RAID(MPP集群)

系统盘建议使用两块盘做成一个RAID1,保证系统运行安全可靠。
成本综合考虑,建议将数据盘做成一个RAID5 。
受制于MPP数据存储路径只能指定一个,所以从存储性能、数据安全和存储
128GB 或更多
SAS 10k rpm,1TB及以上,数量建议满配 2块万兆网卡做聚合
不推荐使用虚拟内存 建议使用更多块硬盘,2块1T硬盘性能优于1块2T硬盘。 建议单数据节点容量最大不超过24TB,否则节点失效后造成大量数据复本的复制。 不建议使用SSD,Hadoop的磁盘IO多为顺序读写,不能完全发挥适用于随机读写的SSD的性能优势,同样的采 购投入可以通过多个HDD提高并发量提高性能。
服务器
服务器


Hadoop集群 MPP集群
MPP集群


IRF
业务网交换机
10
设备机柜规划
万兆交换机1 万兆交换机1

硬件物理部署和网络规划

电源高可用

万兆交换机2
万兆交换机2
两个机柜的电源是独立的,互不影响的 每个机柜上各包含2台交换机,并且这两台交 换机之间是互备的关系,当其中一台交换机 发生故障,另一台交换机立即提供服务 对于HDP,把HA服务所在的两个服务器放在 不同的机架上 对于MPP,把一个safegroup的不同成员放 在不同的机架上
大数据系列培训
大数据平台规划部署
H3C DataEngine
提纲
DataEngine 大数据平台集群规划
DataEngine 大数据平台部署
1
配置要求

硬件配置要求
最低配置要求 处理器
1×2 核 2.0GHz
推荐配置
2×6 核 2.0GHz或更多
内存
硬盘 网卡
32GB
SAS 10k rpm,300GB *4 千兆网卡: 1GE SFP+
对数据安全性要求较低,选择2个节点为1个safegroup
13
提纲
DataEngine 大数据平台集群规划
DataEngine 大数据平台部署
14
DataEngine 大数据平台部署
原生Hadoop集群的开通和 管理会是一个超复杂的工 作,尤其是涉及成百上千台 主机时。
15
DataEngine 大数据平台部署方案
应用场景

定制部署:
对于需要利用现有集群中的服务器和定制化需求多样 的客户,建议采用定制部署方式,这种方式可以满足 客户对系统安全、组网环境、节点复用等方面的特殊 需求。

Zero部署:
对于需要创建全新大数据集群的客户,建议采用Zero 部署方式,这种方式可以快速实现服务器操作系统的 批量安装、网段统一分配和DataEngine Manager的 安装。
服务 Metrics ZooKeeper 组件 Metrics Monitor 管理节点 主机一 主机二 主机三 数据节点 主机四 主机五
ZooKeeper Server ZooKeeper Client
NameNode ZKFailoverController DataNode JournalNode ResourceManager
相关文档
最新文档