大数据平台规划部署
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
16
DataEngine 大数据平台部署流程
Hadoop1 Hadoop2
交换机高可用
–
Hadoop3
Hadoop4
MPP SG1-1 MPP SG1-2
节点高可用
– –
MPP SG2-1
MPP SG2-2
服务器机柜
服务器机柜
11
Hadoop组件部署规划
支持高可用性的服务建议开启HA,如NameNode、ResourceManager,防止单点故障造成的 影响 绿色 必装 ,黄色为选装, 红色为不装
9
组网规划
管理网交换机
推荐集群规划
Βιβλιοθήκη Baidu
Hadoop集群
–
低配置:要求3台物理服务器, Hadoop集群管理节点和数据节点共用 物理服务器 高配置:要求5台及以上物理服务器, Hadoop集群管理节点和数据节点使用 不同的物理服务器 若对数据安全性要求较低,选择2个节 点为1个safegroup,推荐配置4台及以 上服务器 若对数据安全性要求高,选择3个节点 为1个safegroup,推荐配置6台及以上 服务器
系统盘建议使用两块盘做成一个RAID1,保证系统运行安全可靠。
HDFS天然支持复本冗余存储策略,数据盘无需做RAID,在必须配置RAID的 情况下,每个数据盘单独设置为RAID0。
多块盘做一个RAID0,会将HDFS并行流式读写操作变成随机读写,降低性能。 多块盘做一个RAID0,其读写性能受制于阵列中速度最慢的磁盘。
2
配置要求
硬盘RAID
集群类型 HDP MPP 操作系统配置 2块硬盘做RAID1 2块硬盘做RAID1 数据存储配置 剩余部分每块做一个RAID0 剩余部分做成一个RAID5
注意:共享存储系统不适用于集群数据存储,单点存储是大数据集群的运算 性能瓶颈。
3
配置要求
硬盘RAID(HDP集群)
5
配置要求
操作系统要求
操作系统
Red Hat Enterprice Linux Centos
版本
6.4/6.5(minimal最小安装方式)64位 6.4/6.5(minimal最小安装方式)64位
不建议操作系统安装Desktop版。
6
配置要求
支持的游览器
游览器
Google Chorme(推荐) FireFox Safari Internet Expoloer
HDFS
Yarn MapReduce2
App Timeline Server NodeManager HistoryServer
12
MPP组件部署规划
集群高可用方案—safegroup配置
1个节点为1个safegroup的方案不推荐使用
对数据安全性要求高,选择3个节点为1个safegroup
版本
26.0+ 18+ 5+ 10+
7
配置要求
集群软件环境
环境
Java Python SSL
版本
Oracle JDK 1.7.0_79 for Linux Python 2.6.6 openssl-1.0.1e-30
注意:DataEngine 会自动安装以上软件环境。
8
服务器网络规划
业务交换机采用堆叠 服务器网卡配置聚合
从磁盘损坏率考虑,多块盘做一个RAID0会带来更大的数据损失,造成大量
数据需要复制重建。
4
配置要求
硬盘RAID(MPP集群)
系统盘建议使用两块盘做成一个RAID1,保证系统运行安全可靠。
成本综合考虑,建议将数据盘做成一个RAID5 。
受制于MPP数据存储路径只能指定一个,所以从存储性能、数据安全和存储
128GB 或更多
SAS 10k rpm,1TB及以上,数量建议满配 2块万兆网卡做聚合
不推荐使用虚拟内存 建议使用更多块硬盘,2块1T硬盘性能优于1块2T硬盘。 建议单数据节点容量最大不超过24TB,否则节点失效后造成大量数据复本的复制。 不建议使用SSD,Hadoop的磁盘IO多为顺序读写,不能完全发挥适用于随机读写的SSD的性能优势,同样的采 购投入可以通过多个HDD提高并发量提高性能。
服务器
服务器
–
Hadoop集群 MPP集群
MPP集群
–
–
IRF
业务网交换机
10
设备机柜规划
万兆交换机1 万兆交换机1
硬件物理部署和网络规划
电源高可用
–
万兆交换机2
万兆交换机2
两个机柜的电源是独立的,互不影响的 每个机柜上各包含2台交换机,并且这两台交 换机之间是互备的关系,当其中一台交换机 发生故障,另一台交换机立即提供服务 对于HDP,把HA服务所在的两个服务器放在 不同的机架上 对于MPP,把一个safegroup的不同成员放 在不同的机架上
大数据系列培训
大数据平台规划部署
H3C DataEngine
提纲
DataEngine 大数据平台集群规划
DataEngine 大数据平台部署
1
配置要求
硬件配置要求
最低配置要求 处理器
1×2 核 2.0GHz
推荐配置
2×6 核 2.0GHz或更多
内存
硬盘 网卡
32GB
SAS 10k rpm,300GB *4 千兆网卡: 1GE SFP+
对数据安全性要求较低,选择2个节点为1个safegroup
13
提纲
DataEngine 大数据平台集群规划
DataEngine 大数据平台部署
14
DataEngine 大数据平台部署
原生Hadoop集群的开通和 管理会是一个超复杂的工 作,尤其是涉及成百上千台 主机时。
15
DataEngine 大数据平台部署方案
应用场景
定制部署:
对于需要利用现有集群中的服务器和定制化需求多样 的客户,建议采用定制部署方式,这种方式可以满足 客户对系统安全、组网环境、节点复用等方面的特殊 需求。
Zero部署:
对于需要创建全新大数据集群的客户,建议采用Zero 部署方式,这种方式可以快速实现服务器操作系统的 批量安装、网段统一分配和DataEngine Manager的 安装。
服务 Metrics ZooKeeper 组件 Metrics Monitor 管理节点 主机一 主机二 主机三 数据节点 主机四 主机五
ZooKeeper Server ZooKeeper Client
NameNode ZKFailoverController DataNode JournalNode ResourceManager