存储能力详细方案-参考

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.1.1.1.1.1Hadoop存储能力详细方案

Hadoop采用HDFS作为其底层文件存储方式。HDFS是分布式文件系统,适合于存储大数据文件,通过将大数据文件切分成多个小数据文件,并且分散存放在多台DataNode服务器,同时提供数据冗余机制保证数据安全。

本次Hadoop存储节点为:300台DataNode服务节点。

存储数据安全及分配机制:采用3备份机制保证数据安全,同时为系统保留10%的临时数据交换空间,当数据量超过集群总容量的90%时,建议增加节点。

存储总容量:300台数据节点,每个节点36T的磁盘容量,除去10%的临时数据交换空间,同时HDFS中一份数据存放着3份备份;最终存储容量公式如下可用存储容量=节点数*单节点磁盘容量*(1-临时数据交换空间比例)÷HDFS文件备份数量;

即:可用存储容量=300×36×(1-10%)÷3=3240T;

目录规划:针对不同的数据用途和支撑方式进行存储容量划分,存放在HDFS中的数据分为接口层,处理层,共享层。

接口层主要为原始数据,处理层为存放在HDFS中数据经Hive映射之后数据,共享层为经数据深度沉淀之后存放在HBase中。

接口层:总容量*50%

处理层:总容量*30%

共享层:总容量*20%

1.1.1.1.1.2Storm存储能力详细方案

Storm流数据处理采用linux文件系统作为其存储,数据盘采用raid5保证数据安全。

存储总容量为:30台服务器,每台36T,采用Raid5磁盘阵列之后,数据容量为原来的75%,并建议预留10%的空间;最终可用存储计算公式如下:可用存储容量=节点数*单节点磁盘容量*Raid5后的磁盘容量比例*(1-临时数据交换空间比例);

即:可用存储容量=30×36×75%×(1-10%)=729T;

1.1.1.1.1.3Redis 存储能力详细方案

Redis包含平台Redis内存数据库和前置Redis内存数据库,平台Redis内存数据库集群用于存放Storm处理后数据,对外提供低延迟数据服务;前置Redis 内存数据库存放应用级数据对外提供服务。

平台Redis内存数据库集群:

集群通过一台路由服务器根据一套算法将表的Key值打算后分散存放到7个Redis Master服务器中,同时每一个Master节点对应一个Slave节点保证数据安全,通过路由服务器实现高可用。

存储容量为:14台数据服务器,7个Master节点,对应7个Slave节点,每一节点内存为512G,为保证KV查询的高效性,建议预留30%的空间;最终可用存储计算公式如下:

可用存储容量=节点数÷热备*单节点内存容量*(1-预留空间比例);

即:可用存储容量=14÷2×512×(1-30%)=2508.8G;

前置Redis内存数据库:

前置Redis内存数据库中,数据表分别分别存放在不同的节点,同时内存中数据定期备份到本地和远程磁盘,通过该方式在保证了数据安全的同时针对多租户的场景实现了资源隔离。

存储容量为:前置数据服务器,每一节点内存为512G,为保证KV查询的高效性,建议预留30%的空间,最终可用存储计算公式如下:

可用存储容量=节点数÷热备*单节点内存容量*(1-预留空间比例);

即:可用存储容量=4×512×(1-30%)=1433.6;

1.1.1.1.1.4Mysql 存储能力详细方案

Mysql关系型数据库存储放深度汇总模型数据,支撑能力封装组件,为上层应用提供数据服务器;其中支撑业务数据节点数为8台,管控数据节点数为2台。

业务数据MySql数据库:

Mysql服务器的数据存储将采用Raid5磁盘阵列划分,以满足数据安全及高可用性。

服务器存储容量:8台MySql服务器,每台24T,采用Raid5磁盘阵列,存

储量变为原来的75%;最终可用存储计算公式如下:

可用存储容量=节点数*单节点存储容量*Raid5后的磁盘容量比例;

即:可用存储容量=8×24×75% 单位/T

管控数据MySql数据库:

Mysql服务器的数据存储将采用Raid5磁盘阵列划分,以满足数据安全及高可用性。

服务器存储容量:2台MySql服务器,每台24T,采用Raid5磁盘阵列,存储量变为原来的75%;最终可用存储计算公式如下:

可用存储容量=节点数*单节点存储容量*Raid5后的磁盘容量比例;

即:可用存储容量=2×24×75% 单位/T

大数据处理实现

大数据的处理是使用Hadoop2.x体系进行处理。将ETL清洗后数据放入HDFS中进行存储,依靠HDFS的数据底层存储上部署MapReduce引擎,MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;Hive是建立在 Hadoop 上的数据仓库基础构架。

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,十分适合数据仓库的统计分析。Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,简化Hadoop 的使用。HBase是一个分布式的、面向列的开源数据库,是一个适合于非结构化数据存储的列存数据库。

数据服务(Data Service)

大数据能力产品及应用平台既要保证内部数据产品的安全性,还要满足外部平台的灵活使用,为了实现以上目标,在平台架构中引入统一的数据服务,实现对服务能力的统一管理和支撑,提供数据服务的封装能力,形成统一、标准化的跨平台、跨应用的数据服务接口,可对内(外)部平台提供数据服务。通过服务封装实现平台服务能力的开放,形成如下的服务支撑能力:

❑统一外部服务开发标准和程序调用

能力平台通过对自身数据进行程序化封装,实现并对外提供标准化的SDK开发软件包,供外部平台和其他应用开发人员进行调用与接入。

优点:此类方式具备灵活、简便,并且易于管理,数据安全可靠的优点

缺点:此类服务需要开发实现,过程较复杂

适用于:RTB中DSP数据响应、精准移动营销等业务

❑开放特定应用的数据查询访问

能力平台通过开放一定的数据访问权限和接口,提供给某些合作伙伴的特定应用进行有限的一定范围内的数据访问与查询接口。

优点:实现方便,快速支撑

缺点:数据安全级别不高

适用于:数据咨询报告等产品业务

❑开放应用级的程序封装接入

能力平台通过对于平台数据进行某些主题级的组织和加工后,形成统一的应用支撑界面,按照模块功能授权模式为合作伙伴和外部客户提供平台的数据产品和服务价值。

优点:服务系统化,用户感知度高,数据价值显现化

相关文档
最新文档