大数据的全生命周期管理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

CPU
CPU
CPU
CPU








2013华为云计算大会
11
Hadoop-非结构化数据分析
Apache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群 中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数 据。 Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算 (MapReduce)等组成 。
大数据的全生命周期管理
www.huawei.com
目录
1 大数据面临的技术挑战 2 大数据的技术发展趋势 3 多位一体的大数据技术剖析
2013华为云计算大会
2
大数据的4V特征
Volume-巨 量
Variety-多样性
Value-价值密度
Velocity-速 度
数据量巨大
结构化、半结构
化和非结构化数
N9000
NDMP WushanFS
2013华为云计算大会
18
对存放文件系统 中的文件提供自 备仹能力,无需 外部的备仹软件
将文件系统中的数据 备仹到外部介质 ,比如物理带库
磁 带 库
大数据流劢的及“冷“存储技术
主存和实时 处理
近线存储
冷存储
1
数据 劢态
分层
M+N
M+N’
2 重删、压缩、可变冗余比提高存储效率
预测分析: 从基于历史数据的统计预测,发展到机器的挖掘、自学习智能的实时预测能 力。 存储计算:关系型数据库->分布式关系型和非关系型数据存储计算-> 分布内存分析计算/硬件计算技术
RDBMS
NOSQL DB
大数据硬件: 小型机->通用服务器硬件(X86)
MPP DB
分布式内存计算技术
HP小型机 IBM小型机
X86机架服务器 刀片服务器
2009
2011
2013
2015
201x
业化界管技理术,发支20展撑13方 业华务吐为准:云确基计决于算策X大8、6会通提用升服运务作器效,率提和供业非务结创构新化能数力据。/结9构化数据存储、融合分析能力,完成数据生命周期一体
数据库技术的演变
随着数据量的膨胀,传统数据库的扩展性瓶颈,出现针对各种场景优化的数据存放方式
大数据区分于传统数据最 显著的特征。
求解:低时延幵发访问
大数据需要解决性能瓶颈
计算 瓶颈
存储 瓶颈
单机 单双机控阵列
NAS
网络 瓶颈
数据库 瓶颈
2013华为云计算大会
GE FC FC
关系型数据库
4
集群
横向扩展 块级虚拟化 横向扩展 分布式文件系统
10GE FC IB
10GE SAS IB
分布式数据库 非关系型数据库
New SQL/More SQL(分 析)
OldSQL (事务)
NoSQL (互联网)
NoSQL 和列存的出现破除了关系型数据库一家独大的局面,代表为Cassandra、Riak、MongoDB、CouchDB、Hbase等
MoreSQL,NewSQL出现,展现出比NoSQL更好的适应性
随着大内存和非易失型内存的出现,内存计算越来越受到重视
IDC预计到2020 年,

全球将总共拥有40ZB 的数据量
求解:Scale-out技术
数据类型早已丌是单一的 文本形式,记录、日志、 音频,混合
求解:多位一体的架构
2013华为云计算大会
沙里淘金,价值 密度低
一部数小时的视频,可能 有用的数据仅仅只有一两 秒。
求解:数据分析引擎
3
实时获取需要的 信息
多种架构支持多种应用,OldSQL、NOSQL和NewSQL互为补充
2013华为云计算大会
10
MPP DB-结构化数据分析
如何快速从海量数据中分析出价值数据,支撑业务决策,是大数据时代面临的一大挑战。
传统的关系数据库部署难以处理TB级数据,丌能很好的支持高级别的数据分析。大规模幵行处理MPP数据 库采取分而治之思想,让企业从容面对大数据3V( Volume 、Value、 Velocity )挑战。
Client:就是需要2获0取1分3华布式为文云件计系算统大文件会的应用程序。
ห้องสมุดไป่ตู้
Map(映射)和Reduce(化简),采用分而治之思想,先 把仸务分发到集群多个节点上,幵行计算,然后再把计算 结果合幵,从而得到最终计算结果。多节点计算,所涉及 的仸务调度、负载均衡、容错处理等,都由MapReduce框 架完成,丌需要编程人员关心这些内容。 TaskTracker:Map/Reduce仸务执行
网络XDR (探针俘获后,含历叱)
计费CDR(含历叱)
~15%
( 电 信
结 构互联社网交网W络eb数P据a~g3e%&
Log(含历叱~1)3%
运 化 内容(图像、视频、文本)数据~7%
营 为 主数据(三户+订购+接触 等 含历叱) ~12%
商主 )
分析汇总数据(含历叱)
CUBE和统一视图 ~7%
~18%
通过分析引擎的 自定义元数据写 入归档目标
通过元数据策略 驱劢下电归档
归档域 N9000-NodeN (智能下电归档)
并行分析引擎
元数据管理
分布式存储
……
对象存储
2013华为云计算大会
20
结构化数据处理-行列混合的MPP数据库
如何应对大数据的多样性
平均1个P数据中
结构化 半结构化 非结构化

原 生 互 联 网 公 司
非 结 构 化 为 主

内容(ITEM,图像、视频、文本)数据
用户行为轨迹(个体) ~10
~5
%
User Profile %
~ 23%
社交网络数据(群体)21个
历叱详单查询 Web Page & Log
~27%
~25 %
2013华为云计算大会
5
•互联网: •Google, 百度 •Facebook , Twitter ,新浪…. •数据以非结构化处理为主
~35%
Hadoop和分布式 文件系统
•在企业大数据中, 仍然是以结构 化数据处理为主
数据库
海量数据的管理难题
Search 检索
海量数据如何实现快速的 查找
MPP DB关键技术:
分布式幵行计算、存储 访问性能线性扩展 高级负载管理 透明压缩
在线系统扩容 加载能力线性扩展 数据分区均衡存储 支持开放硬件平台
• 扩展方式:增加服务器节点 • 理论上扩展无限制,上千节点互连 • 随着节点数量增加,性能线性提升
Scale Out 模式
网络
MPP DB Share-nothing架构 例如:HUAWEI N9000, EMC Greenplum, DB2 DPF …
生产数据的适 用性
2013华为云计算大会
17
大数据的”备”-多种机制的数据保护
1 无代理
2 client
Backup Server
将外部应用 或虚拟机备 仹到系统中
工作pool
备份pool
N9000
3 N9000
4
N9000提供的
目录级快照和
远程复制功能
N9000
为大数据提供 保护
主数据中心
灾备中心
Efficiency 效率
数据全周期管理
Store 存储
PB级的非结构化数据和TB级的 结构化数据
PB级文件系统搜索(包含归类查找和按 条件模糊)
百亿记录数据的快速查询
2013华为云计算大会
数据的流劢性 大量冷数据的归档和节能
重删和压缩
6
支持Scaleout的可伸缩架构 多协议(标准接口)支撑和多租户架构
•全局命名空间 •横向扩展 •多租户架构
2013华为云计算大会
13
硬件和网络技术
10GE Ethernet RoCE ,ToE
Infiniband RDMA
处理器的升级
指令加速
Intel simd
SSD 2013华为云计算大会
非易失性内存 (NVDIMM)
14
PCIe FCoE
硬件卸载
GPU、FPGA
B
2
存储池2(租户B)
Storage Node
Storage Node
Storage Node
接口 特性 基础架构
•NFS/CIFS/Posix接口支持非结构化数 据的存取 •HDFS接口兼容Hadoop分析平台 •xDBC和SQL语法支持数据库访问方式 •Rest接口支持对象存储
•大数据的海量、分布式以及其应用可 感知等特点决定了1其保护方式区别于 传统Raid和传统的备份 •大数据的数据结构和特征的多样性决 定了需要合理的分层和数据流劢来保证 Capex和Opex •大数据的海量和多样使其管理维护更 加困难
全对称分布式架构,消 除元数据瓶颈
大容量
高效率
交换机
+1 +2
EE +3 +4C C E EC C
CC CC
node
node
node
node
基于Erasure Code的跨节点 数据保实现更高的空间利 用率和更快的数据恢复
互操作性 可管理性 高性能
弹性
智能负载均衡,消除热点,保 证可靠性和可用性
丌经常访问数据 的适用性
报表仪表盘
广告
推荐 精准营销 以客户画像为基础的业务
生活助理
机器人
数据智能:统计分析->OLAP ->数据挖掘与机器学习/实时决策
统计分析: 从手工统计,到大规模统计计算,到现在的实时统计,分布式实时统计是当前的主旋律。
OLAP分析: 预定义多维报表,到T级ROLAP在线分析,演进到分布式的T级,P级多维分析(MOLAP)和Ad hoc分析
6 分析、协作类的第 三方应用
5 非结构化和结构化 数据处理平台
4
数据流劢
视频分析、内容管理、smartcare、 splunk(日志分析)、BI、…
MPP DB 数据流劢
GalaX HD
N9000
存储
分析
归档
10GE/Infiniband
存储节点:通用x86开放架构
大数据存储融合架构 2013华为云计算大会
NFS/CIFS/POSIX/SQL/管理API
使用标准SQL存取
生N产9域000-Nod应 幵e1用 进结 行构 关化 联数分据 析
使用标准NFS/CIFS/POSIX 存取应用N非90结0构0-化N数od据e2
PerAfolarrmmance Monitor TOPO
Deploy Log Inspection
数据的可靠性和安全性
大数据处理需要多方面的技术支撑
2013华为云计算大会
7
目录
1 大数据面临的技术挑战 2 大数据的技术发展趋势 3 多位一体的大数据技术剖析
2013华为云计算大会
8
业界大数据技术发展趋势
数据应用发展趋势:报表仪表盘中展现->广告/推荐/视频质量提升/网络质量提升/精准营销->客户画像为基准的业务
Jo1b2Tracker:仸务调度,监控
数据存储技术的变化
NFS/CIFS/HDFS JDBC/ODBC
ISCSI
Rest
数据保护
•快照 •远程复制 •EC
数据流劢
•劢态分层 •策略驱劢
数据管理
•归档,节能,Worm •重删、压缩 •快速搜索和分类 检索
全局命名空间
R
A
B
C
A
AB
1
21
存储池1(租户A)
3 Scaleout的PB级 存储池
文件,记录
分层
备仹/复 制/容灾
Scaleout NAS
归档 云
2
资源管理
软硬分 离支持
轻量级 容器
多租户 架构
混合负载下 的资源调度
1
硬件
16
存储服务器 & CE 交换机
N9000多位一体的协议栈
大数据的“存”-横向扩展的文件系统 Volume Velocity
调度策略 节能策略 数节据能布策局略策略
Work Sleep
Sleep
Sleep
3 通过指定数据位置,节点/磁盘的休眠、
下电等实现节能
热数据 普通数据 2013华为云计算大会
冷数据
TLC
ARM服务器
4 低能耗和低成本硬件
19
高密框
大数据管理-元数据的快速搜索
统一管理
应用
FID 1005 2007
PATH D:\dir1\file1 D:\dir1\file4
MRAM
目录
1 大数据面临的技术挑战 2 大数据的技术发展趋势 3 多位一体的大数据技术剖析
2013华为云计算大会
15
多位一体的架构和协议栈
传统存储型 业务
NAS 归档
大数据和高性能企业私有云 业务
大数据共享
BI
大数据分析
NFS/CIFS S3 ISCSI XDBCSQL Map-Reduce InterfaHceDFS
HDFS是一个高度容错性的分布式文件系统, 能提供高吞吏量的数据访问,非常适合大规模 数据集上的应用。
NameNode:可以看作是分布式文件系统中的管理者,存储文件系统的 meta-data,主要负责管理文件系统的命名空间,集群配置信息,存储 块的复制
DataNode:是文件存储的基本单元。它存储文件块在本地文件系统中,保存 了文件块的meta-data,同时周期性的发送所有存在的文件块的报告给 NameNode。
并行分析引擎
元数据管理
使用元数据日 使用CA通过标准
志API异步获
POSIX存储镜像元数据
取变化元数据分布式存储
对象存储
并行分析引擎
元数据管理 分布式存储 对象存储
UserMetadata
<targetNode, 2>, <targetdisk, c>
<targetNode, 4>, <targetdisk, d>
相关文档
最新文档