移动大数据平台架构设计方案

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

MPP 大规模并行处理，Massively Parallel Processing ü 多个松耦合处理单元组成，数据存在本机磁盘上 ü 通过增加服务器数量提高系统处理能力，理论上可无限扩展，目技术可实现上千个节点互联 ü 对软件体系要求较高，需要通过软件层来调度和平衡各个节点的负载和并行处理过程集团公司网络部
集团公司网络部
• 无统一标准 • 包括：各自定义的API、类SQL、 MR等 • Hbase、MongoDB、Redis
典型案例
- 11 -
数据处理特性—OLTP与OLAP
OLTP以业务操作型为主，OLAP以业务分析性为主，两者对技术的要求很难兼顾
联机事务处理OLTP（ On-Line Transaction Processing ）业务操作型对一条记录数据会多次修改，支持大量并发用户添加和修改数据确保数据的一致性技术特性数据量典型示例确保事务的完整性数据读写实时性高 GB-TB级银行业务系统/数据库联机分析处理OLAP（ On-Line Analytical Processing ）业务分析型数据写入后基本不再修改，能较好地支持大量并发用户进行大数据量查询支持多维数据以及对多维数据的复杂分析大数据量 TB-PB级各类决策分析系统/数据库
比较项基本类型数据特性
- 11 -
集团公司网络部
- 12 -
数据一致性：强一致性与最终一致性
强一致性和最终一致性都是指客户端向数据库系统写入数据后，数据库系统能够提供的数据一致性的表现
对比项场景定义数据一致性表现强一致性（即时一致性）最终一致性弱一致性
• 假定三个进程A、B、C是互相独立的，且都在对存储系统进行读写操作 • A写入数据到存储系统后，存储系统能够保证后续任何时刻发起读操作的B、C 可以读到A写入的数据 • OLTP需要强一致性 • A写入数据到存储系 • 统后，经过一定时间，或者在某个特定操作后，B、C最终会读到A写入的数据 • OLAP需最终一致性 A写入数据到存储系统后，存储系统不能够保证后续发起读操作的B、C可以读到A 写入的数据
大数据技术
网络部·网管支撑处 2015年12月
集团公司网络部
-2-
目录
一、大数据的背景与定义二、大数据的关键技术三、网管领域应用展望
-2-
集团公司网络部
数据管理技术发展历史
数据管理技术历经人工管理、文件管理、数据库管理等时代，大数据技术的出现使 -3该领域进入了一个新的发展阶段
2001年后，互联网迅速发展，数据量成倍递增，量变引起质变，开始对数据管理技术提出全新的要求
示例
• 绝大多数应用不能够容忍弱一致性
集团公司网络部
- 13 -
数据存储方式—行式存储与列式存储
传统关系型数据库主要采用行存储模式，海量数据的高效存储和访问要求引发了从行存储模式向列存储模式的转变
样例数据表用户
用户1 用户2
行存储日均在线时长
2 3.7
列存储
生日
1981-10-3 1990-5-15
开源解决方案
开源组织Apache在2008年将Hadoop列为顶级项目 2010年 HBase自Hadoop上诞生开源组织GNU 2010年发布Mongodb Vmware 2010年提供开源产品Redis Twitter 2011年提供开源产品Storm
商业企业和开源组织都纷纷推出各种大数据解决方案，这些方案既存在相同点，也各有侧重，目前尚无统一的行业技术标准或技术领域细分规则
• 包括：表存储数据库、键值存储 • 关系模型由关系数据结构、关系操作集合、数据库、面向文档的数据库等关系完整性约束三部分组成接口语言 • SQL（Structured Query Language，结构化查询语言），对数据库中的数据进行查询、操作和管理 • Oracel、DB2、Sybase、SQL Server、 Mysql、Postgresql等 • 新型的MPP RDB（Greenplum）也属于关系型数据库
结构与内容的关系示例
• 先有结构、再有数据 • 各类表格
• 只有数据，没有结构 • 图形、图像、音频、视频信息
集团公司网络部
数据库数据模型—关系型数据库与非关系型数据库
在大数据技术中"非关系型"数据库技术是必不可少的，但关系数据库也是不可或缺的 - 10 对比项定义关系型数据库 • 创建在关系模型基础上，借助于集合代数等数学概念和方法来处理数据库中的数据非关系型数据库 • 没有标准定义
集团公司网络部
Hale Waihona Puke Baidu
相关概念与相关技术概览
-8-
数据结构：结构化数据与非结构化数据数据库数据模型：关系型数据库与非关系型数据库数据处理特性：OLTP与OLAP 数据一致性：强一致性与最终一致性数据存储方式：行式存储与列式存储数据库存储与处理架构：SMP与MPP 数据存储架构：传统分布式文件与新型分布式文件数据处理架构：基于并行计算的分布式数据处理技术（MapReduce）
集团公司网络部
-6-
IT行业大数据相关动向和举措
大数据正成为IT行业全新的制高点，各企业和组织纷纷助推大数据的发展，相关技术呈现百花齐放局面，并在互联网应用领域崭露头角商业解决方案
l l l l l l HP 2011年推出vertica数据库 Oracle 2011年推出noSQL数据库 EMC 2010年收购Greenplum Teradata 2011年收购Asterdata，并推出 SQL-Mapreduce IBM 2010年收购Netezza SAP 2011年收购Sybase l l l l l
SMP架构数据库
计算分布,存储集中
MPP架构数据库
计算分布,存储分布
高速通信网络 DB Serv Master DB Serv 磁盘 DB Serv 磁盘 DB Serv 磁盘
SAN/FC 磁盘共享磁盘
磁盘
如：Oracle传统单机数据库
SMP
如：Oracle RAC 小型机+共享盘阵
如：Greenplum、Hbase X86+本地硬盘
IDC全球数据量预测（ 1ZB = 1百万PB = 10亿TB）
大数据正迅速成为最值得关注的IT领域之一
2011年5月，EMC World 2011大会主题“云计算相遇大数据”，EMC 除了一直倡导的云计算外，还抛出"大数据"（BigData）概念 2011年6月底，IBM、麦肯锡等众多国外机构发布"大数据"相关研究报告，予以积极跟进 2011 年10 月，Gartner 认为2012 年十大战略技术将包括"大数据" 2011 年11 月底，IDC 将"大数据"放入2012 年信息通信产业十大预测之一
集团公司网络部
-9-
数据的结构—结构化、非结构化、半结构化数据
结构化数据和非结构化数据都是客观存在，大数据技术需要涵盖两者
对比项定义结构化数据 • 有数据结构描述信息的数据非结构化数据 • 不方便用固定结构来表现的数据半非结构化数据 • 介于完全结构化数据和完全无结构的数据之间的数据 • 先有数据，再有结构 • HTML文档，它一般是自描述的，数据的结构和内容混在一起
互联网企业
互联网企业IT实力强且海量数据处理需求最为迫切，是大数据发起者、倡导者、开发者和最终使用者，大数据应用场景十分清晰 l Google 研发Bigtable并自行使用 l Yahoo发起Hadoop/Hbase开源并自用， FACEBOOK、百度、淘宝等均使用 l Twitter开发Storm自用并提供开源
1960年代，IT系统规模和复杂度变大，数据与应用分离的需求开始产生，数据库技术开始萌芽并蓬勃发展，并在1990年后逐步统一到以关系型数据库为主导 1946年，电脑诞生，数据与应用紧密捆绑在文件中，彼此不分
网络型 GE公司发明第一个网络模型数据库，但仅限于GE自己的主机 E-R SQL SQL语言被发明
聊天记录
Xxxx yyyy... Mm nnn …
存储索引效率
一行中各列一起存放，一行中各列独立存单行集中存储放，单列集中存储海量数据索引既占用大量空间，且索引效率会随着数据增长越来越低同一行不同列数据类型不同，压缩效率低空值列依然占据空间基于列自动索引，海量数据查询效率高，不产生额外存储列同数据类型，压缩效率高空值不占空间
行存储
列存储
用户1 1981-10-3 1990-5-15
空间效率 I/O
用户1 用户2
198110-3 19905-15
Xxxx yyyy... Mm nn n…
2 3.7
用户2 用户1 用户2 用户1 用户2
Xxxx yyyy ..
查某列必须读出整行，只需读出某列数据， I/O负荷高、速度慢 I/O低速度快表结构改变影响很大数据写入后需要修改和删除，基于行的反复查询，多用于OLTP 数据库可随时动态增加列批量数据一次写入和基于少量列的反复查询，多用于 OLAP数据库集团公司网络部
对称多处理，Symmetrical Multi-Processing ü 有两台以上的服务器，各主机之间共享总线结构，共享数据存储磁盘 ü 节点数有限制，主要通过提高节点配置来提高整体处理能力，扩展能力有限 ü 对共享磁盘的访问可能成为瓶颈
- 15 -
数据存储架构：传统分布式文件与新型分布式文件
GFS
关系型数据库数据仓库
磁带+卡第一台计片算机人工管 ENIAC面理世
磁盘被发明，进入文件管理时代
IBM E.F.Do dd提出关系模型
ORACL E发布第一个商用SQL 关系数据库，后续快速发展
数据仓库开始涌现，关系数据库开始全面普及且平台无关，进入成熟期
传统分布式文件系统也可以适应海量数据增长，但是由于数据计算与存储是分离的，随数据量的增长，网络带宽形成瓶颈。新型分布式文件系统采用数据计算与存储绑定的新策略，可有效应对海量数据增长
Mm nnn .. 2 3.7
结构适用场景
数据库存储与处理架构—SMP与MPP
在数据量急剧膨胀的背景下，数据库处理要求超出了单机或SMP架构能力范围，最高配置小型 - 14 机也无法满足，所以在大数据技术中，MPP架构（计算分布+存储分布）架构成为主流
传统单机数据库
计算集中,存储集中
网络 DB Serv DB Serv DB Serv DB Serv DB Serv
传统企业
传统企业IT能力有限，数据处理工作主要依赖于系统集成商，重点在应用实现，IT技术路线上以跟随成熟技术（含开源技术）为主目前还是以数据库、数据仓库技术为主，对大数据技术仍处于认知或小范围摸索实验阶段，应用场景仍在分析梳理中
-6-
集团公司网络部
-7-
目录
一、大数据的背景与定义二、大数据的关键技术三、网管领域应用展望
谷歌发表论文介绍分布式计算
Hadoop成为Apache 顶级项目，重点支持海量数据分布式管理和分布式计算
1946
1951
1956
1961
1970
1974 1979
1991
2001 2003
2008
2011
集团公司网络部
大数据发展背景
- 4 全球信息化发展已步入大数据时代 150亿个设备连接到互联网全球每秒钟发送 290万封电子邮件每天有 2.88 万小时视频上传到Youtube Facebook 每日评论达32亿条，每天上传照片近3亿张，每月处理数据总量约130万TB 2011年全球产生数据量1.8ZB，预计2020年将增长到 35ZB
Google网站 Big data关键词搜索及新闻引用量
集团公司网络部
大数据的定义
5IDC对大数据的定义大数据技术将被设计用于在成本可承受(economically）的条件下，通过非常快速（velocity）的采集、发现和分析，从大体量（volumes）、多类别（ variety）的数据中提取价值（value），是IT领域新一代的技术与架构解读大数据定义业务目标：在1E（成本可接受-economically）的条件下从大数据中提取数据的价值（Value）技术要求：满足3V （快速-Velocity、大体量-Volumes、多类别-Variety）的特征技术方案：未提及，可能是新兴技术与传统技术的混搭