移动大数据平台架构设计方案
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
MPP 大规模并行处理,Massively Parallel Processing ü 多个松耦合处理单元组成,数据存在本机磁盘上 ü 通过增加服务器数量提高系统处理能力,理论上 可无限扩展,目技术可实现上千个节点互联 ü 对软件体系要求较高,需要通过软件层来调度和 平衡各个节点的负载和并行处理过程 集团公司网络部
集团公司网络部
• 无统一标准 • 包括:各自定义的API、类SQL、 MR等 • Hbase、MongoDB、Redis
典型案例
- 11 -
数据处理特性—OLTP与OLAP
OLTP以业务操作型为主,OLAP以业务分析性为主,两者对技术的要求很难兼顾
联机事务处理OLTP( On-Line Transaction Processing ) 业务操作型 对一条记录数据会多次修改,支持 大量并发用户添加和修改数据 确保数据的一致性 技术特性 数据量 典型示例 确保事务的完整性 数据读写实时性高 GB-TB级 银行业务系统/数据库 联机分析处理OLAP( On-Line Analytical Processing ) 业务分析型 数据写入后基本不再修改,能较好地支持 大量并发用户进行大数据量查询 支持多维数据以及对多维数据的复杂分析 大数据量 TB-PB级 各类决策分析系统/数据库
比较项 基本类型 数据特性
- 11 -
集团公司网络部
- 12 -
数据一致性:强一致性与最终一致性
强一致性和最终一致性都是指客户端向数据库系统写入数据后,数据库系统能够提供 的数据一致性的表现
对比项 场景定义 数据一致性表现 强一致性(即时一致性)最终一致性 弱一致性
• 假定三个进程A、B、C是互相独立的,且都在对存储系统进行读写操作 • A写入数据到存储系 统后,存储系统能够 保证后续任何时刻发 起读操作的B、C 可 以读到A写入的数据 • OLTP需要强一致性 • A写入数据到存储系 • 统后,经过一定时间, 或者在某个特定操作 后,B、C最终会读 到A写入的数据 • OLAP需最终一致性 A写入数据到存储系 统后,存储系统不能 够保证后续发起读操 作的B、C可以读到A 写入的数据
大数据技术
网络部·网管支撑处 2015年12月
集团公司网络部
-2-
目 录
一、大数据的背景与定义 二、大数据的关键技术 三、网管领域应用展望
-2-
集团公司网络部
数据管理技术发展历史
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使 -3该领域进入了一个新的发展阶段
2001年后,互联网迅 速发展,数据量成倍递 增,量变引起质变,开 始对数据管理技术提出 全新的要求
示例
• 绝大多数应用不能够 容忍弱一致性
集团公司网络部
- 13 -
数据存储方式—行式存储与列式存储
传统关系型数据库主要采用行存储模式,海量数据的高效存储和访问要求引发了从 行存储模式向列存储模式的转变
样例数据表 用户
用户1 用户2
行存储 日均在线时长
2 3.7
列存储
生日
1981-10-3 1990-5-15
开源解决方案
开源组织Apache在2008年将Hadoop列为顶级 项目 2010年 HBase自Hadoop上诞生 开源组织GNU 2010年发布Mongodb Vmware 2010年提供开源产品Redis Twitter 2011年提供开源产品Storm
商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧 重,目前尚无统一的行业技术标准或技术领域细分规则
• 包括:表存储数据库、键值存储 • 关系模型由关系数据结构、关系操作集合、 数据库、面向文档的数据库等 关系完整性约束三部分组成 接口语言 • SQL(Structured Query Language, 结构化查询语言),对数据库中的数据进 行查询、操作和管理 • Oracel、DB2、Sybase、SQL Server、 Mysql、Postgresql等 • 新型的MPP RDB(Greenplum)也属于 关系型数据库
结构与内容的关系 示例
• 先有结构、再有数据 • 各类表格
• 只有数据,没有结构 • 图形、图像、音频、 视频信息
集团公司网络部
数据库数据模型—关系型数据库与非关系型数据库
在大数据技术中"非关系型"数据库技术是必不可少的,但关系数据库也是不可或缺的 - 10 对比项 定义 关系型数据库 • 创建在关系模型基础上,借助于集合代数 等数学概念和方法来处理数据库中的数据 非关系型数据库 • 没有标准定义
集团公司网络部
Hale Waihona Puke Baidu
相关概念与相关技术概览
-8-
数据结构: 结构化数据与非结构化数据 数据库数据模型:关系型数据库与非关系型数据库 数据处理特性:OLTP与OLAP 数据一致性:强一致性与最终一致性 数据存储方式:行式存储与列式存储 数据库存储与处理架构:SMP与MPP 数据存储架构:传统分布式文件与新型分布式文件 数据处理架构:基于并行计算的分布式数据处理技术(MapReduce)
集团公司网络部
-6-
IT行业大数据相关动向和举措
大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关技术呈 现百花齐放局面,并在互联网应用领域崭露头角 商业解决方案
l l l l l l HP 2011年推出vertica数据库 Oracle 2011年推出noSQL数据库 EMC 2010年收购Greenplum Teradata 2011年收购Asterdata,并推出 SQL-Mapreduce IBM 2010年收购Netezza SAP 2011年收购Sybase l l l l l
SMP架构数据库
计算分布,存储集中
MPP架构数据库
计算分布,存储分布
高速通信网络 DB Serv Master DB Serv 磁盘 DB Serv 磁盘 DB Serv 磁盘
SAN/FC 磁盘 共享磁盘
磁盘
如:Oracle传统 单机数据库
SMP
如:Oracle RAC 小型机+共享盘阵
如:Greenplum、Hbase X86+本地硬盘
IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB)
大数据正迅速成为最值得关注的IT领域之一
2011年5月,EMC World 2011大会主题“云计算相遇 大数据”,EMC 除了一直倡导的云计算外,还抛出"大 数据"(BigData)概念 2011年6月底,IBM、麦肯锡等众多国外机构发布"大数 据"相关研究报告,予以积极跟进 2011 年10 月,Gartner 认为2012 年十大战略技术将包 括"大数据" 2011 年11 月底,IDC 将"大数据"放入2012 年信息通信 产业十大预测之一
集团公司网络部
-9-
数据的结构—结构化、非结构化、半结构化数据
结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者
对比项 定义 结构化数据 • 有数据结构描述信息 的数据 非结构化数据 • 不方便用固定结构来 表现的数据 半非结构化数据 • 介于完全结构化数据 和完全无结构的数据 之间的数据 • 先有数据,再有结构 • HTML文档,它一般是 自描述的,数据的结 构和内容混在一起
互联网企业
互联网企业IT实力强且海量数据处理需求最为迫切, 是大数据发起者、倡导者、开发者和最终使用者, 大数据应用场景十分清晰 l Google 研发Bigtable并自行使用 l Yahoo发起Hadoop/Hbase开源并自用, FACEBOOK、百度、淘宝等均使用 l Twitter开发Storm自用并提供开源
1960年代,IT系统规模和复杂度变大,数据与应用分 离的需求开始产生,数据库技术开始萌芽并蓬勃发展, 并在1990年后逐步统一到以关系型数据库为主导 1946年,电脑诞生,数 据与应用紧密捆绑在文件 中,彼此不分
网络型 GE公司发 明第一个网 络模型数据 库,但仅限 于GE自己 的主机 E-R SQL SQL语 言被发 明
聊天记录
Xxxx yyyy... Mm nnn …
存储 索引 效率
一行中各列一起存放, 一行中各列独立存 单行集中存储 放,单列集中存储 海量数据索引既占用 大量空间,且索引效 率会随着数据增长越 来越低 同一行不同列数据类 型不同,压缩效率低 空值列依然占据空间 基于列自动索引, 海量数据查询效率 高,不产生额外存 储 列同数据类型,压 缩效率高 空值不占空间
行存储
列存储
用户1 1981-10-3 1990-5-15
空间 效率 I/O
用户1 用户2
198110-3 19905-15
Xxxx yyyy... Mm nn n…
2 3.7
用户2 用户1 用户2 用户1 用户2
Xxxx yyyy ..
查某列必须读出整行, 只需读出某列数据, I/O负荷高、速度慢 I/O低速度快 表结构改变影响很大 数据写入后需要修改 和删除,基于行的反 复查询,多用于OLTP 数据库 可随时动态增加列 批量数据一次写入 和基于少量列的反 复查询,多用于 OLAP数据库 集团公司网络部
对称多处理,Symmetrical Multi-Processing ü 有两台以上的服务器,各主机之间共享总线结构, 共享数据存储磁盘 ü 节点数有限制,主要通过提高节点配置来提高整 体处理能力,扩展能力有限 ü 对共享磁盘的访问可能成为瓶颈
- 15 -
数据存储架构:传统分布式文件与新型分布式文件
GFS
关系型 数据库 数据仓库
磁带+卡 第一台计 片 算机 人工管 ENIAC面 理 世
磁盘被 发明, 进入文 件管理 时代
IBM E.F.Do dd提 出关系 模型
ORACL E发布第 一个商 用SQL 关系数 据库, 后续快 速发展
数据仓库开 始涌现,关 系数据库开 始全面普及 且平台无关, 进入成熟期
传统分布式文件系统也可以适应海量数据增长,但是由于数据计算与存储是分离的,随数据量 的增长,网络带宽形成瓶颈。新型分布式文件系统采用数据计算与存储绑定的新策略,可有效 应对海量数据增长
Mm nnn .. 2 3.7
结构 适用 场景
数据库存储与处理架构—SMP与MPP
在数据量急剧膨胀的背景下,数据库处理要求超出了单机或SMP架构能力范围,最高配置小型 - 14 机也无法满足,所以在大数据技术中,MPP架构(计算分布+存储分布)架构成为主流
传统单机数据库
计算集中,存储集中
网络 DB Serv DB Serv DB Serv DB Serv DB Serv
传统企业
传统企业IT能力有限,数据处理工作主要依赖于系 统集成商,重点在应用实现,IT技术路线上以跟随 成熟技术(含开源技术)为主 目前还是以数据库、数据仓库技术为主,对大数 据技术仍处于认知或小范围摸索实验阶段,应用 场景仍在分析梳理中
-6-
集团公司网络部
-7-
目 录
一、大数据的背景与定义 二、大数据的关键技术 三、网管领域应用展望
谷歌发表 论文介绍 分布式计 算
Hadoop成 为Apache 顶级项目, 重点支持海 量数据分布 式管理和分 布式计算
1946
1951
1956
1961
1970
1974 1979
1991
2001 2003
2008
2011
集团公司网络部
大数据发展背景
- 4 全球信息化发展已步入大数据时代 150亿个设备连接到互联网 全球每秒钟发送 290万封电子邮件 每天有 2.88 万小时视频上传到Youtube Facebook 每日评论达32亿条,每天上传照片近3亿张 ,每月处理数据总量约130万TB 2011年全球产生数据量1.8ZB,预计2020年将增长到 35ZB
Google网站 Big data关键词搜索及新闻引用量
集团公司网络部
大数据的定义
5IDC对大数据的定义 大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快 速(velocity)的采集、发现和分析,从大体量(volumes)、多类别( variety)的数据中提取价值(value),是IT领域新一代的技术与架构 解读大数据定义 业务目标:在1E(成本可接受-economically) 的条件下从大数据中提取数据的价值(Value) 技术要求:满足3V (快速-Velocity、 大体量-Volumes、多类别-Variety)的特征 技术方案:未提及,可能是新兴技术与传统技术的混搭
集团公司网络部
• 无统一标准 • 包括:各自定义的API、类SQL、 MR等 • Hbase、MongoDB、Redis
典型案例
- 11 -
数据处理特性—OLTP与OLAP
OLTP以业务操作型为主,OLAP以业务分析性为主,两者对技术的要求很难兼顾
联机事务处理OLTP( On-Line Transaction Processing ) 业务操作型 对一条记录数据会多次修改,支持 大量并发用户添加和修改数据 确保数据的一致性 技术特性 数据量 典型示例 确保事务的完整性 数据读写实时性高 GB-TB级 银行业务系统/数据库 联机分析处理OLAP( On-Line Analytical Processing ) 业务分析型 数据写入后基本不再修改,能较好地支持 大量并发用户进行大数据量查询 支持多维数据以及对多维数据的复杂分析 大数据量 TB-PB级 各类决策分析系统/数据库
比较项 基本类型 数据特性
- 11 -
集团公司网络部
- 12 -
数据一致性:强一致性与最终一致性
强一致性和最终一致性都是指客户端向数据库系统写入数据后,数据库系统能够提供 的数据一致性的表现
对比项 场景定义 数据一致性表现 强一致性(即时一致性)最终一致性 弱一致性
• 假定三个进程A、B、C是互相独立的,且都在对存储系统进行读写操作 • A写入数据到存储系 统后,存储系统能够 保证后续任何时刻发 起读操作的B、C 可 以读到A写入的数据 • OLTP需要强一致性 • A写入数据到存储系 • 统后,经过一定时间, 或者在某个特定操作 后,B、C最终会读 到A写入的数据 • OLAP需最终一致性 A写入数据到存储系 统后,存储系统不能 够保证后续发起读操 作的B、C可以读到A 写入的数据
大数据技术
网络部·网管支撑处 2015年12月
集团公司网络部
-2-
目 录
一、大数据的背景与定义 二、大数据的关键技术 三、网管领域应用展望
-2-
集团公司网络部
数据管理技术发展历史
数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使 -3该领域进入了一个新的发展阶段
2001年后,互联网迅 速发展,数据量成倍递 增,量变引起质变,开 始对数据管理技术提出 全新的要求
示例
• 绝大多数应用不能够 容忍弱一致性
集团公司网络部
- 13 -
数据存储方式—行式存储与列式存储
传统关系型数据库主要采用行存储模式,海量数据的高效存储和访问要求引发了从 行存储模式向列存储模式的转变
样例数据表 用户
用户1 用户2
行存储 日均在线时长
2 3.7
列存储
生日
1981-10-3 1990-5-15
开源解决方案
开源组织Apache在2008年将Hadoop列为顶级 项目 2010年 HBase自Hadoop上诞生 开源组织GNU 2010年发布Mongodb Vmware 2010年提供开源产品Redis Twitter 2011年提供开源产品Storm
商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧 重,目前尚无统一的行业技术标准或技术领域细分规则
• 包括:表存储数据库、键值存储 • 关系模型由关系数据结构、关系操作集合、 数据库、面向文档的数据库等 关系完整性约束三部分组成 接口语言 • SQL(Structured Query Language, 结构化查询语言),对数据库中的数据进 行查询、操作和管理 • Oracel、DB2、Sybase、SQL Server、 Mysql、Postgresql等 • 新型的MPP RDB(Greenplum)也属于 关系型数据库
结构与内容的关系 示例
• 先有结构、再有数据 • 各类表格
• 只有数据,没有结构 • 图形、图像、音频、 视频信息
集团公司网络部
数据库数据模型—关系型数据库与非关系型数据库
在大数据技术中"非关系型"数据库技术是必不可少的,但关系数据库也是不可或缺的 - 10 对比项 定义 关系型数据库 • 创建在关系模型基础上,借助于集合代数 等数学概念和方法来处理数据库中的数据 非关系型数据库 • 没有标准定义
集团公司网络部
Hale Waihona Puke Baidu
相关概念与相关技术概览
-8-
数据结构: 结构化数据与非结构化数据 数据库数据模型:关系型数据库与非关系型数据库 数据处理特性:OLTP与OLAP 数据一致性:强一致性与最终一致性 数据存储方式:行式存储与列式存储 数据库存储与处理架构:SMP与MPP 数据存储架构:传统分布式文件与新型分布式文件 数据处理架构:基于并行计算的分布式数据处理技术(MapReduce)
集团公司网络部
-6-
IT行业大数据相关动向和举措
大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关技术呈 现百花齐放局面,并在互联网应用领域崭露头角 商业解决方案
l l l l l l HP 2011年推出vertica数据库 Oracle 2011年推出noSQL数据库 EMC 2010年收购Greenplum Teradata 2011年收购Asterdata,并推出 SQL-Mapreduce IBM 2010年收购Netezza SAP 2011年收购Sybase l l l l l
SMP架构数据库
计算分布,存储集中
MPP架构数据库
计算分布,存储分布
高速通信网络 DB Serv Master DB Serv 磁盘 DB Serv 磁盘 DB Serv 磁盘
SAN/FC 磁盘 共享磁盘
磁盘
如:Oracle传统 单机数据库
SMP
如:Oracle RAC 小型机+共享盘阵
如:Greenplum、Hbase X86+本地硬盘
IDC全球数据量预测( 1ZB = 1百万PB = 10亿TB)
大数据正迅速成为最值得关注的IT领域之一
2011年5月,EMC World 2011大会主题“云计算相遇 大数据”,EMC 除了一直倡导的云计算外,还抛出"大 数据"(BigData)概念 2011年6月底,IBM、麦肯锡等众多国外机构发布"大数 据"相关研究报告,予以积极跟进 2011 年10 月,Gartner 认为2012 年十大战略技术将包 括"大数据" 2011 年11 月底,IDC 将"大数据"放入2012 年信息通信 产业十大预测之一
集团公司网络部
-9-
数据的结构—结构化、非结构化、半结构化数据
结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者
对比项 定义 结构化数据 • 有数据结构描述信息 的数据 非结构化数据 • 不方便用固定结构来 表现的数据 半非结构化数据 • 介于完全结构化数据 和完全无结构的数据 之间的数据 • 先有数据,再有结构 • HTML文档,它一般是 自描述的,数据的结 构和内容混在一起
互联网企业
互联网企业IT实力强且海量数据处理需求最为迫切, 是大数据发起者、倡导者、开发者和最终使用者, 大数据应用场景十分清晰 l Google 研发Bigtable并自行使用 l Yahoo发起Hadoop/Hbase开源并自用, FACEBOOK、百度、淘宝等均使用 l Twitter开发Storm自用并提供开源
1960年代,IT系统规模和复杂度变大,数据与应用分 离的需求开始产生,数据库技术开始萌芽并蓬勃发展, 并在1990年后逐步统一到以关系型数据库为主导 1946年,电脑诞生,数 据与应用紧密捆绑在文件 中,彼此不分
网络型 GE公司发 明第一个网 络模型数据 库,但仅限 于GE自己 的主机 E-R SQL SQL语 言被发 明
聊天记录
Xxxx yyyy... Mm nnn …
存储 索引 效率
一行中各列一起存放, 一行中各列独立存 单行集中存储 放,单列集中存储 海量数据索引既占用 大量空间,且索引效 率会随着数据增长越 来越低 同一行不同列数据类 型不同,压缩效率低 空值列依然占据空间 基于列自动索引, 海量数据查询效率 高,不产生额外存 储 列同数据类型,压 缩效率高 空值不占空间
行存储
列存储
用户1 1981-10-3 1990-5-15
空间 效率 I/O
用户1 用户2
198110-3 19905-15
Xxxx yyyy... Mm nn n…
2 3.7
用户2 用户1 用户2 用户1 用户2
Xxxx yyyy ..
查某列必须读出整行, 只需读出某列数据, I/O负荷高、速度慢 I/O低速度快 表结构改变影响很大 数据写入后需要修改 和删除,基于行的反 复查询,多用于OLTP 数据库 可随时动态增加列 批量数据一次写入 和基于少量列的反 复查询,多用于 OLAP数据库 集团公司网络部
对称多处理,Symmetrical Multi-Processing ü 有两台以上的服务器,各主机之间共享总线结构, 共享数据存储磁盘 ü 节点数有限制,主要通过提高节点配置来提高整 体处理能力,扩展能力有限 ü 对共享磁盘的访问可能成为瓶颈
- 15 -
数据存储架构:传统分布式文件与新型分布式文件
GFS
关系型 数据库 数据仓库
磁带+卡 第一台计 片 算机 人工管 ENIAC面 理 世
磁盘被 发明, 进入文 件管理 时代
IBM E.F.Do dd提 出关系 模型
ORACL E发布第 一个商 用SQL 关系数 据库, 后续快 速发展
数据仓库开 始涌现,关 系数据库开 始全面普及 且平台无关, 进入成熟期
传统分布式文件系统也可以适应海量数据增长,但是由于数据计算与存储是分离的,随数据量 的增长,网络带宽形成瓶颈。新型分布式文件系统采用数据计算与存储绑定的新策略,可有效 应对海量数据增长
Mm nnn .. 2 3.7
结构 适用 场景
数据库存储与处理架构—SMP与MPP
在数据量急剧膨胀的背景下,数据库处理要求超出了单机或SMP架构能力范围,最高配置小型 - 14 机也无法满足,所以在大数据技术中,MPP架构(计算分布+存储分布)架构成为主流
传统单机数据库
计算集中,存储集中
网络 DB Serv DB Serv DB Serv DB Serv DB Serv
传统企业
传统企业IT能力有限,数据处理工作主要依赖于系 统集成商,重点在应用实现,IT技术路线上以跟随 成熟技术(含开源技术)为主 目前还是以数据库、数据仓库技术为主,对大数 据技术仍处于认知或小范围摸索实验阶段,应用 场景仍在分析梳理中
-6-
集团公司网络部
-7-
目 录
一、大数据的背景与定义 二、大数据的关键技术 三、网管领域应用展望
谷歌发表 论文介绍 分布式计 算
Hadoop成 为Apache 顶级项目, 重点支持海 量数据分布 式管理和分 布式计算
1946
1951
1956
1961
1970
1974 1979
1991
2001 2003
2008
2011
集团公司网络部
大数据发展背景
- 4 全球信息化发展已步入大数据时代 150亿个设备连接到互联网 全球每秒钟发送 290万封电子邮件 每天有 2.88 万小时视频上传到Youtube Facebook 每日评论达32亿条,每天上传照片近3亿张 ,每月处理数据总量约130万TB 2011年全球产生数据量1.8ZB,预计2020年将增长到 35ZB
Google网站 Big data关键词搜索及新闻引用量
集团公司网络部
大数据的定义
5IDC对大数据的定义 大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快 速(velocity)的采集、发现和分析,从大体量(volumes)、多类别( variety)的数据中提取价值(value),是IT领域新一代的技术与架构 解读大数据定义 业务目标:在1E(成本可接受-economically) 的条件下从大数据中提取数据的价值(Value) 技术要求:满足3V (快速-Velocity、 大体量-Volumes、多类别-Variety)的特征 技术方案:未提及,可能是新兴技术与传统技术的混搭