大数据与绿色数据中心

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

10
什么应用适合NoSQL数据库方案
Big Data
支持PB级别数据 支持非结构化数据 支持结构化数据 支持万级每秒查询 支持高可靠性系统 支持高效率统计分析
大量的结构化和非结构化数据、要求可变的数据结构和高效的数据导入、查询、统计等
11
大数据在中国
英特尔Hadoop发行版
英特尔Hadoop发行版组件
GB -> TB
大数据
TB -> PB以上 持续实时产生数据, 年增长率超过60% 半结构化,非结构化, 多维数据 数据挖掘和预测性分析
数据量稳定,增长不快 主要为结构化数据
价值 Value
统计和报表
大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity) 的采集、发现和分析, 从大数据量(volumes)、多类别(variety)的数据中提取价值(value),但是传统关系型数 据库存在性能、存储、成本、IO瓶颈、等等的原因,无法支撑这4个V+1个E的要求,解决方法就 是分布式技术、廉价的X86平台、本地存储,点出分布式技术是大数据处理的核心
3.88亿/5.3亿
移动/互联网用户
中国 2012年6月
2090亿
2021年RFID标签销售量 2011年是1200万
200PB/季度
智慧城市数据 中国某一线城市
$8000亿
10年个人位置信息服务 创造的价值
5PB/年
健康档案数据 中国某一线城市
“数据日益成为商业的新源材料: 一种与资本和劳动力并列的新经济元素.”
Network (e.g., GbE, 10GbE, Infiniband)
Storage (e.g., SAN, NAS, Storage Cell, etc)
E.g., MPP Databases (or MapReduce on RDBMS), Big Data framework (e.g., Hadoop, HBase)
6
CAP原理
Consistency 一致性 所有的用户都可以看到一致的系统状 态 Availability 可用性 无论何时,哪怕出现硬件故障,数据中 心故障,系统也可提供服务,哪怕是降 级的服务 Partition Tolerance 分区容忍性 哪怕在网络出现分割的情况下,各个 独立的子系统都可以继续提供服务
Availability
A
Consistency
C
CAP 理论
Partition Tolerance
P
一个分布式系统不可能满足一致性、可用性和分区容错性这 三个需求,最多只能同时满足两个 ——Eric Brewer
RDBMS与Hadoop架构对比
RDBMS
RDBMS
NewSQL 与 NoSQL
Connection (e.g., FC, InfiniBand)
大数据与绿色数据中心
友情提示
请勿在室内吸烟
上课时间请勿:
--请将您手机改为“震动” 避免在课室里使用手机 --交谈其他事宜 --随意进出教室
上课时间欢迎:
--提问题和积极回答问题 --随时指出授课内容的不当之处
4
大数据在中国
大数据 – 新一轮“信息革命”
1.8ZB in 2011
2天的数据量 > 文明起始到2003年
— The Economist, 2010 — Gartner, 2010
“信息将成为21世纪的石油”.
5
• Data Growth Statements – Mckinsey Global Institute
大数据在中国
大数据 – 四大区别于传统数据的特征
传统数据
数据量 Volume 速度 Velocity 多样化 Variety
9
大数据推动产品创新
RDBMS: Oracle Exadata DB2-DPF SQLServer
NewSQL: Greenplum Vertica GBase 8a F1/Spaner
NoSQL: Hadoop Hbase
Bigtable
Cassandra
大数据推动了数据库行业的产品创新。
OldSQL阵营在基本架构不变的基础上引入内存计算和一体机技术以提升处理性能。 NewSQL阵营在过 去五年里形成了近十个商用的产品,去年Google发表论文介绍了F1/Spanner关系型数据库(未开源)。 NoSQL阵营的技术源于互联网公司Google,Yahoo,Amazon, Facebook等。 现在又出现了noSQL阵营和newSQL阵营融合的趋势,例如hadoop通过hive的扩展实现了对结构化数 据的支持,greenplum等产品也通过对和hadoop的融合实现了对非结构化数据的支持。
资源池 •优势: •采用多个关系数据库服务器,多个存储, 与原有的架构相比,扩展了存储容量和计算能力; •劣势: •计算与存储分离,数据访问存在竞争和带 宽瓶颈; •支持的关系数据库服务器数量有限; •只能向上扩展(scale-up), 不能横向扩展(not scale out) •适合复杂的需要事务处理的应用
稳定的企业级hadoop发行版 HBase改进和创新,为Hadoop提供实时数据处理能力 利用硬件新技术进行优化 针对行业的功能增强,应对不同行业的大数据挑战
•多个独立的关系数据库服务器,访问共享的存储
•由大量独立的服务器通过网络互连形成集群,每个
服 务器带存储。 •优势:计算与存储融合,支持横向扩展,更好的扩 展 性 •劣势:解决数据冲突时需要节点间协作 •适用范围: •数据仓库和离线数据分析 (MPP, Hadoop/HBase) •大规模在线实时应用(单行事务处理能满足 的场景) (HBase)
8
大数据激发技术创新
RDBMS: 事物类处理 行存储 NewSQL: 分析类处理 列存储 关系型 NoSQL
海量全局数据
处理 Key-Value
关系型
小型机为主
X86平台
wenku.baidu.com
MapReduce
X86平台
NewSQL:严格保证一致性、遵循关系模型,完整支持SQL92标准,一定程度 上牺牲可用性和分区容错性。 特点:列存、 主要使用场景:主要用于结构化数据的统计分析 Nosql数据库:侧重分区容错性,一定程度上牺牲一致性和可用性,突破了关系 模型,不一定支持SQL。 特点:主要使用场景:非结构化数据的统计分析、实时查询 共性:采用廉价的X86平台、本地硬盘、分布式架构
相关文档
最新文档