数据库架构设计最佳实践
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四代
第五代
1、从无到有:数据管理概念的出现
• 第一阶段:从无到有,为了让数据存取高效
ENIAC,美国1946
Charles.W.Bachman 1924-2017
1 9 6 0 年为通用电气制造 了世界上第一个网 状数据库系统IDS
积极推动与促成了数据库 标准的制定:D B TG 报告
由于他在在数据库技术的 产生、发展与推广 应用方面都发挥了 巨大的作用 1 9 7 3 获图灵奖
4、非结构化数据存储与访问
• 第四阶段:从关系走向非结构化数据
Google三件套 • GFS • MapRuduce • Bigtable
关系数据库的优点来自关系模型,主要限 制也来自关系模型,无法管理非结构 化数据!系统的扩展之路成本高效率 低!!
最大的改变来自非数据库圈,G oogle的贡献 彻底改变了非结构化数据管理的生态
(1)模型扩展:面向对象数据库与X M L 数据库 (2)专用系统,one-size-does-not-fit-all(以M. Stonebraker为代表)
Failed Aspirations in Database Systems(VLDB 2017)
• Oracle X M L 和 面向对象数据库
操作型
出路何在?
Driven Force
• 应用驱动创新 • 数据库应用的变化推动了数据库技术的发展
– 软硬件技术及计算平台的发展水平与应用需求 有着互动的关系
数据库应用的变化
非结构化 数据
结构化 数据
Store &
Acces s
第一代
OLT P
第二代
Store
&
?
Acces
s
OLA P
第三代
电子商务 商务智能
数据汇聚与 数据监护*
全球规模 数据管理
多计算模型 数据分析
社交网络 搜索,推荐 金融科技 智能制造
高可控弹性资源管理
机器人 智慧法务
*Data Curation
智慧物流 自动驾驶 医学影像诊断
数据汇聚与数据监护
• 多源异构数据的清洗集成
– 如何针对多数据源中的异构数据(关系、文本、图等)进行有效的清洗与链接
2、OLTP
• 第二阶段:从层次/网状走向关系,支持企 业级应用
Edgar F. Codd 1922-2003
Jim Gray 1944-2007
1970年Codd博士提出了关系模型,奠定了 关系数据库的理论基础,1981年获得 图灵奖
Jim Gray由于事务处理研究方面的元创性 贡献以及在将研究原型转化为商业产 品的系统实现方面的技术领袖地位, 1998年获奖(时任微软研究员)
关
系
系 型
R ed is
InfiniteG rap h
Oracle N o S Q L M a n g o D B
Ingres
Sybase ASE
型
MemcacheDB
图
H b ase C ouchD B
Couchbase
Key-value 文档
Spanner F1 M em SQ L
NewSQL
Oceanbase Aurora
• 大规模数据标注
– 通过数据分析实现数据增值
数据增值
– 高可控弹性资源管理
异
数据
构
汇聚
大
与
数
数据
据
监护
源
数据分析
数据管理
(b) 以数据为中心的计算
各类数据源
物联网 车联网
移动互联网 PC
视频监控 企业日志
医疗数据
整体架构
各类大数据 与人工智能 应用
以数据为中心的计算(Data-Centric Computing)
数据库架构设计最佳实践
One Size Does not Fit All?
One Size Does Not
ຫໍສະໝຸດ BaiduFit All !
M .S toneb raker 1943获得2 0 1 4 图 灵 奖
自8 0 年代后期开始,数据库届就开始讨论关系数据库的后继者是谁? 在关系数据库内部的最大努力来自于两个方向:
数据库市场呈现“百花齐放”的景象
分析型
Hive H A W Q
Aster Teradata Greenplum Netzza
Sybase IQ Vetica
Infobright
Oracle D B 2 S Q L Server Informix
非
关
DynamoDB
Neo4J
M y S Q L PostgreSQLMariaDB
– 现状是:这两个方向一度都非常热,无论是学术界还是 数据库厂商,都投入了大量的人力进行这方面的研究。
– 始终没有大规模应用,是一个无足轻重的特性。
Stonebraker 研制的专用系统
• c-store(后改名Vertica)column store 系统,适用于O L A P , 后被H P 收购。
1980-2010的三十年是关系数据库大行其道 、 独霸天下 的时期
3、OLAP
• 第三阶段:从关系数据库到数据仓库,支 持复杂数据分析与决策支持
S Q L 语言只能支持“小分析” Bill Inmon 提出了数据仓库的概念
多维数据模型( C U B E 模型) 面向主题的、集成的数据集 O LA P分析(上钻,下钻操作等) 支持分析决策
新时代:以数据为中心
应用软件
工具软件
数据库等
操作系统
大数据分析
大数据应用
计算机硬件 以软件为中心的体系
云计算
以数据为中心的体系
以数据为中心的计算 (Data-Centric Computing)
访问
• 以数据为中心的计算
瓶颈
– 汇聚和监护多种数据源
– 超大规模的数据存储与管理 (a) 传统以计算为中心的模式
Stonebraker对Hadoop的批评之声
Stonebraker
• H a d o o p 并非完美
– “MapReduce: A Major Step Backward”, Database Column Blog, Jan. 17, 2 0 0 8
– 丢失了大多数D B M S 的特性 – 不支持事务或者只支持简单的事务 – 较低级的程序设计范型 – 缺乏应用开发工具和环境 – 没有索引
• h-store(后改名V o ltD B )行存储数据库, 适用于事务O L T P 。
• StreamBase,流数据库,被TIBCO收购。 • SciDB,科学数据库,支持数组(array)
然而。。。
• G oog le三件套彻底改变了非结构化数据管 理的生态。。。
–GFS – MapReduce – Bigtable