数据库数据库发展史的启示

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据库发展史的启示

摘要:数据库技术从诞生到现在,在不到半个世纪的时间里,形成了坚实的理论基础、成熟的商业产品和广泛的应用领域,吸引越来越多的研究者加入。数据库的诞生和发展给计算机信息管理带来了一场巨大的革命。三十多年来,国内外已经开发建设了成千上万个数据库,它已成为企业、部门乃至个人日常工作、生产和生活的基础设施。同时,随着应用的扩展与深入,数据库的数量和规模越来越大,数据库的研究领域也已经大大地拓广和深化了。30年间数据库领域获得了三次计算机图灵奖(C.W. Bachman,E.F.Codd, J.Gray),更加充分地说明了数据库是一个充满活力和创新精神的领域。就让我们沿着历史的轨迹,试图从数据库50 多年发展历程中寻找对大数据管理的一些启示。

关键词:数据库发展大数据

数据库发展简史:

1、数据独立性

20 世纪60 年代数据库领域的主要成就是IDS 系统和DBTG 报告。其中,IDS 系统是由数据库领域的第一位图灵奖获得者美国科学家Charles W. Bachman 研制的,第一次将数据独立于应用系统存在。在此基础上形成的DBTG 报告,更进一步提出了数据库系统的三级模式结构。这个三级模式结构直到今天还是数据库应用开发的基本体系框架, 它让我们深刻理解了数据独立性的价值。所谓数据独立性是指数据库应用和数据库的逻辑结构和物理结构存在一定的分离。这样当应用发生变化时,无须变更数据库,反之亦然。这样做的好处是可以强化数据库系统的稳定性,为数据的独立存在提供了可能。数据独立性是通过支持三级模式结构来实施的,目前所有的关系数据库都支持三级模式结构。大数据从本质上讲是强调数据独立存在的。在一些应用中,大数据是伴随业务系统运行而产生的,例

如电商企业的交易记录等。在其他一些场合下,甚至我们还不知道大数据有什么用,就已经开始大数据的采集和保存了。因此,是“先有数据后有应用”。这就要求我们在考虑大数据系统时,要更多地关注数据本身,深刻理解数据之间的关系,实现有效的数据存储、访问和利用。数据独立性对于大数据而言,已经不再是要不要的问题,而是必然的结果。因此,大数据时代要特别重视大数据本身,重视对数据治理的研究。数据治理是一个管理学的概念,是指要对数据的获取、处理、使用进行监管,具体包括数据质量、数据集成与清洗、数据隐私与安全等方面。

2、关系数据库

Edgar F. Codd 博士在20 世纪70 年代提供了关系数据模型及相关的论文,而且花了近10 年时间实现了System R 系统,证明了系统的性能可以通过优化技术来提升。关系数据库的优点有很多,最突出的是简单的数学模型和非过程化的SQL 语言。关系模型的好处是简洁,全部的概念就是“关系”,用户数据、系统数据都用关系表示。SQL 语言的好处包括非过程性、统一性、标准性、简单易用性等。非过程性对于数据库的推广和普及起到了很大的作用,特别是对于提高应用系统的生产效率功不可没;统一性是指SQL 包括了多种类型的数据操作,包括查询、修改、安全性控制等,方便了用户使用;标准性是指国际标准化组织的介入,使其成为业界的标准,这给数据库上的应用迁移,或者说构建跨平台的应用软件,奠定了良好的基础。历史上关系数据库受到了传统势力的巨大批判,主要是关系数据库的性能低下。但是,由于Edgar F. Codd 博士的杰出贡献,这一缺点不攻自破。由此可见,我们需要先构建一个好的框架,然后性能问题可以通过不断的技术创新实现。基准测试20 世纪80 年代是关系数据库产品走向成熟的年代,这个时期的代表性人物是1998 年图灵奖获得者Jim Gray。他的成就包括发展了事务理论,以及关系数据库的一系列实现技术等。用基准测试来评价每一个产品的优劣,对于促进产品的技术进步意义非凡。有关的企业也都加入到定义基准测试的标准和方法中来,客观上也促进了产品功能的统一,为进一步的标准化奠定了良好的基础。在关系数据库的发展过程中,事务处理协会 (TPC) 的各种测试尤其是TPC-C 功不可没。TPC 是一个中立的评测关系数据库性能的委员会,它发布了一系列关于不同类型应用的基准性能评测标准,对于推动关系数据库技术的发展起到了不可替代的作用。大数据目前所处的阶段类似关系数据库在20

世纪80 年代的情况,是一个春秋战国时代。全世界每天都有所谓新的大数据系统出现。因此,设计合适的大数据基准测试十分必要。然而,大数据的多样性给大数据评测基准的制定也带来了很多挑战。

(1) 从数据类型来看,大数据包括结构化数据、非结构化的文本和多媒体数据、半结构化的日志数据、流数据、图数据等。不同类型数据的处理方法和所依赖的系统平台可能差别很大,一些应用还会涉及多种不同类型的数据,这为标准的制定带来了巨大挑战。

(2) 大数据系统面对的应用类型也存在很多差异,有面向数据分析的、有事务型数据管理的、有针对复杂机器学习算法的、有对流数据进行分析和监控的、有面向科学计算和图像处理的。不同类型的应用对系统的性能要求存在较大的差异,这也为大数据系统的基准制定带来了巨大挑战。

(3) 系统测试指标也存在很大的差异性,有的关心系统事务处理时间、有的关注数据载入( 预处理) 时间、有的关注系统存储代价和扩展性、有的关注系统能耗等,这对基准制定提出了更高的要求。尽管目前已经出现了BigBench 等面向大数据系统的基准测试,但是,仍然有很多工作要做。

3、系统适应性

上世纪80 年代后期,随着计算机应用的开展,人们已经越来越认识到关系数据库的不足,特别是在表达能力方面的不足,关系数据库无法表达和处理XML 数据、非结构化数据等,这直接导致了上世纪90 年代面向对象数据库系统的产生,并大有要取代关系数据库的架势。很可惜,由于种种原因这种努力并没有成功。之后,还提出了XML 数据库等新的数据库系统原型,也都没有产生颠覆性的影响。要说部分获得成功的倒是数据仓库系统,通过提出位图索引、按列存储、立方体等技术,减少并发控制带来的性能损耗,确实对于复杂分析查询获得了极大的性能提升。因此,想用一个系统来处理全部类型的应用是不现实的,最好的办法是针对某类应用采用相应的系统。普遍的做法是将应用区分为所谓OLTP 和OLAP两大类,前者要确保数据库的正确性,后者重视复杂分析查询的计算性能。2012 年3 月,美国奥巴马政府发布了《大数据研究和发展倡议》,提出联邦政府与行业、科研院校和非盈利机构一起,共同迎接大数据创造的机遇和挑战。某种程度上,大数据在美国已经形成了全体动员格局。大数据技术将在科学研究、环境保护、生物医药研究、教育以及国家安全等领域重点突破。美国国家科学基

相关文档
最新文档