数据仓库的发展历程简述v0.1
数据库的发展过程
![数据库的发展过程](https://img.taocdn.com/s3/m/0e135b495bcfa1c7aa00b52acfc789eb172d9ec2.png)
数据库的发展过程一、前言数据库是计算机科学中的重要概念,它是指在计算机系统中存储数据的一种结构化方式。
随着计算机技术的不断发展,数据库也经历了多年的演变和发展。
本文将对数据库的发展过程进行详细的介绍。
二、早期数据库早期的数据库主要是基于文件系统实现的,这种方式称为文件处理系统。
文件处理系统是一种简单而直接的数据管理方法,它把数据存储在磁盘上,并通过程序来访问和处理这些数据。
然而,由于文件处理系统没有任何内置安全措施,因此存在很多安全问题。
三、层次型数据库层次型数据库是第一个真正意义上的数据库管理系统(DBMS),它被广泛应用于20世纪60年代和70年代。
层次型数据库采用树形结构来组织数据,每个节点都可以有多个子节点。
这种模型非常适合描述具有明确父子关系的数据。
四、网状型数据库网状型数据库是在层次型数据库之后出现的一种新模型。
与层次型不同,网状型允许一个节点拥有多个父节点。
这使得网状型更适合描述复杂关系,并且能够更好地处理复杂查询。
五、关系型数据库关系型数据库是现代数据库的基础,也是目前最为流行的数据库类型。
它通过使用表格和行来组织数据,每个表格包含多个列和多行数据。
关系型数据库采用SQL(结构化查询语言)作为操作语言,它可以轻松地进行数据查询、更新和删除。
六、面向对象数据库面向对象数据库是在20世纪80年代末期出现的一种新型数据库。
它采用面向对象的编程思想来管理和组织数据,每个数据都被视为一个对象。
与传统的关系型数据库不同,面向对象数据库具有更好的灵活性和可扩展性。
七、NoSQL数据库NoSQL(Not Only SQL)是一种新兴的非关系型数据库类型。
与传统的关系型数据库不同,NoSQL没有固定的表结构,并且支持大规模分布式存储。
这使得NoSQL成为处理大量非结构化数据(如社交网络、日志记录等)的理想选择。
八、总结随着计算机技术不断发展,各种类型的数据库也在不断涌现。
从早期简单直接的文件处理系统到后来逐渐完善的层次型、网状型和关系型数据库,再到近年来崛起的面向对象数据库和NoSQL数据库,每一种数据库类型都在不断推动着计算机科学的发展。
数据库发展的历史
![数据库发展的历史](https://img.taocdn.com/s3/m/9a312c51876fb84ae45c3b3567ec102de2bddfda.png)
数据库发展的历史
数据库的发展历史可以追溯到20世纪50年代,以下是数据库发展的主要阶段:
1.早期阶段(20世纪50年代至60年代):在这个阶段,数据库主要用于文件管理和数据存储。
早期的数据库系统使用层次模型和网状模型来组织数据。
2.关系型数据库时代(20世纪70年代至80年代):20世纪70年代,E.F.Codd提出了关系型数据库的理论,为关系型数据库的发展奠定了基础。
这个时期出现了许多关系型数据库管理系统(RDBMS),如IBM的DB2、Oracle、SQLServer等。
3.面向对象数据库时代(20世纪80年代末至90年代):随着面向对象编程的兴起,面向对象数据库应运而生。
它们试图更好地支持面向对象编程范式和复杂的数据类型。
4.分布式数据库和NoSQL时代(21世纪初至今):随着互联网的发展和大数据的出现,分布式数据库和NoSQL数据库变得越来越流行。
NoSQL数据库提供了更高的可扩展性和灵活性,以适应大规模数据存储和处理的需求。
5.云数据库和大数据时代(近年来):随着云计算和大数据技术的发展,云数据库和大数据处理成为数据库领域的
新趋势。
云数据库提供了可伸缩性、灵活性和按需付费的优势,而大数据技术则专注于处理和分析大规模数据集。
数据库技术不断发展和演进,每个阶段都带来了新的理念和解决方案,以满足不断变化的业务需求和技术挑战。
数据库的发展过程
![数据库的发展过程](https://img.taocdn.com/s3/m/249e0339cd1755270722192e453610661ed95acc.png)
数据库的发展过程一、简介数据库是指按照一定数据模型组织、存储和管理数据的系统。
在计算机科学领域,数据库是非常重要的基础设施,它广泛应用于各个领域,如企业管理、科学研究、教育和医疗等。
数据库的发展经历了多个阶段,本文将对其发展过程进行全面、详细、完整且深入地探讨。
二、文件系统数据库的发展起源于早期的文件系统。
在文件系统中,数据以文件的形式存储在磁盘上,要访问特定的数据,需要通过文件路径和文件名进行查找。
这种方式虽然简单直接,但存在着很多问题,如数据冗余、数据不一致性和数据难以共享等。
三、层次数据库为了解决文件系统的问题,层次数据库被提出。
层次数据库将数据组织成树形结构,通过父子关系连接数据。
这种结构使得数据可以更加有条理地组织,也方便了数据的检索和使用。
然而,层次数据库对数据间的关系处理有限,而且对于复杂的查询操作支持不够强大。
3.1 数据模型改进层次数据库的局限性促使了数据模型的改进。
在这个过程中,关系模型被引入,它把数据组织成表格形式,通过行和列的组合来表示数据间的关系。
关系模型的出现极大地提升了数据的灵活性和查询的能力,成为数据库发展的重要里程碑。
3.2 网状数据库在关系模型之后,网状数据库被提出。
网状数据库通过使用指针来建立数据间的关系,这种方式比层次数据库更加灵活,可以支持多对多的关系。
然而,网状数据库的复杂性和难以理解性限制了其应用的推广,导致其逐渐被关系数据库所取代。
四、关系数据库关系数据库是数据库的一个重要分支,以关系模型为基础进行数据的组织和管理。
关系数据库使用表格形式存储数据,数据间通过关系(即表与表之间的联系)进行连接。
关系数据库具有以下特点:4.1 数据结构清晰关系数据库通过定义表格的结构,规定了数据的类型、大小和约束条件等。
这样可以保证数据的一致性和完整性,减少了数据冗余和数据不一致性的问题。
4.2 数据操作简便关系数据库提供了SQL(结构化查询语言)来对数据进行增删改查操作。
数据仓库技术的发展历程
![数据仓库技术的发展历程](https://img.taocdn.com/s3/m/555464f9fc0a79563c1ec5da50e2524de518d08b.png)
数据仓库技术的发展历程1. 数据仓库技术的起源:数据仓库技术的发展始于20世纪80年代末和90年代初。
当时,大量的企业和组织开始积累大规模的数据,并意识到这些数据中潜在的商业价值。
数据仓库技术应运而生,目的是将分散的、异构的数据整合到一个统一的数据存储中,以支持决策分析。
2. 关系数据库管理系统(RDBMS)的发展:关系数据库管理系统是数据仓库技术的基石之一。
20世纪70年代,关系模型被提出,并随着IBM的System R和Oracle的引入,关系数据库管理系统开始流行起来。
这为数据仓库技术提供了可靠和高效的存储和查询基础。
3. 多维数据模型的引入:在数据仓库技术发展的早期,研究者们开始意识到传统的关系数据模型对于决策分析的支持有局限性。
于是,多维数据模型被提出,它以立方体(Cube)为基本数据单元,将事实数据按照多个维度进行组织和聚合,更适合于复杂的数据分析。
4. Online Analytical Processing (OLAP)的兴起:90年代初,OLAP技术开始流行起来。
OLAP是一种基于多维数据模型的数据分析方法,它使用高效的聚集和切割技术,支持快速的交互式查询和多维数据分析。
OLAP技术的出现进一步推动了数据仓库技术的发展,并成为数据仓库中常用的分析工具。
5. 数据仓库架构的演化:随着数据仓库规模的不断增大,数据仓库架构也逐渐演化。
最初的数据仓库采用的是简单的单一层(Single-tier)架构,随后发展为两层(Two-tier)架构,分离了数据存储和查询引擎。
而现代的数据仓库通常采用三层(Three-tier)架构,将数据存储、ETL(Extraction, Transformation, and Loading)处理和查询分析功能分离,以提高系统的可维护性和性能。
6. 大数据和云计算的兴起:近年来,随着大数据和云计算的发展,数据仓库技术面临新的挑战和机遇。
大数据的快速增长和多样化类型使得传统的数据仓库无法满足需求,这促使了新兴的大数据技术(如Hadoop和Spark)的崛起。
数据仓库技术的发展历程
![数据仓库技术的发展历程](https://img.taocdn.com/s3/m/984e5c0d842458fb770bf78a6529647d2728348f.png)
数据仓库技术的发展历程数据仓库技术的发展历程可以追溯到20世纪80年代以来的计算机技术和数据管理领域的发展。
在这个过程中,数据仓库技术逐渐成为了企业管理和决策支持的重要工具。
起初,数据仓库技术的发展受到了大型企业的需求驱动。
那时,由于企业规模的扩大和信息技术的应用,大量的业务数据被积累起来,而传统的数据库系统已经无法满足企业对数据处理和分析的需求。
为了解决这个问题,数据仓库技术开始兴起。
在数据仓库技术的早期阶段,主要的挑战是如何将来自多个数据源的异构数据整合到一个统一的数据仓库中。
为了解决这个问题,数据仓库技术采用了ETL(Extract, Transform, Load)过程,即从各个数据源中抽取数据,经过数据清洗和转换,最后加载到数据仓库中。
随着计算机硬件和网络技术的不断发展,数据仓库技术逐渐得到了普及和推广。
在20世纪90年代,数据仓库技术开始成为了商业智能(Business Intelligence)领域的核心内容。
商业智能的关键在于将企业数据转化为有价值的信息,帮助企业管理层做出决策。
数据仓库技术通过提供强大的数据分析和查询工具,帮助企业管理层更好地理解和利用数据,促进企业的业务发展。
在21世纪初,随着互联网的兴起和大数据时代的到来,数据仓库技术面临了新的挑战和机遇。
互联网和移动技术的普及,使得数据的规模和类型都发生了巨大的变化。
传统的数据仓库技术已经无法满足对海量数据的存储和分析需求。
为了应对这种变化,数据仓库技术开始采用并行计算和分布式存储技术,并引入了新的数据处理框架,如Hadoop和Spark。
随着人工智能和机器学习的快速发展,数据仓库技术也开始向智能化和自动化方向发展。
现代的数据仓库技术不仅仅是存储和查询数据的工具,还可以根据数据的特点自动进行数据清洗、转换和分析,帮助用户发现数据中的规律和模式。
总的来说,数据仓库技术的发展历程从最初的数据整合到商业智能,再到大数据和机器学习的应用,始终以满足企业对数据管理和决策支持的需求为目标。
数据仓库技术的发展历程
![数据仓库技术的发展历程](https://img.taocdn.com/s3/m/81cfde585bcfa1c7aa00b52acfc789eb172d9ef8.png)
数据仓库技术的发展历程定义数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。
数据仓库研究和解决从数据库中获取信息的问题。
数据仓库的特征在于面向主题、集成性、稳定性和时变性。
数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
特点1、数据仓库是面向主题的;2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求,他在商业领域取得了巨大的成功。
实现方式数据仓库是一个过程而不是一个项目。
数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。
数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。
而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。
数据仓库演变史
![数据仓库演变史](https://img.taocdn.com/s3/m/14f04924482fb4daa58d4bb7.png)
数据无时间基准 数据算法上的差异 抽取的多层次问题 外部数据问题 无公共起始数据源
生产率问题 · 花费大量时间和资源 无法将数据转化为信息
· ·
缺少集成性 没有足够可以满足DSS分析员需求的历史数据
第1天——熟悉主要进行操作型事务处理的原 有系统 第2天——往数据仓库中的第一个主题域的最 初几个表载入数据 第3天——更多的数据载入数据仓库 第4天——一批过去存储在操作型环境的数据 被适当的放入数据仓库中 第5天——部现繁忙,多维系统出现 第n天——体系结构得到充分发展
60年代初期——创建运行于主文件上的单 个应用 60年代中期——出现大量冗余数据 70年代——磁盘存储(直接存取存储设备) →数据库管理系统 70年代中期)——在线事务处理(OLTP) 80年代——PC、管理信息系统(MIS) 如今——数据抽取、“蜘蛛网”形成
数据缺乏可信性
数据库发展史
![数据库发展史](https://img.taocdn.com/s3/m/38046675b5daa58da0116c175f0e7cd1842518d0.png)
数据库发展史在当今数字化的时代,数据库已经成为了信息存储和管理的核心组成部分。
从简单的纸质记录到复杂的电子数据库系统,数据库的发展历程见证了人类对于信息处理和利用的不断追求和创新。
早期的数据库形式可以追溯到古代文明时期。
当时,人们使用简单的符号、刻痕和手写记录来保存重要的信息,如人口统计、农作物收成和商业交易等。
然而,这些早期的记录方式存在着诸多局限性,信息的检索和更新都非常困难。
随着时间的推移,进入工业革命时期,数据的处理需求变得更加复杂和庞大。
19 世纪末,卡片索引系统开始流行。
这种系统将信息记录在卡片上,通过手工分类和排序来进行管理。
例如,图书馆使用卡片索引来记录书籍的信息,企业使用卡片来记录客户和员工的资料。
虽然相比古代的记录方式有了一定的进步,但仍然效率低下,容易出错,并且存储空间有限。
到了 20 世纪 50 年代,计算机技术的出现为数据库的发展带来了重大变革。
最初,计算机主要用于处理科学计算任务,但很快人们意识到其在数据管理方面的潜力。
在 60 年代,层次数据库和网状数据库模型应运而生。
层次数据库模型将数据组织成类似树形结构的层次关系。
数据按照从上到下的层次进行存储和访问,上级节点与下级节点之间存在明确的隶属关系。
这种模型在处理具有明确层次结构的数据时表现出色,例如企业的组织架构。
网状数据库模型则允许数据节点之间存在多对多的关系,比层次数据库更加灵活。
但这两种模型都存在着复杂性高、难以理解和维护的问题。
20 世纪 70 年代,关系数据库模型的出现彻底改变了数据库领域。
关系数据库基于数学中的关系理论,将数据组织成二维表格的形式,通过标准化的语言(如 SQL)进行操作和管理。
这种模型具有简洁、清晰、易于理解和维护的优点,迅速得到了广泛的应用。
关系数据库的发展经历了多个阶段。
早期的关系数据库系统主要运行在大型主机上,只有大型企业和机构能够承担其高昂的成本。
随着计算机技术的不断进步,特别是微型计算机的普及,关系数据库逐渐走向小型化和普及化。
数据仓库与数据管理的发展
![数据仓库与数据管理的发展](https://img.taocdn.com/s3/m/118c4b0c5b8102d276a20029bd64783e08127d78.png)
数据仓库与数据管理的发展随着信息时代的到来,数据已经成为了一种重要的资源形式。
为了更好地管理和利用数据,数据仓库和数据管理这两个概念应运而生。
一、数据仓库的发展1.1 数据仓库的定义数据仓库是一个能够集成多个不同数据来源的数据库,用于支持企业的决策制定过程。
数据仓库存储的数据相对于操作数据库来说,更加注重历史数据、大量的数据、复杂的数据分析和轻量级事务。
数据仓库基于主题(数据的指向)进行组织,通过ETL 工具来提取、转换、加载数据到数据仓库中,采用多个层次的结构来支持分析和报表。
1.2 数据仓库的发展历史数据仓库的发展始于1980年代,当时许多公司遇到了数据管理的挑战。
在当时的环境下,企业数据主要存储在单个系统中,而各个系统间并没有建立联系和集成。
为了解决这个问题,有些公司在当时开始了逐渐的数据仓库项目。
在1990年代,数据仓库大规模地应用于企业中。
数据仓库架构、数据库管理系统和开发工具逐步成熟,数据仓库的应用场景也开始逐渐多样化。
随着技术的不断发展和数据科学的崛起,数据仓库也在不断发展。
现在,数据仓库已经成为企业探索数据本质的关键工具。
可以预期,在未来,数据仓库会继续发展。
二、数据管理的发展2.1 数据管理的定义数据管理是通过统一的数据处理标准,对企业数据进行管理、维护、分析、优化的过程。
它是一个跨领域的概念,包含数据质量管理、元数据管理、数据安全等方面。
通过数据管理来提高企业的数据利用效率,进而提高企业运营水平和竞争实力。
2.2 数据管理的发展历史数据管理的发展历史可以追溯到1980年代初。
当时企业处理数据的方式还比较单一,仅靠传统的手工处理,存在着处理速度缓慢、容易出现错误等问题。
随着计算机的逐步普及和网络的发展,数据管理有了更好的履行途径。
1980年代末和1990年代初,关系型数据库出现,并逐渐得到普及。
数据库管理软件逐步变得更加安全可靠,功能更加强大,管理透明等。
此时,数据管理成为企业必须重视的管理领域。
中国的数据库发展历程
![中国的数据库发展历程](https://img.taocdn.com/s3/m/5541754ef02d2af90242a8956bec0975f565a451.png)
中国的数据库发展历程
中国的数据库发展历程可以分为以下几个阶段:
1. 1978年-1990年代初:起步阶段
在改革开放初期,中国开始引进计算机技术和数据库知识。
当时的数据库应用主要集中在科研机构和大型企业,使用较为简单的数据库管理系统。
此阶段的数据库发展主要依赖于引进技术和国内开发。
2. 1990年代中期-2000年代:市场扩大阶段
随着国民经济的快速发展和互联网的兴起,中国的数据库市
场开始迅速扩大。
国内企业开始研发自主品牌的数据库管理系统,并与国际知名数据库供应商展开竞争。
此阶段的数据库应用涵盖了多个行业,包括金融、电信、政府等。
3. 2000年代中期-2010年代:技术创新阶段
在这一阶段,中国的数据库技术开始迎头赶上国际水平。
国
内企业积极参与数据库标准的制定和数据库理论的研究与创新。
同时,大数据和云计算等技术的兴起也推动了数据库的发展,企业开始关注数据库的性能、可扩展性和安全性等方面。
4. 2010年代至今:创新应用阶段
当前,中国的数据库应用已经涵盖了各个领域,包括物联网、人工智能和区块链等新兴技术。
企业和科研机构积极探索数据库在大数据分析、智能决策和安全保障等方面的应用。
此外,数据库领域还涌现出一批新的创业公司和开源项目。
总体而言,中国的数据库发展经历了从起步阶段到市场扩大、技术创新和创新应用的过程。
随着技术的不断进步和需求的不断增长,中国的数据库市场和技术水平将不断发展壮大。
简述数据库管理技术的发展过程
![简述数据库管理技术的发展过程](https://img.taocdn.com/s3/m/33d65c307ed5360cba1aa8114431b90d6c8589e8.png)
简述数据库管理技术的发展过程数据库管理技术是指在计算机中存储和管理数据的技术。
随着计算机和互联网的发展,数据库管理技术也在不断进步和演进。
本文将从数据库的初期阶段开始,逐步介绍数据库管理技术的发展过程。
1.文件系统阶段:在计算机刚刚出现的早期阶段,数据存储使用的是简单的文件系统。
每个应用程序都有自己的数据文件,数据之间没有明确的关联性或约束。
这种方式简单易懂,但是不利于数据的共享和管理。
2.层次数据库阶段:为了实现数据的共享和管理,出现了层次数据库。
层次数据库使用树状结构组织数据,通过父子关系表示数据之间的联系。
这种结构可以满足一定的数据组织需求,但是不适用于复杂数据结构和关系的表示。
3.网状数据库阶段:随着数据结构和关系的复杂化,层次数据库无法满足需求,于是出现了网状数据库。
网状数据库使用网络结构来表示多对多的关系,可以更好地表达复杂数据结构。
然而,网状数据库的数据操作复杂,不易于维护和管理,因此并未得到广泛应用。
4.关系型数据库阶段:1970年,IBM的研究员Codd提出了关系数据库的概念。
关系数据库使用表格的形式来组织数据,每行代表一个数据实例,每列代表一个属性。
通过引入关系代数和关系演算等理论,关系数据库具备了严格的数据一致性和完整性,能够进行复杂的查询和操作。
关系数据库最经典的代表是SQL数据库,如Oracle、MySQL和SQL Server等。
5.面向对象数据库阶段:面向对象数据库是在关系数据库的基础上发展而来的,它将面向对象编程的思想引入到数据库中。
面向对象数据库不仅可以存储和检索数据,还可以存储对象的状态、属性和行为。
面向对象数据库的优势在于更好地支持对象的继承、封装和多态等特性。
6.对象关系型数据库阶段:为了综合关系数据库和面向对象数据库的优势,对象关系型数据库(ORDBMS)应运而生。
对象关系型数据库在关系数据库的基础上增加了对象类型和方法,可以更好地管理和操作对象之间的关系。
程序员应知应会之数据库发展简史
![程序员应知应会之数据库发展简史](https://img.taocdn.com/s3/m/ee4a45eacf2f0066f5335a8102d276a20029602b.png)
程序员应知应会之数据库发展简史数据库,无疑是信息时代最重要的技术之一,经过多年的发展和完善,市场上已经有了多种基于不同设计理念和商业理念的数据库产品。
数据库的发展历史,可以简单的分为三个阶段:第一阶段:人工管理阶段20世纪50年代中期以前,计算机主要用于科学计算,外部存储器只有磁带、卡片和纸带等,还没有磁盘等存储设备,同时,软件系统也只有汇编语言,还没有数据管理方面的软件,数据处理方式主要是批处理。
此时的数据不易保存,没有文件的概念。
数据不具有独立性。
第二阶段:文件系统阶段20世纪50后代后期到60年代中期,计算机开始不仅仅用于科学计算,还用于信息管理方面。
随着数据量的增加,数据的存储、检索和维护问题成为了紧迫的需要,数据结构和数据管理技术迅速发展起来。
此时数据已经可以长期保存,由文件系统管理数据,文件的形式已经多样化,数据具有一定的独立性。
第三阶段:数据库管理系统阶段20世纪60年代后期,数据管理技术进入数据库系统阶段。
数据库系统克服了文件系统的缺陷,提供了对数据更高级、更有效的管理。
这个阶段的程序和数据的联系通过数据库管理系统(DBMS)来实现。
进入21世纪之后,随着数据量的爆发式增长,各类大数据处理技术也应运而生,从中催生了NoSQL和 NewSQL相关技术。
下面这张表显示了数据库发展史上的一些重要事件。
这里面值得一提的是在数据库发展史上出现了很多华人的身影,如提出ER模型的陈品山博士,以及为Postgres添加SQL支持的Andrew Yu 和 Jolly Chen。
另外,黑客们在数据库发展史上的贡献也极为丰富。
这些黑客以他们执着的精神和高超的技术,为数据库系统的日益完善做出了不可磨灭的贡献。
像T om Lane,他是一位卡耐基梅隆大学(CMU)的电子工程学 ph.D(博士),同时也是 PostgreSQL 的非常重要开发人员对 PostgreSQL 的性能和稳定性以及特性的取舍有极其重要的贡献。
数据库的发展历程
![数据库的发展历程](https://img.taocdn.com/s3/m/838080693069a45177232f60ddccda38366be173.png)
数据库的发展历程数据库的发展历程可以概括为以下几个阶段:1. 文件系统阶段:数据库的早期,信息存储主要依靠操作系统的文件系统。
每个应用程序都有自己的数据文件,数据之间的相关性和一致性难以保证,数据的冗余和重复存储较为常见。
2. 层次数据库阶段:随着数据量的增加和数据之间关系的复杂性增强,出现了层次数据库系统。
该模型使用树状结构来组织数据,可以建立父子关系。
但是,这种模型的局限性在于难以表示复杂关系和多对多的关系,不利于数据的灵活性和扩展性。
3. 网状数据库阶段:为了解决层次数据库的问题,网状数据库被提出。
该模型允许一个节点拥有多个父节点,通过网络连接来表示数据之间的关系。
然而,网状数据库的设计复杂,难以维护和管理,也不易于查询和数据操作。
4. 关系数据库阶段:在1970年代,基于关系模型的关系数据库被引入,开创了数据库领域的新纪元。
关系数据库通过表的形式来组织和存储数据,使用结构化查询语言(SQL)进行数据的访问和操作。
关系数据库具有数据的一致性、可靠性和易扩展性,成为当时最为流行的数据库模型。
5. 面向对象数据库阶段:随着面向对象编程的兴起,面向对象数据库开始发展。
面向对象数据库将数据以对象的形式进行存储,支持面向对象的数据模型和查询语言。
这种数据库模型适用于处理复杂的对象结构和继承关系,但在实际应用中并不普及。
6. 非关系型数据库阶段:随着互联网的发展和Web应用的高峰期,传统的关系数据库在处理大规模分布式数据时遇到了一些问题,例如扩展性、性能和灵活性等。
为了解决这些问题,非关系型数据库(NoSQL)应运而生。
非关系型数据库根据数据的特点和需求选择适当的数据模型,如键值存储、文档存储、列存储和图形数据库等,以满足不同的应用场景和需求。
7. 新型数据库阶段:近年来,随着人工智能、物联网和大数据等技术的快速发展,新型数据库不断涌现。
这些数据库结合了传统关系数据库和非关系型数据库的优点,具备高扩展性、高性能和灵活性等特点。
数据库的发展历程
![数据库的发展历程](https://img.taocdn.com/s3/m/b24d69664a35eefdc8d376eeaeaad1f3469311b1.png)
数据库的发展历程数据库是计算机科学领域中的重要概念,它的发展历程可以追溯到上世纪50年代。
随着计算机技术的发展和应用场景的不断扩大,数据库的演变不仅影响了计算机应用的性能和效率,也对数据管理、存储和检索的方式提出了新的要求。
本文将概述数据库的发展历程,包括关系数据库的出现、客户-服务器模型的引入以及云数据库的兴起。
数据库的发展可以追溯到上世纪50年代早期,那时候的电子计算机主要用于科学计算和数据处理。
当时,数据被存储在磁带、磁鼓等外部介质上,而计算机只能直接访问内存。
产生了数据存储和检索的问题,为此,人们开始着手研究和开发数据库管理系统(DBMS)来解决这些问题。
在60年代出现了第一个数据库管理系统,称为层次数据库。
这种数据库将数据视为树状结构,具有父子关系。
然而,由于其复杂性和缺乏灵活性,使得数据管理和查询变得复杂。
因此,出现了关系数据库模型,它将数据视为二维表格,通过定义各种关系和约束来管理数据,提供了更灵活、简单的数据管理方式。
关系数据库的兴起,带来了SQL(结构化查询语言)的发展,SQL被广泛应用于关系数据库管理系统中。
SQL提供了丰富的查询和操作命令,使用户能够方便地进行数据检索和更新。
这进一步推动了数据库的应用和发展。
1980年代,随着计算机网络的兴起,客户-服务器模型成为卓越的数据库架构。
这种架构将数据库服务器和客户端分离,客户端通过网络与服务器通信,进行数据的存取和处理。
客户-服务器模型提供了更高的性能和可扩展性,使得数据库能够支持更多的用户和应用程序。
随着互联网的普及和应用需求的增加,2000年代初,云数据库开始兴起。
云数据库是基于互联网的数据库服务,通过将数据存储于云端服务器上,用户可以方便地访问和处理数据。
云数据库具有高可用性、可扩展性和灵活性等优势,成为企业和个人数据管理的首选方式。
当前,数据库的应用已经广泛渗透到各个领域,如金融、电子商务、物流等。
数据库的发展也面临了新的挑战,如大数据、实时分析和人工智能等。
数据仓库历史与现在发展状况
![数据仓库历史与现在发展状况](https://img.taocdn.com/s3/m/2e02f9d3ee06eff9aff807ad.png)
数据仓库历史与现在发展状况一数据仓库简介随着处理信息量的不断加大,企业需要多角度处理海量信息并从中猎取支持决策的信息,面向事务处理的操作型数据库就显得力不从心,面向主题集成大量数据的数据仓库技术产生。
数据仓库因其面向主题性,集成性,稳固性和时变性,不仅在数据的集成,储备上成效好,在从操作系统提取信息和支持系统造作者的前端工具上更是充分利用了数学严谨的逻辑思维和统计学知识,以及先进的信息技术,使企业的信息利用更有价值。
数据仓路按照特定的方法〔ETL〕从数据源中提取数据,以特定主题作维度利用特定的算法集成数据,给数据用户提供实时查询,最终集成有效信息供决策者使用。
数据仓库是个过程而不是一个项目,是一个解决方案而不是一个产品。
数据仓库之父比尔·恩门〔Bill Inmon〕在1991年出版的〝Building the Data Warehouse〞〔«建立数据仓库»〕一书中所提出的定义被广泛同意,数据仓库是一个面向主题的〔Subject Oriented〕、集成的〔Integrate〕、相对稳固的〔Non-Volatile〕、反映历史变化〔Time Variant〕的数据集合,用于支持治理决策。
二数据仓库历史1.1981年NCR公司〔national cash register corporation〕为Wal mart 建立了第一个数据仓库,总容量超过101TB(十年的会计文档还不足1TB)2.商务智能的瓶颈是从数据到知识的转换。
1979年,一家以决策支持系统为已任、致力于构建单独的数据储备结构的公司Teradata产生了。
Tera,是万亿的意思,Teradata的命名说明了公司处理海量运营数据的决心。
1983年,该公司利用并行处理技术为美国富国银行〔Wells Fargo Bank〕建立了第一个决策支持系统。
这种先发优势令Teradata至今一直雄居数据行业的龙头榜首。
闲聊数据库发展历史三个阶段、分类、数据库规范及趋势
![闲聊数据库发展历史三个阶段、分类、数据库规范及趋势](https://img.taocdn.com/s3/m/15434a4f26284b73f242336c1eb91a37f11132cd.png)
闲聊数据库发展历史三个阶段、分类、数据库规范及趋势概述数据库(Database)是存储与管理数据的软件系统,就像一个存入数据的物流仓库。
在商业领域,信息就意味着商机,取得信息的一个非常重要的途径就是对数据进行分析处理,这就催生了各种专业的数据管理软件,数据库就是其中的一种。
当然,数据库管理系统也不是一下子就建立起来,它也是经过了不断的丰富和发展,才有了今天的模样。
1、发展历史1.1、人工处理阶段在20世纪50年代中期以前的计算机诞生初期,其处理能力很有限,只能够完成一些简单的运算,数据处理能力也很有限,这使得当时的计算机只能够用于科学和工程计算。
计算机上没有专用的管理数据的软件,数据由计算机或处理它的程序自行携带。
当数据的存储格式、读写路径或方法发生变化的时候,其处理程序也必须要做出相应的改变以保持程序的正确性。
人工管理数据具有如下特点:1)数据不保存2)数据需要由应用程序自己管理,没有相应的软件系统负责数据的管理工作3)数据不共享4)数据不具有独立性,数据的逻辑结构或物理结构发生变化后,必须对应用程序做相应的修改,这就进一步加重了程序员的负担。
1.2、文件系统20世纪50年代后期到60年代中期,随着硬件和软件技术的发展,计算机不仅用于科学计算,还大量用于商业管理中。
在这一时期,数据和程序在存储位置上已经完全分开,数据被单独组织成文件保存到外部存储设备上,这样数据文件就可以为多个不同的程序在不同的时间所使用。
虽然程序和数据在存储位置上分开了,而且操作系统也可以帮助我们对完成了数据的存储位置和存取路径的管理,但是程序设计仍然受到数据存储格式和方法的影响,不能够完全独立于数据,而且数据的冗余较大。
文件系统阶段特点为:1)数据可以长期保存2)由专门的软件即文件系统进行数据管理,程序和数据之间由软件提供的存取方法进行转换,使应用程序与数据之间有了一定的独立性,程序员可以不必过多地考虑物理细节,将精力集中于算法。
数据库的发展史
![数据库的发展史](https://img.taocdn.com/s3/m/d6a68eecd0f34693daef5ef7ba0d4a7302766cdf.png)
数据库的发展史引言:数据库是现代计算机科学中非常重要的一项技术,它对于数据的组织、存储和管理起着至关重要的作用。
随着时代的发展和技术的进步,数据库也在不断演化和发展。
本文将从数据库的起源开始,详细阐述数据库的发展史,旨在让读者了解数据库的演变过程,以及它对于信息时代的巨大影响。
一、数据库起源数据库的概念最早可以追溯到20世纪60年代,当时计算机科学家意识到需要一种更高效、更可靠的方法来存储和管理大量的数据。
在此之前,数据通常以文件的形式存储在磁带或磁盘上,但是文件系统存在很多问题,比如数据冗余、数据不一致等。
为了解决这些问题,人们开始研究数据库的设计和实现。
二、层次结构数据库在数据库的早期发展阶段,层次结构数据库被广泛应用。
层次结构数据库使用树形结构来组织数据,每个节点可以有多个子节点,但只能有一个父节点。
这种结构可以很好地模拟现实世界中的层次关系,比如组织机构、文件目录等。
然而,层次结构数据库存在一些缺点,比如数据的修改和查询操作比较复杂,不够灵活。
三、网状结构数据库为了克服层次结构数据库的一些限制,人们提出了网状结构数据库。
网状结构数据库使用图的形式来组织数据,节点之间可以有多个连接,每个节点可以同时有多个父节点和子节点。
这种结构更加灵活,可以很好地表示复杂的关系。
然而,网状结构数据库的实现比较复杂,而且容易产生数据冗余和不一致。
四、关系型数据库在20世纪70年代,关系型数据库的概念被提出,并迅速得到了广泛应用。
关系型数据库使用表格的形式来组织数据,每个表格由多个行和列组成,每一行代表一个记录,每一列代表一个属性。
通过使用关系代数和SQL等查询语言,用户可以方便地进行数据的查询、插入、更新和删除操作。
关系型数据库的设计和实现相对简单,而且具有良好的数据一致性和完整性。
目前,关系型数据库仍然是最常用的一种数据库模型。
五、面向对象数据库随着面向对象编程的兴起,面向对象数据库开始引起人们的关注。
面向对象数据库将对象的概念引入数据库中,可以直接存储和操作对象。
数据库发展简史
![数据库发展简史](https://img.taocdn.com/s3/m/94a19ce4998fcc22bcd10d94.png)
数据库的发展简史1. 数据管理的诞生数据库的历史可以追溯到五十年前,那时的数据管理非常简单。
通过大量的分类、比较和表格绘制的机器运行数百万穿孔卡片来进行数据的处理,其运行结果在纸上打印出来或者制成新的穿孔卡片。
而数据管理就是对所有这些穿孔卡片进行物理的储存和处理。
然而,1 9 5 1 年雷明顿兰德公司(Remington Rand Inc.)的一种叫做Univac I 的计算机推出了一种一秒钟可以输入数百条记录的磁带驱动器,从而引发了数据管理的革命。
1956 年IBM生产出第一个磁盘驱动器——the Model 305 RAMAC。
此驱动器有50 个盘片,每个盘片直径是2 英尺,可以储存5MB的数据。
使用磁盘最大的好处是可以随机地存取数据,而穿孔卡片和磁带只能顺序存取数据。
1951:Univac系统使用磁带和穿孔卡片作为数据存储。
数据库系统的萌芽出现于60 年代。
当时计算机开始广泛地应用于数据管理,对数据的共享提出了越来越高的要求。
传统的文件系统已经不能满足人们的需要。
能够统一管理和共享数据的数据库管理系统(DBMS)应运而生。
数据模型是数据库系统的核心和基础,各种DBMS 软件都是基于某种数据模型的。
所以通常也按照数据模型的特点将传统数据库系统分成网状数据库、层次数据库和关系数据库三类。
最早出现的是网状DBMS,是美国通用电气公司Bachman等人在1961年开发成功的IDS(Integrated DataStore)。
1961年通用电气公司(General ElectricCo.)的Charles Bachman 成功地开发出世界上第一个网状DBMS也是第一个数据库管理系统——集成数据存储(Integrated DataStore IDS),奠定了网状数据库的基础,并在当时得到了广泛的发行和应用。
IDS 具有数据模式和日志的特征。
但它只能在GE主机上运行,并且数据库只有一个文件,数据库所有的表必须通过手工编码来生成。
数据仓库技术的发展及其前景
![数据仓库技术的发展及其前景](https://img.taocdn.com/s3/m/67f5cdcb9f3143323968011ca300a6c30c22f193.png)
数据仓库技术的发展及其前景随着信息技术的发展,数据仓库技术已经成为企业信息化建设中的一个重要组成部分,为企业决策提供了强大的支持。
在数据仓库的基础上,企业可以更加全面、准确、及时地了解市场和客户的需求,提高了企业的市场反应和竞争力。
本文将对数据仓库技术的发展历程进行简要回顾,并分析其未来的发展前景。
一、数据仓库技术的发展历程1.1 传统数据管理技术在传统数据管理技术时期,企业面临的主要困境是数据分散、数据混乱、数据应用的局限性等。
传统的数据管理技术只能进行基本的数据存储和管理,无法实现复杂的企业数据处理和分析任务。
1.2 数据仓库技术的兴起为了解决传统数据管理技术所面临的困境,数据仓库技术应运而生。
数据仓库技术是一种全局性的、面向主题的、集成的、相对稳定的数据集合,可以支持企业的基本决策和战略决策。
数据仓库技术可以将分散的数据整合到一个统一的数据仓库中,使企业能够更好地利用这些数据进行分析和应用。
1.3 数据仓库技术的发展数据仓库技术的发展经历了不断演进的过程和重要发展的阶段。
在90年代初期,数据仓库技术仅仅是一种替代传统数据库的新技术。
随着数据需求和复杂性的不断增加,数据仓库技术逐渐升级和发展,并运用了更多的技术手段和方法来处理各种数据类型和业务需求。
二、数据仓库技术的前景2.1 视觉化分析技术数据仓库技术在未来的发展中,最大的可能就在于数据的可视化分析技术。
随着数据量的增加和企业信息化建设的深入推进,数据可视化技术得到了越来越广泛的应用。
未来,人们对大数据的需求将会越来越多,这将会促使数据可视化技术有更大的发展空间。
2.2 人工智能技术在未来,数据仓库技术还将会与人工智能技术相结合。
人工智能技术能够根据数据进行自我学习,并在学习的过程中进行预测和分析,能够解决传统数据仓库技术中存在的不足之处。
人工智能技术将会与数据仓库技术相结合,形成更强大的决策分析能力。
2.3 聚合分布式技术在数据仓库技术的未来发展中,聚合分布式技术也将会发挥重要的作用。
数据仓库的发展历程简述v0.1
![数据仓库的发展历程简述v0.1](https://img.taocdn.com/s3/m/1359f5f880c758f5f61fb7360b4c2e3f572725ce.png)
数据仓库的发展历程简述v0.1数据仓库发展历程及相关概念1.1 概述数据仓库的概念可能⽐⼀般⼈想像的都要早⼀些,中间也经历⽐较曲折的过程。
其最初的⽬标是为了实现全企业的集成(Enterprise Integration),但是在发展过程中却退⽽求其次:建⽴战术性的数据集市(Data Marts)。
到⽬前为⽌,还有很多分歧、论争,很多概念模棱两可甚⾄是彻底的让⼈迷惑。
本⽂试图从数据仓库的发展历史中看到⼀些发展的脉络,了解数据仓库应该是怎么样的,并展望⼀下未来的数据仓库发展⽅向。
同时,由于新应⽤的不断出现,出现了很多新的概念和新的应⽤,这些新的应⽤如何统⼀现成完整的企业BI应⽤⽅案还存在很多争论。
本⽂试图对这些概念做⼀些简要的阐述,让⼤家对此有初步的了解。
1.2 粗略发展过程1.2.1 开始阶段(1978-1988)数据仓库最早的概念可以追溯到20世纪70年代MIT的⼀项研究,该研究致⼒于开发⼀种优化的技术架构并提出这些架构的指导性意见。
第⼀次,MIT的研究员将业务系统和分析系统分开,将业务处理和分析处理分成不同的层次,并采⽤单独的数据存储和完全不同的设计准则。
同时,MIT的研究成果与80年代提出的信息中⼼(Information Center)相吻合:即把那些新出现的、不可以预测的、但是⼤量存在的分析型的负载从业务处理系统中剥离出来。
但是限于当时的信息处理和数据存储能⼒,该研究只是确⽴了⼀个论点:这两种信息处理的⽅式差别如此之⼤,以⾄于它们只能采⽤完全不同的架构和设计⽅法。
之后,在80年代中后期,作为当时技术最先进的公司,DEC已经开始采⽤分布式⽹络架构来⽀持其业务应⽤,并且DEC公司⾸先将业务系统移植到其⾃⾝的RDBMS产品:RdB。
并且,DEC公司从⼯程部、销售部、财务部以及信息技术部抽调了不同的⼈员组建了新的⼩组,不仅研究新的分析系统架构,并要求将其应⽤到其全球的财务系统中。
该⼩组结合MIT的研究结论,建⽴了TA2(Technical Architecture 2)规范,该规范定义了分析系统的四个组成部分:数据获取、数据访问、⽬录、⽤户服务其中的数据获取和数据访问⽬前⼤家都很清楚,⽽⽬录服务是⽤于帮助⽤户在⽹络中找到他们想要的信息,类似于业务元数据管理;⽤户服务⽤以⽀持对数据的直接交互,包含了其他服务的所有⼈机交互界⾯,这是系统架构的⼀个⾮常⼤的转变,第⼀次将交互界⾯作为单独的组件提出来。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库发展历程及相关概念1.1 概述数据仓库的概念可能比一般人想像的都要早一些,中间也经历比较曲折的过程。
其最初的目标是为了实现全企业的集成(Enterprise Integration),但是在发展过程中却退而求其次:建立战术性的数据集市(Data Marts)。
到目前为止,还有很多分歧、论争,很多概念模棱两可甚至是彻底的让人迷惑。
本文试图从数据仓库的发展历史中看到一些发展的脉络,了解数据仓库应该是怎么样的,并展望一下未来的数据仓库发展方向。
同时,由于新应用的不断出现,出现了很多新的概念和新的应用,这些新的应用如何统一现成完整的企业BI应用方案还存在很多争论。
本文试图对这些概念做一些简要的阐述,让大家对此有初步的了解。
1.2 粗略发展过程1.2.1 开始阶段(1978-1988)数据仓库最早的概念可以追溯到20世纪70年代MIT的一项研究,该研究致力于开发一种优化的技术架构并提出这些架构的指导性意见。
第一次,MIT的研究员将业务系统和分析系统分开,将业务处理和分析处理分成不同的层次,并采用单独的数据存储和完全不同的设计准则。
同时,MIT的研究成果与80年代提出的信息中心(Information Center)相吻合:即把那些新出现的、不可以预测的、但是大量存在的分析型的负载从业务处理系统中剥离出来。
但是限于当时的信息处理和数据存储能力,该研究只是确立了一个论点:这两种信息处理的方式差别如此之大,以至于它们只能采用完全不同的架构和设计方法。
之后,在80年代中后期,作为当时技术最先进的公司,DEC已经开始采用分布式网络架构来支持其业务应用,并且DEC公司首先将业务系统移植到其自身的RDBMS产品:RdB。
并且,DEC公司从工程部、销售部、财务部以及信息技术部抽调了不同的人员组建了新的小组,不仅研究新的分析系统架构,并要求将其应用到其全球的财务系统中。
该小组结合MIT的研究结论,建立了TA2(Technical Architecture 2)规范,该规范定义了分析系统的四个组成部分: 数据获取、数据访问、目录、用户服务其中的数据获取和数据访问目前大家都很清楚,而目录服务是用于帮助用户在网络中找到他们想要的信息,类似于业务元数据管理;用户服务用以支持对数据的直接交互,包含了其他服务的所有人机交互界面,这是系统架构的一个非常大的转变,第一次将交互界面作为单独的组件提出来。
1.2.2 全企业集成(Enterprise Intergration,1988)同时,IBM也在处理信息管理不同方面的问题,其最烦人的问题是不断增加的信息孤岛,IBM的很多客户要面对很多分立系统的数据集成问题,而这些系统有不同的编码方式和数据格式。
1988年,为解决全企业集成问题,IBM爱尔兰公司的Barry Devlin 和Paul Murphy第一次提出了“信息仓库(Information Warehouse)”的概念,将其定义为:“一个结构化的环境,能支持最终用户管理其全部的业务,并支持信息技术部门保证数据质量”,并在1991年在DEC TA 2的基础上把信息仓库的概念包含进去,并称之为VITAL规范(virtually integrated technical architecture life cycle),将PC、图形化界面、面向对象的组件以及局域网都包含在VITAL里,并定义了85种信息仓库的组件,包括数据抽取、转换、有效性验证、加载、Cube开发和图形化查询工具等。
但是IBM只是将这种领先的概念用于市场宣传,而没有付诸实际的架构设计。
这是IBM有一个领域上创新后停止不前导致丧失其领先地位。
因此,在90年代初期,数据仓库的基本原理、框架架构,以及分析系统的主要原则都已经确定,主要的技术,包括关系型数据存取、网络、C/S架构和图形化界面均已具备,只欠东风了。
同时,在1988年-1991年,一些前沿的公司已经开始建立数据仓库。
1.2.3 企业级数据仓库(EDW,1991)1991年,Bill Inmon出版了其有关数据仓库的第一本书,这本书不仅仅说明为什么要建数据仓库、数据仓库能给你带来什么,更重要的是,Inmon第一次提供了如何建设数据仓库的指导性意见,该书定义了数据仓库非常具体的原则,包括:♦数据仓库是面向主题的(Subject-Oriented)、♦集成的(Integrated)、♦包含历史的(Time-variant)、♦不可更新的(Nonvolatile)、♦面向决策支持的(Decision Support)♦面向全企业的(Enterprise Scope)♦最明细的数据存储(Atomic Detail)♦数据快照式的数据获取(Snap Shot Capture)这些原则到现在仍然是指导数据仓库建设的最基本原则,虽然中间的一些原则引发一些争论,并导致一些分歧和数据仓库变体的产生。
但是,Bill Inmon凭借其这本书奠定了其在数据仓库建设的位置,被称之为“数据仓库之父”。
1.2.4 数据集市(1994-1996)数据仓库发展的第一明显分歧是数据集市概念的产生。
由于企业级数据仓库的设计、实施很困难,使得最早吃数据仓库螃蟹的公司遭到大面积的失败,因此数据仓库的建设者和分析师开始考虑只建设企业级数据仓库的一部分,然后再逐步添加,但是这有背于Bill Inmon的原则:各个实施部分的数据抽取、清洗、转换和加载是独立,导致了数据的混乱与不一致性。
而且部分实施的项目也有很多失败,除了常见的业务需求定义不清、项目执行不力之外,很重要的原因是因为其数据模型设计,在企业级数据仓库中,Inmon推荐采用3范式进行数据建模,但是不排除其他的方法,但是Inmon的追随者固守OLTP系统的3范式设计,从而无法支持DSS 系统的性能和数据易访问性的要求。
这时,Ralph Kimball出现了,他的第一本书“The DataWarehouse T oolkit”掀起了数据集市的狂潮,这本书提供了如何为分析进行数据模型优化详细指导意见,从Dimensional Modeling 大行其道,也为传统的关系型数据模型和多维OLAP之间建立了很好的桥梁。
从此,数据集市在很多地方冒了出来,并获得很大成功,而企业级数据仓库已逐渐被人所淡忘。
1.2.5 争吵与混乱(1996-1997)企业级数据仓库还是部门级数据集市?关系型还是多维?Bill Inmon 和Ralph Kimball一开始就争论不休,其各自的追随者也唇舌相向,形成相对立的两派:Inmon派和Kimball派(有点象少林和武当)。
在初期,数据集市的快速实施和较高的成功率让Kimball派占了上风,但是很快,他们也发现自己陷入了某种困境:企业中存在6-7个不同的数据集市,分别有不同的ETL,相互之间的数据也不完全一致。
同时,各个项目实施中也任意侵犯了Inmon开始定下的准则:把数据集市当成众多OLTP系统之后的有一个系统,而不是一个基础性的集成性的东西,为保证数据的准确性和实时性,有的甚至可以由OLTP系统直接修改数据集市里面的数据,为了保证系统的性能,有的数据集市删除了历史数据。
等等,不一而足。
当然,这导致了一些新的应用的出现,例如ODS,但是人们对DataWarehouse、DataMart、ODS的概念非常的模糊,经常混为一谈。
有人说OLAP就是数据仓库,也有人说我要ODS和DataMart,不要Datawarehouse,也有人说,我DataMart建多了,自然就有DataWarehouse了。
但是Bill Inmon一直很旗帜鲜明:“你可以打到几万吨的小鱼小虾,但是这些小鱼小虾加起来不是大鲸鱼”1.2.6 合并(1998-2001)经过多翻争吵,证明one-size-fits-all是不可能的,你需要不同的BI架构来满足不同的业务需求。
Bill Inmon也推出了新的BI架构CIF(Corporation information factory),把Kimball的数据集市也包容进来了,第一次,Kimball承认了Inmon,但是仍然还有很多人在争论是自顶向下,还是自底向上。
CIF的核心思想是把整个架构分成不同的层次以满足不同的需求,把DW、DM、ODS进行详细的描述。
现在CIF已经成为建设数据仓库的框架指南。
1.2.7 未来??但是数据仓库未来会怎么发展呢,有人说是RealTime DW(by Michael Haisten)。
但是从其历史发展过程来看,几个趋势是比较明显的:♦从战略决策到战术决策的发展:这对DW的实时性和可获得性(availability)有更高的要求,甚至要求7×24×365♦需求更加多样化,要求有不同的架构和应用层次以适应不同的需求♦数据量膨胀,对数据建模、数据组织和层次划分提出更高的要求。
从EDW到DM,又有ODS、RTDW、Exploration DataWarehouse等等,同时新的应用层出不穷,看来DW/BI的未来是热热闹闹的。
1.3 战术决策支持系统数据仓库从一开始是定位在面向高层管理者、进行战略决策支持的,而随着应用的发展,要求中层管理者甚至底层的一线操作者也能分享数据仓库的功能。
例如客服人员在接听客户电话的同时能查看到该客户的完整历史信息、该客户的偏好信息、根据其客户情况目前能提供的促销信息等等。
即运营系统与决策支持系统将不再是完全隔离的两个系统,而是要求二者之间能相互共享有用的信息。
1.3.1 战术决策支持系统的交互方式运营系统和DW/DSS系统的交互方式可以有两种:直接交互和间接交互。
直接交互直接交互虽然在表面上很直观,但是有很多限制的地方:1. 数据仓库的查询反应速度是比较长的,很难满足运营系统的时间要求,特别是对那些比较随机的查询,其反应时间超过好几分钟,甚至上小时。
2. 得到的数据量可能是比较大的,增加了网络的负担3. 从数据仓库得到的数据格式、数据含义等与运营系统有差距,需要某种数据置换和加载过程(与数据仓库建设的ETL区分,可以称之为反向ETL)这些问题使得由运营系统直接访问数据仓库系统变动不切实际,在现实世界中也很少有这样的系统建设。
间接交互间接交互中,通过分析系统计算出该客户能得到的折扣是最重要的组成部分,他需要综合当前的运营数据(运营系统)和历史消费信息(数据仓库)。
通常来说,这部分计算要求的数据量和计算时间超过了运营系统能承受的范围,一般是在机器空闲的时候在夜间先行计算的。
这种间接交互的分析型应用可以存在很多行业的众多应用,例如银行信贷系统的动态评级、电话销售时的客户细分和促销、航空定票的动态定价、生产系统的动态生产计划制定与调整等等。
1.3.2 战术决策支持系统的系统架构战术决策支持系统与传统的数据仓库相比有更高的要求:1. 更快的响应速度:在几分钟甚至几十秒之内得到结果,这要求有相应的数据结构设计和调优工作,以及对各种不同类型的操作进行优先级管理,以保证战术决策支持分析的服务水平协议(SLA)2. 更频繁的数据更新:要求实时或者准实时的ETL过程,以保证数据的准确性和时效性3. 更高的数据精度:战略决策对数据精度要求较低,只是要求一个大概的趋势,而战术决策要求很高的精度,经常是100%,相应对ETL提出更高的要求4. 更强的数据可获得性:运营系统一般要求7*24小时运作,相应地要求战术决策支持系统有相同的可获得性,因此留给ETL、分析预计算的时间窗口就会很小,甚至要求的并行的。