面向应用领域的数据库新技术
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
面向应用领域的数据库新技术数据库技术被应用到特定的领域中,出现了工程数据库,地理数据库,统计数据库、科学数据库、空间数据库等多种数据库,使数据库领域中新的技术内容层出不穷。
一、数据仓库
传统的数据库技术是以单一的数据资源为中心,进行各种操作型处理。操作型处理也叫事务处理,是指对数据库联机地日常操作,通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务的,人们关心的是响应时间,数据的安全性和完整性。分析型处理则用于管理人员的决策分析。例如:DSS,EIS和多维分析等,经常要访问大量的历史数据。于是,数据库由旧的操作型环境发展为一种新环境:体系化环境。体系化环境由操作型环境和分析型环境(数据仓库级,部门级,个人级)构成。
数据仓库是体系化环境的核心,它是建立决策支持系统(DSS)的基础。
1.从数据库到数据仓库
具体来说,有以下原因使得事务处理环境不适宜DSS应用
⑴事务处理和分析处理的性能特性不同
在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短,因此,系统可以允许多个用户按分时方式使用系统资源,同时保持较短的响应时间,OLTP (联机事务处理)是这种环境下的典型应用。
在分析处理环境中,某个DSS应用程序可能需要连续运行几个小时,从而消耗大量的系统资源。将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。
⑵数据集成问题
DSS需要集成的数据。全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。因此,DSS不仅需要整个企业内部各部门的相关数据,还需要企业外部、竞争对手等处的相关数据。
而事务处理的目的在于使业务处理自动化,一般只需要与本部门业务有关的当前数据,对整个企业范围内的集成应用考虑很少。
当前绝大部分企业内数据的真正状况是分散而非集成的,这些数据不能成为一个统一的整体。对于需要集成数据的DSS应用来说,必须自己在应用程序中对这些纷杂的数据进行集成。可是,数据集成是一项十分繁杂的工作,都交给应用程序完成会大大增加程序员的负担。并且,如果每做一次分析,都要进行一次这样的集成,将会导致极低的处理效率。DSS 对数据集成的迫切需要可能是数据仓库技术出现的最重要动因。
⑴数据动态集成问题
由于每次分析都进行数据集成的开销太大,一些应用仅在开始对所需的数据进行了集成,以后就一直以这部分集成的数据作为分析的基础,不再与数据源发生联系,我们称这种方式的集成为静态集成。静态集成的最大缺点在于如果在数据集成后数据源中数据发生了改变,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。对于决策者来说,虽然并不要求随时准确地探知系统内的任何数据变化,但也不希望他所分析的是几个月以前的情况。因此,集成数据必须以一定的周期(例如24小时)进行刷新,我们称其为动态集成。显然,事务处理系统不具备动态集成的能力。
⑵历史数据问题
事务处理一般只需要当前数据,在数据库中一般也只存储短期数据。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托。没有对历史数据的详细分析,是难以把握企业的发展趋势的。
⑶数据的综合问题
在事务处理系统中积累了大量的细节数据,一般而言,DSS并不对这些细节数据进行分析,在分析前,往往需要对细节数据进行不同程度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以限制。
2.数据仓库的特点
原始数据(操作型数据)与导出型数据(DSS数据)之间的区别。其中主要是:
原始数据/操作型数据推导数据/DSS数据
细节的综合的,或提炼的
在存取瞬间是准确的代表过去的数据
可更新不更新
操作需求事先可知道操作需求事先不知道
生命周期符合SDLC 完全不同的生命周期
对性能要求高对性能要求宽松
事务驱动分析驱动
面向应用面向分析
一次操作数据量小一次操作数据量大
支持日常操作支持管理需求
W.H.Inmon还给数据仓库作出了如下定义:数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制订过程。面向主题、集成、稳定和随时间变化是数据仓库四个最主要的特征。
(1) 数据仓库是面向主题的
它是与传统数据库面向应用相对应的。主题是一个在较高层次将数据归类的标准,每一个主题基本对应一个宏观的分析领域。比如一个保险公司的数据仓库所组织的主题可能为:客户政策保险金索赔。而按应用来组织则可能是:汽车保险、生命保险、健康保险、伤亡保险。我们可以看出,基于主题组织的数据被划分为各自独立的领域,每个领域有自己的逻辑内涵而不相交叉。而基于应用的数据组织则完全不同,它的数据只是为处理具体应用而组织在一起的。应用是客观世界既定的,它对于数据内容的划分未必适用于分析所需。
(2) 数据仓库是集成的
操作型数据与适合DSS分析的数据之间差别甚大。因此数据在进入数据仓库之前,必然要经过加工与集成。这一步实际是数据仓库建设中最关键、最复杂的一步。首先,要统一原始数据中所有矛盾之处,如字段的同名异义、异名同义,单位不统一,字长不一致等等。并且对将原始数据结构作一个从面向应用到面向主题的大转变。
(3) 数据仓库是稳定的
它反映的是历史数据的内容,而不是处理联机数据。因而,数据经集成进入数据库后是极少或根本不更新的。
(4) 数据仓库是随时间变化的
首先,数据仓库内的数据时限要远远长于操作环境中的数据时限。前者一般在5-10年,而后者只有60-90天。数据仓库保存数据时限较长是为了适应DSS进行趋势分析的要求。其次,操作环境包含当前数据,即在存取一刹那是正确有效的数据。而数据仓库中的数据都是历史数据。最后,数据仓库数据的码键都包含时间项,从而标明该数据的历史时期。
3.分析工具─数据仓库系统的重要组成部分
有了数据就如同有了矿藏,而要从大量数据中获得决策所需的数据就如同开采矿藏一样,