浅析数据仓库、联机分析处理与数据挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅析数据仓库、联机分析处理与数据挖掘
1 三种技术概述

1.1 什么是数据仓库

数据仓库通常是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。其中:

①主题:是指用户使用数据仓库进行决策时所关心的重点方面,如收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。

②集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。

③随时间变化:是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

④球言息本身相对稳定:是指一旦某个数据进入数据仓库以后,一般很少进行修改,更多的是对信息进行查询操作。

实际上,数据仓库更像一个过程,这个过程涉及数据的收集、整理和加工,生成决策所需要的信息,并且最终把这些信息提供给需要这些信息的使用者,供他们做出改善业务经营的正确决策。数据仓库的重点与要求就是能够准确、安全、可靠地从业务系统中取出数据,经过加工转换成有规律信息之后,供管理人员进行分析使用。

1.2 什么是联机分析处理

联机分析处理是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术,其目标是满足决策支持或多维环境特定的查询和报表需求。

当今的数据处理大致可以分成两大类:联机事务处理OLTP(On-line Transaction Processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP就是我们早已熟悉的传统关系数据库的主要应用,主要是基本的、日常的事务处理,最典型的例子莫过于银行交易系统、图朽管理系统等。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

1.3 什么是数据挖掘

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据巾提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,简单的说就是从大量数据中提取或挖掘知识。

数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非

预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。数据挖掘能挖掘出数据间潜在的模式、找出最有价值的信息和知识,从而指导商业行为或辅助科学研究。

2 数据仓库、联机分析处理与数据挖掘间的关系

2.1 数据仓库与联机分析处理的联系

数据仓库侧重千存储和管理面向决策主题的数据;而联机分析处理专注于数据的汇总,它从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。联机分析处理的一个主要特点是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系叫。因此,利用联机分析处理技术与数据仓库的结合可以较好地解决传统决策支持系统既需要处理大量数据又需要进行大量数值计算的问题。

2.2 数据仓库与数据挖掘的联系

数据挖掘以数据仓库和多维数据库的数据为基础,发现数据中的潜在模式和进行预测,它可以对数据进行多种复杂的处理。大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库中。从数据仓库中直接得到进行数据挖掘的数据有许多好处,因为数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时己经清理过,那很可能在做数据挖掘时就没必要在清理一次了,而且所有的数据不一致的问题都已经被你解决了。构造数据仓库可以看作数据挖掘的一个重要预处理步骤,它能提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性。

综上所述,数据仓库己经成为联机分析处理和数据挖掘日趋重要的平台。

2.3 联机分析处理与数据挖掘的区别

联机分析处理是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么,联机分析处理则更进一步告诉你下一步会怎么样以及如果我采取这样的措施又会怎么样,其分析过程在本质上是一个演绎推理的过程。联机分析处理属于一种验证型的分析,即在某个假设的前提下通过数据查询和分析来验证或否定这个假设。它侧重子与用户的交互、快速的响应速度及提供数据的多维视图,属于用户驱动,因此很大程度上受到用户水平的限制。

与联机分析处理不同,数据挖掘不是用于验证某个假定的模型的正确性,而是在数据库中自己寻找模型,注重自动发现隐藏在数据中的模式和有用信息,其本质是一个归纳的过程。数据挖掘属于数据驱动,使用数据挖掘工具用户不必提出确切的要求,系统能够根据数据本身的

规律性,自动地挖掘数据潜在的模式。

所以,从数据分析深度的角度来看,联机分析处理位于较浅的层次,而数据挖掘则处于较深的层次,二者的主要差别在于是否能自动地进行数据分析。

3 数据仓库、联机分析处理与数据挖掘的融合

数据仓库、联机分析处理和数据挖掘是作为三种独立的信息处理技术出现的。数据仓库用于数据的存储和组织,联机分析处理集中于数据的分析,数据挖掘则致力于知识的自动发现。他们都可以分别应用到信息系统的设计和实现中,以提高相应的处理能力。

由于这三种技术内在的联系性和互补性,可将三者结合起来构成一种新的决策支持系统构架:以数据仓库为依托,通过对企业历史数据的联机分析与挖掘,为企业提供全方位的决策支持。其中,底层的数据库中保存了大量的事务级细节数据,是整个系统的数据源;数据仓库自底层数据库收集大量事务级数据的同时,对数据进行集成、转换和综合,形成面向全局的数据视图。从而解决数据不统一的问题并形成整个系统的数据基础;联机分析处理执数据仓库中的集成数据出发,构建面向分析的多维数据模型,利用这竹吲翱争黼性的数掳翰澎甜莫型,用户可以便步环同的方法,从不同的角度对数据进行分析,实现了分析方法和数据结构的分离;数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现数据中的潜在模式,并以这些模式为基础自动做出预测;同时,数据挖掘反过来又可以为联机分析处理提供分析的模式。

相关文档
最新文档