浅析关系数据库数据仓库与数据挖掘的关系

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅析关系数据库数据仓库与数据挖掘的关系
作者:马丽君
来源:《科技视界》 2015年第20期
马丽君
(白城师范学院计算机科学学院,吉林白城137000)
【摘要】关系数据库、数据仓库和数据挖掘是作为三种独立的信息技术出现的,是数据库
研究、开发和应用最活跃的分支之一,通过对三种技术的内在联系性和互补性分析,从而更好
的使用数据库技术处理各种信息需求,建立更加完善的数据库应用系统或新的决策系统。

【关键词】关系数据库;数据仓库;数据挖掘;关
0引言
关系数据库是20世纪70年代初提出来,经过数据库专家几十年的努力,理论和实践都取
得了显著成果,标志着数据库技术的日益成熟。

但它仍然难以实现对关系数据库中数据的分析,不能很好地支持决策,因此在80年代,产生了数据仓库的思想,90年代,数据仓库的基本原理、架构形式和使用原则都已确定。

主要技术包括对数据库中数据访问、网络、C/S结构和图
形界面,一些大公司已经开始构建数据仓库。

针对数据仓库中迅速增长的海量数据的收集、存放,用人力已经不能解决,那么数据仓库中有用的知识的提取就需要数据挖掘来实现。

数据挖
掘与统计学子领域“试探性数据分析”及人工智能子领域“知识发现”和机器学有关,是一门
综合性的技术学科。

了解关系数据库、数据仓库与数据挖掘三者之间的区别与联系,使之更好
的使用这3种技术,处理各种信息需求是非常必要和重要的。

1关系数据库、数据仓库和数据挖掘之间的关系
1.1关系数据库和数据仓库之间的联系与区别
关系数据库是面向事务的设计,数据仓库是一个面向主题的设计;关系数据库存储在线事
务数据,数据仓库通常存储历史数据,关系数据库的设计将尽量避免冗余,但数据仓库是倾向
于引入冗余;关系数据库设计用于捕获数据,数据仓库设计用于分析数据。

传统的关系数据库
面向以事务处理为主的系统应用,所以它无法满足决策支持系统的分析要求。

事务处理和分析
处理有非常不同的性质,他们有不同的需求数据。

1.2数据仓库与数据挖掘之间的联系与区别
数据挖掘是基于数据仓库和多维数据库中的数据,找到数据的潜在模式进行预测,它可以
对数据进行复杂处理。

大多数情况下,数据挖掘是让数据从数据仓库到数据挖掘数据库中。


数据仓库中直接得到进行数据挖掘的数据有许多优点,因为数据仓库中数据的清理和数据挖掘
中几乎是相同的,如果数据在数据仓库中已被清除,数据挖掘中不再被清除,并且数据不一致
也得到了解决。

数据仓库是数据挖掘的先期步骤,通过数据仓库的构建,提高了数据挖掘的效
率和能力,保证了数据挖掘中的数据的宽广性和完整性。

1.3关系数据库与数据挖掘之间的联系与区别
数据挖掘的数据源不一定是数据仓库。

也可以是一个关系数据库中的数据,但要事先进行
数据预处理,才能用于数据挖掘。

数据预处理是数据挖掘的关键步骤,并且是数据挖掘过程中
的主要工作部分。

因此,数据仓库和数据挖掘没有必然的联系,有些人简单地认为,数据仓库
是数据挖掘的准备,这种理解是不全面的,也可以使用关系数据库中的数据作为数据挖掘的数
据源。

2三种技术的应用
2.1应用价值
2.1.1关系数据库
关系数据库的主要价值体现在事务处理。

关系数据库已经渗透到各行各业的日常事务,该
事务管理离不开关系数据库的应用系统,这是对传统事务管理的一个重大突破,是社会甚至家
庭不可或缺的工具,它对社会的应用价值是100%。

2.1.2数据仓库
数据仓库的主要价值体现在为决策分析提供数据源。

一方面,在一个事务中,用户要求高
效的访问系统和数据库,操作时间应该短。

在一个决策分析中,决策问题的一些请求可能会导
致系统的操作,解决这一问题的决策分析需要遍历大多数数据库中的数据,这对一般日常事务
处理系统是困难的,所以操作数据和决策分析数据应该分开。

另一方面,决策数据需求问题。

在决策分析时,由于不同的应用系统中,实体、字段存在数据类型、名称和格式的不符,需要
在集成时进行转换,这个转换必须在决策之前完成;一些决策数据需要动态更新,需要经常进
行汇总和总结,这些需求用事务处理系统解决比较繁琐。

三是数据的操作模式问题。

决策分析
人员要以专业用户身份,使用各种工具以各种形式来操作数据,对数据操作的结果以商业智能
的方式表达出来。

事务处理系统不能满足这一要求,只有数据仓库系统能够满足数据挖掘技术
对数据环境的要求,所以使用数据仓库中的数据省去了对数据预处理的步骤。

2.1.3数据挖掘
面对日益激烈的市场竞争,客户对迅速应答各种业务问题的能力要求越来越高,对过量数
据的及时处理要求越来越高,带来的挑战一方面大规模、复杂数据系统让用户感觉漫无头绪,
无法开始;另一方面,这些大量数据背后隐藏很多有意义的有价值的决策信息。

如计算机界都
熟知的“啤酒与尿布”的故事,就是零售业巨头“沃尔玛”从大量销售数据中分析出来的规律:美国的男士在下班要去超市买婴儿尿布,同时他们还会买啤酒。

“沃尔玛”就把这两种“毫不
相干”的商品摆放在靠近的货架上,并且还摆放一些下洒小菜,使这些商品销量大增。

所以应
用数据挖掘从大量数据中发现规律,具有具体的指导意义。

2.2应用领域
2.2.1关系数据库
关系数据库应用领域非常广泛,如:证券行业、医院、银行、销售部门、公司或企业,以
及政府、国防工业,科学和技术发展领域等等,这些领域都需要使用数据库来存储数据。

例如:人事管理系统、工资管理系统,xxx部门信息管理系统,手机话费管理系统等,都需要关系数
据库作为后台提供数据源。

2.2.2数据仓库
数据仓库应用领域主要有两个方面:一是全局应用。

因为数据仓库获得来自多方面的数据,所以在把数据向数据仓库输入时,要进行转换、计算和综合等集成处理。

通过处理把来自不同
地方的数据源转换成统一的格式,以促进全局应用。

二是复杂系统。

信息处理的要求越来越复杂,除了数据处理操作,如添加、删除、修改、和统计汇总,高级管理层也希望对历史的和现
在的数据进行各种复杂性分析,以支持决策。

数据仓库中就是存储了旧的历史数据,方便复杂
分析、应用,为高层决策服务。

2.2.3数据挖掘
数据挖掘的应用领域主要表现在特定应用问题和应用背景。

数据挖掘技术已经应用于各行
各业,如电信,保险,交通,学校、银行、超级市场等。

例如:数据挖掘技术应用在大学。


校扩招,学生增加到几万人,但是学生的学习积极性不高,成绩不好,因此引入数据挖掘技术
找出影响学生学习积极性和学习成绩的原因,制定措施,提高教育和教学质量。

分析的数据源
是考试成绩和成绩之外的影响因素,分析的方法是采用关联规则、模型库、去“噪”处理、粗
糙集等进行数据挖掘,得出的结论是:传统的学习方法不能完全满足需要,改进教学方法和教
学模式,从而调动学生学习的积极性,提高教学质量。

3关系数据库、数据仓库与数据挖掘的融合
日常事务处理需要关系数据库,构建分析处理(下转第318页)(上接第59页)环境需要数据仓库,帮助决策者寻找数据之间的潜在的关联需要数据挖掘。

他们之间是相互联系又有区
别的,不能互相取代的,又需要相互融合。

数据仓库中的数据并不是最新的,专有的,而是来
源于其他关系数据库,它是建立在一个更全面和完善的信息应用的基础上,用于支持高层决策
分析的数据基地。

数据仓库是数据库新技术,到目前为止,数据仓库仍用关系数据库管理系统
管理数据。

数据挖掘是从大量存储在数据库、数据仓库或其他信息库中发现有趣知识的过程。

只有这三个数据库技术互相融合,取长补短,各尽其责,才能更好的为广大用户所使用,为社
会各个领域所应用。

【参考文献】
[1]华冠萍.数据仓库、数据挖掘及OLAP之两两关系[J].福建电脑,2007,8.
[2]牛承珍.马季兰.浅谈数据挖掘应用[J].山西科,2008.5.20.
[3]李军红,胡或.浅析数据仓库、联机分析处理和数据挖掘[J].科技信息,2007.
[责任编辑:曹明明]。

相关文档
最新文档