《数据库技术与应用》第13章数据仓库与数据挖掘 习题答案

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

13.5 思考练习

1. 数据库与数据仓库的本质区别是什么?

解:

(1) 数据库用于事务处理,数据仓库用于决策分析;

(2) 数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;

(3) 数据仓库的数据时大量数据库的集成;

(4) 对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大;

(5) 数据库是细节的、在存取时准确的、可更新的、一次操作数据量少、面向应用且支持不按理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。

2. 数据挖掘的数据源是否必须是数据仓库的数据?

解:

(1) 数据仓库系统的数据可以作为数据挖掘的数据源;

(2) 数据挖掘的数据源不一定必须是数据仓库系统。

3. 数据挖掘的技术主要包含哪几种?

解:

数据挖掘的常用技术有聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等。

4. 数据挖掘的具体功能有哪些?

解:

(1)概念描述:定性与对比

对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述,这种描述就称为概念描述。获得概念描述的方法主要有两种:

●利用更为广义的属性,对所分析数据进行概要总结。

●对两类所分析的数据特点进行对比并对对比结果给出概要性总结。

(2)关联分析

关联分析就是从给定的数据集发现频繁出现的项集模式知识。关联分析广泛用于市场营销、事务分析等应用领域。

通常关联规则具有:形式,即“”;其中()和()均为属性-值(属性=值)形式。关联规则表示“数据库中的满足X中条件的记录也一定满足Y中的条件”

(3)分类与预测

分类就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一。分类模型(或函数)可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。

分类挖掘所获得得分类模型可以采用多种形式加以描述输出。其中主要得表示方法有:分类规则(IF-THEN)、决策树(decision trees)、数学公式和神经网络。

分类通常用于预测位置数据实例得归属类别(有限离散值)。但在一些情况下,需要预测某数值属性的值(连续数值),这样的分类就被称为预测。尽管预测既包括连续数值的预测,也包括有限离散值的分类;但一般还是使用预测来表示对连续数值的预测;而使用分类来表示对有限离散值的预测。

(4)聚类分析

聚类分析与分类预测方法明显不同之处在于,后者所学习获取分类预测模型所使用的数据是已知类别归属,属于有教师监督学习方法;而聚类分析所分析处理的数据均是无类别归属,类别归属标志在聚类分析处理的数据集中是不存在的。

聚类分析中,首先需要根据“各聚集内部数据对象间的相似度最大化,而各聚集对象间相似度最小化”的基本聚类分析原则,以及度量数据对象之间相似度的计算公式,将聚类分析的数据对象划分为若干组,因此一个组中数据对象间的相似度要比不同组数据对象间的相似度要大。每一个聚类分析所获得的组就可以视为是一个同类别归属的数据对象集合,更进一步从这些同类别数据集又可以通过分类学习相应的分类预测模型。此外通过反复不断地对所获得的聚类组进行聚类分析,还可获得初始数据集合的一个层次结构模型。

(5)异常检测

一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型。那些不符合大多数数据对象所构成的规律的数据对象就被称为异常数据。之前许多数据挖掘方法都在正式进行数据挖掘之前就将这些异常数据作为噪声或意外而将其排除在数据挖掘的分析处理范围之外。但在一些应用场合,如各种商业欺诈行为的自动检测,小概率事件的往往比经常发生的事件更有挖掘价值。对异常数据的分析处理通常就称为异常检测。

异常数据可以利用数理统计方法分析获得,即利用已知数据所获得的概率统计分布模型,或利用相似度计算所获得的相似数据对象的分布,分析确认异类数据。而偏离检测就是从数据已有或期望值中找出某些关键测度显著的变化。

(6)演化分析

数据演化分析就是对随时间变化的数据对象的变化规律和趋势进行建模描述,主要是指时序分析。

5. 数据挖掘与数据仓库的关系是什么?

解:

(1) 数据仓库为数据挖掘提供了更好的、更广泛的数据源。在数据仓库中集成和存储着来自各种信息源的大量长时间的数据,这些信息源本身就可能是一个规模庞大的数据库,使得人们可以进行数据长期趋势的分析,为决策者的长期决策行为提供了支持。

(2) 数据仓库为数据挖掘提供了新的支持平台。数据仓库的发展不仅为数据挖掘开辟了新的空间,也对数据挖掘技术提出了更高的要求。数据仓库对查询的强大支持使数据挖掘效率更高,挖掘过程可以做到实时交互,使决策者的思维保持连续,有可能挖掘出更深入、更有价值的知识。

(3) 数据仓库为更好地使用数据挖掘工具提供了方便。用户可以通过数据仓库服务器得到所需的数据,形成中间数据库,利用数据挖掘方法进行挖掘,获得知识。

(4) 数据挖掘为数据仓库提供了广泛的技术支持。数据挖掘的可视化技术、统计分析技术等都为数据仓库提供了强有力的技术支持。

数据挖掘和数据仓库技术要结合起来才能充分发挥潜力。

6. 常用的数据挖掘工具有哪些?

解:

常用的数据挖掘工具有SPSS,SAS,SQL SERVER 2005,WEKA,MA TLAB等。

7. 数据挖掘可以应用在哪些领域?

解:

随着人们对数据挖掘认识的深入,数据挖掘技术应用越来越广泛。目前数据挖掘应用在金融业和保险业较多,也扩展到了其他应用领域,如零售业、医疗保健、行政司法等社会部分以及科学和工程研究单位。例如在金融业,可以用数据挖掘分析市场的动向、预测公司的营运能力和股价趋势等。

相关文档
最新文档