数据挖掘复习题

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

第一章

1.数据挖掘的定义？

从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

2.数据挖掘的源是否必须是数据仓库的数据？可以有哪些来源？

关系数据库

数据仓库

事务数据库

高级数据

3.数据挖掘的常用方法？

聚类分析

决策树

人工神经网络

粗糙集

关联规则挖掘

统计分析

4.数据挖掘的过程包括哪些步骤，每一步具体包括哪些内容？

5.数据挖掘与数据仓库的关系？（联系和区别）

联系：

数据仓库为数据挖掘提供了更好的、更广泛的数据源；

数据仓库为数据挖掘提供了新的支持平台；

数据仓库为更好地使用数据挖掘工具提供了方便；

数据挖掘为数据仓库提供了更好的决策支持；

数据挖掘对数据仓库的数据组织提出了更高的要求；

数据挖掘为数据仓库提供了广泛的技术支持。

区别：

数据仓库是存数据，数据挖掘是用数据。

第二章

1.数据仓库的定义

数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合，支持管理部门的决策制定过程

2.数据仓库数据的四大基本特征：

面向主题的

集成的

不可更新的

随时间变化的

3.数据仓库体系结构有3个独立的数据层次：

信息获取层、信息存储层、信息传递层

4.粒度的定义？它对数据仓库有什么影响？

（1）是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度越小，细节程度越高，综合程度越低，回答查询的种类就越多；

(2) 影响存放在数据仓库中的数据量大小；

影响数据仓库所能回答查询问题的细节程度。

5.在数据仓库中，数据按照粒度从小到大可分为死哥级别：

早期细节级、当前细节级、轻度细节级和高度细节级。

6.数据分割的标准：可按日期、地域、业务领域、或按多个分割标准的组合，但一般包括日期项。

7.数据仓库设计中，一般存在着三级数据模型：概念数据模型、逻辑数据模型、物理数据模型

8.数据仓库涉及步骤

概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库的生成、数据仓库的使用和维护

9.数据装入时，并不是一次就将准备装入的数据全部装入数据仓库，而是按照逻辑模型设计中所确定和分析的主题域，先装入并生成某一主题域。

10.建立数据仓库的步骤并不是一成不变的，但最终应该满足用户的分析需求。

第三章

1.联机事务处理与联机分析处理的区别？

联机事务处理(On-Line Transaction Processing，OLTP) 作为数据管理手段，主要用于事务处理，但它对分析处理一直不能令人满意。

联机分析处理(On-Line Analytical Processing，OLAP) 是决策支持系统的有机组成部分，利用存储在数据仓库中的数据完成各种分析操作，并以直观易懂的形式将分析结果返回给决策分析人员。

2．OLAP的主要特征

快速性、可分析性、多维性、信息性。

3. 钻取Drill/Roll up , Drill down

改变维的层次，变换分析的粒度。

分向上钻取和向下钻取。

向上钻取：在某一维上将低层次的细节数据概括到高层次的汇总数据，或者减少维数。

向下钻取：从汇总数据深入到细节数据进行观察或增加新维。

4.ROLAP是基于关系数据库的OLAP实现，而MOLAP是基于多为数据结构组织的OLAP实现。

5.OLAP根据其数据存储格式可分为三类：

关系OLAP、多维OLAP、混合OLAP

6．雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余

的数据。

7.OLAP的衡量标准

（1）透明性准则

OLAP在体系结构中的位置和数据源对用户是透明的。

（2）动态的稀疏矩阵处理准则

对任意给定的稀疏矩阵，存在且仅存在一个最优的物理视图；

（3）维的等同性准则

每一数据维在数据结构和操作能力上都是等同的。

第四章

1.数据预处理的方法

数据清洗、数据集成、数据变换、数据归约等。

2．分箱方法

统一权重、统一区间、最小熵、用户自定义区间

3.数据平滑处理方法

按平均值、按边界值、按中值

4．数据规范化的定义？规范化的常用方法有哪些？

（1）将数据按比例缩放，使之落入一个特定的区域，如［0,1］，称为规范化/标准化。

（2）常用方法：最小-最大规范化、零-均值规范化、小数定标规范化。

5．数据规约

从大数据集中得到其归约的表示——小数据集

归约的目的是减少原始数据量

可以再小数据集上得到与原始数据相同的挖掘结果

第五章

1.关联规则挖掘的任务？

找到事务数据库D中支持度和置信度分别满足用户指定的最小支持度min_sup和最小置信度min_con的规则

2.关联规则挖掘问题分哪两个步骤？

找出D中所有的频繁项集；

从频繁项集中产生关联规则

3. Apriori性质：

频繁项集的所有非空子集也都必须是频繁的;

这是频繁项集的先验知识;

可以减少候选频繁项集的数量

4.负边界

负边界中的项集是非频繁的，但每个项集的所有子集都是频繁的

第六章

1.决策树的基本概念

适用于离散值属性、连续值属性；采用自顶向下的递归方式产生一个类似于流程图的树结构；再根节点和内部节点上选择合适的描述属性，并且根据该属性的不同取值向下建立分枝。

2.决策树的优点

进行分类器设计时，决策时分类方法所需时间相对较少；决策树的分类模型是树状结构，简单直观，比较符合人类的理解方式；可以将决策树中到达每个叶节点的路径转换为IF-THEN形式的分类规则，这种形式更有利于理解。

3.决策树剪枝

决策树剪枝过程试图检测和去掉多余的分支，以提高未知类标号的数据进行分类时的准确性。