数据挖掘复习题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章
1.数据挖掘的定义?
从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?
关系数据库
数据仓库
事务数据库
高级数据
3.数据挖掘的常用方法?
聚类分析
决策树
人工神经网络
粗糙集
关联规则挖掘
统计分析
4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?
5.数据挖掘与数据仓库的关系?(联系和区别)
联系:
数据仓库为数据挖掘提供了更好的、更广泛的数据源;
数据仓库为数据挖掘提供了新的支持平台;
数据仓库为更好地使用数据挖掘工具提供了方便;
数据挖掘为数据仓库提供了更好的决策支持;
数据挖掘对数据仓库的数据组织提出了更高的要求;
数据挖掘为数据仓库提供了广泛的技术支持。
区别:
数据仓库是存数据,数据挖掘是用数据。
第二章
1.数据仓库的定义
数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策制定过程
2.数据仓库数据的四大基本特征:
面向主题的
集成的
不可更新的
随时间变化的
3.数据仓库体系结构有3个独立的数据层次:
信息获取层、信息存储层、信息传递层
4.粒度的定义?它对数据仓库有什么影响?
(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多;
(2) 影响存放在数据仓库中的数据量大小;
影响数据仓库所能回答查询问题的细节程度。
5.在数据仓库中,数据按照粒度从小到大可分为死哥级别:
早期细节级、当前细节级、轻度细节级和高度细节级。
6.数据分割的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项。
7.数据仓库设计中,一般存在着三级数据模型:概念数据模型、逻辑数据模型、物理数据模型
8.数据仓库涉及步骤
概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库的生成、数据仓库的使用和维护
9.数据装入时,并不是一次就将准备装入的数据全部装入数据仓库,而是按照逻辑模型设计中所确定和分析的主题域,先装入并生成某一主题域。
10.建立数据仓库的步骤并不是一成不变的,但最终应该满足用户的分析需求。
第三章
1.联机事务处理与联机分析处理的区别?
联机事务处理(On-Line Transaction Processing,OLTP) 作为数据管理手段,主要用于事务处理,但它对分析处理一直不能令人满意。
联机分析处理(On-Line Analytical Processing,OLAP) 是决策支持系统的有机组成部分,利用存储在数据仓库中的数据完成各种分析操作,并以直观易懂的形式将分析结果返回给决策分析人员。
2.OLAP的主要特征
快速性、可分析性、多维性、信息性。
3. 钻取Drill/Roll up , Drill down
改变维的层次,变换分析的粒度。
分向上钻取和向下钻取。
向上钻取:在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数。
向下钻取:从汇总数据深入到细节数据进行观察或增加新维。
4.ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多为数据结构组织的OLAP实现。
5.OLAP根据其数据存储格式可分为三类:
关系OLAP、多维OLAP、混合OLAP
6.雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余
的数据。
7.OLAP的衡量标准
(1)透明性准则
OLAP在体系结构中的位置和数据源对用户是透明的。
(2)动态的稀疏矩阵处理准则
对任意给定的稀疏矩阵,存在且仅存在一个最优的物理视图;
(3)维的等同性准则
每一数据维在数据结构和操作能力上都是等同的。
第四章
1.数据预处理的方法
数据清洗、数据集成、数据变换、数据归约等。
2.分箱方法
统一权重、统一区间、最小熵、用户自定义区间
3.数据平滑处理方法
按平均值、按边界值、按中值
4.数据规范化的定义?规范化的常用方法有哪些?
(1)将数据按比例缩放,使之落入一个特定的区域,如[0,1],称为规范化/标准化。
(2)常用方法:最小-最大规范化、零-均值规范化、小数定标规范化。
5.数据规约
从大数据集中得到其归约的表示——小数据集
归约的目的是减少原始数据量
可以再小数据集上得到与原始数据相同的挖掘结果
第五章
1.关联规则挖掘的任务?
找到事务数据库D中支持度和置信度分别满足用户指定的最小支持度min_sup和最小置信度min_con的规则
2.关联规则挖掘问题分哪两个步骤?
找出D中所有的频繁项集;
从频繁项集中产生关联规则
3. Apriori性质:
频繁项集的所有非空子集也都必须是频繁的;
这是频繁项集的先验知识;
可以减少候选频繁项集的数量
4.负边界
负边界中的项集是非频繁的,但每个项集的所有子集都是频繁的
第六章
1.决策树的基本概念
适用于离散值属性、连续值属性;采用自顶向下的递归方式产生一个类似于流程图的树结构;再根节点和内部节点上选择合适的描述属性,并且根据该属性的不同取值向下建立分枝。
2.决策树的优点
进行分类器设计时,决策时分类方法所需时间相对较少;决策树的分类模型是树状结构,简单直观,比较符合人类的理解方式;可以将决策树中到达每个叶节点的路径转换为IF-THEN形式的分类规则,这种形式更有利于理解。
3.决策树剪枝
决策树剪枝过程试图检测和去掉多余的分支,以提高未知类标号的数据进行分类时的准确性。