数据挖掘课后习题资料
(完整版)数据挖掘概念课后习题答案
第1章
1.6定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚 类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功 能的例子。
(g)分位数—分位数图与分位数图的不同之处是什么?分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的 值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线(y=x)可画到图中,以增加图像的信息。落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值 的分布高。反之,对落在该线以下的点则低。
�松散耦合:数据挖掘系统不与数据库或数据仓库集成,除了使用被挖掘 的初始数据集的源数据和存储挖掘结果。这样,这种构架能得到数据库 和数据仓库提供的灵活、高效、和特征的优点。但是,在大量的数据集 中,由松散耦合得到高可测性和良好的性能是非常困难的,因为许多这 种系统是基于内存的。
《数据挖掘》练习题(第6章)
《数据挖掘》练习题(第6章)
⼀、填空题
1、关联规则挖掘的⽬的是。2
项集{的⽀持数为,⽀持度为。
3、在第2题的事务数据集中,如果将最⼩⽀持数定为3,则数据集中的频繁项集有。
4、在第2题的事务数据集中,规则
{⽜奶,尿布}→{啤酒}
的⽀持度为,置信度为。
,
5、满⾜最⼩⽀持度和最⼩信任度的关联规则称为。
6、给定⼀个事务数据库,关联规则挖掘间题就是通过⽤户指定的和
来寻找强关联规则的过程。
7、关联规则挖掘问题可以划分成和两个⼦问题。
8、可以降低产⽣频繁项集的计算复杂度两种⽅法为:
和。
9、k-候选集
C产⽣的⽅法有:、和。
k
10、Apriori算法有两个致命的性能瓶颈。它们分别是:
(1)
(2)
⼆、多项选择题
^
1、设有项⽬集
,X X是X的⼀个⼦集,则下列结论中成⽴的是( )
1
A、如果X如果频繁项⽬集,则
X也是频繁项⽬集;
1
B、如果
X如果频繁项⽬集,则X也是频繁项⽬集;
1
C、如果X如果⾮频繁项⽬集,则
X也是⾮频繁项⽬集;
1
C、如果
X如果⾮频繁项⽬集,则X也是⾮频繁项⽬集;
1
E、如果X如果频繁项⽬集,则
X可能是频繁项⽬集也可能是⾮频繁项⽬集。
1
2、设3-项集{}
a b c是频繁项⽬集,则下列1-项集和2-项集中,( )是频,,
繁项⽬集。
A、{},a b
B、{},b c
C、{},a c
D、{}a
E、{}b
3、设事务数据库D具有项集{}
→不是强关联规则时,
=,已知BC AD
,,,
I A B C D
则下列关联规则中,( )⼀定不是强关联规则。
A、B ACD
→E、AD BC
→
→D、ABC D
→B、CD AB
→C、C ABD
数据挖掘概念与技术原书第3版课后练习题含答案
数据挖掘概念与技术原书第3版课后练习题含答案前言
《数据挖掘概念与技术》(Data Mining: Concepts and Techniques)是一本经典的数据挖掘教材,已经推出了第3版。本文将为大家整理并提供第3版课后习题的答案,希望对大家学习数据挖掘有所帮助。
答案
第1章绪论
习题1.1
数据挖掘的基本步骤包括:
1.数据预处理
2.数据挖掘
3.模型评价
4.应用结果
习题1.2
数据挖掘的主要任务包括:
1.描述性任务
2.预测性任务
3.关联性任务
4.分类和聚类任务
第2章数据预处理
习题2.3
数据清理包括以下几个步骤:
1.缺失值处理
2.异常值检测处理
3.数据清洗
习题2.4
处理缺失值的方法包括:
1.删除缺失值
2.插补法
3.不处理缺失值
第3章数据挖掘
习题3.1
数据挖掘的主要算法包括:
1.决策树
2.神经网络
3.支持向量机
4.关联规则
5.聚类分析
习题3.6
K-Means算法的主要步骤包括:
1.首先随机选择k个点作为质心
2.将所有点分配到最近的质心中
3.重新计算每个簇的质心
4.重复2-3步,直到达到停止条件
第4章模型评价与改进
习题4.1
模型评价的方法包括:
1.混淆矩阵
2.精确率、召回率
3.F1值
4.ROC曲线
习题4.4
过拟合是指模型过于复杂,学习到了训练集的噪声和随机变化,导致泛化能力不足。对于过拟合的处理方法包括:
1.增加样本数
2.缩小模型规模
3.正则化
4.交叉验证
结语
以上是《数据挖掘概念与技术》第3版课后习题的答案,希望能够给大家的学习带来帮助。如果大家还有其他问题,可以在评论区留言,或者在相关论坛等平台提出。
数据挖掘概念与技术习题答案-第1章
数据挖掘概念与技术(原书第3版)
第一章课后习题及解答
1.9习题
1.1什么是数据挖掘?在你的回答中,强调以下问题:
(a)它是又一种广告宣传吗?
(b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?
(c)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事。
(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。
答:
狭义的数据挖掘是知识发现过程中的一个步骤,广义的数据挖掘通常用来表示整个知识发现过程,我们一般采用广义的观点:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、WEB、其他信息存储库或动态地流入系统的数据。
a.它不是一种广告宣传,它基于实际的需求,提供从数据中发现知识的工具。
b。数据挖掘不是从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用,它可以看做是信息技术的自然进化,是一些相关学科和应用领域的交汇点.
c。数据挖掘是数据库技术进化的结果,也是机器学习、统计学和模式识别领域技术进化的结果。
机器学习是一个快速成长的学科,这一领域中的监督学习、无监督学习、半监督学习和主动学习问题,与数据挖掘高度相关,数据挖掘和机器学习有许多相似之处,对于分类和聚类任务,机器学习研究通常关注模型的准确率。除准确率之外,数据挖掘研究非常强调挖掘方法在大型数据集上的有效性和可伸缩性,以及处理复杂数据类型的方法,开发新的非传统的方法.
数据挖掘习题题
数据挖掘复习题
单选题
1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题
A
A. 关联规则发现
B. 聚类
C. 分类
D. 自然语言处理
2. 以下两种描述分别对应哪两种对分类算法的评价标准
A
a警察抓小偷,描述警察抓的人中有多少个是小偷的标准;
b描述有多少比例的小偷给警察抓了的标准;
A. Precision, Recall
B. Recall, Precision
A. Precision, ROC D. Recall, ROC
3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务
C
A. 频繁模式挖掘
B. 分类和预测
C. 数据预处理
D. 数据流挖掘
4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离
B
A. 分类
B. 聚类
C. 关联分析
D. 隐马尔可夫链
5. 什么是KDD
A
A. 数据挖掘与知识发现
B. 领域知识发现
C. 文档知识发现
D. 动态知识发现
6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务
A
A. 探索性数据分析
B. 建模描述
C. 预测建模
D. 寻找模式和规则
7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务
B
A. 探索性数据分析
B. 建模描述
C. 预测建模
D. 寻找模式和规则
8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务
C
A. 根据内容检索
B. 建模描述
C. 预测建模
D. 寻找模式和规则
9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务A
数据挖掘习题四.doc
数据挖掘习题四
1 .数据仓库与数据集市的区别,数据仓库与数据挖掘的区别。
2.并简述数据挖掘的步骤。
3、什么是星型模式?它由哪些表组成?它的优势是什么?
4、元数据的定义是什么?元数据包括哪些内容?(20分)
5、在0 LAP中,如何使用概念分层?
6、什么是数据变换?数据变换涉及的内容有哪些?(20分)
1 .数据仓库与数据集市的区别,数据仓库与数据挖掘的区别。
2.并简述数据挖掘的步骤。
数据挖掘步骤如下:
1)数据清理(消除噪声或不一致数据)
2)数据集成(多种数据源可以组合在一起)
3)数据选择(从数据库中检索与分析任务相关的数据)
4)数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)
5)数据挖掘(基本步骤,使用智能方法提取数据模式)
6)模式评估
(根据某种兴趣度度量,识别表示知识的真正有趣的模
式;)
7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
3、什么是星型模式?它由哪些表组成?它的优势是什么?p87
4、元数据的定义是什么?元数据包括哪些内容?(20分)
元数据是关于数据的数据。在数据仓库中,元数据是定义仓库对象的数据。
元数据包括:
数据仓库结构的描述,包括仓库模式、视图、维、分层结构、导出数据的定义,以及数据集市的位置和内容。
操作元数据,包括数据血统(移植数据的历史和它所使用的变换序列)、数据流通(主动的、档案的或净化的)、管理信息(仓库使用统计量、错误报告和审计跟踪)。
汇总算法,包括度量和维定义算法,数据所处粒度、划分、主题领域、聚集、汇总、预定义的查询和报告。
由操作环境到数据仓库的映射,包括源数据库和它们的内容,网间连接程序描述,数据划分,数据提取、清理、转换规则和缺省值,数据刷新和净化规则,安全(用户授权和存取控制)。
数据挖掘概念与技术-第1章
数据挖掘概念与技术(原书第3版)
第一章课后习题及解答
1.9习题
1.1什么是数据挖掘?在你的回答中,强调以下问题:
(a)它是又一种广告宣传吗?
(b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?
(c)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事。
(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。
答:
狭义的数据挖掘是知识发现过程中的一个步骤,广义的数据挖掘通常用来表示整个知识发现过程,我们一般采用广义的观点:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、WEB、其他信息存储库或动态地流入系统的数据。
a.它不是一种广告宣传,它基于实际的需求,提供从数据中发现知识的工具。
b.数据挖掘不是从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用,它可以看做是信息技术的自然进化,是一些相关学科和应用领域的交汇点。
c. 数据挖掘是数据库技术进化的结果,也是机器学习、统计学和模式识别领域技术进化的结果。
机器学习是一个快速成长的学科,这一领域中的监督学习、无监督学习、半监督学习和主动学习问题,与数据挖掘高度相关,数据挖掘和机器学习有许多相似之处,对于分类和聚类任务,机器学习研究通常关注模型的准确率。除准确率之外,数据挖掘研究非常强调挖掘方法在大型数据集上的有效性和可伸缩性,以及处理复杂数据类型的方法,开发新的非传统的方法。
数据挖掘习题及解答-完美版
Data Mining Take Home Exam
学号: xxxx 姓名: xxx
(1)计算整个数据集的Gini指标值。
(2)计算属性性别的Gini指标值
(3)计算使用多路划分属性车型的Gini指标值
(4)计算使用多路划分属性衬衣尺码的Gini指标值
(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?
(3)
=26/160=0.1625
]*2=8/25+6/35=0.4914
(5)
比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。
2. (
(1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
(3)将每个顾客ID作为一个购物篮,重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。答:(1)由上表计数可得{e}的支持度为8/10=0.8;{b,d}的支持度为2/10=0.2;{b,d,e}的支持度为2/10=0.2。
(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。
(3)同理可得:{e}的支持度为4/5=0.8,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=0.8。
(4)c[{b,d}→{e}]=5/4=1.25,c[{e}→{b,d}]=4/5=0.8。
数据仓库与数据挖掘教程(第2版)陈文伟版课后答案
第一章数据仓库与数据挖掘概述
1.数据库与数据仓库的本质差别是什么?
答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。
数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。
6.说明OLTP与OLAP的主要区别。
答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。
8.元数据的定义是什么?
答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
9.元数据与数据字典的关系什么?
答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。
18.说明统计学与数据挖掘的不同。
答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。
数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。
19.说明数据仓库与数据挖掘的区别与联系。
答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据挖掘 练习
※:数据挖掘(练习)
1、(单选,4分)以下哪项不属于知识发现的过程?()
A、数据清理
B、数据挖掘
C、知识可视化表达
D、数据测试
答案:D
※:数据挖掘(练习)
2、(单选,4分)以下哪些不属于数据挖掘的内容?()
A、分类
B、聚类
C、离群点检测
D、递归分析
答案:D
※:数据挖掘(练习)
3、(单选,4分)以下哪个不是常见的属性类型?()
A、A.标称属性
B、数值属性
C、高维属性
D、序数属性
答案:C
※:数据挖掘(练习)
4、(单选,4分)以下哪个度量属于数据散度的描述?()
A、均值
B、中位数
C、标准差
D、众数
答案:C
※:数据挖掘(练习)
5、(单选,4分)以下哪个度量不属于数据中心趋势度描述?(D)
A、A.均值
B、中位数
C、众数
D、四分位数
答案:D
※:数据挖掘(练习)
6、(单选,4分)对数据进行数据清理、集成、变换、规约是数据挖掘哪个步骤的任务?()
A、频繁模式挖掘
B、分类和预测
C、数据预处理
D、噪声检测
答案:C
※:数据挖掘(练习)
7、(单选,4分)聚类分析是数据挖掘的一种重要技术,以下哪个算法不属于聚类算法?()
A、K-Means
B、DBSCAN
C、SVM
D、EM
答案:C
※:数据挖掘(练习)
8、(单选,4分)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?()
A、根据内容检索
B、建模描述
C、预测建模
D、寻找模式和规则
答案:C
※:数据挖掘(练习)
9、(单选,4分)当不知道数据所带标签时.可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()
A、分类
B、聚类
数据挖掘习题及解答-完美版
Data Mining Take Home Exam
学号: xxxx 姓名: xxx
(1)计算整个数据集的Gini指标值。
(2)计算属性性别的Gini指标值
(3)计算使用多路划分属性车型的Gini指标值
(4)计算使用多路划分属性衬衣尺码的Gini指标值
(5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么?
^2}*1/2]*2=0.48
(3)
—(8/8)^2-(0/8)^2}*8/20+{1—(1/8)^2—(7/8)^2}*8/20=26/160=0。1625
4/7)^2}*7/20+[{1—(2/4)^2—(2/4)^2}*4/20]*2=8/25+6/35=0。4914
(5)
比较上面各属性的Gini值大小可知,车型划分Gini值0。1625最小,即使用车型属性更好。
2。(
(1)将每个事务ID视为一个购物篮,计算项集{e},{b,d}和{b,d,e}的支持度。
(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度.
(3)将每个顾客ID作为一个购物篮,重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0). (4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。
答:(1)由上表计数可得{e}的支持度为8/10=0。8;{b,d}的支持度为2/10=0。2;{b,d,e}的支持度为2/10=0。2。
(2)c[{b,d}→{e}]=2/8=0.25; c[{e}→{b,d}]=8/2=4。
数据挖掘习题2
数据挖掘习题2
数据挖掘习题
1、数据库有5个事务。设min_sup=60%,min_conf=80%。
TID 购买的商品
T100 {M,O,N,K,E,Y}
T200 {D,O,N,K,E,Y}
T300 {M,A,K,E}
T400 {M,U,C,K,Y}
T500 {C,O,O,K,I,E} (a)分别使⽤Apriori和FP增长算法找出所有频繁项集。⽐较两种挖掘过程的效率。
(b)列举所有与下⾯的元规则匹配的强关联规则(给出⽀持度s和置信度c),其
中,X是代表顾客的变量,是
2、下表由雇员数据库的训练数据组成。数据已泛化。例如,age“31…35”表⽰年
龄在31~35之间。对于给定的⾏,count表⽰department,status,age和salary
在该⾏具有给定值的元组数。
department status age salary count
46K...50K 30 sales senior 31 (35)
26K...30K 40 sales junior 26 (30)
31K...35K 40 sales junior 31 (35)
systems junior 21…25 46K…50K 20
systems senior 31…35 66K…70K 5
systems junior 26…30 46K…50K 3
systems senior 41…45 66K…70K 3
marketing senior 36…40 46K…50K 10
marketing junior 31…35 41K…45K 4
数据挖掘原理与实践 蒋盛益 答案
数据挖掘原理与实践蒋盛益答案
习题参考答案第 1 章绪论
1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。
答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同, 可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是 Web 数据信息。
实际生活的例子:
①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。
③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。
1.2 给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?
答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。随着各个电子商务网站的建立,企业纷纷地从“产品导向”转向“客户导向”,如何在保持现有的客户同时吸引更多的客户、如何在客户群中发现潜在价值,一直都是电子商务企业重要任务。但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中挖掘潜在的价值。而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等,从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。
数据挖掘 习题及参考答案
(b)已知均值为 30,标准差为 12.94,则可将 35 规范化为: 35 - 30 = 0.386 ; 12.94
(c)使用小数定标规范化可将 35 规范化为: 35 = 0.35 ; 100
第 4 页 共 27 页
(b)对于数据平滑,其它方法有: (1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据; (2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合 之外的值视为离群点。
2.6 使用习题 2.5 给出的 age 数据,回答以下问题: (a) 使用 min-max 规范化,将 age 值 35 转换到[0.0,1.0]区间。 (b) 使用 z-score 规范化转换 age 值 35,其中,age 的标准偏差为 12.94 年。 (c) 使用小数定标规范化转换 age 值 35。 (d) 指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。
实际生活的例子:
①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所 开通的服务等,据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文 学家发现其他未知星体。
③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
数据挖掘第三版第八章课后习题答案
数据挖掘第三版第八章课后习题答
案(总2页)
--本页仅作为文档封面,使用时请直接删除即可--
--内页可以根据需求调整合适字体及大小--
(a )能确定项集A 是否频繁,并且能确定项集A 的支持度
(b )因为s 包含s ’,则项集s 的频数小于或者等于s ’的频数,所以项集s 的任意非空子集s ’的支持度至少与s 的支持度一样大。
设任务相关的数据D 是数据库事务的集合,|D|是D 的事务量,由定义得:||)
(_sup )(sup D s count port s port =.
设s ’是s 的非空子集,由定义得:
||)
'(_sup )'(sup D s count port s port =. 由频繁项集的所有非空子集一定也是频繁的可知:support(s ’) support(s) (d )因为d 中的频繁项集都是来自d 的所有分区之内的,所以在d 中频繁的项集至少在d 的一个分区中是频繁的。
(a )Apriori 算法 C1 C2 C3 C4 C5
项集 支持度计数 项集 支持度计数 项集 支持度计数 项集 支持度计数
项集 支持度
{M} 3 {M} 3 {M,O} 1 {M,K }
3 {O,K,E} 3
{O} 4 {O} 4 {M,E} 2 {O,K }
3
{N} 2 {K} 5 {M,K} 3 {O,E }
3
{K} 5 {E} 4 {M,Y} 2 {K,E }
4
{E} 4 {Y} 3 {O,E} 3 {K,Y }
3
{Y} 3 {O,K} 3
{D} 1 {O,Y} 2
{A} 1 {K,E} 4
数据挖掘概念与技术习题答案-第3章
数据挖掘概念与技术(原书第3版)
第三章课后习题及解答
3.7习题
3.1数据质量可以从多方面评估,包括准确性、完整性和一致性问题。对于以
上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。提出数据质量的两个其他尺度。
答:
数据的质量依赖于数据的应用。
准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场分析部门,这部分数据有80%是可以用的,就是质量比较好的数据,而对于需
要一家家拜访的销售而言,有错误地址的数据,质量就很差了。
一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的质量,但涉及多个数据库时,就会影响。
数据质量的另外三个尺度是时效性,可解释性,可信性。
3.2在现实世界的数据中,某些属性上缺失值得到元组是比较常见的。讨论处
理这一问题的方法。
答:对于有缺失值的元组,当前有6种处理的方法:
(1)忽略元组:当缺少类标号时通常这么做(假定挖掘任务涉及分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它的性能特别差。采用忽略元组,你不能使用该元组的剩余属性值。这些数据可能对手头的任务是有利的。
(2)人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通。
(3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“u nknown”或-)替换。如果缺失值都用“u nknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“u nknown”。因此,尽管该方法简单,但是并不十分可靠。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1 章数据仓库的概念与体系结构
1. 面向主题的,相对稳定的。
2. 技术元数据,业务元数据。
3. 联机分析处理OLAP。
4. 切片(Slice),钻取(Drill-down 和Roll-up 等)。
5. 基于关系数据库。
6. 数据抽取,数据存储与管理。
7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。
8. 可更新的,当前值的。
9. 接近实时。
10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主。
11. 答:
数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据仓库的特点包含以下几个方面:
(1)面向主题。操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各
自分离;而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。
(2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间
相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。
(3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。
数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。
(4)反映历史变化。操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而
数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。
12. 答:
(1)两层架构(Generic Two-Level Architecture)。
(2)独立型数据集市(Independent Data Mart)。
(3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。
(4 )逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data
Warehouse)。
13. 答:
数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方面。在数据抽取
方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web 技术紧密结合。按行业应用特征细化的数据仓库用户前端软件将成为产品作为
数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备。
14. 答:
(1)IBM 公司提供了一套基于可视化数据仓库的商业智能(BI)解决方案,包括:Visual Warehouse(VW)、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端
数据展现工具(如BO)和数据挖掘工具(如SAS)。其中,VW 是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server 支持“维”的定义和数据装载。Essbase/DB2 OLAP Server 不是ROLAP(Relational OLAP)服务器,而是一个(ROLAP 和MOLAP)混合的HOLAP 服务
器,在Essbase 完成数据装载后,数据存放在系统指定的DB2 UDB 数据库中。它的前端数
据展现工具可以选择Business Objects 的BO、Lotus 的Approach、Cognos 的Impromptu 或IBM 的Query Management Facility;多维分析工具支持Arbor Software 的Essbase 和IBM(与Arbor 联合开发)的DB2 OLAP 服务器;统计分析工具采用SAS 系统。
(2)Oracle 数据仓库解决方案主要包括Oracle Express 和Oracle Discoverer 两个部分。Oracle Express 由四个工具组成:Oracle Express Server 是一个MOLAP(多维OLAP)服务器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够访问多种关系数据库;Oracle Express Web Agent 通过CGI 或Web 插件支持基于Web 的动态多维数据展现;Oracle Express Objects 前端数据分析工具(目前仅支持Windows 平台)提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容Visual Basic 语法的语言,支持OCX 和OLE;Oracle Express Analyzer 是通用的、面向最终用户的报告和分析工具(目前仅支持Windows 平台)。Oracle Discoverer 即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。在Oracle 数据仓库解决方案的实施过程中,通常把汇总数据存储在Express 多维数据库中,而将详细数据存储在Oracle 关系数据库中,当需要详细数据时,Express Server 通过构造SQL 语句访问关系数据库。
(3)Microsoft 将OLAP 功能集成到SQL Server 数据库中,其解决方案包括BI 平台、
BI 终端工具、BI 门户和BI 应用四个部分,如图1.1。
①BI 平台是BI 解决方案的基础,包括ETL 平台SQL Server 2005 Integration
Service(SSIS)、数据仓库引擎SQL Server 2005 RDBMS 以及多维分析和数据挖掘引擎SQL Server 2005 Analysis Service、报表管理引擎SQL Server 2005 Reporting Service。
②BI 终端用户工具,用户通过终端用户工具和Analysis Service 中的OLAP 服务和数
据挖掘服务进行交互来使用多维数据集和数据挖掘模型,终端用户通常可使用预定义报表、交互式多维分析、即席查询、数据可视化、数据挖掘等多种方法。
③BI 门户提供了各种不同用户访问BI 信息的统一入口。BI 门户是一个数据的汇集地,