数据挖掘概念与技术-课后题答案汇总

合集下载

(完整版)数据挖掘概念课后习题答案

(完整版)数据挖掘概念课后习题答案

(完整版)数据挖掘概念课后习题答案第 1 章1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使⽤你熟悉的现实⽣活的数据库,给出每种数据挖掘功能的例⼦。

特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。

例如,学⽣的特征可被提出,形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓,这些特征包括作为⼀种⾼的年级平均成绩(GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最⼤数量。

区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。

例如,具有⾼GPA 的学⽣的⼀般特性可被⽤来与具有低GPA 的⼀般特性⽐较。

最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓,就像具有⾼GPA 的学⽣的75%是四年级计算机科学专业的学⽣,⽽具有低GPA 的学⽣的65%不是。

关联是指发现关联规则,这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。

例如,⼀个数据挖掘系统可能发现的关联规则为:m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”)[s uppor t=12%,c on f i d e nc e=98%]其中,X 是⼀个表⽰学⽣的变量。

这个规则指出正在学习的学⽣,12%(⽀持度)主修计算机科学并且拥有⼀台。

个⼈计算机。

这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98%(置信度,或确定度)分类与预测不同,因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型(或,⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。

它们的功能)相似性是他们都是预测的⼯具:分类被⽤作预测⽬标数据的类的标签,⽽预测典型的应⽤是预测缺失的数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。

对象根据最⼤花蕾内部的相似性、最⼩化类之间的相似性的原则进⾏聚类或分组。

形成的每⼀簇可以被看作⼀个对象类。

(完整word版)数据挖掘_概念与技术(第三版)部分习题答案(word文档良心出品)

(完整word版)数据挖掘_概念与技术(第三版)部分习题答案(word文档良心出品)

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

(完整版)数据挖掘_概念与技术(第三版)部分习题答案

(完整版)数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘概念与技术(第三版)部分习题答案

数据挖掘概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘概念与技术习题答案-第3章

数据挖掘概念与技术习题答案-第3章

数据挖掘概念与技术(原书第3版)第三章课后习题及解答3.7习题3.1数据质量可以从多方面评估,包括准确性、完整性和一致性问题。

对于以上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。

提出数据质量的两个其他尺度。

答:数据的质量依赖于数据的应用。

准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场分析部门,这部分数据有80%是可以用的,就是质量比较好的数据,而对于需要一家家拜访的销售而言,有错误地址的数据,质量就很差了。

一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的质量,但涉及多个数据库时,就会影响。

数据质量的另外三个尺度是时效性,可解释性,可信性。

3.2在现实世界的数据中,某些属性上缺失值得到元组是比较常见的。

讨论处理这一问题的方法。

答:对于有缺失值的元组,当前有6种处理的方法:(1)忽略元组:当缺少类标号时通常这么做(假定挖掘任务涉及分类)。

除非元组有多个属性缺少值,否则该方法不是很有效。

当每个属性缺失值的百分比变化很大时,它的性能特别差。

采用忽略元组,你不能使用该元组的剩余属性值。

这些数据可能对手头的任务是有利的。

(2)人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通。

(3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“u nknown”或-)替换。

如果缺失值都用“u nknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“u nknown”。

因此,尽管该方法简单,但是并不十分可靠。

(4)使用属性的中心度量(如均值或中位数)填充缺失值:第2章讨论了中心趋势度量,它们指示数据分布的“中间”值。

对于正常的(对称的)数据分布,可以使用均值,而倾斜分布的数据则应使用中位数。

(5)使用与给定元组属同一类的所有样本的属性均值或中位数(6)使用最可能的值填充缺水值:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。

数据挖掘_概念与技术(第三版)部分习题答案

数据挖掘_概念与技术(第三版)部分习题答案

1.4数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Gradepointaversge)的信息,还有所修的课程的最大数量。

??区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA的学生的75%是四年级计算机科学专业的学生,而具有低GPA的学生的65%不是。

??关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X,“computingscience”)?owns(X,“personalcomputer”)[support=12%,confidence=98%]其中,X是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

??分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。

数据挖掘_概念与技术(第三版)部分习题答案

数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘_概念与技术(第2版)习题答案

数据挖掘_概念与技术(第2版)习题答案

数据挖掘——概念概念与技术DataMiningConcepts and Techniques习题解答23页2.3.453页2.3.479页3.6.9117页3.4152页1177页6.8.14207页3251页7285页1320页21.3假设你是BigUniversity的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。

该数据库包括如下信息:每个学生的姓名、地址和状态(例如本科生或研究生)、所修课程以及他们的GPA(平均积分点)。

描述你要选取的结构。

该结构的每个成分的作用是什么?答:该应用程序的数据挖掘的体系结构应包括以下主要组成部分:z数据库,数据仓库,万维网或其他信息库:这是一个或一组包含学生和课程信息数据库、数据仓库、电子表格或其他类型的信息库;z数据库或数据仓库服务器:根据用户数据挖掘请求,数据库或数据仓库服务器负责提取相关数据;z知识库:这是领域的知识,用于指导搜索或评估结果模式的兴趣度。

z数据挖掘引擎:这是数据挖掘系统的基本部分,理想情况下由一组功能模块组成,用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析和演变分析等任务。

z模式评估模块:该成分使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有兴趣的模式上。

z用户界面:该模块在用户和数据挖掘系统之间通信,允许用户与系统交互,说明挖掘查询或任务,提供信息以帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。

1.4 数据仓库和数据库有何不同?有哪些相似之处?p8答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.5 简述以下高级数据库系统和应用:对象-关系数据库、空间数据库、文本数据库、多媒体数据库、流数据和万维网。

数据挖掘概念与技术(第三版)部分习题答案.doc

数据挖掘概念与技术(第三版)部分习题答案.doc

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘概念与技术原书第3版(范明、孟小峰绎)第一章课后习题

数据挖掘概念与技术原书第3版(范明、孟小峰绎)第一章课后习题

数据挖掘概念与技术原书第3版(范明、孟小峰绎)第一章课后习题-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII1.9习题1.1 什么是数据挖掘?在你的回答中,强调以下问题:(a)它是又一种广告宣传吗?(b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。

你认为数据挖掘也是机器学习研究进化的结果吗你能基于该学科的发展历史提出这一观点吗针对统计学和模式识别领域,做相同的事。

(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。

答:简单地说,数据挖掘其实就是从大量的数据中发现有用的信息,它是从大量数据中挖掘有趣模式和知识的过程。

数据挖掘不是一种广告宣传,而是身处在信息时代数据如此庞大的今天,我们对由海量的数据转化为有用信息的迫切需要,所以它是信息技术自然进化的结果,而不是一种广告宣传。

数据挖掘也不是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用,它涉及到了很多领域的技术,比如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、神经网络、高性能计算、算法以及许多应用领域的大量技术。

数据挖掘起始于20世纪下半叶,是在当时多个学科发展的基础上发展起来的。

随着数据库技术的发展应用,数据的积累不断膨胀,导致简单的查询和统计已经无法满足企业的商业需求,所以急需一种新型的技术去获取有用的信息,当时计算机领域的人工智能也取得了巨大进展,进入了机器学习的阶段,人们就将两者结合起来,用数据库管理系统存储数据,用计算机分析数据,这两者的结合就促就以这一门新兴的学科,所以数据挖掘不是机器学习研究进化的结果,而是结合了机器学。

数据挖掘的步骤包括:(1)数据收集;(2)数据清洗、脱敏;(3)数据存储;(4)数据分析;(5)数据可视化。

1.2数据仓库与数据库有何不同他们有哪相似之处答:数据库是按照数据结构来组织、存储和管理数据的仓库,它是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度的特点、是与应用程序彼此独立的数据集合。

(完整版)数据挖掘_概念和技术[第三版]部分习题答案解析

(完整版)数据挖掘_概念和技术[第三版]部分习题答案解析

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型.相似:它们都为数据挖掘提供了源数据,都是数据的组合.1。

3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量.区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较.最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件.例如,一个数据挖掘系统可能发现的关联规则为:major(X,“computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度).分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘-概念与技术(第三版)部分习题答案

数据挖掘-概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘概念与技术_课后题答案汇总汇总

数据挖掘概念与技术_课后题答案汇总汇总

数据挖掘——概念概念与技术Data MiningConcepts and T echniques习题答案第1章引言1.1 什么是数据挖掘?在你的回答中,针对以下问题:1.2 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

解答:�特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade pointaversge)的信息,还有所修的课程的最大数量。

�区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高 GPA 的学生的一般特性可被用来与具有低 GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高 GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

�关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing s cience”) ⇒ owns(X, “personalcomputer”) [support=12%, confid ence=98%]其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

�分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。

�聚类分析的数据对象不考虑已知的类标号。

数据挖掘概念与技术习题答案-

数据挖掘概念与技术习题答案-

数据挖掘概念与技术(原书第3版)第三章课后习题及解答3.7习题3.1数据质量可以从多方面评估,包括准确性、完整性和一致性问题。

对于以上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。

提出数据质量的两个其他尺度。

答:数据的质量依赖于数据的应用。

准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场分析部门,这部分数据有80%是可以用的,就是质量比较好的数据,而对于需要一家家拜访的销售而言,有错误地址的数据,质量就很差了。

一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的质量,但涉及多个数据库时,就会影响。

数据质量的另外三个尺度是时效性,可解释性,可信性。

3.2在现实世界的数据中,某些属性上缺失值得到元组是比较常见的。

讨论处理这一问题的方法。

答:对于有缺失值的元组,当前有6种处理的方法:(1)忽略元组:当缺少类标号时通常这么做(假定挖掘任务涉及分类)。

除非元组有多个属性缺少值,否则该方法不是很有效。

当每个属性缺失值的百分比变化很大时,它的性能特别差。

采用忽略元组,你不能使用该元组的剩余属性值。

这些数据可能对手头的任务是有利的。

(2)人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通。

(3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“ unknown”或-)替换。

如果缺失值都用"unknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“unknown”。

因此,尽管该方法简单,但是并不十分可靠。

(4)使用属性的中心度量(如均值或中位数)填充缺失值:第2章讨论了中心趋势度量,它们指示数据分布的“中间”值。

对于正常的(对称的)数据分布,可以使用均值,而倾斜分布的数据则应使用中位数。

(5)使用与给定元组属同一类的所有样本的属性均值或中位数(6)使用最可能的值填充缺水值:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。

(完整版)数据挖掘_概念与技术(第三版)部分习题答案

(完整版)数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘概念与技术第三版部分习题答案汇总

数据挖掘概念与技术第三版部分习题答案汇总

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(:)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高的学生的一般特性可被用来与具有低的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高的学生的75%是四年级计算机科学专业的学生,而具有低的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:(X, “”) ⇒(X, “”)[12%, 98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。

对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。

数据挖掘-概念与技术(第三版)部分习题答案

数据挖掘-概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘概念与技术-课后题答案汇总数据挖掘——概念概念与技术Data MiningConcepts and Techniques习题解答Jiawei Han Micheline Kamber 著范明孟晓峰译目录第 1 章 引言1.1 什么是数据挖掘?在你的回答中,针对以下问题:1.2 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚 类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功 能的例子。

解答:☒ 特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征 可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特 征包括作为一种高的年级平均成绩(GPA :Grade point aversge) 的信息, 还有所修的课程的最大数量。

☒ 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般 特性进行比较。

例如,具有高 GPA 的学生的一般特性可被用来与具有 低 GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的 轮廓,就像具有高 GPA 的学生的 75%是四年级计算机科学专业的学生, 而具有低 G PA 的学生的 65%不是。

☒ 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征 值的 条 件。

例 如, 一 个数 据 挖掘 系 统可 能 发现 的 关联 规 则为 :major(X, “ c omputing science ”) owns(X, “personalcomputer ” ) [support=12%, confidence=98%]其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生 拥有一台个人电脑的概率是98%(置信度☒ 分类与预测不同,因为前者的作用是构☒聚类分析的数据对象不考虑已知的类标号。

对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。

形成的每一簇可以被看作一个对象类。

聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。

☒数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析1.3 1.9 列举并描述说明数据挖掘任务的五种原语。

解答:用于指定数据挖掘任务的五种原语是:☒任务相关数据:这种原语指明给定挖掘所处理的数据。

它包括指明数据库、数据库表、或数据仓库,其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或维、关于修复的数据排序和分组。

☒挖掘的数据类型:这种原语指明了所要执行的特定数据挖掘功能,如特征化、区分、关联、分类、聚类、或演化分析。

同样,用户的要求可能更特殊,并可能提供所发现的模式必须匹配的模版。

这些模版或超模式(也被称为超规则)能被用来指导发现过程。

☒背景知识:这种原语允许用户指定已有的关于挖掘领域的知识。

这样的知识能被用来指导知识发现过程,并且评估发现的模式。

关于数据中关系的概念分层和用户信念是背景知识的形式。

☒模式兴趣度度量:这种原语允许用户指定功能,用于从知识中分割不感兴趣的模式,并且被用来指导挖掘过程,也可评估发现的模式。

这样就允许用户限制在挖掘过程返回的不感兴趣的模式的数量,因为一种数据挖掘系统可能产生大量的模式。

兴趣度测量能被指定为简易性、确定性、适用性、和新颖性的特征。

☒发现模式的可视化:这种原语述及发现的模式应该被显示出来。

为了使数据挖掘能有效地将知识传给用户,数据挖掘系统应该能将发现的各种形式的模式展示出来,正如规则、表格、饼或条形图、决策树、立方体或其它视觉的表示。

1.4 1.13 描述以下数据挖掘系统与数据库或数据仓库集成方法的差别:不耦合、松散耦合、半紧耦合和紧密耦合。

你认为哪种方法最流行,为什么?解答: 数据挖掘系统和数据库或数据仓库系统的集成的层次的差别如下。

☒ 不耦合:数据挖掘系统用像平面文件这样的原始资料获得被挖掘的原始数据集,因为没有数据库系统或数据仓库系统的任何功能被作为处理过 程的一部分执行。

因此,这种构架是一种糟糕的设计。

☒ 松散耦合:数据挖掘系统不与数据库或数据仓库集成,除了使用被挖掘 的初始数据集的源数据和存储挖掘结果。

这样,这种构架能得到数据库 和数据仓库提供的灵活、高效、和特征的优点。

但是,在大量的数据集 中,由松散耦合得到高可测性和良好的性能是非常困难的,因为许多这 种系统是基于内存的。

☒半紧密耦合:一些数据挖掘原语,如聚合、分类、或统计功能的预计算☒ 紧密耦合:数据库或数据仓库系统被完全整合成数据挖掘系统的一部份,并且因此提供了优化的数据查询处理。

这样的话,数据挖掘子系统 被视为一个信息系统的功能组件。

这是一中高度期望的结构,因为它有 利于数据挖掘功能、高系统性能和集成信息处理环境的有效实现。

从以上提供的体系结构的描述看,紧密耦合是最优的,没有值得顾虑的技术 和执行问题。

但紧密耦合系统所需的大量技术基础结构仍然在发展变化,其实现 并非易事。

因此,目前最流行的体系结构仍是半紧密耦合,因为它是松散耦合和 紧密耦合的折中。

1.5 1.14 描述关于数据挖掘方法和用户交互问题的三个数据挖掘挑战。

)第 2 章 数据预处理2.1 2.2 假设给定的数据集的值已经分组为区间。

区间和对应的频率如下。

年龄 频率1~5 2005~15 45015~20 30020~50 150050~80 70080~110 44计算数据的近似中位数值。

解答: 先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597∵ 200+450+300=950<1597<2450=950+1500;∴ 20~50 对应中位数区间。

我们有:L 1=20,N =3197,(∑freq ) l =950,freq med ian =1500,width =30,使用公式(2: N / 2(freql3197 / 2 950median = L 1 + width = 20 + ⋅ 30 = 32.97freq median 1500∴ median =32.97 岁。

2.2 2.4 假定用于分析的数据包含属性 age 。

数据元组的 age 值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30, 33,33,35,35,35,35,36,40,45,46,52,70。

(a) 该数据的均值是什么?中位数是什么?(b )该数据的众数是什么?讨论数据的峰(c) 数据的中列数是什么?(d) 你能(粗略地)找出数据的第一个四分位数(Q 1)和第三个四分位数(Q 3)N吗?(e) 给出数据的五数概括。

(f) 画出数据的盒图。

(g) 分位数—分位数图与分位数图的不同之处是什么? 解答:(a) 该数据的均值是什么?中位数是什么?1N 均值是: x = x i i =1个,即 x 14=25=Q 2。

= 809 / 27 = 29.96 E 30 (公式 2.1 )。

中位数应是第 14(b) 该数据的众数是什么?讨论数据的峰(即双峰、三。

这个数集的众数有两个:25 和 35,发生在同样最高的频率处,因此是双峰众数。

(c) 数据的中列数是什么? 数据的中列数是最大术和最小是的均值。

即:midrange =(70+13)/2=41.5。

(d) 你能(粗略地)找出数据的第一个四分位数(Q 1)和第三个四分位数(Q 3) 吗? 数据集的第一个四分位数应发生在 25%处,即在(N+1)/4=7 处。

所以:Q 1=20。

而第三个四分位数应发生在 75%处,即在 3×(N+1)/4=21 处。

所以:Q 3=35(e) 给出数据的五数概括。

一个数据集的分布的 5 数概括由最小值、第一个四分位数、中位数、第三个 四分位数、和最大值构成。

它给出了分布形状良好的汇总,并且这些数据是:13、 20、25、35、70。

(f) 画出数据的盒图。

略。

(g) 分位数—分位数图与分位数图的不同之处是什么? 分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。

这样,他可以展示所有数的分位数信息,而为独立变量测得的 值(纵轴)相对于它们的分位数(横轴)被描绘出来。

但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。

两个坐标轴显示它们的测量值相应分布的值域,且点按照 两种分布分位数值展示。

一条线(y=x )可画到图中,以增加图像的信息。

落在 该线以上的点表示在 y 轴上显示的值的分布比 x 轴的相应的等同分位数对应的值 的分布高。

反之,对落在该线以下的点则低。

2.3 2.7 使用习题 2.4 给出的 a ge 数据回答下列问题:(a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为 3。

解释你的步骤。

评述对于给定的数据,该技术的效果。

(b) 如何确定数据中的离群点?(c) 对于数据光滑,还有哪些其他方法?解答:(a) 使用分箱均值光滑对以上数据进行光滑,箱的深度为 3。

解释你的步骤。

评述对于给定的数据,该技术的效果。

用箱深度为 3 的分箱均值光滑对以上数据进行光滑需要以下步骤:☒步骤 1:对数据(因为数据已被排序,所以此时不需要该)☒ 步骤 2:将数据划分到大小为 3 的等频箱中。

箱 1:13,15,16 箱 2:16,19,20 箱 3:20,21,22 箱 4:22,25,25 箱 5:25,25,30 箱 6:33,33,35 箱 7:35,35,35 箱 8:36,40,45箱 9:46,52,70☒ 步骤 3:计算每个等频箱的算数均值。

☒ 步骤 4:用各箱计算出的算数均值替换每箱中的每个值。

箱 1:44/3,44/3 ,44/3 箱 2:55/3 ,55/3,55/3 箱 3:21,21,21箱 4:24,24,24 箱 5:80/3,80/3,80/3 箱 6:101/3,101/3 ,101/3 箱 7:35,35,35 箱 8:121/3,121/3 ,121/3 箱 9:56,56,56 (b) 如何确定数据中的离群点? 聚类的方法可用来将相外的值可以被视为离群点。

作为选择,一种人机结合的检测可被采用,而计算机 用一种事先决定的数据分布来区分可能的离群点。

这些可能的离群点能被用人工 轻松的检验,而不必检查整个数据集。

(c) 对于数据光滑,还有哪些其他方法?A A A其它可用来数据光滑的方法包括别的分箱光滑方法,如中位数光滑和箱边界 光滑。

相关文档
最新文档