(完整word版)数据挖掘概念与技术原书第3版(范明、孟小峰绎)第一章课后习题

合集下载

数据挖掘_概念与技术(第三版)部分习题答案

1.4数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。

它用表组织数据，采用ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

1.3定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答：特征化是一个目标类数据的一般特性或特性的汇总。

例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Gradepointaversge)的信息，还有所修的课程的最大数量。

??区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA的学生的75%是四年级计算机科学专业的学生，而具有低GPA的学生的65%不是。

??关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如，一个数据挖掘系统可能发现的关联规则为：major(X,“computingscience”)?owns(X,“personalcomputer”)[support=12%,confidence=98%]其中，X是一个表示学生的变量。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

??分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。

数据挖掘概念与技术_课后题答案

数据挖掘概念与技术_课后题答案数据挖掘⼀⼀概念概念与技术Data MiningConcepts andTechniques习题答案第1章引⾔1.1什么是数据挖掘？在你的回答中，针对以下问题：1.2 1.6定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使⽤你熟悉的现实⽣活的数据库，给岀每种数据挖掘功能的例⼦。

解答：特征化是⼀个⽬标类数据的⼀般特性或特性的汇总。

例如，学⽣的特征可被提岀，形成所有⼤学的计算机科学专业⼀年级学⽣的轮廓，这些特征包括作为⼀种⾼的年级平均成绩（GPA: Grade point aversge）的信息，还有所修的课程的最⼤数量。

区分是将⽬标类数据对象的⼀般特性与⼀个或多个对⽐类对象的⼀般特性进⾏⽐较。

例如，具有⾼GPA的学⽣的⼀般特性可被⽤来与具有低GPA的⼀般特性⽐较。

最终的描述可能是学⽣的⼀个⼀般可⽐较的轮廓，就像具有⾼GPA的学⽣的75%是四年级计算机科学专业的学⽣，⽽具有低GPA的学⽣的65%不是。

关联是指发现关联规则，这些规则表⽰⼀起频繁发⽣在给定数据集的特征值的条件。

例如，⼀个数据挖掘系统可能发现的关联规则为：major（X, Computi ng scie nee” S own s（X, personalcomputer ” [support=12%, confid en ce=98%]其中，X是⼀个表⽰学⽣的变量。

这个规则指出正在学习的学⽣，12% （⽀持度）主修计算机科学并且拥有⼀台个⼈计算机。

这个组⼀个学⽣拥有⼀台个⼈电脑的概率是98% （置信度，或确定度）。

分类与预测不同，因为前者的作⽤是构造⼀系列能描述和区分数据类型或概念的模型（或功能），⽽后者是建⽴⼀个模型去预测缺失的或⽆效的、并且通常是数字的数据值。

它们的相似性是他们都是预测的⼯具：分类被⽤作预测⽬标数据的类的标签，⽽预测典型的应⽤是预测缺失的数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。

数据挖掘概念与技术原书第3版课后练习题含答案

数据挖掘概念与技术原书第3版课后练习题含答案前言《数据挖掘概念与技术》（Data Mining: Concepts and Techniques）是一本经典的数据挖掘教材，已经推出了第3版。

本文将为大家整理并提供第3版课后习题的答案，希望对大家学习数据挖掘有所帮助。

答案第1章绪论习题1.1数据挖掘的基本步骤包括：1.数据预处理2.数据挖掘3.模型评价4.应用结果习题1.2数据挖掘的主要任务包括：1.描述性任务2.预测性任务3.关联性任务4.分类和聚类任务第2章数据预处理习题2.3数据清理包括以下几个步骤：1.缺失值处理2.异常值检测处理3.数据清洗习题2.4处理缺失值的方法包括：1.删除缺失值2.插补法3.不处理缺失值第3章数据挖掘习题3.1数据挖掘的主要算法包括：1.决策树2.神经网络3.支持向量机4.关联规则5.聚类分析习题3.6K-Means算法的主要步骤包括：1.首先随机选择k个点作为质心2.将所有点分配到最近的质心中3.重新计算每个簇的质心4.重复2-3步，直到达到停止条件第4章模型评价与改进习题4.1模型评价的方法包括：1.混淆矩阵2.精确率、召回率3.F1值4.ROC曲线习题4.4过拟合是指模型过于复杂，学习到了训练集的噪声和随机变化，导致泛化能力不足。

对于过拟合的处理方法包括：1.增加样本数2.缩小模型规模3.正则化4.交叉验证结语以上是《数据挖掘概念与技术》第3版课后习题的答案，希望能够给大家的学习带来帮助。

如果大家还有其他问题，可以在评论区留言，或者在相关论坛等平台提出。

数据挖掘概念与技术习题答案-第1章

数据挖掘概念与技术（原书第3版）第一章课后习题及解答1.9习题1.1什么是数据挖掘？在你的回答中，强调以下问题：(a）它是又一种广告宣传吗？（b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出了一种观点，说数据挖掘是数据库技术进化的结果。

你认为数据挖掘也是机器学习研究进化的结果吗？你能基于该学科的发展历史提出这一观点吗？针对统计学和模式识别领域，做相同的事。

(d)当把数据挖掘看做知识发现过程时，描述数据挖掘所涉及的步骤。

答：狭义的数据挖掘是知识发现过程中的一个步骤,广义的数据挖掘通常用来表示整个知识发现过程,我们一般采用广义的观点:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

数据源包括数据库、数据仓库、WEB、其他信息存储库或动态地流入系统的数据。

a.它不是一种广告宣传，它基于实际的需求，提供从数据中发现知识的工具。

b。

数据挖掘不是从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用，它可以看做是信息技术的自然进化，是一些相关学科和应用领域的交汇点.c。

数据挖掘是数据库技术进化的结果，也是机器学习、统计学和模式识别领域技术进化的结果。

机器学习是一个快速成长的学科,这一领域中的监督学习、无监督学习、半监督学习和主动学习问题，与数据挖掘高度相关，数据挖掘和机器学习有许多相似之处,对于分类和聚类任务，机器学习研究通常关注模型的准确率。

除准确率之外，数据挖掘研究非常强调挖掘方法在大型数据集上的有效性和可伸缩性，以及处理复杂数据类型的方法，开发新的非传统的方法.统计学研究数据的收集、分析、解释和表示。

数据挖掘和统计学具有天然联系。

（1）统计模型是一组数学函数，它们利用随机变量及其概率分布刻画目标类对象的行为，可以是数据挖掘的结果，也可以是数据挖掘任务的基础。

（2)统计学研究开发一些使用数据和统计模型进行预测和预报的工具，描述统计可以帮助理解数据；推理统计学用某种方式对数据建模，可以解释观测中的随机性和确定性，并用来提取关于所考察的过程中或总体的结论.（3）统计假设检验使用实验数据进行统计判决,可以用来验证数据挖掘结果。

数据挖掘_概念与技术(第三版)部分习题答案

它用表组织数据，采用ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

1.3定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答：特征化是一个目标类数据的一般特性或特性的汇总。

??区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA的学生的75%是四年级计算机科学专业的学生，而具有低GPA的学生的65%不是。

??关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如，一个数据挖掘系统可能发现的关联规则为：major(X,“computingscience”)?owns(X,“personalcomputer”)[support=12%,confidence=98%]其中，X是一个表示学生的变量。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

??分类与预测??聚类分析层结构，把类似的事件组织在一起。

??80~11044―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。

(完整word版)数据挖掘_概念与技术(第三版)部分习题答案(word文档良心出品)

1.4 数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。

它用表组织数据，采用ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

1.3 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答：特征化是一个目标类数据的一般特性或特性的汇总。

例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge)的信息，还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。

关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中，X 是一个表示学生的变量。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘概念与技术_课后题答案汇总汇总

数据挖掘——概念概念与技术Data MiningConcepts and T echniques习题答案第1章引言1.1 什么是数据挖掘？在你的回答中，针对以下问题：1.2 1.6 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

解答：�特征化是一个目标类数据的一般特性或特性的汇总。

例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade pointaversge)的信息，还有所修的课程的最大数量。

�区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高 GPA 的学生的一般特性可被用来与具有低 GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高 GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。

�关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing s cience”) ⇒ owns(X, “personalcomputer”) [support=12%, confid ence=98%]其中，X 是一个表示学生的变量。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

�分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。

�聚类分析的数据对象不考虑已知的类标号。

数据挖掘_概念与技术(第三版)部分习题答案

它用表组织数据，采用ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

1.3定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答：特征化是一个目标类数据的一般特性或特性的汇总。

??区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA的学生的75%是四年级计算机科学专业的学生，而具有低GPA的学生的65%不是。

??关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如，一个数据挖掘系统可能发现的关联规则为：major(X,“computingscience”)?owns(X,“personalcomputer”)[support=12%,confidence=98%]其中，X是一个表示学生的变量。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。

数据挖掘_概念与技术(第三版)部分习题答案

它用表组织数据，采用ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

1.3定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答：特征化是一个目标类数据的一般特性或特性的汇总。

??区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA的学生的75%是四年级计算机科学专业的学生，而具有低GPA的学生的65%不是。

??关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如，一个数据挖掘系统可能发现的关联规则为：major(X,“computingscience”)?owns(X,“personalcomputer”)[support=12%,confidence=98%]其中，X是一个表示学生的变量。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。

数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据堆栈战数据库有何分歧？有哪些相似之处？之阳早格格创做问：辨别：数据堆栈是里背中心的，集成的，没有简单变动且随时间变更的数据集中，用去支援管制人员的计划，数据库由一组里里相闭的数据战一组管制战存与数据的硬件步调组成，是里背支配型的数据库，是组成数据堆栈的源数据.它用表构制数据，采与ER数据模型.相似：它们皆为数据掘掘提供了源数据，皆是数据的拉拢.1.3定义下列数据掘掘功能：个性化、区别、闭联战相闭分解、预测散类战演变分解.使用您认识的现真死计的数据库，给出每种数据掘掘功能的例子.问：个性化是一个目标类数据的普遍个性或者个性的汇总.比圆，教死的个性可被提出，产死所有大教的估计机科教博业一年级教死的表面，那些个性包罗动做一种下的年级仄衡结果(GPA：Grade point aversge)的疑息，另有所建的课程的最大数量.区别是将目标类数据对付象的普遍个性与一个或者多个对付比类对付象的普遍个性举止比较.比圆，具备下GPA 的教死的普遍个性可被用去与具备矮GPA 的普遍个性比较.最后的形貌大概是教死的一个普遍可比较的表面，便像具备下GPA 的教死的75%是四年级估计机科教博业的教死，而具备矮GPA 的教死的65%没有是.闭联是指创制闭联准则，那些准则表示所有一再爆收正在给定数据集的个性值的条件.比圆，一个数据掘掘系统大概创制的闭联准则为：major(X, “computing science”) ⇒owns(X, “personal computer”)[support=12%, confidence=98%]其中，X 是一个表示教死的变量.那个准则指出正正在教习的教死，12%（支援度）主建估计机科教而且拥有一台部分估计机.那个组一个教死拥有一台部分电脑的概率是98%（置疑度，或者决定度）.分类与预测分歧，果为前者的效用是构制一系列能形貌战区别数据典型或者观念的模型（或者功能），而后者是建坐一个模型去预测缺得的或者无效的、而且常常是数字的数据值.它们的相似性是他们皆是预测的工具：分类被用做预测目标数据的类的标签，而预测典型的应用是预测缺得的数字型数据的值.散类分解的数据对付象没有思量已知的类标号.对付象根据最大花蕾里里的相似性、最小化类之间的相似性的准则举止散类或者分组.产死的每一簇不妨被瞅做一个对付象类.散类也便于分类法构制形式，将瞅测构制成类分层结构，把类似的事变构制正在所有.数据演变分解形貌战模型化随时间变更的对付象的程序或者趋势，纵然那大概包罗时间相闭数据的个性化、区别、闭联战相闭分解、分类、或者预测，那种分解的精确个性包罗时间序列数据分解、序列或者周期模式匹配、战鉴于相似性的数据分解2.3假设给定的数据集的值已经分组为区间.区间战对付应的频次如下.―――――――――――――――――――――――――――――――――――――年龄频次―――――――――――――――――――――――――――――――――――――1~5 2005~15 45015~20 30020~50 150050~80 70080~110 44 ―――――――――――――――――――――――――――――――――――――估计数据的近似中位数值.解问：先判决中位数区间：N=200+450+300+1500+700+44=3194；N/2=1597∵ 200+450+300=950<1597<2450=950+1500；∴ 20~50 对付应中位数区间.∴ median=32.97 岁.2.2假定用于分解的数据包罗属性age.数据元组的age 值（以递加序）是：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70.问：(a) 该数据的均值是什么？中位数是什么？均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+ 35+35+35+35+36+40+45+46+52+70)/27中位数应是第14个,即x14=25=Q2.(b) 该数据的寡数是什么？计划数据的峰（即单峰、三峰等）.那个数集的寡数有二个：25 战35,爆收正在共样最下的频次处,果此是单峰寡数.(c) 数据的中列数是什么？数据的中列数是最大数战最小数的均值.即：midrange. (d) 您能（大略天）找出数据的第一个四分位数（Q1）战第三个四分位数（Q3）吗？数据集的第一个四分位数应爆收正在25%处，即正在(N+1)/4=（27+1）/4=7 处.所以：Q1=20.而第三个四分位数应爆收正在75%处,即正在3×(N+1)/4=21 处.所以：Q3=35(e) 给出数据的五数综合.一个数据集的分集的5 数综合由最小值、第一个四分位数、中位数、第三个四分位数、战最大值形成.它给出了分集形状良佳的汇总+而且那些数据是：13、20、25、35、70.(f) 画出数据的盒图.(g) 分位数—分位数图与分位数图的分歧之处是什么？分位数图是一种用去展示数据值矮于或者等于正在一个单变量分集中独力的变量的大略百分比.那样,他不妨展示所罕见的分位数疑息,而为独力变量测得的值（纵轴）相对付于它们的分位数（横轴）被描画出去.但是分位数—分位数图用纵轴表示一种单变量分集的分位数,用横轴表示另一单变量分集的分位数.二个坐标轴隐现它们的丈量值相映分集的值域,且面依照二种分集分位数值展示.一条线（y=x）可画到图中+以减少图像的疑息.降正在该线以上的面表示正在y 轴上隐现的值的分集比x 轴的相映的等共分位数对付应的值的分集下.反之,对付降正在该线以下的面则矮.2.4假设医院检测随机采用的18个成年人年龄战身体脂肪数据，得到如下截止：(a)估计年龄战脂肪百分比的均值、中位数战尺度好.年龄均值=(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=46.44,中位数=(50+52)/2=51,尺度好=圆好的仄圆根=启根号（1/n[∑(Xi)2-1/n(∑Xi)2]）=启根号 1/18[]=12.85.脂肪百分比均值=28.78, 中位数=30.7, 尺度好= 8.99.(b)画制年龄战脂肪百分比的盒图(c)根据那二个属性,画制集布图,各q-q图q-q图集布图(d)根据z-score 典型化去典型化那二个属性（P46）(e)估计相闭系数(皮我逊积矩系数). 那二个变量是正相闭仍旧背相闭?r a,b=∑(a i-A)(b i-B)/NσAσB=（∑(a i b i)-NAB）/NσAσB=（∑(a i b i)-18*46.44*28.78）/18*12.85相闭系数是0.82.变量呈正相闭.使用习题2.4 给出的age 数据回问下列问题：(a) 使用分箱均值光润对付以上数据举止光润，箱的深度为3.阐明您的步调. 评述对付于给定的数据，该技能的效验.(b) 怎么样决定数据中的离群面？(c) 对付于数据光润，另有哪些其余要领？解问：(a) 使用分箱均值光润对付以上数据举止光润，箱的深度为3.阐明您的步调.评述对付于给定的数据，该技能的效验.用箱深度为3 的分箱均值光润对付以上数据举止光润需要以下步调：步调1：对付数据排序.（果为数据已被排序，所以此时没有需要该步调.）步调2：将数据区别到大小为3 的等频箱中.箱1：13，15，16 箱2：16，19，20 箱3：20，21，22箱4：22，25，25 箱5：25，25，30 箱6：33，33，35箱7：35，35，35 箱8：36，40，45 箱9：46，52，70步调3：估计每个等频箱的算数均值.步调4：用各箱估计出的算数均值替换每箱中的每个值.箱1：44/3，44/3，44/3 箱2：55/3，55/3，55/3 箱3：21，21，21箱4：24，24，24 箱5： 80/3 ，80/3， 80/3 箱 6： 101/3，101/3， 101/3箱7：35，35，35 箱8：121/3，121/3，121/3 箱9：56，56，56(b) 怎么样决定数据中的离群面？散类的要领可用去将相似的面分成组或者“簇”，并检测离群面.降到簇的集中的值不妨被视为离群面.动做采用，一种人机分离的检测可被采与，而估计机用一种预先决断的数据分集去区别大概的离群面.那些大概的离群面能被用人为沉快的考验，而没有必查看所罕见据集.(c) 对付于数据光润，另有哪些其余要领？其余可用去数据光润的要领包罗别的分箱光润要领，如中位数光润战箱鸿沟光润.动做采用，等宽箱可被用去真止所有分箱办法，其中每个箱中的数据范畴均是常量.除了分箱要领中，不妨使用返回技能拟合成函数去光润数据，如通过线性或者多线性返回.分类技能也能被用去对付观念分层，那是通过将矮级观念上卷到下档观念去光润数据.3.5如下典型化要领的值域是什么？问：(a) min-max 典型化.值域是[new_min, new_max].(b) z-score 典型化.值域是[(old_min－mean)/σ，(old_max－mean)/σ]，总的去道，对付于所有大概的数据集的值域是(－∞，+∞).(c) 小数定标典型化.值域是(－,1.0).使用习题给出的age数据，回问以下问题：(a) 使用min-max典型化将age值35变更到[0.0，1.0]区间.(b) 使用z-score典型化变更age值35，其中age的尺度好为12.94岁.(c) 使用小数定标典型化变更age值35.(d) 对付于给定的数据，您承诺使用哪种要领？报告您的缘由.解问：假设12个出卖代价记录组已经排序如下：5，10，11，13，15，35，50，55，72，92，204，215.使用如下每种要领将其区别成三个箱.(a) 等频（等深）区别.(b) 等宽区别.(c) 散类.解问：(a)bin1 72,91,204,215 (b) 等宽区别.每个区间的宽度是：(215-5)/3=70(c) 散类.咱们不妨使用一种简朴的散类技能：用2个最大的间隙将数据分成3个箱.使用习题给出的age数据，(a) 画出一个等宽为10的等宽曲圆图；(b) 为如下每种抽样技能勾画例子：SRSWOR，SRSWR，散类抽样，分层抽样.使用大小为5的样本战层“青年”，“中年”战“老年”.解问：(a) 画出一个等宽为10的等宽曲圆图；87654321(b) 为如下每种抽样技能勾画例子：SRSWOR，SRSWR，散类抽样，分层抽样.使用大小为5的样本战层“青年”，“中年”战“老年”.元组：SRSWOR战SRSWR：没有是共次的随机抽样截止不妨分歧，但是前者果无搁回所以没有克没有及有相共的元组.散类抽样：设起初散类公有6类，可抽其中的m类.4.3假定数据堆栈包罗三维：time,doctor战patient;战二个度量：count战charge;其中，charge是医死对付病人一次诊治的支费.(a)枚举三种流通的数据堆栈建模模式问：三类模式普遍用于建模数据堆栈架构的星形模型，雪花模型战究竟星座模型.(b)使用(a)枚举的模式之一，画出上头的数据堆栈的模式图数据堆栈的星形模型（C）由基础圆体[day,doctor,patient]启初，为列出2004年每位医死的支费总数，应当真止哪些OLAP支配？沿课程（course）维从course_id“上卷”到department.●沿时间（time）维从day “上卷”到year.●与time=2004，对付维time做“切片”支配●沿病人（patient）维从各别病人“上卷”到局部病人.(d)为得到共样截止，写一个SQL查询.假定数据存搁正在闭系数据库中，其模式为fee(day，month，year，doctor，hospital，patient，count，charge).问：SQL查询语句如下：select doctor, SUM(charge)from feewhere year=2004group by doctor假定BigUniversity的数据堆栈包罗如下4个维：student(student_name,area_id, major, status, university) ，course(course_name, department) ，semester(semester,year)战instructor(dept,rank)；2个度量：count战avg_grade.正在最矮观念层，度量avg_grade存搁教死的本量课程结果.正在较下观念层，avg_grade存搁给定拉拢的仄衡结果.(a) 为该数据堆栈画出雪花形模式图.(b)由基础圆体[student, course, semester, instructor]启初，为列出BigUniversity每个教死的CS课程的仄衡结果，应当使用哪些特殊的OLAP支配.(c) 如果每维有5层（包罗all），如“student<major<status<university<all ”，该坐圆体包罗几圆体？解问：a) 为该数据堆栈画出雪花形模式图.雪花模式如图所示.b) 由基础圆体[student, course, semester, instructor]启初，为列出BigUniversity每个教死的CS课程的仄衡结果，应当使用哪些特殊的OLAP支配.那些特殊的联机分解处理（OLAP）支配有：i. 沿课程（course）维从course_id“上卷”到department.ii. 沿教死（student）维从student_id“上卷”到university.iii.与department=“CS”战university=“BigUniversity”，沿课程（course）维战教死（student）维切片.iv. 沿教死（student）维从university下钻到student_name.c) 如果每维有5层（包罗all），如“student<major<status<university<all ”，该坐圆体包罗几圆体？那个坐圆体将包罗54=625个圆体.假定数据堆栈包罗4维：date, spectator, location, 战game，战二个度量：count战charge;其中，charge是瞅寡正在给定的日期瞅瞅节手段付费.瞅寡不妨是教死、成年人或者老年人，每类瞅寡有分歧的支费尺度.(a)画出该数据堆栈的星形模式图.问：星形模式图如下：b.由基础圆体[date，spectator，location，game]启初，为列出2004年教死瞅寡正在GM_Place的总付费，应真止的OLAP支配：●沿时间（date）维从date_id “上卷”到year.●沿时间（game）维从game_id “上卷”到局部.●沿时间（location）维从location_id “上卷”到location_name.●沿时间（spectator）维从spectator_id “上卷”到status.●以status="students", location name="GM Place" and year=2004做转轴支配4.6 数据堆栈不妨用星形模式或者雪花模式建模.大略计划那二种模式的相似面战分歧面，而后分解它们的相对付干劣、缺面.哪种模式更真用，给出您瞅面并报告您的缘由.问：星形模式或者雪花模式的相似面是它们包罗一个究竟表战一些维表.它们主要的分歧正在于，雪花模式的维表大概是典型化形式，以便缩小了冗余，那种表易于维护并节省保存空间.然而，与巨大的究竟表相比，那种空间的节省不妨忽略.别的，由于真止查询需要更多的连交支配，雪花形结构大概降矮欣赏的本能，那样，系统的本能大概相对付的受到效用.星型模式的便宜是简朴、那使得它更灵验，但是它需要更多的空间.果此，只消空间的央供没有是太大时，星形模式比雪花模式更佳，果为常常效用比空间具备更下的劣先级.正在工业上，偶我大概将数据从一个雪花模式非典型化为星型模式以加快处理速度，另一种采用是脆持雪花模式的维表，而后相共数据的目前用户合叠为星形.4.95.4 假定基础圆体有三维A,B,C,其单元数如下：|A|=1000000,|B|=100,|C|=1000.假定每维均等天分块成10部分.（a）假定每维惟有一层，画出完备的坐圆体的格.问：完备的坐圆体的格如下图（b）如果每个坐圆体单元存搁一个4字节的度量，若坐圆体是稀稀的，所估计的坐圆体有多大？问：所估计的坐圆体大小如下：all：1A: 1,000,000; B: 100; C: 1, 000; 小计: 1,001,100AB:1,000,000*100=100,000,000;BC: 100*1,000=100,000; AC:1,000,000*1,000=1,000,000,000;小计: 1,100,100,000ABC:1,000,000*100*1,000=100,000,000,000总战:1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101 *4 = 404,404,404,404 字节（C）指出空间需要量最小的坐圆体中的块估计序次，并估计2-D仄里估计所需要的内存空间总量.问：程序估计，需要最少量量的空间B-C-A.如图所示：估计二维仄里需要的总主内存空间是：总空间 = (100×1,000) + (1,000,000×10) + (100×10,000) = 20,100,000 单元*4字节/单元= 80,400,000 字节Apriori算法使用子集支援本量的先验知识.(a)道明一再项集的所有非空的子集也必须是一再的.问：设s是一个一再项集，min_sup是最小支援度阀值，任务相闭的数据D是数据库工做的集中，|D|是D 有工做量，则有Support_count(s) = min_sup×|D|；再设s’是s的非空子集，则所有包罗项集s的工做将共样包罗项集s’ , 即：support_ count(s') support count(s) = min_sup ×|D|.所以，s’也是一个一再项集.(b) 道明项集s的任性非空子集s’的支援起码战s的支援度一般大.问：设任务相闭的数据D是数据库工做的集中，|D|是D 的工做量，由定义得：设s’是s的非空子集，由定义得：由（a）可知：support(s’) support(s)由此道明，项集s的任性非空子集s’的支援起码战s的支援度一般大.（c）给定一再项集l战l的子集 s ,道明准则的置疑度没有成能大于问：设s 是l的子集, 则设s’是s的非空子集，则由（b）可知：support_count(s') support count(s)，别的，confidence(s’)(l-s’)) confidence(s) (l- s))所以，准则的置疑度没有成能大于.设数据库有5个工做.设min_sup =60%, min_conf=80%(a)分别使用Apriori战FP删少算法找出所有一再项集.比较二种掘掘历程的效用.效用比较：Apriori需多次扫描数据库而FP删少建坐FP树只需一次的扫描.正在Apriori算法中爆收候选是下贵的（由于联交），而FP删少没有爆收所有候选.(b)枚举所有与底下的元准则匹配的强闭联准则（给出支援度S战置疑度C）,其中，X是代表主瞅的变量，item i是表示项的变量（如：“A”、“B”等）：问： k,oe [0.6,1]e,ok [0.6,1].数据库有4个工做，设min_sup =60%, min_conf=80%（a）正在item_category粒度（比圆，item i不妨是“Milk”），对付于底下的准则模板对付最大的k,列出一再k项集包罗最大的k的一再k项集的所有强闭联准则（包罗它们的支援度S战置疑度c）.(b)正在粒度（比圆：item i不妨是“Sunset-Milk”）对付于底下的准则模板对付最大的k，列出一再k项集（但是没有输出所有准则）.6.14底下的相依表汇总了超等商场的工做数据.其中，hot dogs表示包罗热狗的工做，hot dogs表示没有包罗热狗的工做，hamburgers表示包罗汉堡包的工做，hamburgers表示没有包罗汉堡包的工做，（a）假定掘掘出了闭联准则 .给定最小支援度阀值25%，最小置疑度阀值50%，该闭联准则是强准则吗？问：根据准则， support = 2000/5000 = 40%， confidence = 2000/3000 = 66.7%.该闭联准则是强准则.（b）根据给定的数据，购 hot dogs独力于购humburgers吗？如果没有是，二者之间存留何种相闭通联.问：corr{hotdog;hamburger}= P({hot dog, hamburger})/(P({hot dog}) P({hamburger})=0.4/(0.5 ×0.6) =1.33 > 1. 所以，购 hot dogs没有是独力于购humburgers.二者存留正相闭闭系简述计划树分类的主要步调.给定一个具备50个属性（每个属性包罗100个分歧值）的5GB的数据集，而您的台式机有512M内存.简述对付那种庞大数据集构制计划树的一种灵验算法.通过大略天估计机主存的使用道明您的问案是精确的.那个问题咱们将使用雨林算法.假设有C类标签.最需要的内存将是avc-set为根的树.估计avc-set的根节面，咱们扫描一次数据库，建坐avc-list 每50个属性.每一个avc-list的尺寸是100×C，avc-set的总大小是100×C×50，对付于合理的C将很简单符合512 MB内存，估计其余avc-sets 也是使用类似的要领，但是他们将较小，果为很少属性可用.正在并止估计时，咱们不妨通过估计avc-set节面去缩小共一火仄上的扫描次数，使用那种每节面小avc-sets的要领，咱们或者许不妨符合内存的火仄.下表由雇员数据库的锻炼数据组成.数据已泛化.比圆：age “31...35”表示年龄正在31-35之间.对付于给定的止，count表示department,status,age战salary正在该止具备给定值的元组数.设status 是类标号属性.（a）怎么样建改基础计划树算法，以便思量每个广义数据元组（即每一止）的count?(b)使用建改的算法，构制给定数据的计划树.(c)给定一个数据元组，它正在属性department,age战salary的值分别为“systems”,“26..30”,战“46K..50K”.该元组status的朴素贝叶斯分类是什么？支援背量机（SVM）是一种具备下准确率的分类要领.然而，正在使用庞大数据元组集举止锻炼时，SVM的处理速度很缓.计划怎么样克服那一艰易，并为庞大数据集灵验的SVM算法.。

【炼数成金RapidMiner一】数据挖掘概念与技术原书第三版（第一章）1.9节的习题解

【炼数成⾦RapidMiner⼀】数据挖掘概念与技术原书第三版（第⼀章）1.9节的习题解1.数据挖掘是指从⼤量的数据中提取有⽤的知识信息的⼀种模式。

（1）因为现在的⽣活⼯作中随时随刻都在产⽣⼤量的数据和都需要将这些数据转变为有⽤的信息和知识，是因为需求的不断增加才会突显出数据挖掘技术的重要性，所以数据挖掘应该是信息技术发展带来的结果。

（2）数据挖掘应该是这些技术融合⽽不是简单的变⾰。

（3）数据库技术带动了数据收集技术的发展和数据库建⽴的机制，有了有效的数据管理，包括数据存储、检索、查询和事务处理机制。

⼤量的数据库系统提供的查询和事务处理，⾃然地产⽣了对数据分析和理解的必要性，是数据挖掘产⽣的驱动⼒量。

（4）数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表达2.数据库与数据仓库的相同与不同点不同： (1)数据库是⾯向事务的设计，数据仓库是⾯向主题设计的。

(2)数据库⼀般存储在线交易数据，数据仓库存储的⼀般是历史数据。

数据库设计是尽量避免冗余，⼀般采⽤符合范式的规则来设计，数据仓库在设计是有意引⼊冗余，采⽤反范式的⽅式来设计。

(3)数据库是为捕获数据⽽设计，数据仓库是为分析数据⽽设计，它的两个基本的元素是维表和事实表。

维是看问题的⾓度，⽐如时间，部门，维表放的就是这些东西的定义，事实表⾥放着要查询的数据，同时有维的ID。

相同：数据仓库和数据库都是数据或信息的存储系统，都存储了⼤量的持久性数据。

3.数据特征化：⽬标类数据的⼀般特性或特征的汇总。

数据区分：将⽬标类数据对象的⼀般特性与⼀个或者多个⽐类对象的⼀般特性进⾏⽐较。

例⼦：通过⼀个⽤户的每个季度的消费⾦额给出⽤户的⼀个消费指数。

关联和相关性分析：如果两个或者多个事物之间存在⼀定的关系，那么其中⼀个事物就可以通过另⼀个事物预测，⽬的是为了挖掘数据之间的相关性。

例⼦:挖掘消费⽹站中不同年龄⽤户对不同商品的需求。

分类：利⽤分类技术可以从数据集中提取描述数据类的⼀个函数或模型（也常称为分类器），并把数据集中的每个对象归结到某个已知的对象类中。

(完整版)数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。

它用表组织数据，采用ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

1.3 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答：特征化是一个目标类数据的一般特性或特性的汇总。

例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge)的信息，还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。

关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

数据挖掘概念与技术原书第3版第一章课后习题

习题什么是数据挖掘在你的回答中，强调以下问题：（a）它是又一种广告宣传吗（b）它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗（c）我们提出了一种观点，说数据挖掘是数据库技术进化的结果。

你认为数据挖掘也是机器学习研究进化的结果吗你能基于该学科的发展历史提出这一观点吗针对统计学和模式识别领域，做相同的事。

（d）当把数据挖掘看做知识发现过程时，描述数据挖掘所涉及的步骤。

答：简单地说，数据挖掘其实就是从大量的数据中发现有用的信息，它是从大量数据中挖掘有趣模式和知识的过程。

数据挖掘不是一种广告宣传，而是身处在信息时代数据如此庞大的今天，我们对由海量的数据转化为有用信息的迫切需要，所以它是信息技术自然进化的结果，而不是一种广告宣传。

数据挖掘也不是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用，它涉及到了很多领域的技术，比如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、神经网络、高性能计算、算法以及许多应用领域的大量技术。

数据挖掘起始于20世纪下半叶，是在当时多个学科发展的基础上发展起来的。

随着数据库技术的发展应用，数据的积累不断膨胀，导致简单的查询和统计已经无法满足企业的商业需求，所以急需一种新型的技术去获取有用的信息，当时计算机领域的人工智能也取得了巨大进展，进入了机器学习的阶段，人们就将两者结合起来，用数据库管理系统存储数据，用计算机分析数据，这两者的结合就促就以这一门新兴的学科，所以数据挖掘不是机器学习研究进化的结果，而是结合了机器学。

数据挖掘的步骤包括：（1）数据收集；（2）数据清洗、脱敏；（3）数据存储；（4）数据分析；（5）数据可视化。

数据仓库与数据库有何不同他们有哪相似之处答：数据库是按照数据结构来组织、存储和管理数据的仓库，它是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度的特点、是与应用程序彼此独立的数据集合。

数据挖掘概念与技术(第三版)部分习题答案.doc

1.4 数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。

它用表组织数据，采用ER数据模型。

相似：它们都为数据挖掘提供了源数据，都是数据的组合。

1.3 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。

答：特征化是一个目标类数据的一般特性或特性的汇总。

例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge)的信息，还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。

关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。

这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。

数据挖掘概念与技术原书第3版(范明、孟小峰绎)第一章课后习题

数据挖掘概念与技术原书第3版(范明、孟小峰绎)第一章课后习题-标准化文件发布号：（9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII1.9习题1.1 什么是数据挖掘？在你的回答中，强调以下问题：（a）它是又一种广告宣传吗？（b）它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗？（c）我们提出了一种观点，说数据挖掘是数据库技术进化的结果。

你认为数据挖掘也是机器学习研究进化的结果吗你能基于该学科的发展历史提出这一观点吗针对统计学和模式识别领域，做相同的事。

（d）当把数据挖掘看做知识发现过程时，描述数据挖掘所涉及的步骤。

答：简单地说，数据挖掘其实就是从大量的数据中发现有用的信息，它是从大量数据中挖掘有趣模式和知识的过程。

数据挖掘起始于20世纪下半叶，是在当时多个学科发展的基础上发展起来的。

数据挖掘的步骤包括：（1）数据收集；（2）数据清洗、脱敏；（3）数据存储；（4）数据分析；（5）数据可视化。

1.2数据仓库与数据库有何不同他们有哪相似之处答：数据库是按照数据结构来组织、存储和管理数据的仓库，它是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度的特点、是与应用程序彼此独立的数据集合。

数据挖掘-概念与技术(第三版)部分习题答案-图文

数据挖掘-概念与技术（第三版）部分习题答案-图文all：1A:1,000,000;B:100;C:1,000;小计:1,001,100AB:1,000,000某100=100,000,000;BC:100某1,000=100,000;AC:1,000,000某1,000=1,000,000,000;小计:1,100,100,000ABC:1,000,000某100某1,000=100,000,000,000总和:1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101某4=404,404,404,404字节（C）指出空间需求量最小的立方体中的块计算次序，并计算2-D平面计算所需要的内存空间总量。

答：顺序计算，需要最少数量的空间B-C-A.如图所示：计算二维平面需要的总主内存空间是：总空间=(100某1,000)+(1,000,000某10)+(100某10,000)=20,100,000单元某4字节/单元=80,400,000字节6.3 Apriori算法使用子集支持性质的先验知识。

(a) 证明频繁项集的所有非空的子集也必须是频繁的。

答：设s是一个频繁项集，min_sup 是最小支持度阀值，任务相关的数据D是数据库事务的集合，D，是D 有事务量，则有Support_count(s) = min_sup某，D，；再设s’是s的非空子集，则任何包含项集s的事务将同样包含项集s’,即：support_ count(s') support count(s) = min_sup 某，D，.所以，s’也是一个频繁项集。

(b)证明项集s的任意非空子集s’的支持至少和s的支持度一样大。

答：设任务相关的数据D是数据库事务的集合，D，是D的事务量，由定义得：设s’是s的非空子集，由定义得：由（a）可知：support(s’) support(s)由此证明，项集s的任意非空子集s’的支持至少和s的支持度一样大。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1.9习题
1.1 什么是数据挖掘？在你的回答中，强调以下问题：
（a）它是又一种广告宣传吗？
（b）它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗？
（c）我们提出了一种观点，说数据挖掘是数据库技术进化的结果。

你认为数据挖掘也是机器学习研究进化的结果吗？你能基于该学科的发展历史提出这一观点吗？针对统计学和模式识别领域，做相同的事。

（d）当把数据挖掘看做知识发现过程时，描述数据挖掘所涉及的步骤。

答：简单地说，数据挖掘其实就是从大量的数据中发现有用的信息，它是从大量数据中挖掘有趣模式和知识的过程。

数据挖掘起始于20世纪下半叶，是在当时多个学科发展的基础上发展起来的。

数据挖掘的步骤包括：（1）数据收集；（2）数据清洗、脱敏；（3）数据存储；（4）数据分析；（5）数据可视化。

1.2数据仓库与数据库有何不同？他们有哪相似之处？
答：数据库是按照数据结构来组织、存储和管理数据的仓库，它是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度的特点、是与应用程序彼此独立的数据集合。

数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。

它是单个数据存储，出于分析性报告和决策支持目的而创建。

不同处：（1）数据库是面向事务的设计，数据仓库是面向主题设计的。

（2）数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。

（3）数据库设计是尽量避免冗余，数据仓库在设计是有意引入冗余。

（4）数据库是为捕获数据而设计，数据仓库是为分析数据而设计。

相似处：两者都是数据的集合。

1.3定义下列数据挖掘功能：特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。

使用你熟悉的现实生活中的数据库，给出每种数据挖掘功能的例子答：特征化：目标类数据的一般特性或特征的汇总。

例如：汇总某年级学生的基本特征，结果可能会高分段成绩信息，是否挂科等信息。

区分：将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如：购买化妆品的顾客70%在20~40岁之间，受过大学教育，而不经常购买化妆品的
顾客60%要么年龄太小要么年龄太大，没有受过大学教育。

关联和相关性：两个变量之间的相关性，从给定的数据集中发现频繁出现的频繁模式知识。

例如：超市将啤酒和尿不湿放到一起。

分类：找出和区分数据类或概念地模型，以便能够使用模型预测类标号未知的对象的类标号。

例如：学生的成绩分为高等、中等、低等。

回归：用来预测缺失或难以获得的数值数据值，而不是离散的类标号。

例如：商品质量与用户满意度之间的因果关系。

聚类：将观测组织成类分层结构，把类似的事件组织在一起。

例如：将一些特征相似的症状结合起来可能预示一种特定的疾病。

离群点分析：数据集中可能包含一些数据对象，它们与数据的一般行为或模型不一致，这些数据对象是离群点，离群点数据的分析就是离群点分析。

例如：将正常的付款数额与一个消费数额极大的账号进行离群点分析，可能发现信用卡诈骗。

1.4给出一个例子，其中数据挖掘对于工商企业的成功是至关重要的。

该工商企业需要什么数据挖掘功能（例如，考虑可以挖掘何种类型的模式）？这种模式能够通过简单的查询处理或统计分析得到吗？
答：如淘宝网，需要根据消费者的性别、年龄、职业、收入水平、兴趣爱好等进行关联性分析，给不同的消费者推荐不同类型，不同类别的商品。

可以考虑关联和相关性的数据挖掘方法。

这种模式不能通过简单的查询处理或统计分析获得，因为每天人们在淘宝网上浏览的信息都非常多，如果仅仅通过简单的查询处理或统计分析，是不能够完成这项工作的。

1.5 解释区分和分类、特征化和类聚、分类和回归的区别与相似处。

（1）区分和分类的区别与相似处
区别：区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较，而分类是找出和区分数据类或概念地模型，以便能够使用模型预测类标号未知的对象的类标号。

相似处：都是都数据分析的方法
（2）特征化和类聚的区别与相似处
区别：特征化是目标类数据的一般特性或特征的汇总。

聚类是将观测组织成类分层结构，把类似的事件组织在一起。

特征化强调的是对数据进行汇总，而聚类强调把类似的事件组织在一起，而不是将其汇总在一起。

相似处：处理的数据都要是有相似之处的。

（3）分类和回归的区别与相似处
区别：分类是找出和区分数据类或概念地模型，以便能够使用模型预测类标号未知的对象的类标号。

回归是用来预测缺失或难以获得的数值数据值，而不是离散的类标号。

分类预测类别是离散的、无序的标号，而回归是建立连续值函数模型。

相似处：都是对数据进行预测。

1.6根据你的观察，描述一个可能的知识类型，它需要由数据挖掘方法发现，但未在本章中列出。

它需要一种不同于本章列举的数据挖掘技术吗？
答：建立一个周期性的知识类型，在不同的时间段，数据都会进行更新，修改，变化等，这个就需要一种新的数据挖掘技术。

1.7离群点经常被当做噪声丢弃。

然而，一个人的垃圾可能是另一个人的宝贝。

列如，信用
卡交易中的异常可能帮助我们检测信用卡的欺诈使用。

以欺诈检测为例，提出两种可以用来检测离群点的方法，并讨论哪种方法更可靠。

（1）基于近邻性的检验方法，包括基于距离和基于密度的方法，如果一个人的信用卡消费情况与他近邻的消费情况差异太大，这说明他是离群点。

（2）基于类聚的方法，基于类聚的方法通过考察对象与簇之间的关系检测离群点，离群点是一个对象，它属于小的偏远簇，或不属于任何一个簇，如果一个人的消费情况与所有人的消费情况不一样，则说明这个人就是信用卡诈骗。

1.8描述三个关于数据挖掘方法和用户交互问题的数据挖掘挑战。

（1）数据挖掘的过程是高度交互的，用户访问网页非常灵活，这就需要构建灵活的用户界面和探索式挖掘环境。

（2）结合背景知识：应该把背景知识、约束、规则和关于所研究领域的其他信息结合到发现过程中。

（3）数据挖掘结果的表示和可视化：数据挖掘系统如何生动、灵活地提供数据挖掘结果，使所发现的知识容易理解，也是数据挖掘的一大挑战
1.9与挖据少量数据（例如，几百个元祖的数据集合）相比，挖掘海量数据（例如，数十亿个元祖）的主要挑战是什么？
（1）可伸缩性；在处理大量的数据时，必定要求算法等技术的可伸缩性。

（2）高维性；随着数据的不断膨胀，数据的属性也在不断地增加，具有时间和空间分量的数据集也趋向于高维度，这也需要数据分析的方法更加地复杂。

（3）异种数据和复杂数据；随州信息技术的不断进步，人们接触的数据也越来越多样化和复杂化。

（4）数据的安全性也是挖掘海量数据的一大挑战。

1.10概述在诸如流/传感器数据分析、时空数据分析或生物信息学等某个特定应用领域中的数据挖掘的主要挑战。

主要挑战：由于现有的技术条件有限，对于流/传感器的数据分析、时空数据分析、生物信息学等领域的数据挖掘来说，如何找寻挖掘这些数据的技术和方法，如何处理、分析这些数据对于数据挖掘来说是一项巨大的挑战。