数据挖掘第三版第十章课后 习题答案

合集下载

数据挖掘_概念与技术(第三版)部分习题答案

数据挖掘_概念与技术(第三版)部分习题答案

!数据仓库和数据库有何不同有哪些相似之处答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%:(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

人工智能教程习题及答案第10章习题参考解答

人工智能教程习题及答案第10章习题参考解答

第十章数据挖掘与主体技术习题参考解答10.1 练习题10.1 什么是数据挖掘?什么是知识发现?它们之间的关系如何?10.2 数据挖掘的主要研究内容是什么?10.3 OLAP数据分析方法有何特点?数据挖掘与OLAP的区别何在?10.4 数据挖掘具有哪些功能和作用?10.5 什么是概念/类的描述?特征性描述与区别性描述如何实现?10.6 数据分类和聚类有何不同?10.7 常用的数据挖掘的模型与算法有哪些?如何评价数据挖掘算法的优劣?10.8 简述数据挖掘的方法与过程?数据预处理的作用是什么?10.9 数据挖掘目前的研究热点有哪些?谈谈你对数据挖掘研究未来发展走势的看法。

10.10 什么是智能Agent? 它应具备哪些基本特征? 智能Agent技术与传统的分布式问题求解有何主要区别?10.11 什么是Agent的体系结构?就单个Agent来说,通常用哪几种体系结构?10.12试比较思考型Agent和反应型Agent体系结构的不同点及优缺点。

混合型Agent的体系结构有何特点?10.13 智能Agent行为理论的核心是什么?为什么说用经典的一阶谓词逻辑不适于表示涉及意识的观念?如何克服一阶谓词逻辑表示所出现的语法和语义问题?10.14 多Agent系统有何特点?联合负责模型的有何作用?它有哪些部分构成?10.15 什么是联合意图?什么是联合目标和公共处方?三者之间的关系如何?10.16 何谓多Agent协商?它主要研究的内容是什么?协商协议、协商策略和协商处理的研究内容各是什么?10.17 KQML和KIF的作用是什么?它们间的关系如何?10.18 协商策略一般有哪几类策略?10.19 什么是多Agent规划?一个规划一般由哪几部分构成?10.20 智能Agent与对象有何异同?面向Agent的软件开发技术与面向对象的软件开发技术有何区别?10.21 Agent技术大规模应用所面临机遇和挑战是什么?如何解决所面临的挑战性问题?10.2 习题参考解答(略)。

数据挖掘概念与技术原书第3版课后练习题含答案

数据挖掘概念与技术原书第3版课后练习题含答案

数据挖掘概念与技术原书第3版课后练习题含答案前言《数据挖掘概念与技术》(Data Mining: Concepts and Techniques)是一本经典的数据挖掘教材,已经推出了第3版。

本文将为大家整理并提供第3版课后习题的答案,希望对大家学习数据挖掘有所帮助。

答案第1章绪论习题1.1数据挖掘的基本步骤包括:1.数据预处理2.数据挖掘3.模型评价4.应用结果习题1.2数据挖掘的主要任务包括:1.描述性任务2.预测性任务3.关联性任务4.分类和聚类任务第2章数据预处理习题2.3数据清理包括以下几个步骤:1.缺失值处理2.异常值检测处理3.数据清洗习题2.4处理缺失值的方法包括:1.删除缺失值2.插补法3.不处理缺失值第3章数据挖掘习题3.1数据挖掘的主要算法包括:1.决策树2.神经网络3.支持向量机4.关联规则5.聚类分析习题3.6K-Means算法的主要步骤包括:1.首先随机选择k个点作为质心2.将所有点分配到最近的质心中3.重新计算每个簇的质心4.重复2-3步,直到达到停止条件第4章模型评价与改进习题4.1模型评价的方法包括:1.混淆矩阵2.精确率、召回率3.F1值4.ROC曲线习题4.4过拟合是指模型过于复杂,学习到了训练集的噪声和随机变化,导致泛化能力不足。

对于过拟合的处理方法包括:1.增加样本数2.缩小模型规模3.正则化4.交叉验证结语以上是《数据挖掘概念与技术》第3版课后习题的答案,希望能够给大家的学习带来帮助。

如果大家还有其他问题,可以在评论区留言,或者在相关论坛等平台提出。

数据挖掘概念与技术第三版部分习题答案汇总

数据挖掘概念与技术第三版部分习题答案汇总

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(:)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高的学生的一般特性可被用来与具有低的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高的学生的75%是四年级计算机科学专业的学生,而具有低的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:(X, “”) ⇒(X, “”)[12%, 98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。

聚类分析的数据对象不考虑已知的类标号。

对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。

(完整word版)数据挖掘_概念与技术(第三版)部分习题答案(word文档良心出品)

(完整word版)数据挖掘_概念与技术(第三版)部分习题答案(word文档良心出品)

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘-概念与技术(第三版)部分习题答案-图文

数据挖掘-概念与技术(第三版)部分习题答案-图文

数据挖掘-概念与技术(第三版)部分习题答案-图文all:1A:1,000,000;B:100;C:1,000;小计:1,001,100AB:1,000,000某100=100,000,000;BC:100某1,000=100,000;AC:1,000,000某1,000=1,000,000,000;小计:1,100,100,000ABC:1,000,000某100某1,000=100,000,000,000总和:1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101某4=404,404,404,404字节(C)指出空间需求量最小的立方体中的块计算次序,并计算2-D平面计算所需要的内存空间总量。

答:顺序计算,需要最少数量的空间B-C-A.如图所示:计算二维平面需要的总主内存空间是:总空间=(100某1,000)+(1,000,000某10)+(100某10,000)=20,100,000单元某4字节/单元=80,400,000字节6.3 Apriori算法使用子集支持性质的先验知识。

(a) 证明频繁项集的所有非空的子集也必须是频繁的。

答:设s是一个频繁项集,min_sup 是最小支持度阀值,任务相关的数据D是数据库事务的集合,D,是D 有事务量,则有Support_count(s) = min_sup某,D,;再设s’是s的非空子集,则任何包含项集s的事务将同样包含项集s’,即:support_ count(s') support count(s) = min_sup 某,D,.所以,s’也是一个频繁项集。

(b)证明项集s的任意非空子集s’的支持至少和s的支持度一样大。

答:设任务相关的数据D是数据库事务的集合,D,是D的事务量,由定义得:设s’是s的非空子集,由定义得:由(a)可知:support(s’) support(s)由此证明,项集s的任意非空子集s’的支持至少和s的支持度一样大。

(完整版)数据挖掘_概念与技术(第三版)部分习题答案

(完整版)数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘第三版第十章课后 习题答案

数据挖掘第三版第十章课后    习题答案

10.1 简略介绍如下聚类方法:划分方法、层次方法。

每种给出两个例子。

(1)划分方法:给定一个有N个对象的集合,划分方法构造数据的K个分区,每一个分区表示一个簇,且K≤N。

而且这K个分组满足下列条件:第一,每一个分组至少包含一条记录;第二,每一条记录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。

使用这个基本思想的算法有:K-MEANS 算法、K-MEDOIDS 算法、CLARANS 算法。

(2)层次方法:这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。

具体又可分为“自底向上”和“自顶向下”两种方案。

例如在“自底向上”方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。

代表算法有:BIRCH 算法、CURE 算法、CHAMELEON 算法等。

10.2 假设数据挖掘的任务是将如下的8个点(用(x, y)代表位置)聚类为3个簇。

A1(2,10), A2(2,5), A3(8,4), B1(5,8), B2(7,5), B3(6,4), C1(1,2), C2(4,9)距离函数是欧氏距离。

假设初始我们选择A1、B1和C1分别为每个簇的中心,用k-均值算法给出:(a)在第一轮执行后的3个簇中心。

(b)最后的3个簇。

(a)第一轮后, 三个新的簇为(1){A1}(2){B1,A3,B2,B3,C2}(3){C1,A2}簇中心分别为(1) (2, 10), (2) (6, 6), (3) (1.5, 3.5).(b)最后3个簇为(1) {A1,C2,B1}, (2) {A3,B2,B3}, (3) {C1,A2}.10.6 k-均值和k-中心点算法都可以进行有效的聚类。

数据挖掘_概念与技术(第三版)部分习题答案

数据挖掘_概念与技术(第三版)部分习题答案

数据仓库和数据库有何不同有哪些相似之处答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘_概念与技术(第三版)部分习题答案之欧阳法创编

数据挖掘_概念与技术(第三版)部分习题答案之欧阳法创编

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒owns(X, “personal computer”) [support=12%, confidence=98%]其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

(完整word版)数据挖掘_概念与技术(第三版)部分习题答案

(完整word版)数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘概念与技术(第三版)部分习题答案.doc

数据挖掘概念与技术(第三版)部分习题答案.doc

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

数据挖掘概念与技术第三版部分习题答案

数据挖掘概念与技术第三版部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处?答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。

使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。

答:特征化是一个目标类数据的一般特性或特性的汇总。

例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息,还有所修的课程的最大数量。

区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。

最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。

关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。

例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ⇒ owns(X, “personal computer”)[support=12%, confidence=98%] 其中,X 是一个表示学生的变量。

这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台个人计算机。

这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。

分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

10.1 简略介绍如下聚类方法:划分方法、层次方法。

每种给出两个例子。

(1)划分方法:给定一个有N个对象的集合,划分方法构造数据的K个分区,每一个分区表示一个簇,且K≤N。

而且这K个分组满足下列条件:第一,每一个分组至少包含一条记录;第二,每一条记录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。

使用这个基本思想的算法有:K-MEANS 算法、K-MEDOIDS 算法、CLARANS 算法。

(2)层次方法:这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。

具体又可分为“自底向上”和“自顶向下”两种方案。

例如在“自底向上”方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。

代表算法有:BIRCH 算法、CURE 算法、CHAMELEON 算法等。

10.2 假设数据挖掘的任务是将如下的8个点(用(x, y)代表位置)聚类为3个簇。

A1(2,10), A2(2,5), A3(8,4), B1(5,8), B2(7,5), B3(6,4), C1(1,2), C2(4,9)距离函数是欧氏距离。

假设初始我们选择A1、B1和C1分别为每个簇的中心,用k-均值算法给出:
(a)在第一轮执行后的3个簇中心。

(b)最后的3个簇。

(a)第一轮后, 三个新的簇为(1){A1}
(2){B1,A3,B2,B3,C2}
(3){C1,A2}
簇中心分别为(1) (2, 10), (2) (6, 6), (3) (1.5, 3.5).
(b)最后3个簇为(1) {A1,C2,B1}, (2) {A3,B2,B3}, (3) {C1,A2}.
10.6 k-均值和k-中心点算法都可以进行有效的聚类。

(a)概述k-均值和k-中心点相比较的优缺点。

(b)概述这两种方法与层次聚类方法(如AGNES)相比有何优缺点。

(a)当存在噪声和离群点时, k-中心点算法比k-均值具有更强的鲁棒性。

因为在中心点不像均值那样容易受离群值或其他极端值影响。

但是, 它的计算开销更大。

(b)k-均值和k-中心点都是划分方法。

这种划分方法分优点是,可以撤销之前的聚类步骤(通过迭代迁移), 不像层次方法, 一旦执行了拆分或合并, 就不能做出调整。

层次方法的这种弱点可能使产生的聚类的质量受到影响。

划分方法找球形簇的效果很好。

一般来说,对于中小型数据库, 结果聚类的质量很好。

他们需要提前知道簇的数量可以被认为是一个弱点。

层次聚类方法可以自动确定集群的数量。

然而,他们难以扩展,因为每个分裂或合并的决定可能要求大量对象或集群的检查和评价。

然而, 层次方法可以与其他聚类方法集成, 改进聚类, 如BIRCH, ROCK, 和Chameleon.
10.14 聚类已经被认为是一种具有广泛应用的、重要的数据挖掘任务。

对如下每种情况给出一个应用实例:
(a)把聚类作为主要的数据挖掘功能的应用。

(b)把聚类作为预处理工具,为其他数据挖掘任务作数据准备的应
用。

(a)如电子商务网站中的客户群划分。

根据客户的个人信息、消费习惯、浏览行为等信息,计算客户之间的相似度,然后采用合适的聚类算法对所有客户进行类划分;基于得到的客户群信息,相关的店主可以制定相应的营销策略,如交叉销售,根据某个客户群中的其中一个客户的购买商品推荐给另外一个未曾购买此商品的客户。

(b)如电子商务网站中的推荐系统。

电子商务网站可以根据得到的客户群,采用关联规则或者隐马尔科夫模型对每个客户群生成消费习惯规则,检测客户的消费模式,这些规则或模式可以用于商品推荐。

其中客户群可以通过聚类算法来预先处理获取得到。

相关文档
最新文档