数据挖掘第三版第二章课后习题答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.1什么是数据挖掘?
(a)它是一种广告宣传吗?
(d)它是一种从数据库、统计学、机器学和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出一种观点,说数据挖掘是数据库进化的结果,你认为数据挖掘也是机器学习研究进化的结果吗?你能结合该学科的发展历史提出这一观点吗?针对统计学和模式知识领域做相同的事
(d)当把数据挖掘看做知识点发现过程时,描述数据挖掘所涉及的步骤
答:数据挖掘比较简单的定义是:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用信息和知识的过程。
数据挖掘不是一种广告宣传,而是由于大量数据的可用性以及把这些数据变为有用的信息的迫切需要,使得数据挖掘变得更加有必要。
因此,数据挖掘可以被看作是信息技术的自然演变的结果。
数据挖掘不是一种从数据库、统计学和机器学习发展的技术的简单转换,而是来自多学科,例如数据库技术、统计学,机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成。
数据库技术开始于数据收集和数据库创建机制的发展,导致了用于数据管理的有效机制,包括数据存储和检索,查询和事务处理的发展。
提供查询和事务处理的大量的数据库系统最终自然地导致了对数据分析和理解的需要。
因此,出于这种必要性,数据挖掘开始了其发展。
当把数据挖掘看作知识发现过程时,涉及步骤如下:数据清理,一个删除或消除噪声和不一致的数据的过程;数据集成,多种数据源可以组合在一起;数据选择,从数据库中提取与分析任务相关的数据;数据变换,数据变换或同意成适合挖掘的形式,如通过汇总或聚集操作;数据挖掘,基本步骤,使用智能方法提取数据模式;模式评估,根据某种兴趣度度量,识别表示知识的真正有趣的模式;知识表示,使用可视化和知识表示技术,向用户提供挖掘的知识
1.3定义下列数据挖掘功能:特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。
使用你熟悉的现实生活中的数据库,给出每种数据挖掘功能的例子答:分类(Classification):首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
例子:
a. 信用卡申请者,分类为低、中、高风险
b. 分配客户到预先定义的客户分片
注意:类的个数是确定的,预先定义好的
·聚集(Clustering):聚集是对记录分组,把相似的记录在一个聚集里。
聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。
例子:
a. 一些特定症状的聚集可能预示了一个特定的疾病
b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群
聚集通常作为数据挖掘的第一步。
例如,"哪一种类的促销对客户响应最好?",对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。
关联(association):关联分析就是从给定的数据集发现频繁出现的项集模式知识。
关联分析广泛用于市场营销、事务分析等应用领域。
特征化: 是一个目标类数据的一般特性或特性的汇总。
例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩的信息,还有所修的课程的最大数量。
区分: 是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。
例如,具有高 GPA 的学生的一般特性可被用来与具有低 GPA 的一般特性比较。
最终的描述可能是学生的一个一般可比较的轮廓,就像具有高 GPA 的学生的 75%是四年级计算机科学专业的学生,而具有低 GPA 的学生的 65%不是。
1.6根据你的观察,描述一个可能的知识类型,他需要由数据挖掘方法发现,但未在本章中列出。
它需要一种不同于本章列举的数据挖掘技术吗?
答:建立一个局部的周期性作为一种新的知识类型,只要经过一段时间的偏移量在时间序列中重复发生,那么在这个知识类型中的模式是局部周期性的。
需要一种新的数据挖掘技术解决这类问题。
1.9与挖掘少量数据(例如,几百个元组的数据集合)相比,挖掘海量数据(例如,数十亿元组)的主要挑战是什么?
答:1)可伸缩由于数据产生和收集技术的进步,数吉字节、数太字节甚至数拍字节的数据集越来越普遍。
如果数据挖掘算法要处理这些海量数据集,则算法必须是可伸缩的(scalable)。
许多数据挖掘算法使用特殊的搜索策略处理指数性搜索问题。
可伸缩可能还需要实现新的数据结构,以有效的方式访问个别记录。
例如,当要处理的数据不能放进内存时,可能需要非内存算法。
使用抽样技术或开发并行和分布算法也可以提高可伸缩程度。
(2)高维性现在,常常遇到具有数以百计或数以千计属性的数据集,而不是数十年前常见的只具有少量属性的数据集。
在生物信息学领域,微阵列技术的进步已经产生了涉及数千特征的基因表达数据。
具有时间或空间分量的数据集也趋向于具有很高的维度。
例如,考虑包含不同地区的温度测量的数据集。
如果温度在一个相当长的时间周期内重复地测量,则维度(特征数)的增长正比于测量的次数。
为低维数据开发的传统的数据分析技术通常不能很好地处理这样的高维数据。
此外,对于某些数据分析算法,随着维度(特征数)的增加,计算复杂性迅速增加。
(3)异种数据和复杂数据通常,传统的数据分析方法只处理包含相同类型属性的数据集,或者是连续的,或者是分类的。
随着数据挖掘在商务、科学、医学和其他领域的作用越来越大,越来越需要能够处理异种属性的技术。
近年来,已经出现了更复杂的数据对象。
这些非传统的数据类型的例子包括含有半结构化文本和超链接的Web页面集、具有序列和三维结构的DNA数据、包含地球表面不同位置上的时间序列测量值(温度、气压等)的气象数据。
为挖掘这种复杂对象而开发的技术应当考虑数据中的联系,如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子联系。
(4)数据的所有权与分布有时,需要分析的数据并非存放在一个站点,或归属一个单位,而是地理上分布在属于多个机构的资源中。
这就需要开发分布式数据挖掘技术。
分布式数据挖掘算法面临的主要挑战包括:(1) 如何降低执行分布式计算所需的通信量?(2) 如何有效地统一从多个资源得到的数据挖掘结果?(3) 如何处理数据安全性问题?非传统的分析传统的统计方法基于一种假设—检验模式。
换句话说,提出一种假设,设计实验来收集数据,然后针对假设分析数据。
但是,这一过程劳力费神。
当前的数据分析任务常常需要产生和评估数以千计的假设,因此希望自动地产生和评估假设导致了一些数据挖掘技术的开发。
此外,数据挖掘所分析的数据集通常不是精心设计的实验的结果,并且它们通常代表数据的时机性样本(opportunistic sample),而不是随机样本(random sample)。
而且,这些数据集常常涉及非传统的数据类型和数据分布。
友情提示:部分文档来自网络整理,供您参考!文档可复制、编辑,期待您的好评与关注!。