习题1(第一章数据挖掘基础概念)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
习题1(第一章数据挖掘基础概念)
1.什么是数据挖掘?
解答:
数据挖掘是指从大规模的数据中抽取或挖掘出感兴趣的知识或模式的过程或方法。
2.定义下列数据挖掘功能:特征化、区分、关联和相关分析、分类、预测、聚类和演变分
析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。
解答:
特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括平均成绩(GPA :Grade point average) 的信息,还有所修的课程的最大数目。
区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。
最终的描述可能是学生的一般可比较的轮廓,就像75%具有高GPA 的学生是四年级计算机科学专业的学生而65%具有低GPA 的学生不是。
关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:
major(X, “ computing science ” ) ⇒owns(X, “ personal computer ” )
[support=12%, confidence=98%]
其中,X 是表示学生的变量。这个规则指出正在学习的学生中,12%(支持度)主修计算机科学并且拥有一台个人计算机,这些学生中一个学生拥有一台个人电脑的概率是98%(置信度或确定度)。
分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。
聚类根据数据内部的相似性,最小化类之间的相似性的原则进行聚类或分组,形成的每一簇可以被看作一个对象类。聚类也用于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。
数据演变分析是描述和模型化随时间变化的对象的规律或趋势。尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类和预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。
3.给出一个例子,其中数据挖掘对于商务的成功是至关重要的。并说明该商务需要什么数
据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?
解答:
以一个百货公司为例,它可以应用数据挖掘来帮助其进行目标市场营销。运用数据挖掘功能例如关联规则挖掘,百货公司可以根据销售记录挖掘出强关联规则,来决定哪一类商品是消费者在购买某一类商品的同时,很有可能去购买的,从而促使百货公司进行目标市场营销。数据查询处理主要用于数据或信息检索,没有发现关联规则的方法。
同样地,简单的统计分析没有能力处理像百货公司销售记录这样的大规模数据。
4.数据仓库和数据库有什么不同?有哪些相似之处?
解答:
不同:数据仓库是一种数据的长期的存储库,这些数据来自多个数据源,并且在一种一致的模式下存放,数据仓库主要用于数据分析和决策支持。而数据库是代表存储数据当前状态的相关数据的汇总,现有情况下可能存在多个模式不同的异构数据库,数据库主要用于临时查询或在线事物处理。
相同:数据仓库和数据库都是数据或信息的存储系统,都存储了大量的持久性数据。
5.列举并描述数据挖掘任务的五种原语。
解答:
用于指定数据挖掘任务的五种原语是:
(1) 任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库
表、或数据仓库,其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或维、关于修复的数据排序和分组。
(2) 挖掘的数据类型:这种原语指明了所要执行的特定数据挖掘功能,如特征化、区分、
关联、分类、聚类、或演化分析。同样,用户的要求可能更特殊,并可能提供所发现的模式必须匹配的模版。这些模版或超模式(也被称为超规则)能被用来指导发现过程。
(3)背景知识:这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用
来指导知识发现过程,并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的形式。
(4)模式兴趣度度量:这种原语允许用户指定功能,用于从知识中分割不感兴趣的模式,
并且被用来指导挖掘过程,也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感兴趣的模式的数量,因为一种数据挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易性、确定性、适用性、和新颖性的特征。
(5)发现模式的可视化:这种原语述及发现的模式应该被显示出来。为了使数据挖掘能
有效地将知识传给用户,数据挖掘系统应该能将发现的各种形式的模式展示出来,正如规则、表格、饼或条形图、决策树、立方体或其它视觉的表示。
6.与挖掘少量数据(如几百个元组的数据集合)相比,挖掘海量数据(如数兆元组)的主
要挑战是什么?
解答:
数据挖掘在性能方面的一个挑战就是数据挖掘算法的高效性和可扩展性。这是为了在可预测和可接受的运行时间内从数据库大规模的数据当中有效地提取信息。另一个挑战就是数据挖掘算法的并行性、分布式以及增量处理。并行性和分布式的提出主要是因为一些数据库的超大数据规模、广泛分布的数据以及一些数据挖掘方法的计算复杂度。
同时,由于一些数据挖掘过程的高开销,增量数据挖掘算法被引入到数据更新的过程中,从而不需要重新挖掘整个数据。
7.解释为什么概念分层在数据挖掘中是有用的。
解答:
概念分层定义了从低层概念到高层概念或者说更一般的概念的映射序列,这样就可以用树中的节点、格或者偏序关系表示。概念分层之所以用于数据挖掘是因为它允许从多个抽象层次发现知识,并且提供数据可能的特殊化与一般化的组织结构。同时,有了概念分层,用户就可以从多个视角来观察数据,获得隐藏在数据下面的更多的信息。利用概念分层,还可以对数据进行压缩处理,减小了I/O开销,这比单纯地从大量、未压缩的数据集上挖掘数据更有效。