数据挖掘期末复习提纲(整理版)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.熟悉数据挖掘的流程:

提示:1)业务理解2)数据理解3)数据准备4)建立模型5)模型评估6)模型发布

2.数据库系统与数据仓库系统的区别:

数据仓库是一个面向主题的、集成的、时变的和非易失的数据集合,支持管理部门的决策过程:而数据库是面向具体操作的、单一的、实时的、更新的数据集合,支持管理机构日常操作的。数据库系统的主要任务是执行联机事务和查询处理,这种系统称为OLTP系统,涵盖了组织机构的大部分日常操作;另一方面,数据仓库在数据分析和决策方面为用户和知识工人提供服务。

3. 数据聚合需考虑的问题;

4. 利用免费商品做促销的关联规则挖掘问题:

1)找到免费商品的频繁1—项集,记为S1。

2)使用FP增长算法生成那些价格不少于$200的频繁项集,记为S2。这是一个单调约束,因此不必要在每一步使用“生成—测试”过程,这样能

节省一些不必要的计算开销。如果我们有一个频繁项价格至少¥200,则

没必要对这个频繁项的任何超集进行测试。这是因为任何其他商品加到

这个频繁项里,价格肯定会增多。需要检验的是超集是否是频繁的。这

里之所以使用FP增长算法的原因是Apriori算法丢弃了那些价格低于

$200的频繁项集。这样导致了将不能够发现满足约束条件的频繁项集。

FP增长算法不会有这样的问题,因为它保留了关于数据库的完整信息在

一个树结构中。

3)从S1S2中找到频繁项集。

4)生成满足最小置信度且形如2

S 的规则。

1S

5.分布式数据的关联规则挖掘方法:

第一.在每一个站点挖掘局部频繁项集,设CF为四个站点的局部频繁项集的并集;

第二.计算CF中每个频繁项集在各个站点的支持度计数;

第三.计算CF中每个项集的全局支持度计数,可以通过将它在四个站点的局部支持度计数累加起来;那些全局支持度大于支持度阀值的项集

为频繁项集;

第四.从全局频繁项集里导出强规则。

6.急切分类、惰性分类的优缺点:

急切分类比惰性分类在速度上要更快。因为它在接受新的待测数据之前已经构造了一个概括的模型。能够给一些属性指定一些权重,因为能提高精度。急切分类的缺点是它必须针对整个样本空间作出一个单一的假设,这可能削弱分类性能,并且需要更多的时间去训练。

惰性分类使用更广泛的函数空间,这能够提高分类精度。相对于急切分类,它需要更少的时间用于训练。缺点是惰性分类必须把所有的训练样本都保存下来,这可能引入了昂贵的存储代价并且要求有效的索引技术。另外一个缺点是在分类时更慢,因为分类器在待测样本来之前并没有构造出来。而且,所有属性都是具有一样的权值,这可能导致降低分类性能。

7. 熟悉贝叶斯分类方法的计算;

8. 聚类分析及聚类分析的常用算法;

9. 数据预处理中的规范化方法;

10. 关联规则挖掘的常用算法及计算

11. 挖掘海量数据的挑战:

第一个挑战是数据挖掘的性能问题,也就是说数据挖掘算法的有效性和可伸缩性。在一定精度的要求下,在可接受的运行时间内,为了有效的从大量数据里提取信息,数据挖掘算法必须是有效的和可伸缩的。第二个挑战是数据挖掘算法的并行性,分布式和增量处理过程。由于数据可能有很多数据库组成,这些数据库分布在不同的区域,而且有些数据挖掘算法本身比较复杂,这些都需要数据挖掘算法具有并行性和分布式计算功能。由于针对大规模数据的数据挖掘代价昂贵,因此当新的数据加入时,数据挖掘算法需要能够只对更新的数据进行处理,而不需要对整个数据集重新挖掘一次。

12. k均值与k中心点的优缺点比较:划分和层次的比较:

K中心点算法比k均值算法在面临噪音数据和离群点数据时更具鲁棒性,因为中心点相对均值来说,更少受到群点或者其他极端值的影响。然而,k衷心点聚类的预处理过程比K均值代价更高。

K中心点和k均值都是基于划分的角力,基于划分的聚类的一个优缺点是,他们能够撤销之前的聚类过程,不像基于层次的聚类方法,一旦分类或者聚合执行了,就不能调整。这项缺点可能引起层次聚类的结果质量。基于划分的聚类方法在寻找椭圆形聚类模式时具有更好的效能,在针对中等以下规模的数据集进行聚类时,聚类效果较好。划分聚类的一个缺点是聚类之前需要知道类别的数目;而层次聚类能够自动决定类别的数目。然而,层次聚类在伸缩性方面有困难。因为每一次聚合或者分裂都要求对很多样本或者类别进行评估和检查。层次聚类方法能够与其他聚类方法相结合来提高聚类性能。

13. 简述决策树分类的主要步骤

14. 简单地描述如何计算由如下类型的变量描述的对象间的相异度;

1)数值(区间标度)变量2)不对称的二元变量3)分类变量4)比例标度型(radio---scaled)变量5)序数变量

15. 给定K和描述每个样本的属性数n,写一个k---最近邻分类算法。

16. 定义下列数据挖掘功能,特征、区分、关联、分类、预测、聚类、演变分析。使用你熟悉的生活中的数据库,给出每种数据挖掘功能的例子。

17. 为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。

相关文档
最新文档