(完整word版)数据挖掘题目及答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、何为数据仓库?其主要特点是什么?数据仓库与KDD的联系是什么?

数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

特点:

1、面向主题

操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。

2、集成的

数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

3、相对稳定的

数据仓库的数据主要供企业决策分析之用,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

4、反映历史变化

数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据仓库为KDD提供了数据环境,KDD从数据仓库中提取有效的,可用的信息

二、

数据库有4笔交易。设minsup=60%,minconf=80%。

TID DATE ITEMS_BOUGHT

T100 3/5/2009 {A, C, S, L}

T200 3/5/2009 {D, A, C, E, B}

T300 4/5/2010 {A, B, C}

T400 4/5/2010 {C, A, B, E}

使用Apriori算法找出频繁项集,列出所有关联规则。

解:已知最小支持度为60%,最小置信度为80%

1)第一步,对事务数据库进行一次扫描,计算出D中所包含的每个项目出现的次数,生成候选1-项集的集合C1。

2)第二步,根据设定的最小支持度,从C1中确定频繁1-项集L1。

3)第三步,由L1产生候选2-项集C2,然后扫描事务数据库对C2中的项集进行计数。

4) 第四步,根据最小支持度,从候选集C2中确定频繁2-项集L2。

5)第五步,由频繁2-项集L2生成候选3-项集C3,生成的候选3-项集的集合C3={A,B,C},C3的子集都是频繁的,且项集{A,B,C}计数为3,即L3=C3={A,B,C},L3即为频繁3-项集。

由频繁项集产生关联规则如下:

针对频繁3-项集L3,非空真子集有:{A},{B},{C},{A,B},{A,C},{B,C},相应的置信度为:

因为最小置信度为90%,故所有关联规则为:

B->A&&C、A&&B->C、B&&C->A

三、假设数据集D含有9个数据对象(用二维空间的点表示):

A1(3, 2),A2(3, 9),A3(8, 6),B1(9, 5),B2(2, 4),B3(3, 10),C1(2, 6),C2(9, 6),C3(2, 2)

基于欧几里得距离采用k-均值方法聚类,取k=3,初始的簇质心为A1,B1和C1,求:

(1) 第一次循环结束时的三个簇的质心。

(2) 最后求得的三个簇。

解:(1)第一次循环:

d2(A1,A1)=(3-3)2+(2-2)2=0

d2(A1,B1)=(3-9)2+(2-5)2=45

d2(A1,C1)=(3-2)2+(2-6)2=17

因为d2(A1,A1)最小,所以,A1->A1

d2(A2,A1)=(3-3)2+(9-2)2=49

d2(A2,B1)=(3-9)2+(9-5)2=60

d2(A2,C1)=(3-2)2+(9-6)2=10

因为d2(A2,C1)最小,所以,A2->C1

d2(A3,A1)=(8-3)2+(6-2)2=41

d2(A3,B1)=(8-9)2+(6-5)2=2

d2(A3,C1)=(8-2)2+(6-6)2=36

因为d2(A3,B1)最小,所以,A3->B1

d2(B1,A1)=(9-3)2+(5-2)2=45

d2(B1,B1)=(9-9)2+(5-5)2=0

d2(B1,C1)=(9-2)2+(5-6)2=50

因为d2(B1,B1)最小,所以,B1->B1

d2(B2,A1)=(2-3)2+(4-2)2=5

d2(B2,B1)=(2-9)2+(4-5)2=50

d2(B2,C1)=(2-2)2+(4-6)2=4

因为d2(B2,C1)最小,所以,B2->C1

d2(B3,A1)=(3-3)2+(10-2)2=64

d2(B3,B1)=(3-9)2+(10-5)2=61

d2(B3,C1)=(3-2)2+(10-6)2=17

因为d2(B3,C1)最小,所以,B3->C1

d2(C1,A1)=(2-3)2+(6-2)2=17

d2(C1,B1)=(2-9)2+(6-5)2=50

d2(C1,C1)=(2-2)2+(6-6)2=0

因为d2(C1,C1)最小,所以,C1->C1

d2(C2,A1)=(9-3)2+(6-2)2=50

d2(C2,B1)=(9-9)2+(6-5)2=1

d2(C2,C1)=(9-2)2+(6-6)2=49

因为d2(C2,B1)最小,所以,C2->B1

d2(C3,A1)=(2-3)2+(2-2)2=1

d2(C3,B1)=(2-9)2+(2-5)2=58

d2(C3,C1)=(2-2)2+(2-6)2=16

因为d2(C3,A1)最小,所以,C3->A1

所以第一次循环结束时,

第一类:A1,C3,质心为O1(2.5, 2)

第二类:B1,A3,C2, 质心为O2(9, 5.67)

第三类:C1,A2,B2,B3, 质心为O3(2.5, 7.25)(2) 第二次循环结束时,

第一类:A1,B2,C3,质心为O1(2.33,3),

第二类:A3,B1,C2,质心为O2(8.67,5.67),第三类:A2,B3,C1,质心为O3(2.67,8.33)。

第三次循环结束时,

相关文档
最新文档