数据挖掘考试题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘考试题
一.选择题
1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )
A.分类
B.聚类
C.关联分析
D.主成分分析
2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。
A.MIN(单链)
B.MAX(全链)
C.组平均
D.Ward方法
3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。
A 分类
B 预测C关联规则分析D聚类
4.关于K均值和DBSCAN的比较,以下说法不正确的是( )
A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。
C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇
D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇
5.下列关于Ward’s Method说法错误的是:( )
A.对噪声点和离群点敏感度比较小
B.擅长处理球状的簇
C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差
D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似
6.下列关于层次聚类存在的问题说确的是:( )
A.具有全局优化目标函数
B.Group Average擅长处理球状的簇
C.可以处理不同大小簇的能力
D.Max对噪声点和离群点很敏感
.
.
. . 7.下列关于凝聚层次聚类的说法中,说法错误的事:( )
A.一旦两个簇合并,该操作就不能撤销
B.算法的终止条件是仅剩下一个簇
C.空间复杂度为()
2m O D.具有全局优化目标函数
8.规则{
牛奶,尿布}→{啤酒}的支持度和置信度分别为:( )
TID
项 集 1
2
3
4
5
{面包,牛奶} {面包,尿布,啤酒,鸡蛋} {牛奶,尿布,啤酒,可乐} {面包,牛奶,尿布,啤酒} {面包,牛奶,尿布,可乐}
A.0.4,0.4
B.0.67,0.67
C.0.4,0.67
D.0.67,0.4
9.下列( )是属于分裂层次聚类的方法。
A.Min
B.Max
C.Group Average
D.MST 10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX 计算,第二步是哪两个簇合并:( )
A.在{3}和{l,2}合并
B.{3}和{4,5}合并
C.{2,3}和{4,5}合并
D. {2,3}和{4,5}形成簇和{3}合并
二.填空题:
1. 属性包括的四种类型: 、 、 、 。
2. 是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。
3. 基本凝聚层次聚类算法空间复杂度 ,时间复杂度 ,如果某个簇到其他所
有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为。
4. 聚类中,定义簇间的相似度的方法有(写出四个):、、、。
5. 层次聚类技术是第二类重要的聚类方法。
两种层次聚类的基本方法:、。
6. 组平均是一种界于和之间的折中方法。
7. 相似度矩阵可以用相识度表示还可以用表示。
8. 全链在处理大小不同的簇时,可能使破裂,并且偏好。
9. 单链技术擅长于处理,但对和很敏感。
10. 聚类分析可以看做是一种的分类。
(有监督、无监督)
三.判断题
1.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。
()
2.数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。
()
3.在聚类分析当中,簇的相似性越大,簇间的差别越大,聚类的效果就越差。
()
4.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。
()
5.DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。
()
6.属性的性质不必与用来度量他的值的性质相同。
()
7.全链对噪声点和离群点很敏感。
()
8.对于非对称的属性,只有非零值才是重要的。
()
9.K均值可以很好的处理不同密度的数据。
()
10.单链技术擅长处理椭圆形状的簇。
()
四.综合题
1. 何为层次聚类?它用哪两种图表示?
2. 两种层次聚类的基本方法?两种方法的定义?
3.分别写出Min、Max和组平均的优缺点?
4.写出基本凝聚层次聚类的算法?
5.由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树
.
.
状图?
考试题+答案
一.选择题
1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)
A.分类
B.聚类
C.关联分析
D.主成分分析
2. (C)将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。
A.MIN(单链)
B.MAX(全链)
C.组平均
D.Ward方法
3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了(C )数据挖掘方法。
A 分类
B 预测C关联规则分析D聚类
4.关于K均值和DBSCAN的比较,以下说法不正确的是(A)
A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。
C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇
D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇
5.下列关于Ward’s Method说法错误的是:(C)
A.对噪声点和离群点敏感度比较小
B.擅长处理球状的簇
C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差
D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似
.
.
. . 7.下列关于层次聚类存在的问题说确的是:(B )
A 具有全局优化目标函数
B.Group Average 擅长处理球状的簇
C.可以处理不同大小簇的能力
D.Max 对噪声点和离群点很敏感
7.下列关于凝聚层次聚类的说法中,说法错误的事:(D )
A.一旦两个簇合并,该操作就不能撤销
B.算法的终止条件是仅剩下一个簇
C.空间复杂度为()
2m O D.具有全局优化目标函数
8.规则{
牛奶,尿布}→{啤酒}的支持度和置信度分别为:(C )
TID
项 集 1
2
3
4
5
{面包,牛奶} {面包,尿布,啤酒,鸡蛋} {牛奶,尿布,啤酒,可乐} {面包,牛奶,尿布,啤酒} {面包,牛奶,尿布,可乐}
A.0.4,0.4
B.0.67,0.67
C.0.4,0.67
D.0.67,0.4
9.下列( D )是属于分裂层次聚类的方法。
A.Min
B.Max
C.Group Average
D.MST 10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX 计算,第二步是哪两个簇合并:
(B )
A.在{3}和{l,2}合并
B.{3}和{4,5}合并
C.{2,3}和{4,5}合并
. . D. {2,3}和{4,5}形成簇和{3}合并
二.填空题:
1.属性包括的四种类型:标称、序数、区间、比率。
2.组平均是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。
3. 基本凝聚层次聚类算法空间复杂度()2m O ,时间复杂度()
3m O ,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为()
m m O log 2。
4. 聚类中,定义簇间的相似度的方法有(写出四个):MIN (单链)、MAX (全链)、组平均、Ward 方法。
5. 层次聚类技术是第二类重要的聚类方法。
两种层次聚类的基本方法:凝聚层次聚类、分裂层次聚类。
6.组平均是一种界于 单链 和 全链 之间的折中方法。
7. 相似度矩阵可以用相识度表示还可以用 距离 表示。
8. 全链在处理大小不同的簇时,可能使 大的簇 破裂,并且偏好球形。
9. 单链技术擅长于处理 非椭圆形状的簇 ,但对 噪声点 和 离群点 很敏感。
10. 聚类分析可以看做是一种无监督的分类。
(有监督、无监督)
三.判断题:
1. 从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。
(×)
2. 数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。
( √)
3. 在聚类分析当中,簇的相似性越大,簇间的差别越大,聚类的效果就越差。
(× )
4. 当两个点之间的邻近度取它们之间距离的平方时,Ward 方法与组平均非常相似。
( √)
5. DBSCAN 是相对抗噪声的,并且能够处理任意形状和大小的簇。
( √)
6. 属性的性质不必与用来度量他的值的性质相同。
(√ )
7. 全链对噪声点和离群点很敏感。
(× )
8. 对于非对称的属性,只有非零值才是重要的。
(√ )
9. K 均值可以很好的处理不同密度的数据。
(× )
10.单链技术擅长处理椭圆形状的簇。
(×)
四.综合题
1. 何为层次聚类?它用哪两种图表示?
层次聚类为嵌套簇的聚集,组成一棵层次数。
两种主要图的表示:树状图和嵌套簇图。
2. 两种层次聚类的基本方法?两种方法的定义?
凝聚层次聚类和分裂层次聚类
凝聚的:从点作为个体簇开始,每一步合并两个最接近的簇。
分裂的:从包含所有点的某个簇开始,每一步分裂一个簇,直到仅剩下单点簇。
3.分别写出Min、Max和组平均的优缺点?
4.写出基本凝聚层次聚类的算法?
算法步骤:
(1)计算邻近度矩阵
(2)Repeat
(3) 合并最邻近的两个簇
(4) 更新邻近度矩阵,以反映新的簇与原来的簇之间的邻近度
(5)Until 仅剩下一个簇
5.由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树状图?
.
.
P3 0.22 0.14 0.00 0.15 0.28 0.11
P4 0.37 0.20 0.15 0.00 0.29 0.22
P5 0.34 0.13 0.28 0.29 0.00 0.39
P6 0.23 0.25 0.11 0.22 0.39 0.00
这是告诉你的计算过程,现在不要写了。
P3和P6最近所以36结合,P2和P5较近,所以25结合,现在是{3,6}、{2,5}、{1}和{4},
Dist({3,6},{4}) = max(dist(3,4),dist(6,4))= max(0.15,0.22)=0.22
Dist({3,6},{2,5}) = max(dist(3,2),dist(6,2),dist(3,5),dist(6,5))
=max(0.14,0.25,0.28,0.39)=0.39
Dist({3,6},{1})=max(dist(3,1),dist(6,1))=max(0.22,0.23)=0.23
所以{3,6}和{4}结合。
现在还剩{3,6,4}、{2,5}和{1}
Dist({3,6,4},{2,5})=max(dist(3,2),dist{3,5},dist(6,2),dist(6,5),dist(4,2),dist(4,5))
=max(0.14,0.28,0.25,0.39,0.20,0.29)=0.39
Dist({3,6,4},{1})=max(dist(3,1),dist(6,1),dist(4,1))=max(0.22,0.23,0.37)=0.37
Dist({2,5},{1})=max(dist(2,1),dist(5,1))=max(0.24,0.34)=0.34
所以{2,5}和{1}结合
Dist({3,6,4},{2,5,1})=0.39
.
.。