数据挖掘考试题目——聚类
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘考试题目——聚类
一、填空题
1、密度的基于中心的方法使得我们可以将点分类为:__________、________ 、_________。
2、DBSCAN算法在最坏的情况下,时间复杂度是__________、空间复杂度是__________。
3、DBSCAN算法的优点是_______、__________________________。
4、DBSCAN算法的缺点是处理_________________、_____________的数据效果不好。
5、DBSCAN算法的参数有:___________、____________。
6、簇的有效性的非监督度量常常可以分为两类:__________、__________,它常采用的指标为__________。
7、簇的有效性的监督度量通常称为___________,它度量簇标号与外部提供的标号的匹配程度主要借助____________。
8、在相似度矩阵评价的聚类中,如果有明显分离的簇,则相似度矩阵应当粗略地是__________。
9、DBSCAN算法的参数确定的基本方法是观察____________________的特性。
10、不引用附加的信息,评估聚类分析结果对数据拟合情况属于__________技术。
答案:
1、核心点边界点噪声点
2、O(n2) O(n)
3、耐噪声能够处理任意大小和形状的簇
4、高维数据变密度的
5、EPS MinPts
6、簇的凝聚性簇的分离性均方差(SSE)
7、外部指标监督指标的熵
8、块对角的
9、点到它的第K个最近邻的距离(K-距离)
10、非监督
二、选择题
1、DBSCAN算法的过程是(B)。
①删除噪声点。
②每组连通的核心点形成一个簇。
③将所有点标记为核心点、边界点和噪声点。
④将每个边界点指派到一个与之关联的核心点的簇中。
⑤为距离在Eps之内的所有核心点之间赋予一条边。
A:①②④⑤③
B:③①⑤②④
C:③①②④⑤
D:①④⑤②③
2、如果有m个点,DBSCAN在最坏的情况下的时间复杂度度为(C)。
A O(m)
B O(mlogm)
C O(m2)
D O(logm)
3、在基本DBSCAN的参数选择方法中,点到它的K个最近邻的距离中的K选作为哪一个参数(B)。
A Eps
B MinPts
C 质心
D 边界
4、当采用K-距离的方法选择DBSCAN的Eps和MinPts参数时,如果设置的K的值太大,则小簇(尺寸小于K的簇)可能会被标记为(A)。
A 噪声
B 核心簇
C 边界簇D以上都不对
5、如果处理以下形状的数据时,适宜采用DBSCAN的是(B)
A 球形
B SS形
C 椭球形
D 方形
6、DBSCAN之所以难以有效处理高维数据,其主要原因是(D)
A 数据的形状太复杂
B 簇的大小未知
C 噪声点过多
D 开销过大
7、簇评估能够做到(D)
①确定数据集的聚类趋势。
②确定正确的簇个数。
③比较两个簇集,确定那个更好。
④不引用附加信息,评估聚类分析结果对数据拟合情况
A ①②
B ②③④
C ①②③D①②③④
8、如果不考虑外部信息,聚类结构的有良性度量应当采用(A)。
A 均方差
B 方差
C 中位数
D 均值
9、比较不同的聚类或簇时,通常采用相对的簇评估度量,相对的簇评估以()来评价不同的聚类或簇。
A SSE或熵
B 簇的大小
C 簇的形状
D 簇的密度
10、对于DBSCAN,参数Eps固定,当MinPts取值较大时,会导致(B)
A 能很好的区分各类簇
B 只有高密度的点的聚集区划为簇,其余划为噪声
C 低密度的点的聚集区划为簇,其余的划为噪声
D 无影响
三、判断题
1、DBSCAN的参数Eps固定时,MinPts的值越大越好。(错)
2、DBSCAN会把所有点划分到各自的簇中。(错)
3、在所有核心点的Eps半径邻域内的点数都不少于MinPts阈值。(对)
4、SSE在无监督的簇评估中能起到很好的作用。(对)
5、在通过相似度矩阵评估簇时,如果相似度矩阵是块对角的,说明具有明显分离的簇(对)。
6、DBSCAN能够很好的区分原始数据的形状,但受限于用户指定的参数。(对)
7、判断簇的个数不属于簇评估。(错)
8、在做聚类时,DBSCAN会删掉它认为是噪声点的数据点。(对)
9、DBSCAN的空间复杂度始终都是O(m)。(对)
10、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。(对)
四、简答题
1、描述DBSCAN的算法过程。
①将所有点标记为核心点、边界点和噪声点。
②删除噪声点。
③为距离在Eps之内的所有核心点之间赋予一条边。
④每组连通的核心点形成一个簇。
⑤将每个边界点指派到一个与之关联的核心点的簇中。
2、简答DBSCAN的优点与不足。
答,优点:DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇,缺点:当簇的密度变化过大时,DBSCAN就很难敏感的发现数据集中的簇。同时,DBSCAN 在处理高维数据时,会有很大的开销。
3、简述DBSCAN算法的核心思想。
DBSCAN算法的核心思想是一个簇中除了边界点,每个点在给定的半径Eps内必须包含不少于PinPts个数据点,这样的点称为核心点。
4、确定DBSCAN参数的基本的方法是什么。
答:观察点到它的K个最近邻的距离的特性。对于某个K,计算所有点的K距离,以递增的次序排序,绘制排序后的值。在图中找到曲线拐点,拐点处的函数值为Eps半径,K的值为Minpts。
5、簇评估的主要任务是什么。
答:①确定数据集的聚类趋势。
②确定正确的簇个数。