3种聚类算法性能比较分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
处理高维数 据的能力 较低 低 高
3 结 语
笔者对 3 种聚类方法进行了简单的介绍 , 然后针对 3 种算法在相同的数据上进行了试验 , 最后根据 试验结果比较了这 3 种方法的优劣 。在表 3 中可以看出 3 种算法在各个性能上有较大差异 。有关聚类算 法及其应用还有许多未解之处 , 有待进一步研究和探索 。
基于函数最优 基于模型 基于密度
O( kN t) 与概率分布有关 较快
表 3 3 种算法性能比较表
可伸缩性
适合的数据 类型
发现的聚类 形状
较高
数值型
凸状 、球状类
对领域知识 的依赖性 大
低
任意
任意
小
一般
数值型
凸状 、球状类 大
对噪声的 敏感程度 敏感 一般 不敏感
对输入数据顺序 的敏感性 敏感 一般 一般
表 2 Glass 的聚类效果比较表
所用算法
聚错的样本数
平均准确度
K2M EANS
75
COB W EB
113
DENCL U E
83
01 59262 01 60626 01 53228
k
6 P =
1 k
i =1
mi /
ni
(1)
21 3 试验结果分析
K2M EAN S 算法难以消除噪声的影响 。另外 , 该算法初始聚类中心的随机选取 , 可能会陷入局部最
·250 ·
长江大学学报 (自然科学版) 2009 年 6 月 第 6 卷 第 2 期 : 理工 Journal of Yangtze University ( Nat Sci Edit) J un1 2009 , Vol1 6 No1 2 : Sci & Eng
3 种聚类算法性能比较分析
wk.baidu.com
张丽芳 (长江大学信息与数学学院数学系 , 湖北 荆州 434023)
21 2 试验结果说明
如表 2 所示 , 聚错的样本数指总的聚错的样本 数 , 即各类中聚错的样本数的和 。平均准确度的计算 方法如下 : 设原数据集有 k 个类 , 用 Ci 表示第 i 类 , ni 为 Ci 这类中样本的个数 , mi 为 Ci 中聚类正确的个数 , 则 mi / ni 为类 Ci 中的精度 ( i = 1 , …, k) 。设平均准确度 为 P ,那么 P 由如下公式给出 :
了聚类的准确度 。
D ENCL U E 算法对于有大量 “噪声”的数据集合 , 有良好的聚类特性 。该算法处理高维数据集合的
能力比较高 。但是 D ENCL U E 算法对参数比较敏感 , 这可能是出现聚类精度不高的原因 。
21 4 性能比较
3 种算法的性能比较见表 3 。
算法
类型
算法效率
K2MEANS COBW EB D ENCL U E
19971 [ 编辑 ] 李启栋
2 3 种算法试验
21 1 试验数据 本 试验 所 使 用 的 数 据 集 Glass 从 U CI 数 据 库 (国际通用机器学习训练数据库) 中获得 , 该数据集 的详细描述见表 1 。从表 1 中可看出 , 该数据集是多 类高维数据 。
表 1 数据集 Glass 的描述表
数据集
样本总数
优解 , 而难以获得全局最优解 。诸多的因素导致了 K2M EAN S 算法的聚类效果不很理想 。COBW EB 算
法假设每个属性上的概率分布是彼此独立的 , 由于属性间经常是相关的 , 这个假设并不总是成立的 , 这
给该方法带来一定局限性 。这个试验中的数据维数是 9 维 , COBWEB 算法的这一缺点或多或少地影响
1 3 种算法简介
聚类算法众多 , 其中著名的算法有 K2M EAN S 算法 、COBW EB 算法和 D ENCL U E 算法 。 K2M EAN S 算法最早由 MacQueen 提出来的 。在这个算法中 , 每个类用该类中现有对象的平均值表 示 。K2M EAN S 算法非常简单 , 在解决一些实际问题时 , 也很容易完成 。该算法在处理致密型和超球体 型的聚类中效果很好 。由于其时间复杂度是 O( N kt ) (其中 , N 为样本数 ; k 为聚类数 ; t 为迭代次数) , 因 此对处理大型数据集也是相对可伸缩和高效率的[1] 。 COBW EB 算法是一个通用且简单的增量式的概念聚类算法 。COBWEB 算法用分类树的形式来表现 层次聚类 。为了利用分类树来对一个对象进行分类 , 需要利用一个匹配函数来寻找 “最佳的路径”, COBW EB 算法用了一种启发式的评估衡量标准 , 将分类效用 CU (category utilit y) 来指导树的建立过 程 。该算法能够自动调整类的数目的大小 , 而不像其他算法那样自己设定类的个数 , 但 COBW EB 算法 中的 2 种操作对于记录的顺序很敏感 , 为了降低这种敏感性 , 该算法引入 2 个附加操作 : 合并和分解 。 可以根据 CU 值来确定合并和分解操作 , 从而达到双向搜索的目的 。COBW EB 算法的缺点是 : ①它假 设每个属性上的概率分布是彼此独立的 , 由于属性间经常是相关的 , 这个假设并不总是成立 。这给该方 法带来一定的局限性 。②聚类的概率分布表示更新和存储聚类相当繁复 , 因为时间和空间复杂度不只依 赖于属性的数目 , 还取决于每个属性的值的数目 , 所以当属性有大量的取值时情况变得很复杂 。③分类 树对于偏斜的输入数据不是高度平衡的 , 它可能导致时间和空间复杂性的剧烈变化[2] 。 DENCLU E (Density2based Clustering) 算法是一个基于一组密度分布函数的聚类算法。DENCLU E 算 法的优点是 : ①它有一个坚实的数学基础 , 概括了其他的聚类方法 , 包括基于分割的 、层次的以及基于 位置的方法 。②对于有大量 “噪声”的数据集合 , 它有良好的聚类特性 。③对高维数据集合的任意形状 的聚类 , 它给出了简洁的数学描述 。④它使用了网格单元 , 只保存实际包含数据点的网格单元的信息 。 它以一个基于树的存取结构来管理这些单元 , 因此比其他算法 (如 DBSCAN 算法等) 的速度要快 。 D ENCL U E 算法的缺点是 : 要求对密度参数σ和噪声阈值ξ进行仔细的选择 , 因为这样的参数选择可能 明显地影响聚类结果的质量 , 即对参数比较敏感[3] 。
[ 2 ] Jiawei H , Michelin K1 Data mining : Concept s and techniques [ M ] 1 Beijing : Beijing Higher Education Press , 20011 [ 3 ] Berry M , Linoff G1 Data Mining Techniques for Marketing Sales and Custo mer Support [ M ] 1 New York : Jo hn Wiley & Sons ,
[ 摘要 ] 对 3 种著名的聚类算法进行了对比分析 , 在多类高维 UCI 数据集上进行了试验 , 最后对试验结果
进行了分析 。
[ 关键词 ] 聚类 ; K2M EANS 算法 ; COBWEB 算法 ; D ENCL U E 算法
[ 中图分类号 ] TP311
[ 文献标识码 ] A [ 文章编号 ] 1673 1409 (2009) 02 N250 02
[ 参考文献 ]
[ 1 ] MacQueen J1 So me met hods For classification and analysis of multivariate observations [J ] 1 Proc 5t h Berkeley Symp Mat h Statist , Prob , 1967 , (1) : 281~2971
类别数
Gla s s
214
6
属性数 9
[ 收稿日期 ] 2009 03 19 [ 作者简介 ] 张丽芳 (1981 ) , 女 , 2003 年大学毕业 , 硕士 , 助教 , 现主要从事数据分析方面的研究工作 。
第 6 卷 第 2 期 : 理工
张丽芳 : 3 种聚类算法性能比较分析
·251 ·