一种新的最佳聚类数确定方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一种新的最佳聚类数确定方法

一种新的最佳聚类数确定方法

摘要:为了更有效地确定数据集的聚类数最佳聚类数,提出一种新的确定数据集最佳聚类数的算法。该算法借签层次聚类的思想,一次性地生成所有可能的划分,然后根据有效性指标选择最佳的聚类划分,进而获得最佳聚类数。理论分析和实验结果证明,该算法具有良好的性能。关键词:层次聚类;最佳聚类数;聚类有效性指标;聚类

最佳聚类数的判定通常采用一种基于迭代的trial-and-error过程[1]进行,该过程是在给定的数据集上,使用不同的参数(通常是聚类数k),运行特定的聚类算法,对数据集进行不同的划分,然后计算每种划分的指标值。通过比较各个指标值,其中符合预定条件的指标值所对应的聚类个数被认为是最佳的聚类数。实际上,trial-and-error过程存在两个不足之处:(1)聚类数k 值的确定对于缺乏丰富聚类分析经验的用户来说是难以准确确定的[2],这需进一步提出寻找更合理的聚类数k的方法;(2)目前提出的许多检验聚类有效性的指标,如Vxie指标[3]、Vwsj指标[1]等,但这些指标都是基于某个特定聚类算法提出的,在实际应用中受到了极大限制。鉴于上述两种情况,本文借鉴层次聚类的思想一次性地生成所有可能的聚类划分,并计算其对应的有效性指标,然后选择指标值最小的聚类划分来估计数据集的最佳聚类数,这样可以避免对大型数据集的反复聚类,而且该过程不依赖于特定的聚类算法。1聚类有效性指标本文采用的是一个不依赖于具体算法的有效性指标Q(C)来评估数据集的聚类效果。该有效性指标主要是通过类内数据对象的紧凑度以及类间数据对象的分离度[4]衡量聚类质量。1.3噪声点与孤立点的消除基于数据集中存在的噪声点与孤立点对聚类结果的影响,本文认为单独利用有效性指标所得出的聚类数为最佳聚类数k*的结论并不成立。根据

相关文档
最新文档