[最新]浅谈聚类

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅谈聚类
摘要:
聚类是根据数据间的相似性将一个数据集合分成若干个子集的过程。

其目标是发现隐藏在数据中的结构,因此具有探索性。

不论是为了学习还是应用,聚类长期在许多领域扮演着重要的角色。

如:统计,模式识别,信息检索,机器学习以及数据挖掘。

这篇文章对聚类相关概念做一个简要介绍,并给出了一些近邻测度。

此外,介绍了一些常用的聚类方法,最后是聚类有效性的简介。

bstrct:
Clustering is the process o identiying nturl subsets within multidimensionl dtset bsed on certin similrity mesure. The im o clustering is to ind structures hidden in dt nd is thereore explortory in nture. or both reserch nd ppliction, clustering nlysis hs long plyed n importnt role in wide vriety o ields: sttistics, pttern recognition, inormtion retrievl, mchine lerning, nd dt mining. This pper gives brie introduction o conceptions relted with clustering. In ddition, severl Proximity Mesures re shown. urthermore, some populr clustering pproches re presented. inlly, Cluster Vlidity is lso introduced concisely.
关键词:聚类,近邻测度,聚类方法,聚类有效性
Key Words: Clustering, Proximity Mesures, Clustering Method, Cluster Vlidity
1、简介
聚类用于处理人们每天接受到的大量信息。

将每个信息单独处理是不大可能的,所以人们试图把信息分类,每一类有这共同的特征。

聚类大致包括以下过程:聚类对象特征的选择,近邻测度的选择,定义聚类的准则,确定聚类的算法,结果的验证及判定。

聚类对象的特征是用数据来表示的,数据类型包括:①标量类型,如人的性别特征。

男性可能用“1”来表示,女性可能用“0”来表示。

②顺序类型,如学生某课程的表现。

“优秀”、“良好”、“及格”、“不好”对应的可能值为4、3、2、1。

③区间尺度类型,如天气温度。

④比例尺度,如增长率。

内容安排:
近邻测度的简介将在第二节给出。

第三节介绍常用的几种聚类方法。

第四节说明聚类有效性。

第五节做一个小结。

2、近邻测度
近邻测度包括相异测度和相似测度。

以后简称为相异度和相似度。

相异度是一个函数,表示两个数据对象的不相似性,满足三个性质:①最小值性,即对象与对象间的相异度存在最小值,且对象与自身的相异测度等于最小值。

②对称性,即对象与对象B 的相异度等于对象B与对象的相异度。

③三角不等性,在任意对象、B和C中,与B相异度加上B 与C相异度不小于与C相异度。

如果把、B、C分别对应到空间点,这个性质可以看作“三角形中两边之和不小于第三边”。

相似度则与之相反,表示两个数据对象的相似性。

同样满足对应的三个性质。

如欧几里德距离是一种常用的相异度。

其中x, y∈ X 且 x i, y i分别是x和y的第i个坐标。

X是一个数据集合。

X中的最小相异度为0.
近邻测度除了应用在两个向量上,有些应用还需要定义向量与集合间、集合与集合间的近邻度。

典型的向量与集合间的近邻度有最大近邻函数、最小近邻函数、平均近邻函数。

集合与集合间的近邻函数除了最大、最小、平均外,还有均值近邻函数。

形式化定义分别如下[1]:
向量与集合间的最大近邻函数
向量与集合间的最小近邻函数
向量与集合间的平均近邻函数
集合与集合间的最大近邻函数
集合与集合间的最小近邻函数
集合与集合间的平均近邻函数
集合与集合间的均值近邻函数
其中,为近邻测度函数。

n D为D的势。

3、聚类方法
聚类的结果取决于聚类所采用的准则和算法。

其结果的有效性依赖于专家领域知识。

聚类算法可采用不同的近邻测度,如常用的欧氏距离。

也可以自己定义适合某用途的相异度或者相似度。

主要的算法有:顺序算法、层次算法、基于代价函数最优的算法以及其它。

下面主要介绍两种代表性的算法:
1、基本顺序算法方案。

这种方法只审视数据一遍,按数据的读取顺序依次将满足一定条件的对象生成一个新类,不满足这一条件的对象合并到已有的类中。

选取不同的距离度量,会得到不同的算法。

使用不同的条件,得到聚类结果也不同。

常用的条件有:当前向量与已产生的类的距离大于预先指定的阈值,且已产生的聚类数小于先前设定的聚类最大数。

这种算法的优点是只扫描数据一次,运算代价小。

但它依赖于数据参与聚类的顺序和指定的阈值。

而合适的阈值事先很难确定。

可以对此方法进行改进,便产生了两个阈值的顺序方法。

处于两个阈值之间的区域的向量在第一遍扫描完成后进行。

小于较小阈值的向量归并到已生成的类中,而大于较大阈值的向量产生新的类。

2、层次算法中的基于矩阵的合并算法。

层次算法分为合并算法和分裂算法。

层次算法产生一个层次树,最终的聚类结果需要在相应的层次上截取。

合并算法首先将每一个向量作为一个类,然后选择类间距离最小的两个类合并,每合并一次,产生一个新的层次。

最终只剩下一个类。

使用不同的距离便产生不同的聚类算法。

基于矩阵的合并算法许多距离符合下面的方程[1]:
d(C q,C s) = i(C i,C s) + j(C j,C s) + b(C i,C j) + c| (C i,C s) - (C j,C s) |
其中,C i, C j 是要计算聚类的两个类(集合),C s为C i和C j集合的并集。

d表示距离。

i,j,b,c为系数。

不同的系数产生不同的相异度。

如:令i = ½、j = ½、b=0、c = - ½,便得到了单连接算法。

基于矩阵的合并算法直接操作相异度矩阵。

在矩阵中寻找最小值以及最小值在矩阵中的位置行坐标i,列坐标j。

删去第i行、第j行、第i列和第j列,增加新的一行一列,其相应的元素对应合并类i和类j后新的类s与其他类之间的距离。

换句话说,每操作一次,得到聚类树的一层。

最终只剩一行一列的矩阵,矩阵中元素为0,即最终的一个类与自身的距离。

分裂算法则与合并算法相反,刚开始所有向量都在一个类中。

然后将上一层产生类中的满足一定条件的类分裂成两个,这一条件为使得分裂后的两个类间的距离最大。

相对于合并算法,分裂算法的计算量很大。

在实际应用中,应做相应的改进。

层次算法的时间代价相比顺序算法很高,如MUS算法的时间复杂度为O(N3),N为数据量。

数据量很大时,很多方案对基本的合并方法做以改进,可以应用于发现非球状,不同密度,不同形状的类。

典型的算法有CURE[3],ROCK[4]算法等。

4、聚类有效性
我们用聚类算法对数据集合X进行聚类,产生的结果有可能不能表示X的结构。

换句话说,聚类分析不是万能的。

在应用聚类算法之前,还应了解X的向量能否形成聚类。

所以,我们有必要讨论一下聚类有效性,即对算法的结果进行定量的评价。

评价中常使用三类准则。

外部准则、内部准则和相对准则。

我们以外部准则进行讨论:
外部准则的主要思想是[5]:将聚类算法生成的聚类结构C和独立于这一聚类的对X的划分P 相比较。

对X中的一对向量(x i,x j),我们统计:①这对向量属于C中的同一个聚类,同时属于P 中的同一组。

②这对向量属于C中的不同聚类,也属于P中的不同组。

③这对向量属于C中的同一聚类,却属于P中的不同组。

④这对向量属于C中的不同聚类,却属于P中的同一组。

我们对X中所有的向量对按上述四种情况进行计数。

、b、c和d分别表示上述计数结果,令M = +b+c+d。

有两个指标衡量C与P的匹配结果。

●Rnd统计R = ( + b )/ M
●Jccrd系数J = / ( + c + d )
显然,它们的值越大,C和P的一致性越高。

Jccrd系数相对于Rnd统计在分子和分母中去掉了b。

上述讨论中,我们可令P为专家认为合理的分组,或者已知的合理的聚类结果。

应用某一算法得到C,将C与P进行对比。

可用于测量聚类结果的有效性。

5、小结
聚类方法大量地被应用于科学工程领域,聚类主要用于发现数据集中的自然分组,使得组内的向量相似,组间的向量相异。

本文对聚类相关概念、两个典型聚类算法以及算法的有效性给出了一个大致的介绍。

虽然迄今为止,已提出了成千的聚类方法,但没有一种算法是通用的,也就是说,在各种应用中,要选择合适的聚类方案,也有可能对已有的方法加以改进,或者重新设计算法。

有的算法重点考虑聚类结果,运算时间复杂度高。

而有的算法计算快,却只适合某些类型的数据集。

如常用的K-mens算法,适用于发现球状的,密度均衡的大量的数据。

参考文献:
[1]Sergios Theodorids Konstntinos Koutroumbs “Pttern Recognition” orurth Edition。

[2]M.G. Omrn, .P. Engelbrecht, nd . Slmn, “n overview o clustering methods,” Intelligent Dt nlysis, vol. 11, no. 6, pp. 583-605, 2007.
[3]Guh S.,Rstogi R.,Shim K.“CURE: n eicient clustering lgorithm or lrge dtbses,”Prodeedings o the CM SIGMOD Conerence on Mngement o Dt, pp.73-84,1998.
[4]Guh S.,Rstogi R.,Shim K. “ROCK: robust clustering lgorithm or ctegoricl ttributes,”Inormtion Systems, Vol.25, No 5, pp. 345-366, 2000.。

相关文档
最新文档