[最新]浅谈聚类

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

浅谈聚类
摘要:
聚类是根据数据间的相似性将一个数据集合分成若干个子集的过程。

其目标是发现隐藏在数据中的结构，因此具有探索性。

不论是为了学习还是应用，聚类长期在许多领域扮演着重要的角色。

如：统计，模式识别，信息检索，机器学习以及数据挖掘。

这篇文章对聚类相关概念做一个简要介绍，并给出了一些近邻测度。

此外，介绍了一些常用的聚类方法，最后是聚类有效性的简介。

bstrct：
Clustering is the process o identiying nturl subsets within multidimensionl dtset bsed on certin similrity mesure. The im o clustering is to ind structures hidden in dt nd is thereore explortory in nture. or both reserch nd ppliction, clustering nlysis hs long plyed n importnt role in wide vriety o ields: sttistics, pttern recognition, inormtion retrievl, mchine lerning, nd dt mining. This pper gives brie introduction o conceptions relted with clustering. In ddition, severl Proximity Mesures re shown. urthermore, some populr clustering pproches re presented. inlly, Cluster Vlidity is lso introduced concisely.
关键词：聚类，近邻测度，聚类方法，聚类有效性
Key Words: Clustering, Proximity Mesures, Clustering Method, Cluster Vlidity
1、简介
聚类用于处理人们每天接受到的大量信息。

将每个信息单独处理是不大可能的，所以人们试图把信息分类，每一类有这共同的特征。

聚类大致包括以下过程：聚类对象特征的选择，近邻测度的选择，定义聚类的准则，确定聚类的算法，结果的验证及判定。

聚类对象的特征是用数据来表示的，数据类型包括：①标量类型，如人的性别特征。

男性可能用“1”来表示，女性可能用“0”来表示。

②顺序类型，如学生某课程的表现。

“优秀”、“良好”、“及格”、“不好”对应的可能值为4、3、2、1。

③区间尺度类型，如天气温度。

④比例尺度，如增长率。

内容安排：
近邻测度的简介将在第二节给出。

第三节介绍常用的几种聚类方法。

第四节说明聚类有效性。

第五节做一个小结。

2、近邻测度
近邻测度包括相异测度和相似测度。

以后简称为相异度和相似度。

相异度是一个函数，表示两个数据对象的不相似性，满足三个性质：①最小值性，即对象与对象间的相异度存在最小值，且对象与自身的相异测度等于最小值。

②对称性，即对象与对象B 的相异度等于对象B与对象的相异度。

③三角不等性，在任意对象、B和C中，与B相异度加上B 与C相异度不小于与C相异度。

如果把、B、C分别对应到空间点，这个性质可以看作“三角形中两边之和不小于第三边”。

相似度则与之相反，表示两个数据对象的相似性。

同样满足对应的三个性质。

如欧几里德距离是一种常用的相异度。

其中x, y∈ X 且 x i, y i分别是x和y的第i个坐标。

X是一个数据集合。

X中的最小相异度为0.
近邻测度除了应用在两个向量上，有些应用还需要定义向量与集合间、集合与集合间的近邻度。

典型的向量与集合间的近邻度有最大近邻函数、最小近邻函数、平均近邻函数。

集合与集合间的近邻函数除了最大、最小、平均外，还有均值近邻函数。

形式化定义分别如下[1]：
向量与集合间的最大近邻函数
向量与集合间的最小近邻函数
向量与集合间的平均近邻函数
集合与集合间的最大近邻函数
集合与集合间的最小近邻函数
集合与集合间的平均近邻函数
集合与集合间的均值近邻函数
其中，为近邻测度函数。

n D为D的势。

3、聚类方法
聚类的结果取决于聚类所采用的准则和算法。

其结果的有效性依赖于专家领域知识。

聚类算法可采用不同的近邻测度，如常用的欧氏距离。

也可以自己定义适合某用途的相异度或者相似度。

主要的算法有：顺序算法、层次算法、基于代价函数最优的算法以及其它。

下面主要介绍两种代表性的算法：
1、基本顺序算法方案。

这种方法只审视数据一遍，按数据的读取顺序依次将满足一定条件的对象生成一个新类，不满足这一条件的对象合并到已有的类中。

选取不同的距离度量，会得到不同的算法。

使用不同的条件，得到聚类结果也不同。

常用的条件有：当前向量与已产生的类的距离大于预先指定的阈值，且已产生的聚类数小于先前设定的聚类最大数。

这种算法的优点是只扫描数据一次，运算代价小。

但它依赖于数据参与聚类的顺序和指定的阈值。

而合适的阈值事先很难确定。

可以对此方法进行改进，便产生了两个阈值的顺序方法。

处于两个阈值之间的区域的向量在第一遍扫描完成后进行。

小于较小阈值的向量归并到已生成的类中，而大于较大阈值的向量产生新的类。

2、层次算法中的基于矩阵的合并算法。

层次算法分为合并算法和分裂算法。

层次算法产生一个层次树，最终的聚类结果需要在相应的层次上截取。

合并算法首先将每一个向量作为一个类，然后选择类间距离最小的两个类合并，每合并一次，产生一个新的层次。

最终只剩下一个类。

使用不同的距离便产生不同的聚类算法。

基于矩阵的合并算法许多距离符合下面的方程[1]：
d(C q,C s) = i(C i,C s) + j(C j,C s) + b(C i,C j) + c| (C i,C s) - (C j,C s) |
其中，C i, C j 是要计算聚类的两个类(集合)，C s为C i和C j集合的并集。

d表示距离。

i，j，b，c为系数。

不同的系数产生不同的相异度。

如：令i = ½、j = ½、b=0、c = - ½，便得到了单连接算法。

基于矩阵的合并算法直接操作相异度矩阵。

在矩阵中寻找最小值以及最小值在矩阵中的位置行坐标i，列坐标j。

删去第i行、第j行、第i列和第j列，增加新的一行一列，其相应的元素对应合并类i和类j后新的类s与其他类之间的距离。

换句话说，每操作一次，得到聚类树的一层。

最终只剩一行一列的矩阵，矩阵中元素为0，即最终的一个类与自身的距离。

分裂算法则与合并算法相反，刚开始所有向量都在一个类中。

然后将上一层产生类中的满足一定条件的类分裂成两个，这一条件为使得分裂后的两个类间的距离最大。

相对于合并算法，分裂算法的计算量很大。

在实际应用中，应做相应的改进。

层次算法的时间代价相比顺序算法很高，如MUS算法的时间复杂度为O(N3)，N为数据量。

数据量很大时，很多方案对基本的合并方法做以改进，可以应用于发现非球状，不同密度，不同形状的类。

典型的算法有CURE[3]，ROCK[4]算法等。

4、聚类有效性
我们用聚类算法对数据集合X进行聚类，产生的结果有可能不能表示X的结构。

换句话说，聚类分析不是万能的。

在应用聚类算法之前，还应了解X的向量能否形成聚类。

所以，我们有必要讨论一下聚类有效性，即对算法的结果进行定量的评价。

评价中常使用三类准则。

外部准则、内部准则和相对准则。

我们以外部准则进行讨论：
外部准则的主要思想是[5]：将聚类算法生成的聚类结构C和独立于这一聚类的对X的划分P 相比较。

对X中的一对向量(x i,x j)，我们统计：①这对向量属于C中的同一个聚类，同时属于P 中的同一组。

②这对向量属于C中的不同聚类，也属于P中的不同组。

③这对向量属于C中的同一聚类，却属于P中的不同组。

④这对向量属于C中的不同聚类，却属于P中的同一组。

我们对X中所有的向量对按上述四种情况进行计数。

、b、c和d分别表示上述计数结果，令M = +b+c+d。

有两个指标衡量C与P的匹配结果。

●Rnd统计R = （ + b ）/ M
●Jccrd系数J = / （ + c + d ）
显然，它们的值越大，C和P的一致性越高。

Jccrd系数相对于Rnd统计在分子和分母中去掉了b。

上述讨论中，我们可令P为专家认为合理的分组，或者已知的合理的聚类结果。

应用某一算法得到C，将C与P进行对比。

可用于测量聚类结果的有效性。

5、小结
聚类方法大量地被应用于科学工程领域，聚类主要用于发现数据集中的自然分组，使得组内的向量相似，组间的向量相异。

本文对聚类相关概念、两个典型聚类算法以及算法的有效性给出了一个大致的介绍。

虽然迄今为止，已提出了成千的聚类方法，但没有一种算法是通用的，也就是说，在各种应用中，要选择合适的聚类方案，也有可能对已有的方法加以改进，或者重新设计算法。

有的算法重点考虑聚类结果，运算时间复杂度高。

而有的算法计算快，却只适合某些类型的数据集。

如常用的K-mens算法，适用于发现球状的，密度均衡的大量的数据。

参考文献：
[1]Sergios Theodorids Konstntinos Koutroumbs “Pttern Recognition” orurth Edition。

[2]M.G. Omrn, .P. Engelbrecht, nd . Slmn, “n overview o clustering methods,” Intelligent Dt nlysis, vol. 11, no. 6, pp. 583-605, 2007.
[3]Guh S.,Rstogi R.,Shim K.“CURE: n eicient clustering lgorithm or lrge dtbses,”Prodeedings o the CM SIGMOD Conerence on Mngement o Dt, pp.73-84,1998.
[4]Guh S.,Rstogi R.,Shim K. “ROCK: robust clustering lgorithm or ctegoricl ttributes,”Inormtion Systems, Vol.25, No 5, pp. 345-366, 2000.。