K-means算法的改进

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

K-means算法的改进
J.B.MacQueen 在1967 年提出的K-means算法到目前为止用于科学和工业应用的诸多聚类算法中一种极有影响的技术。

它是聚类方法中一个基本的划分方法，常常采用误差平方和准则函数作为聚类准则函数。

K-means 算法是一种基于划分的聚类算法，在对所给数据集进行聚类时，必须知道k值的大小，即聚类的数目。

它的思想是：首先从所给定的包含n 个数据对象的数据集中随机选取k 个数据对象作为初始聚类中心点，然后计算其余的数据对象到各个聚类中心点的距离，根据距离最近原则，把数据对象分配给离它最近的聚类中心所代表的簇中；再重新计算各个簇的聚类中心，根据选定的聚类准则函数，采用迭代的方法，不断重复以上过程直到聚类准则函数收敛或者是相邻两次的聚类中心没有变化为止。

每一次迭代，都增加了簇内紧凑性，降低了簇间相似性。

当所有数据对象被正确划分后，下一次迭代聚类中心将不会再发生变化，这时聚类结果已达到最优，算法结束。

K-means 算法的具体过程描述如下：
(1) 从给定样本数据集中随机选取k 个数据点作为初始聚类中心；
(2) 计算数据集中每个数据到这k 个聚类中心的距离并将每个数据点分配给离它最近的中心点所代表的簇；
(3) 计算每个簇中所有数据点的平均值作为每个簇的新的中心；
(4) 判断聚类准则函数是否收敛或聚类中心点和上次是否完全相同，若收敛或中心点无变化，则算法结束，输出聚类结果，否则转到步骤(2)。

下面给出一个K-means 算法的例子，以更好的说明该算法的聚类过程。

已知一个数据对象集合X =，各数据对象的值如表所示。

现在要求将数据对象集X 划分为两类，即k=2。

首先随机选择两个点作为初始聚类中心，在这里我们选择和，分别作为和两个簇的初始聚类中心。

然后计算到和的欧式距离，通过公式来计算，如下所示：
根据计算可知，距离比距离更近，所以应将划分到所表示的簇中，同理将划分到簇中，将划分到簇中。

重新计算，中数据对象的均值作为他们新的聚类中心。

计算数据集中所有点到新的聚类中心Z1（0.5,0.67）和Z2（2.17,1.33）的距离，并将它们划分到最近的簇中。

根据计算，将{, , }划分到簇C1，将划分到簇C2中，这和第一次划分的结果一样，因此两个簇中的聚类中心没变化，算法结束。

最终的聚类结果是数据集划分为两簇，分别为：
C1= {}
C2= {}
一、K-means 算法的优缺点分析
K-means 算法是一种经典的聚类算法，它简单快捷并且有效，其时间复杂度为O(nkt)，其中n 表示数据集中所包含的对象数，k 表示聚类数，t 表示迭代次数，通常k<<n，t<<n，所以在处理大型数据集或数据库时，K-means 算法是相对可伸缩的和高效的，并且该算法对凸型聚类有较好的结果，当结果中的簇是密集的，并且簇与簇之间的区别较大时，K-means 算法的聚类效果较好。

但
是该算法在也存在不少缺点，主要有以下几个：
(1) 最终的聚类结果对初始聚类中心十分敏感，选取的初始中心点不同，得到的聚类结果就会不同，如果选取的初始聚类中心点太差，很有可能导致聚类结果非常差，聚类失败；
(2) 无法确定k 值，即不能确定聚类数，只能根据经验进行大概的估计。

而根据经验所得的k 值往往不是最佳聚类数目，从而影响聚类效果；
(3) 算法容易陷入局部最优解，仅适合对数值型数据聚类，只适用于聚类结果为凸形(即类簇为凸形)的数据集；
(4) 该算法容易受到噪声和孤立点的干扰，导致下一代聚类中心的偏离，最终影响聚类效果；
(5) 算法需要循环不断的执行数据再分配操作，更新簇中心操作以将数据对象划分到更合适的簇中。

因此当数据集复杂，数据量非常大时，将大大增加算法的时间开销，算法变得低效。

由以上的缺点我们可以知道传统K-means 算法的初始聚类中心是随机选取的，聚类结果对初始聚类中心敏感，根据不同的初始聚类中心聚类得到的聚类结果不同。

其中，初始聚类中心的选择对聚类结果的影响是很大的，如下图1是三个类的实际分布，图2是选取了较好的初始聚类中心（十字标记的数据对象）得到的结果，图3是选取不好的初始聚类中心得到的结果，从中可以看到，选择初始聚类中心是很关键的。

针对这一缺点，本文的改进算法首先对数据集中的每个数据点，计算其到原点的距离，然后按这个距离对所有的数据点排序，将排好序的本文平均划分为k 组，选取每组中间的数据点作为k 个初始聚类中心。

这样就能够得到一个确定的较好的初始聚类中心。

同时，对于将数据点分配到合适的簇中的操作，本文采
用一种更有效的方式，使算法能够以更少的时间得到稳定的，质量更好的聚类结果。

二、改进算法流程描述
1、初始聚类中心的选取
本节采用的选取初始聚类中心的方法的基本思想是基于各数据点到原点的距离，均匀的选择k 个数据点作为初始聚类中心。

首先，检查数据集中的数据对象是否有负的属性值，如果没有，属性值不做改变，如果某个属性值存在负值，则进行属性值转变，方法是将数据集中每个数据点的该属性值减去数据集中该属性的最小值。

在这里，对属性值转变是必需的，因为之后计算的距离是数据点到原点的欧式距离，如果不做转换，不同的数据点(例如关于原点中心对称的数据点)，它们到原点的欧式距离可能会相同。

这将导致对初始聚类中心的选择出现错误。

为了解决这个问题，必须将所有数据点转化到正空间，这样每个数据点将会得到一个唯一的距离。

接下来，计算每个数据点到原点的欧式距离，然后对所有的数据点按照它们到原点的距离进行排序。

最后将排好序的数据点平均分成k 组，选择每组的中间那个数据点作为k个初始聚类中心点。

基于这些初始聚类中心进行聚类，得到的聚类结果将会更理想。

下面举例说明如何选取初始聚类中心。

有数据集X 为：X =，各数据点的值如表所示，聚类数k=2。

包含负属性值的数据集X
由上表可知，数据集X 包含6个数据点，每个点有3个属性值，其中第2和第3个属性值有负值，因此必须进行属性值转变。

第2个属性值的最小值为-1.0，第3个属性值的最小值为-1.5，因此给每个数据点的第2个属性值减去-1.0，第3个属性减去-1.5。

转变后的数据集X 中各数据点的值如下表所示：
属性值转变后的数据集X
接着计算各点到原点的距离，假设表示到原点的距离，利用欧式距离公式计算如下。

用同样的方法，可计算出其他各数据点到原点的距离：
由上表可知，数据集中数据点按与原点的距离排序是，将其平均分为两组即是和。

取各组的中间数据点作为初始聚类的中心，这里即是和。

2.数据对象的分配
选取好初始聚类中心后，接下来就是将数据集中的数据点分配到合适的簇中。

这是一个迭代的过程，在本文改进算法中采用了一种试探性的方法以减少计算时间。

在算法中，每个数据点包含两个属性Cluster和MinDis，分别代表该数据点所属的簇和当前离最近聚类中心点的距离。

首先计算每个数据点到各聚类中心的距离，之后将数据点划分到具有离它最近的聚类中心点的簇中，并将该数据点到该簇的中心点的距离赋给M，C的值则设置为该簇的编号。

下一步，对于每个簇，计算其中所有的数据点的平均值作为该簇的新的中心。

然后对每个数据点，计算它到所在簇的新的中心点的距离。

如果该距离小于等于它当前M的值，则该数据点继续留在该簇中，否则计算该数据点到k个新中心点的距离。

距离计算出来之后，将该数据点划分到相应的簇中，并将C，M的值分别更新为该簇的编号和数据点离该簇的中心点的距离。

这个再分配的过程重复执行直到聚类准则函数收敛或相邻两次的聚类中心无变化。

这种方法避免了在每一次迭代过程中对每一个点都要进行重新的计算与分配，大大减少了计算量，减少算法的时间开销，提高算法的效率。

步骤：
(1) 对于给定的数据集，检查所有的属性值是否都是正值，如果是，则转到
步骤(4)，否则转到步骤(2)；
(2) 对于每个包含负值的属性，找出该属性的最小值；
(3) 为数据集中的每个数据点，在每个包含负值的属性值上减去该属性的最
小值；
(4) 计算每个数据点到原点的距离；
(5) 将所有数据点按步骤(4)所得的距离排序；
(6) 将排好序的数据点平均分为k组；
(7) 在每一组中，选取中间的数据点作为初始聚类中心；
(8) 计算每个数据点x i到k个中心点的距离d(x i, z j)，其中1≤j≤k；
(9)对于每个数据点x i，找到离它最近的中心点z j，并将x i分配给簇j；
(10)将该数据点的Cluster 值设置为j；
(11)将该数据点的MinDis 值设置为d(x i, z j)；
(12)重新计算每个簇的中心点；
(13)对于每个数据点x i计算它和现在所在簇的中心点的距离；
(14)如果这个距离小于等于目前最短距离，数据点留在该簇中不变；
(15)否则对于每个中心点z j, (1≤j≤k) ，计算z j到数据点x i的距离d(x i, z j)；
并转向步骤(9)。