K-means文本聚类算法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
最大距离法选取初始簇中心的K-means文本聚类算法的研究
的评论
背景
随着计算机技术和网络技术的飞速发展,人们的生活方式产生了极大的改变。计算机从一个有几个房子大小的巨无霸,已经变成了小巧的笔记本。网络设备也已经从PC端走向移动端。越来越丰富的网络设备,让人们能在网络里畅游,网络对于人们来说触手可及,同时也产生了巨大的数据流量。人们如何从海量的数据中找到有用的信息,成为了现在计算机学科的研究热点。聚类是数据挖掘中重要的一支。由于聚类具有无需先验知识的优势,可以根据数据自然分部而获取知识。聚类成为数据挖掘领域一个非常活跃的领域,而且得到了广泛的应用。聚类就是把一个数据集合分成几个簇,在同一个簇里,数据相关性最高,但是在2个不同的簇里,数据相关性最低。K-means聚类算法主要针对处理大数据集时,处理快速简单,并且算法具有高效性和可伸缩性。但是,K-means聚类算法随机的选择初始簇中心会导致以下缺点:(1)得到的聚类结果中容易出现局部最优,而不是全局最优;(2)聚类结果不具有稳定性,很大程度上依赖于初始簇中心;(3)聚类过程中的迭代次数增加使聚类过程中的总耗时增加。
传统的k-means聚类算法
传统的聚类算法思想:首先从N个数据对象集合中随机选择k个对象,然后计算剩余的N-k个对象与k个对象的距离(相似度),与k个对象中哪个对象的距离最小,就把分给那个对象;然后在计算每个簇中的簇中心,即是每个簇中对象的均值;不断重复这一过程步骤,直到标准测度函数E开始收敛为止。
K-means算法描述如下:
输入:迭代终止条件ε,最大的迭代次数为max,簇的总数目是k,样本集有N个数据对象。
输出:满足迭代终止条件的k个簇和迭代次数s。
随机初始化k个簇中心:
对每个数据对象,分别计算该对象与k个簇中心均值的距离,并选择距离最小的簇将该对象加个到该簇里;
重新计算k个簇的中心,利用函数E计算出此时的函数值;
如果带到最大迭代次数或满足:
|E1—E2|<ε
其中:E1和E2分别表示前后2次迭代的测度函数值,上式表示簇类误差平方总和已经收敛,即簇成员不再发生变化,那么结束;否则,返回到第一步。
最大距离法选取初始簇中心K-means文本聚类
由于传统的k-means聚类算法随机选取初始簇中心,很容易陷入局部最优,而得不到全局最优解;同时,不同的聚类中心得到不同的聚类结果,使聚类算法很不稳定,而且也容易增加迭代的次数。用最大距离法选取初始簇中心,由于最大距离最大的2个数据对象不可能分在一个簇里,我们选择这2个样本点作为初始簇中心,这样就具有很大的确定性。然后,在剩余的的N-2个样本点中选取前面的2个初始簇中心各自距离乘积的最大值的那个样本点作为第3个样本点,同样的地,在剩余的(N-3)个样本点中,选取前面3个初始簇中心各自距离乘积的最大的那个样本点作为第4个初始簇中心。依次类推,可以找到k个初始簇中心。
这种算法由于在选择上有很大确定性,在很大程度上克服了k-means算法的随机选择时的缺点,具有很强的区分性,能很大程度上减少了迭代次数和避免陷入局部最优。虽然,这个算法没有随机算法那么迅速地选择k个初始簇中心,在选择初始簇中心时有额外的花费,对k个初始簇中心的选择算法的复杂度是O(kN),当k远小于N时,k个初始簇中心的选择算法的复杂度近似O(N),但是在处理大量数据时,最大距离选取算法可能一般比传统的k-means算法需要的时间更长,但是最大距离选取算法的一般性更强,也试用于那些不均匀分布的情况,
同时,最大距离选取法有更好的聚类效果。