一般的聚类方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一般的聚类方法
说实话一般的聚类方法这事儿,我一开始也是瞎摸索。

我就觉得聚类嘛,不就是把相似的东西放到一堆儿嘛,可真做起来才知道这里面门道可多了。

我最早尝试的就是划分聚类方法里面的K - 均值聚类法。

我当时想着,这把数据聚成K堆儿,应该不难吧。

我就一股脑儿地开始干,先随手给定了个K值,把数据点到处分。

结果出来一看,哎呀,简直是一团糟。

有些簇里的数据乱七八糟的,根本就不相似。

后来我才知道,K值可不是能随便定的,得根据实际情况判断。

你比如说,你有一堆销售数据,你要按照销售额聚类,你得大概知道你想要分成几类,可能是高销售额、中销售额和低销售额这三类,那K就是3。

不过这有时候也挺难判断的,我就有好几次判断错了,得到的聚类结果就很不符合常理。

再后来我又试了层次聚类。

这层次聚类就有点像盖房子,一层一层往上搭。

它先把每个数据点都当成一个小的聚类,然后慢慢地合并相似的那些小聚类。

这个方法好就好在它不用事先定那个K值,但是它有个缺点就是计算量比较大。

我做一个中等规模的数据聚类的时候,电脑差点没死机。

我当时就等啊等,等那个结果出来,等得我都怀疑自己是不是做错了。

所以到后面我就学聪明了,如果数据量小一点的时候,我就优先考虑层次聚类。

还有一种密度聚类方法我也试过。

这个就像是在一群星星里面找星团,密度高的地方就是一个聚类。

这个方法对形状不规则的数据聚类比较好。

我有一次处理一些地理数据,那些数据分布歪歪扭扭的,用K - 均值和层次聚类效果都不太好。

我就试了这个密度聚类,结果很不错呢。

不过这个方法的参数也不好调,得慢慢试。

我在做聚类的时候还发现一个很重要的点,数据的预处理特别重要。

要是数据不清洗一下,里面有好多错误值或者离群点的话,那聚类结果肯定不对。

就好比你要把一群水果分类,里面有好多烂水果和长得特别奇怪的水果混在里面,你就很难分得准确。

所以一定要在聚类之前,把数据处理好。

反正一般的聚类方法想要用好,就得不断地尝试,每个方法的优缺点要心里有数,数据预处理也一定要做到位。

另外,在实际操作的时候,可视化也很重要。

你想啊,要是你把数据聚类完了,但是你看不到那些聚类的效果,你怎么知道自己做的对不对呢。

就像你做拼图,你不看最后的图案,你怎么知道自己拼好了呢。

我就常常把聚类的结果用图形表示出来,有时候一看图形我就知道哪个地方有问题,然后再调整聚类的方法或者参数。

我还听说过一些其他的聚类方法,像高斯混合模型聚类,但是我还没
来得及实践。

不过道理应该也是类似的,都是找到数据的相似性,然后把数据分开。

相关文档
最新文档