商业数据分析·Kmeans

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

为了寻找最优解，我们可以计算类内的点到中心点的欧氏距离，使它最小化，从而找到最优解，我们称这种方法为： Enhanced k-means(增强k-means)，基本步骤就是： 1、按照k-means的方法完成分类； 2、计算每个样本点到k个中心分别的欧氏距离d2； 3、如果满足下式，则将样本Xi从类r分类下的样本变为类s的样本： 4、如果多个类满足上式，则将样本Xi变为下式值最小的分类下的样本: 5、重复步骤2-4，直到分类不变。
聚类
k-means
k-means算法，可能会导致一些空簇，所以需要分析结果，避免这种情况的发生。虽然许多时候都能收敛到一个比较好的结果，但是也有运气不好的时候会收敛到一个让人不满意的局部最优解。
5
聚类
有时候，因为初始点的选择不当，会使得分类
结果不理想，如下面这种来自百度文库况：
5
聚类
k-means
作业
课后作业
课本
5.14题前半部分
作业
课后作业
5.14 Apply k-means and the agglomerative clustering method of your choice to the oronsay data set (both classifications), using the correct number of known groups.
商业数据分析
2016·12·15
聚类
Clusters
5
聚类
2
k-Means
5
聚类
数学补充：欧氏距离
欧式距离是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离。它的通用公式是：
5
聚类
k-means
5
聚类
k-means的总结
K-means是最为常用的聚类方法之一，尽管它有着很多不足，但是它有着一个很关键的优点：快！实际应用里，人们指出了很多K-means的不足。比如需要用户事先给出聚类数目k，而这个往往是很难判断的；又如Kmeans得到的是局域最优，跟初始给定的中心值有关，所以往往要尝试多个初始值等等。 K- means算法相比起层次聚类，还有一个很大的不同，那就是它需要数据点的坐标，因为它必须要求取平均，而层次聚类实际上并不需要坐标数据，只需要知道数据点之间的距离而已。这也就是说K-means只适用于使用欧氏距离来计算数据点相似性的情况，因为如果采用非欧距离，那么也不能通过简单的平均来得到簇中心。
5
聚类
MATLAB实例——P166-P167
我们用之前使用过的鸢尾花数据iris.mat进行聚类实验，Iris数据集是常用的分类实验数据集，它以鸢尾花的特征作为数据来源，由Fisher, 1936收集整理。该
数据集由3种不同类型的鸢尾花的50个样本数据构成。
每种鸢尾花包含了4个属性：Sepal.Length（花萼长度）、Sepal.Width（花萼宽度）、Petal.Length （花瓣长度）、Petal.Width（花瓣宽度）。下面打开matlab我们进行HM实战！
预习
预习内容
1. 预习5.4节。 2. 完成以下习题保存为txt文件，在12.22日00:00前连同上一页的课后作业打包为zip发送至助教邮箱，共占据总成绩的4%： ① SC是_______的简称，中文名为______________，是由_______提出的，是一种用于______________________的算法。 ② 简要描述SC的步骤。
人为选定一个k，然后把样本分为k类，这就是kmeans,基本步骤就是： 1、确定一个k； 2、随机选择k个类的初始中心； 3、计算样本中所有点到每个中心的距离； 4、把样本中的每个点分别划归到距离它最近的中心对应的类中去； 5、重新计算每个类的中心； 6、重复步骤3-5，直到分类不变。
5
聚类
5