商业数据分析·Kmeans

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
为了寻找最优解,我们可以计算类内的点到中心点的欧氏距 离,使它最小化,从而找到最优解,我们称这种方法为: Enhanced k-means(增强k-means),基本步骤就是: 1、按照k-means的方法完成分类; 2、计算每个样本点到k个中心分别的欧氏距离d2; 3、如果满足下式,则将样本Xi从类r分类下的样本变为 类s的样本: 4、如果多个类满足上式,则将样本Xi变为下式值最小的 分类下的样本: 5、重复步骤2-4,直到分类不变。
聚类
k-means
k-means算法,可能会导致一些空 簇,所以需要分析结果,避免这种情况 的发生。 虽然许多时候都能收敛到一个比较 好的结果,但是也有运气不好的时候会 收敛到一个让人不满意的局部最优解。
5
聚类
有时候,因为初始点的选择不当,会使得分类
结果不理想,如下面这种来自百度文库况:
5
聚类
k-means
作业
课后 作业
课本
5.14题 前半部分
作业
课后 作业
5.14 Apply k-means and the agglomerative clustering method of your choice to the oronsay data set (both classifications), using the correct number of known groups.
商业数据分析
2016·12·15
聚类
Clusters
5
聚类
2
k-Means
5
聚类
数学补充:欧氏距离
欧式距离是一个通常采用的距离定义,指在m维空间中 两个点之间的真实距离,或者向量的自然长度(即该点 到原点的距离)。在二维和三维空间中的欧氏距离就是 两点之间的实际距离。它的通用公式是:
5
聚类
k-means
5
聚类
k-means的总结
K-means是最为常用的聚类方法之一,尽管它有着很多不足, 但是它有着一个很关键的优点:快! 实际应用里,人们指出了很多K-means的不足。比如需要用户 事先给出聚类数目k,而这个往往是很难判断的;又如Kmeans得到的是局域最优,跟初始给定的中心值有关,所以往 往要尝试多个初始值等等。 K- means算法相比起层次聚类,还有一个很大的不同,那就 是它需要数据点的坐标,因为它必须要求取平均,而层次聚类 实际上并不需要坐标数据,只 需要知道数据点之间的距离而已。 这也就是说K-means只适用于使用欧氏距离来计算数据点相似 性的情况,因为如果采用非欧距离,那么也不能通过简单的平 均来得到簇中心。
5
聚类
MATLAB实例——P166-P167
我们用之前使用过的鸢尾花数据iris.mat进行聚类 实验,Iris数据集是常用的分类实验数据集,它以鸢尾 花的特征作为数据来源,由Fisher, 1936收集整理。该
数据集由3种不同类型的鸢尾花的50个样本数据构成。
每种鸢尾花包含了4个属性:Sepal.Length(花萼长 度)、Sepal.Width(花萼宽度)、Petal.Length (花瓣长度)、Petal.Width(花瓣宽度)。 下面打开matlab我们进行HM实战!
预习
预习 内容
1. 预习5.4节。 2. 完成以下习题保存为txt文件,在12.22日00:00前连同上一页 的课后作业打包为zip发送至助教邮箱,共占据总成绩的4%: ① SC是_______的简称,中文名为______________,是由_______提 出的,是一种用于______________________的算法。 ② 简要描述SC的步骤。
人为选定一个k,然后把样本分为k类,这就是kmeans,基本步骤就是: 1、确定一个k; 2、随机选择k个类的初始中心; 3、计算样本中所有点到每个中心的距离; 4、把样本中的每个点分别划归到距离它最 近的中心对应的类中去; 5、重新计算每个类的中心; 6、重复步骤3-5,直到分类不变。
5
聚类
5
相关文档
最新文档