聚类分析及k-means算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析及k-means算法
聚类分析概念
聚类分析指将物理或抽象对象的集合 分组成为由类似的对象组成的多个类 的分析过程。
聚类分析的基本思想
把相似程度较大的样品聚合为一类,把另 外一些彼此之间相似程度较大的样品又聚 合为另一类,直到把所有的样品聚合完毕。
聚类分析的原则是同一类中的个体有较 大的相似性,不同类中的个体差异很大。
A类的新中心点为:{(0.3+0+0.24+0.3)/4=0.21, (0+0.15+0.76+0.76)/4=0.4175, (0.19+0.13+0.25+0.06)/4=0.1575} = {0.21, 0.4175, 0.1575} (算术平均数。)
用同样的方法计算得到B和C类的新中心点分别为 B:{0.7, 0.7333, 0.4167},
p
dij xi x j
(xik x jk )2
k 1
Leabharlann Baidu
3. 切比雪夫距离(Chebyshev)
dij
xi x j
max k
xik
x jk
其它计算方法
兰氏距离:
dij
1 m
m t 1
xit x jt xit x jt
马氏(Mahalanobis) 距离 Williams距离
系统聚类法
开始每个对象自成一类,然后每次 将最相似 的两类合并,合并后重新计算新类与其他类之 间的距离或相似系数。
图论聚类法
利用图论中最小支撑树的概念来处理分类问题, 创造了独具风格的方法。
K-means 聚类算法
K-means算法是聚类分析众多算法的一 种。
K-means算法是输入聚类个数k,以及包 含 n个数据对象的数据库,输出满足方差 最小标准的k个聚类
处理后的数据如下:
数据变换:进行[0,1]规格化得到
初始类个数的选择; 初始类中心的选择;
设k=3,即将这15支球队分成三个集团。现 抽取日本、巴林和泰国的值作为三个类的种子, 即初始化三个类的中心为
A:{0.3, 0, 0.19}; B:{0.7, 0.76, 0.5}; C:{1, 1, 0.5};
有序样品聚类法
开始将所有样品看成一类,然后根据某种最优 准则将它们分割为二类、三类,一直分到K类 为止。这种方法适用于有序样品的分类问题。 又称为最优分割法。
模糊聚类法
利用模糊集理论来处理分类问题,它对经济领 域中具有模糊特征的两态数据或多态数据具有 明显的分类效果。
K-means聚类法
首先对n个对象初步分类,然后根据分类的损 失函数尽可能小的原则对分类进行调整,直到 分类合理为止。又称为动态聚类法、逐步聚类 法.
斜交空间距离
相似系数
相似系数表示作为对 象的两个分类单位 (所进行的分类单位) 间相似程度的指标。
相似系数通常介于0 cij 和1 之间,相似系数等 于1 ,说明两个样品完 全相同;相似系数等 于0,说明样品完全不 同。
n
t 1
xti
xi
xtj
xj
n
2
t1 xti xi
2
n
t1 xtj x j
样品到类中心的距离; 归类;
计算所有球队分别对三个中心点的欧氏 距离。下面是用程序求取的结果:
第一次聚类结果: A:日本,韩国,伊朗,沙特; B:乌兹别克斯坦,巴林,朝鲜; C:中国,伊拉克,卡塔尔,阿联酋,泰
国,越南,阿曼,印尼。
重新计算类中心;
下面根据第一次聚类结果,采用k-均值法调整各个类 的中心点。
K-means算法流程
1. 从 n个数据对象任意选择 k 个对象作为初 始聚类中心;
2. 根据每个聚类对象的均值(中心对象), 计算每个对象与这些中心对象的距离; 并根据最小距离重新对相应对象进行划 分;
3. 重新计算每个(有变化)聚类的均值 (中心对象);
4. 循环(3)到(4)直到每个聚类不再发生变化 为止 ;
举例应用
中国男足近几年到底在亚洲处于几流水平?下 图是采集的亚洲15只球队在2005年-2010年间大 型杯赛的战绩
对数据做了如下预处理:对于世界杯,进入决赛 圈则取其最终排名,没有进入决赛圈的,打入预 选赛十强赛赋予40,预选赛小组未出线的赋予50。 对于亚洲杯,前四名取其排名,八强赋予5,十六 强赋予9,预选赛没出现的赋予17。这样做是为了 使得所有数据变为标量,便于后续聚类。
常见距离计算方法
明式(Minkowski)距离
p
r1
dij xi x j ( xik x jk ) r
k 1
明氏距离是通用的距离公式。 r=1时为绝对值距离, r=2时为欧氏距离。
r= 时为切比雪夫距离。
2.绝对距离
m
dij
xit x jt
t 1
2. 欧氏(Euclidian)距离
相似性度量指标
空间距离 相似系数(similarity coefficient)
空间距离
假使每个样品有p个变量,则每个样品都 可以看成p维空间中的一个点,n个样品 就是p维空间中的n个点,则第i样品与第
j 样品之间的距离记为 dij
样品距离必须满足的条件
➢ 对称性 dij d ji 0 ➢ 三角不等式 dij dik d jk ➢ dij 0 则样品i与样品j不相等
聚类分析常用方法
1. 直接聚类法 2. 有序样品聚类法 3. 模糊聚类法 4. K-means聚类法 5. 系统聚类法 6. 图论聚类法
直接聚类法
先把各个分类对象单独视为一类,然后根据距 离最小的原则,依次选出一对分类对象,并成 新类。如果其中一个分类对象已归于一类,则 把另一个也归入该类;如果一对分类对象正好 属于已归的两类,则把这两类并为一类。每一 次归并,都划去该对象所在的列与列序相同的 行。经过m-1次就可以把全部分类对象归为一 类,这样就可以根据归并的先后顺序作出聚类 谱系图。
C: {1, 0.94, 0.40625}。
用调整后的中心点再次进行聚类,得到: 第二次迭代后的结果为:
A类:日本,韩国,伊朗,沙特; B类:乌兹别克斯坦,巴林,朝鲜; C类:伊拉克,卡塔尔,阿联酋,中国,
泰国,越南,阿曼 ,印尼;
结果无变化,说明结果已收敛,于是给出最终 聚类结果:
亚洲一流:日本,韩国,伊朗,沙特 亚洲二流:乌兹别克斯坦,巴林,朝鲜 亚洲三流:中国,伊拉克,卡塔尔,阿联酋,
聚类分析概念
聚类分析指将物理或抽象对象的集合 分组成为由类似的对象组成的多个类 的分析过程。
聚类分析的基本思想
把相似程度较大的样品聚合为一类,把另 外一些彼此之间相似程度较大的样品又聚 合为另一类,直到把所有的样品聚合完毕。
聚类分析的原则是同一类中的个体有较 大的相似性,不同类中的个体差异很大。
A类的新中心点为:{(0.3+0+0.24+0.3)/4=0.21, (0+0.15+0.76+0.76)/4=0.4175, (0.19+0.13+0.25+0.06)/4=0.1575} = {0.21, 0.4175, 0.1575} (算术平均数。)
用同样的方法计算得到B和C类的新中心点分别为 B:{0.7, 0.7333, 0.4167},
p
dij xi x j
(xik x jk )2
k 1
Leabharlann Baidu
3. 切比雪夫距离(Chebyshev)
dij
xi x j
max k
xik
x jk
其它计算方法
兰氏距离:
dij
1 m
m t 1
xit x jt xit x jt
马氏(Mahalanobis) 距离 Williams距离
系统聚类法
开始每个对象自成一类,然后每次 将最相似 的两类合并,合并后重新计算新类与其他类之 间的距离或相似系数。
图论聚类法
利用图论中最小支撑树的概念来处理分类问题, 创造了独具风格的方法。
K-means 聚类算法
K-means算法是聚类分析众多算法的一 种。
K-means算法是输入聚类个数k,以及包 含 n个数据对象的数据库,输出满足方差 最小标准的k个聚类
处理后的数据如下:
数据变换:进行[0,1]规格化得到
初始类个数的选择; 初始类中心的选择;
设k=3,即将这15支球队分成三个集团。现 抽取日本、巴林和泰国的值作为三个类的种子, 即初始化三个类的中心为
A:{0.3, 0, 0.19}; B:{0.7, 0.76, 0.5}; C:{1, 1, 0.5};
有序样品聚类法
开始将所有样品看成一类,然后根据某种最优 准则将它们分割为二类、三类,一直分到K类 为止。这种方法适用于有序样品的分类问题。 又称为最优分割法。
模糊聚类法
利用模糊集理论来处理分类问题,它对经济领 域中具有模糊特征的两态数据或多态数据具有 明显的分类效果。
K-means聚类法
首先对n个对象初步分类,然后根据分类的损 失函数尽可能小的原则对分类进行调整,直到 分类合理为止。又称为动态聚类法、逐步聚类 法.
斜交空间距离
相似系数
相似系数表示作为对 象的两个分类单位 (所进行的分类单位) 间相似程度的指标。
相似系数通常介于0 cij 和1 之间,相似系数等 于1 ,说明两个样品完 全相同;相似系数等 于0,说明样品完全不 同。
n
t 1
xti
xi
xtj
xj
n
2
t1 xti xi
2
n
t1 xtj x j
样品到类中心的距离; 归类;
计算所有球队分别对三个中心点的欧氏 距离。下面是用程序求取的结果:
第一次聚类结果: A:日本,韩国,伊朗,沙特; B:乌兹别克斯坦,巴林,朝鲜; C:中国,伊拉克,卡塔尔,阿联酋,泰
国,越南,阿曼,印尼。
重新计算类中心;
下面根据第一次聚类结果,采用k-均值法调整各个类 的中心点。
K-means算法流程
1. 从 n个数据对象任意选择 k 个对象作为初 始聚类中心;
2. 根据每个聚类对象的均值(中心对象), 计算每个对象与这些中心对象的距离; 并根据最小距离重新对相应对象进行划 分;
3. 重新计算每个(有变化)聚类的均值 (中心对象);
4. 循环(3)到(4)直到每个聚类不再发生变化 为止 ;
举例应用
中国男足近几年到底在亚洲处于几流水平?下 图是采集的亚洲15只球队在2005年-2010年间大 型杯赛的战绩
对数据做了如下预处理:对于世界杯,进入决赛 圈则取其最终排名,没有进入决赛圈的,打入预 选赛十强赛赋予40,预选赛小组未出线的赋予50。 对于亚洲杯,前四名取其排名,八强赋予5,十六 强赋予9,预选赛没出现的赋予17。这样做是为了 使得所有数据变为标量,便于后续聚类。
常见距离计算方法
明式(Minkowski)距离
p
r1
dij xi x j ( xik x jk ) r
k 1
明氏距离是通用的距离公式。 r=1时为绝对值距离, r=2时为欧氏距离。
r= 时为切比雪夫距离。
2.绝对距离
m
dij
xit x jt
t 1
2. 欧氏(Euclidian)距离
相似性度量指标
空间距离 相似系数(similarity coefficient)
空间距离
假使每个样品有p个变量,则每个样品都 可以看成p维空间中的一个点,n个样品 就是p维空间中的n个点,则第i样品与第
j 样品之间的距离记为 dij
样品距离必须满足的条件
➢ 对称性 dij d ji 0 ➢ 三角不等式 dij dik d jk ➢ dij 0 则样品i与样品j不相等
聚类分析常用方法
1. 直接聚类法 2. 有序样品聚类法 3. 模糊聚类法 4. K-means聚类法 5. 系统聚类法 6. 图论聚类法
直接聚类法
先把各个分类对象单独视为一类,然后根据距 离最小的原则,依次选出一对分类对象,并成 新类。如果其中一个分类对象已归于一类,则 把另一个也归入该类;如果一对分类对象正好 属于已归的两类,则把这两类并为一类。每一 次归并,都划去该对象所在的列与列序相同的 行。经过m-1次就可以把全部分类对象归为一 类,这样就可以根据归并的先后顺序作出聚类 谱系图。
C: {1, 0.94, 0.40625}。
用调整后的中心点再次进行聚类,得到: 第二次迭代后的结果为:
A类:日本,韩国,伊朗,沙特; B类:乌兹别克斯坦,巴林,朝鲜; C类:伊拉克,卡塔尔,阿联酋,中国,
泰国,越南,阿曼 ,印尼;
结果无变化,说明结果已收敛,于是给出最终 聚类结果:
亚洲一流:日本,韩国,伊朗,沙特 亚洲二流:乌兹别克斯坦,巴林,朝鲜 亚洲三流:中国,伊拉克,卡塔尔,阿联酋,