聚类分析和判别分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
k 1 p q 1/ q
按q的取值不同可以包括多种距离计算方法。例如:
(1)绝对距离( q 1 ) : d (1) X X ij ik jk
k 1
p
(2)欧氏距离( q 2 ) : dij (2) ( X ik X jk 2 )1/ 2
k 1
p
相似系数的计算方法
聚类分析
引言 相似性度量 系统聚类 K-均值聚类 聚类分析的SPSS实现
引言
俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很 多种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基 础设施等指标; 既可以用某一项来分类,也可以同时考虑多 项指标来分类。
常用的距离的计算方法
欧氏距离(Euclidean)
2 ( x x ) ik jk
平方欧氏距离Squared Euclidean
(x
ik
x jk )
2
切比雪夫距离(Chebychev)
max | xik x jk |
闵柯夫斯基距离
dij (q) ( X ik X jk )
需要解决的新问题:如何计算类 与类之间的距离?
最短距离法 最长距离法 重心法 Ward法(离差平方和法) 等等
最短距离
S1 S2 S3 S5 S4
最长距离
S1 S3 S4 S5
重心法(Centroid clustering): 均值点的距离
•
x1, y1
•
x2 , y2
离差平方和法(Ward法):合并离 差平方和变动最小的两个类
(1 1.5) 2 (2 1.5) 2 0.5
1,2
(7 8) (9 8) 2
2 2
7,9
Βιβλιοθήκη Baidu
4,5
(4 4.5) 2 (5 4.5) 2 0.5
离差平方和法:合并离差平方和 变动最小的两个类
k 1
显然,∣cos ij∣ 1。
相似系数的计算方法
(2) Pearson相关系数 Pearson相关系数经常用来度量变量间的相似性。 变量Xi与Xj的Pearson相关系数定义为
rij
(X
k 1
p
ik
X i )( X jk X j )
2
(X
k 1
p
ik
Xi )
(X
*标化死亡率是根据相同的人口年龄结构(标准组)计算的,因而更具可比性。
聚类分析需要解决的一个问题
如何衡量样本点之间的距离或相似程度?
距离 相似系数
常用的距离的计算方法
设每个样品有p个指标(变量)。把n个样 品看成p维空间中的n个点,则两个样品间 相似程度就可用p维空间中的两点距离公式 来度量。 两点距离公式可以从不同角度进行定义。 当变量的测量值相差悬殊时,要先进行标 准化,以消除计量单位对计算结果的影响。
k 1
p
jk
X j )2
显然也有,∣rij∣ 1。
系统聚类法(分层聚类)
hierarchical cluster
开始时,有多少样本点就是多少类。 第一步先把最近的两类(点)合并成一类; 然后再把剩下的最近的两类合并成一类; 这样下去,每次都少一类,直到最后只有 一大类为止。显然,越是后来合并的类, 距离就越远。
红绿(1,2,7,9) 44.75 离差平方和增加44.75-2.5=42.25 黄绿(4,5,7,9)14.75 离差平方和增加14.75-2.5=12.25 黄红(1,2,4,5)10 离差平方和增加10-1=9 故按该方法黄红首先连接。
6个不同民族的聚类:
原始数据 标准化数据 标化死亡率 (‰) -1.59 -0.62 -0.22 1.03 0.61 0.79 出生时 期望寿命(岁) 1.44 0.73 0.38 -0.99 -0.91 -0.66
满族
朝鲜族 蒙古族
G1={S1}
0
0 0.526 2.374 2.048 1.973 0 1.851 1.539 1.448 0 0.422 0.406 0 0.311 0
G2={S2} 1.208 G3={S3} 1.732
维吾尔族 G4={S4} 3.570 藏族 G5={S5} 3.224
哈萨克族 G6={S6} 3.173
民族
满族 朝鲜族 蒙古族 维吾尔族 藏族 哈萨克族
标化死亡率 (‰) 5.80 7.44 8.11 10.21 9.51 9.81
出生时 期望寿命(岁) 70.59 67.14 65.48 58.88 59.24 60.47
各民族之间的欧氏距离
满族 朝鲜族 蒙古族 维吾尔 族 藏族 哈萨克 族
G1={S1} G2={S2} G3={S3} G4={S4} G5={S5} G6={S6}
聚类分析
对于一个数据,人们既可以对变量(指标)进行分类 (相当于对数据中的列分类),也可以对观测值(事件, 样品)来分类(相当于对数据中的行分类)。 比如学生成绩数据就可以对学生按照理科或文科成绩 (或者综合考虑各科成绩)分类,当然,并不一定事 先假定有多少类,完全可以按照数据本身的规律来分 类。 这 里 要 介 绍 的 分 类 的 方 法 称 为 聚 类 分 析 ( cluster analysis)。对变量的聚类称为 R型聚类,而对观测值 聚类称为 Q 型聚类。这两种聚类在数学上是对称的, 没有什么不同。
饮料数据
16种饮料的热量、咖啡因、钠及价格四种变量
哪些少数民族的生存状况更接近?
民族 满族 朝鲜族 蒙古族 维吾尔族 藏族 哈萨克族
原始数据
标化死亡率(‰) 5.80 7.44 8.11 10.21 9.51 9.81 出生时期望寿命(岁) 70.59 67.14 65.48 58.88 59.24 60.47
变量间的相似性可以从它们的方向趋同性或“相 关性”进行考察, “夹角余弦法”和“相关系数” 两种主要度量方法,统称为相似系数。 (1) 夹角余弦 两变量Xi与Xj看作p维空间的两个向量,这两个向 量间的夹角余弦可用下式进行计算
cos ij
X
k 1 p k 1 2 ik
p
ik
X jk
p
( X )( X 2 jk )
按q的取值不同可以包括多种距离计算方法。例如:
(1)绝对距离( q 1 ) : d (1) X X ij ik jk
k 1
p
(2)欧氏距离( q 2 ) : dij (2) ( X ik X jk 2 )1/ 2
k 1
p
相似系数的计算方法
聚类分析
引言 相似性度量 系统聚类 K-均值聚类 聚类分析的SPSS实现
引言
俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很 多种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基 础设施等指标; 既可以用某一项来分类,也可以同时考虑多 项指标来分类。
常用的距离的计算方法
欧氏距离(Euclidean)
2 ( x x ) ik jk
平方欧氏距离Squared Euclidean
(x
ik
x jk )
2
切比雪夫距离(Chebychev)
max | xik x jk |
闵柯夫斯基距离
dij (q) ( X ik X jk )
需要解决的新问题:如何计算类 与类之间的距离?
最短距离法 最长距离法 重心法 Ward法(离差平方和法) 等等
最短距离
S1 S2 S3 S5 S4
最长距离
S1 S3 S4 S5
重心法(Centroid clustering): 均值点的距离
•
x1, y1
•
x2 , y2
离差平方和法(Ward法):合并离 差平方和变动最小的两个类
(1 1.5) 2 (2 1.5) 2 0.5
1,2
(7 8) (9 8) 2
2 2
7,9
Βιβλιοθήκη Baidu
4,5
(4 4.5) 2 (5 4.5) 2 0.5
离差平方和法:合并离差平方和 变动最小的两个类
k 1
显然,∣cos ij∣ 1。
相似系数的计算方法
(2) Pearson相关系数 Pearson相关系数经常用来度量变量间的相似性。 变量Xi与Xj的Pearson相关系数定义为
rij
(X
k 1
p
ik
X i )( X jk X j )
2
(X
k 1
p
ik
Xi )
(X
*标化死亡率是根据相同的人口年龄结构(标准组)计算的,因而更具可比性。
聚类分析需要解决的一个问题
如何衡量样本点之间的距离或相似程度?
距离 相似系数
常用的距离的计算方法
设每个样品有p个指标(变量)。把n个样 品看成p维空间中的n个点,则两个样品间 相似程度就可用p维空间中的两点距离公式 来度量。 两点距离公式可以从不同角度进行定义。 当变量的测量值相差悬殊时,要先进行标 准化,以消除计量单位对计算结果的影响。
k 1
p
jk
X j )2
显然也有,∣rij∣ 1。
系统聚类法(分层聚类)
hierarchical cluster
开始时,有多少样本点就是多少类。 第一步先把最近的两类(点)合并成一类; 然后再把剩下的最近的两类合并成一类; 这样下去,每次都少一类,直到最后只有 一大类为止。显然,越是后来合并的类, 距离就越远。
红绿(1,2,7,9) 44.75 离差平方和增加44.75-2.5=42.25 黄绿(4,5,7,9)14.75 离差平方和增加14.75-2.5=12.25 黄红(1,2,4,5)10 离差平方和增加10-1=9 故按该方法黄红首先连接。
6个不同民族的聚类:
原始数据 标准化数据 标化死亡率 (‰) -1.59 -0.62 -0.22 1.03 0.61 0.79 出生时 期望寿命(岁) 1.44 0.73 0.38 -0.99 -0.91 -0.66
满族
朝鲜族 蒙古族
G1={S1}
0
0 0.526 2.374 2.048 1.973 0 1.851 1.539 1.448 0 0.422 0.406 0 0.311 0
G2={S2} 1.208 G3={S3} 1.732
维吾尔族 G4={S4} 3.570 藏族 G5={S5} 3.224
哈萨克族 G6={S6} 3.173
民族
满族 朝鲜族 蒙古族 维吾尔族 藏族 哈萨克族
标化死亡率 (‰) 5.80 7.44 8.11 10.21 9.51 9.81
出生时 期望寿命(岁) 70.59 67.14 65.48 58.88 59.24 60.47
各民族之间的欧氏距离
满族 朝鲜族 蒙古族 维吾尔 族 藏族 哈萨克 族
G1={S1} G2={S2} G3={S3} G4={S4} G5={S5} G6={S6}
聚类分析
对于一个数据,人们既可以对变量(指标)进行分类 (相当于对数据中的列分类),也可以对观测值(事件, 样品)来分类(相当于对数据中的行分类)。 比如学生成绩数据就可以对学生按照理科或文科成绩 (或者综合考虑各科成绩)分类,当然,并不一定事 先假定有多少类,完全可以按照数据本身的规律来分 类。 这 里 要 介 绍 的 分 类 的 方 法 称 为 聚 类 分 析 ( cluster analysis)。对变量的聚类称为 R型聚类,而对观测值 聚类称为 Q 型聚类。这两种聚类在数学上是对称的, 没有什么不同。
饮料数据
16种饮料的热量、咖啡因、钠及价格四种变量
哪些少数民族的生存状况更接近?
民族 满族 朝鲜族 蒙古族 维吾尔族 藏族 哈萨克族
原始数据
标化死亡率(‰) 5.80 7.44 8.11 10.21 9.51 9.81 出生时期望寿命(岁) 70.59 67.14 65.48 58.88 59.24 60.47
变量间的相似性可以从它们的方向趋同性或“相 关性”进行考察, “夹角余弦法”和“相关系数” 两种主要度量方法,统称为相似系数。 (1) 夹角余弦 两变量Xi与Xj看作p维空间的两个向量,这两个向 量间的夹角余弦可用下式进行计算
cos ij
X
k 1 p k 1 2 ik
p
ik
X jk
p
( X )( X 2 jk )