第6章 聚类分析基础
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第6章 聚类分析
一、什么是聚类分析
原理: 原理: 聚类分析又称群分析,是根据变量(或指标、 样品)的属性或特征的相似性、亲疏程度,用 数学的方法把它们逐步地分型划类,最后得到 一个能反映个体、群体之间亲疏关系的分类系 统。所谓类,通俗地说,就是指相似元素的集 合。
过程: 过程:
找出能度量现有数据或指标之间相似程度的统计量; 以统计量作为划分类型的依据,把一些相似程度较 大的样品首先聚合为一类,相似程度较小的样品聚 合为另一类,直到所有的样品都聚合完毕; 根据各类之间的亲疏关系逐步画成一张完整的分类 系统图,又称为谱系图。
i)明氏(Minkowski)距离 (i,j 指的是两样品,即底下公式均为两样 )明氏( 指的是两样品, ) 品之间的距离) 品之间的距离
d ij ( q ) = ∑ xia − x ja a =1
p q
1q
当 q=1 时
d ij (1) =
当 q=2 时
∑x
a =1
D(1) 为
表6
n d ij (q) = x ai − x aj a =1
1q
∑
q
(2)相关系数 )
∑ (x
rij =
a =i
n
ai
− x i )( x aj − x j )
∑
a =1
n
( x ai − x i ) 2 ⋅
∑
a =1
n
- 1 ≤ rij ≤ 1 ( x aj − x j ) 2
在实际问题中,对样品分类常用距离,对指标分类常用相似系数。 在实际问题中,对样品分类常用距离,对指标分类常用相似系数。
三、系统聚类分析(Hierachical Cluster Analysis)
系统聚类法的分类步骤如下: (1)聚类前先对量纲不一致的原始数据进行变换处理 (2)聚类分析处理的开始是各样品或变量自成一类(n个样品一共 有n类),选择并计算各样品或变量之间的距离。 (3) 将距离最近的两类合并,如果类的个数大于1,则继续并类, 直至所有样品归为一类为止。 (4)最后根据聚类过程表绘制系统聚类谱系图。
Dkr = min d ij
i∈Gi ,i∈G j
x11• x12•
d13
x22•
x21•
= min min d ij , min d ij i∈G ,i∈G ii ∈Gk , j∈Gq k p
= min Dkp , Dk离法聚类的步骤如下: 最最距离法聚类的步骤如下: (1)定义样品之间距离,计算样品两两距离,得一距离阵记为 D( 0) ,开始每 个样品自成一类,显然这时 Dij = d ij 。 (2) 找出 D( 0) 的非对角线最小元素, 设为 D pq , 则将 G p 和 G q 合并成一个新类, 记为 G r ,即 G r = {G p , G q }。 (3)给出计算新类与其它类的距离公式:
易见最最距离法与最最距离法只有两点不同: 易见最最距离法与最最距离法只有两点不同:
一是类与类之间的距离定义不同; 另一是计算新类与其它类的距离所用的公式不同。
D( 0 ) 为
表5
G1 G1 = {X 1 } G 2 = {X 2 } G3 = {X 3 } G2 G3 G4 G5
0 1 2.5 6 8 0 1.5 5 7 0 3.5 5.5 0 2 0
G1 = {X 1 }
G 2 = {X 2 }
0 1 2.5 6 8 0 1.5 5 7 0 3.5 5.5 0 2 0
G 3 = {X 3 }
G 4 = {X 4 }
G 5 = {X 5 }
一个新类,记为 G6 = {X 1 , X 2 }。 (3)计算新类 G6 与其它类的距离,按公式: Gi 6 = min( Di1 , Di 2 )
基本特点: 基本特点:
事先无需知道分类对象的分类结构(只要有科学的 数据) 选好分类统计量,并按一定的方法步骤进行计算; 根据计算结果可得到一张完整的分类系统图
设有 n 个样品,每个样品测得 p 项指标(变量) ,原始资料阵为
X 1 x11 X 2 x21 X = M M X n xn1
Dkr = max d ij
i∈Gk , j∈Gr
= max max d ij , max d ij i∈G , j∈G i∈Gk , j∈Gq k p = max D kp , D kq
• x11• •
x21•
d12
• • •
•
{
}
再找非对角线最小元素的两类并类,直至所有的样品全归为一类为止。
x12 L x1 p x22 L x2 p M M xn 2 L xnp
其中
xij (i = 1, L , n; j = 1, L , p)
为第i个样品的第j个指标的观测数据。
2种基本的聚类分析的分类单元 Q型分类——以样品为分类对象
将各参数(变量)比较相近的样品归为同一类,表征 这些样品具有相似的特征和结构
2 2 2 2 2 2 D KR = α p Dkp + α q Dkq + βD pq + γ | Dkp − Dkq |
1 最最距离法
定义类 Gi 与 G j 之间的距离为两类最近样品的距离,即
Dij = min d ij
i∈Gi , j∈G j
设类 G p 与 G q 合并成一个新类记为 G r ,则任一类 G k 与 G r 的距离是:
p
ia
− x ja
即绝对距离
12
( xia − x ja ) 2 d ij (2) = a =1
∑
p
即欧氏距离
当q =∞时
d ij (∞) = max x ia − x ja
1≤ a ≤ p
即切比雪夫距离
明氏距离存在不足之处: 第一,它与各指标的量纲有关; 第二,它没有考虑指标之间的相关性,欧氏距离也 不例外。
(2)找出 D( 0) 中非对角线最小元素是 1,即 D12 = d12 = 1 ,则将 G1 与 G 2 并成
i = 3,4,5
D63=min{D31,D32}=min{2.5,1.5}=1.5 D64=min{D41,D42}=min{6,5}=5 D65=min{D51,D52}=min{8,7}=7
把两两变量的相关系数都算出后,排成矩阵为 r11 r12 L r1 p r r22 L r2 p 21 R = ( rij ) = M M M rp1 rp 2 L rpp 其中 r11 = r22 = L = r pp = 1 ,可根据 R 对 p 个变量进行分类。
表3 G7 G4 G5
G7 = {X 1 , X 2 , X 3 } G 4 = {X 4 }
0 3.5 5.5 0 2 0
G5 = {X 5 }
(5)找出 D( 2 ) 中非对角线最小元素是 2,则将 G4 与 G5 合并成 G8 = {X 4 , X 5 } ,最后再按公式计算 G7 与 G8 的距离,即将 G4,G5 相应的两行两列归并成一行一列,新的行列由原来的两行(列)中较小的一个组 成,得表 D(3) 如下: D87=min{D74,D75}=min{3.5,5.5}=3.5 表4 G7 G8
即将表 D( 0) 的前两例取较小的一列得表 D(1) 如下:
表2 G6 G3 G4 G5
G6 = {X 1 , X 2 } G3 = {X 3 }
0 1.5 5 7 0 3.5 5.5 0 2 0
G 4 = {X 4 }
G5 = {X 5 }
(4)找出 D(1) 中非对角线最小元素是 1.5,则将相应的两类 G3 和 G6 合并为 G7 = {X 1 , X 2 , X 3 } ,然后 再按公式计算各类与 G7 的距离,即将 G3, G6 相应的两行两列归并一行一列,新的行列由原来的两行(列) 中较小的一个组成,计算结果得表 D( 2) 如下: D74=min{D41,D42,D43}=min{6,5,3.5}=3.5 D75=min{D51,D52,D53}=min{8,7,5.5}=5.5
G 4 = {X 4 }
G5 = {X 5 }
D( 0) 中非对角线最小元素是 D12 = 1 ,合并 G1 与 G 2 成
G6
i = 3,4,5
计算新类 G6 与其它类的距离,按公式:
Gi 6 = max( Di1 , Di 2 )
D63=max{D31,D32}=max{2.5,1.5}=2.5 D64=max{D41,D42}=max{6,5}=6 D65=max{D51,D52}=max{8,7}=8
G 7 = {X 1 , X 2 , X 3 } G8 = {X 4 , X 5 }
0 3.5 0
最后将 G7 和 G8 合并成 G9,上述并类过程可用下图表达。横坐标的刻度是并类的距离。
将上述计算结果整理成联结表,然后再绘成聚类图
联结顺序 1 2 3 4 联结法 新类 G6 G7 G8 G9 类别 G1,G2 G3,G6 G4,G5 G7,G8 距离系数 1 1.5 2 3.5
2 最最距离法
定义类 G i 与类 G j 之间距离为两类最远样品的距离,即
D pq = max d ij
i∈G p , j∈Gq
最最距离法与最最距离法的并类步骤完全一样,也是将各样品先自成一 类, 然后将非对角线上最小元素对应的两类合并。 设某一步将类 G p 与 G q 合 并为 G r ,则任一类 G k 与 G r 的距离用最最距离公式为
2对指标分类 ( 称为 型聚类分析 ) 常用的距 对指标分类( 称为R-型聚类分析 型聚类分析) 对指标分类 离和相似系数定义 p个指标(变量)之间相似性的定义与样品相似 性定义类似,但此时是在n维空间中来研究的, 变量之间的相似性是通过原始资料矩阵X中p列 间相似关系来研究的。
(1)距离 )
令 dij 表示变量 X i = ( x1i , L , x ni ) ′ 与变量 X j = ( x1 j , L , x nj ) ′ 之中距离。 明氏距离
R型分类——以变量为分类对象
变量归为同一类是因为它们各个样品中的分布状况相 似,变量之间具有一定的相关性
应用 环境科研和监测 地理分区与分类 植被生态研究 在社会经济领域:核算工业企业经济效益, 在社会经济领域:核算工业企业经济效益, 物价指数
二、类与类之间的距离 相异或相似系数) (相异或相似系数)
相似(异 性量度指标 相似 异)性量度指标
样品之间的相似程度是通过各变量的数据来确定的,变量的数 据可用不同的测量尺度来表示。常用的下列三类: 间隔尺度: 间隔尺度: 指标度量时用数量来表示,其数值由测量或计数、 统计得到,如最度、重量、收入、支出等。 有序尺度: 有序尺度:变量度量时没有明确的数量表示,而是划分一些 等级,等级之间有次序关系 名义尺度: 名义尺度:变量度量时,既没有数量表示,也没有次序关系
Dkr = min{Dkp , Dkq }
将 D( 0) 中第 p、 行及 p、 列用上面公式并成一个新行新列, q q 新行新列对应 G r , 所得到的矩阵记为 D(1) 。 (4)对 D(1) 重复上述对 D( 0) 的(2)(3)两步得 D( 2) ;如此下去,直到所有的 、 元素并成一类为止。 如果某一步 D( k ) 中非对角线最小的元素不止一个, 则对应这些最小元素的类可 以同时合并。
例1 设抽取五个样品,每个样品只测一个指标,它 们是1,2,3.5,7,9,试用最最距离法对五个样品 进行分类。 (1)定义样品间距离采用绝对距离,计算样品两两 距离,得距离阵如下:
D(0) 表1
G1 = {X 1 }
G 2 = {X 2 }
G 3 = {X 3 }
G 4 = {X 4 }
G 5 = {X 5 }
距离
设有 n 个样品,每个样品测得 p 项指标(变量) ,原始资料阵为
X 1 x11 x X 2 21 X = M M X n xn1
x12 x22 M xn 2
x1 p L x2 p M L xnp L
如果把n个样品(X中的n个行)看成p维空间中n个点,则两个 样品间相似程度可用p维空间中两点的距离来度量。令dij表示样 品Xi与Xj的距离。常用的距离有:
一、什么是聚类分析
原理: 原理: 聚类分析又称群分析,是根据变量(或指标、 样品)的属性或特征的相似性、亲疏程度,用 数学的方法把它们逐步地分型划类,最后得到 一个能反映个体、群体之间亲疏关系的分类系 统。所谓类,通俗地说,就是指相似元素的集 合。
过程: 过程:
找出能度量现有数据或指标之间相似程度的统计量; 以统计量作为划分类型的依据,把一些相似程度较 大的样品首先聚合为一类,相似程度较小的样品聚 合为另一类,直到所有的样品都聚合完毕; 根据各类之间的亲疏关系逐步画成一张完整的分类 系统图,又称为谱系图。
i)明氏(Minkowski)距离 (i,j 指的是两样品,即底下公式均为两样 )明氏( 指的是两样品, ) 品之间的距离) 品之间的距离
d ij ( q ) = ∑ xia − x ja a =1
p q
1q
当 q=1 时
d ij (1) =
当 q=2 时
∑x
a =1
D(1) 为
表6
n d ij (q) = x ai − x aj a =1
1q
∑
q
(2)相关系数 )
∑ (x
rij =
a =i
n
ai
− x i )( x aj − x j )
∑
a =1
n
( x ai − x i ) 2 ⋅
∑
a =1
n
- 1 ≤ rij ≤ 1 ( x aj − x j ) 2
在实际问题中,对样品分类常用距离,对指标分类常用相似系数。 在实际问题中,对样品分类常用距离,对指标分类常用相似系数。
三、系统聚类分析(Hierachical Cluster Analysis)
系统聚类法的分类步骤如下: (1)聚类前先对量纲不一致的原始数据进行变换处理 (2)聚类分析处理的开始是各样品或变量自成一类(n个样品一共 有n类),选择并计算各样品或变量之间的距离。 (3) 将距离最近的两类合并,如果类的个数大于1,则继续并类, 直至所有样品归为一类为止。 (4)最后根据聚类过程表绘制系统聚类谱系图。
Dkr = min d ij
i∈Gi ,i∈G j
x11• x12•
d13
x22•
x21•
= min min d ij , min d ij i∈G ,i∈G ii ∈Gk , j∈Gq k p
= min Dkp , Dk离法聚类的步骤如下: 最最距离法聚类的步骤如下: (1)定义样品之间距离,计算样品两两距离,得一距离阵记为 D( 0) ,开始每 个样品自成一类,显然这时 Dij = d ij 。 (2) 找出 D( 0) 的非对角线最小元素, 设为 D pq , 则将 G p 和 G q 合并成一个新类, 记为 G r ,即 G r = {G p , G q }。 (3)给出计算新类与其它类的距离公式:
易见最最距离法与最最距离法只有两点不同: 易见最最距离法与最最距离法只有两点不同:
一是类与类之间的距离定义不同; 另一是计算新类与其它类的距离所用的公式不同。
D( 0 ) 为
表5
G1 G1 = {X 1 } G 2 = {X 2 } G3 = {X 3 } G2 G3 G4 G5
0 1 2.5 6 8 0 1.5 5 7 0 3.5 5.5 0 2 0
G1 = {X 1 }
G 2 = {X 2 }
0 1 2.5 6 8 0 1.5 5 7 0 3.5 5.5 0 2 0
G 3 = {X 3 }
G 4 = {X 4 }
G 5 = {X 5 }
一个新类,记为 G6 = {X 1 , X 2 }。 (3)计算新类 G6 与其它类的距离,按公式: Gi 6 = min( Di1 , Di 2 )
基本特点: 基本特点:
事先无需知道分类对象的分类结构(只要有科学的 数据) 选好分类统计量,并按一定的方法步骤进行计算; 根据计算结果可得到一张完整的分类系统图
设有 n 个样品,每个样品测得 p 项指标(变量) ,原始资料阵为
X 1 x11 X 2 x21 X = M M X n xn1
Dkr = max d ij
i∈Gk , j∈Gr
= max max d ij , max d ij i∈G , j∈G i∈Gk , j∈Gq k p = max D kp , D kq
• x11• •
x21•
d12
• • •
•
{
}
再找非对角线最小元素的两类并类,直至所有的样品全归为一类为止。
x12 L x1 p x22 L x2 p M M xn 2 L xnp
其中
xij (i = 1, L , n; j = 1, L , p)
为第i个样品的第j个指标的观测数据。
2种基本的聚类分析的分类单元 Q型分类——以样品为分类对象
将各参数(变量)比较相近的样品归为同一类,表征 这些样品具有相似的特征和结构
2 2 2 2 2 2 D KR = α p Dkp + α q Dkq + βD pq + γ | Dkp − Dkq |
1 最最距离法
定义类 Gi 与 G j 之间的距离为两类最近样品的距离,即
Dij = min d ij
i∈Gi , j∈G j
设类 G p 与 G q 合并成一个新类记为 G r ,则任一类 G k 与 G r 的距离是:
p
ia
− x ja
即绝对距离
12
( xia − x ja ) 2 d ij (2) = a =1
∑
p
即欧氏距离
当q =∞时
d ij (∞) = max x ia − x ja
1≤ a ≤ p
即切比雪夫距离
明氏距离存在不足之处: 第一,它与各指标的量纲有关; 第二,它没有考虑指标之间的相关性,欧氏距离也 不例外。
(2)找出 D( 0) 中非对角线最小元素是 1,即 D12 = d12 = 1 ,则将 G1 与 G 2 并成
i = 3,4,5
D63=min{D31,D32}=min{2.5,1.5}=1.5 D64=min{D41,D42}=min{6,5}=5 D65=min{D51,D52}=min{8,7}=7
把两两变量的相关系数都算出后,排成矩阵为 r11 r12 L r1 p r r22 L r2 p 21 R = ( rij ) = M M M rp1 rp 2 L rpp 其中 r11 = r22 = L = r pp = 1 ,可根据 R 对 p 个变量进行分类。
表3 G7 G4 G5
G7 = {X 1 , X 2 , X 3 } G 4 = {X 4 }
0 3.5 5.5 0 2 0
G5 = {X 5 }
(5)找出 D( 2 ) 中非对角线最小元素是 2,则将 G4 与 G5 合并成 G8 = {X 4 , X 5 } ,最后再按公式计算 G7 与 G8 的距离,即将 G4,G5 相应的两行两列归并成一行一列,新的行列由原来的两行(列)中较小的一个组 成,得表 D(3) 如下: D87=min{D74,D75}=min{3.5,5.5}=3.5 表4 G7 G8
即将表 D( 0) 的前两例取较小的一列得表 D(1) 如下:
表2 G6 G3 G4 G5
G6 = {X 1 , X 2 } G3 = {X 3 }
0 1.5 5 7 0 3.5 5.5 0 2 0
G 4 = {X 4 }
G5 = {X 5 }
(4)找出 D(1) 中非对角线最小元素是 1.5,则将相应的两类 G3 和 G6 合并为 G7 = {X 1 , X 2 , X 3 } ,然后 再按公式计算各类与 G7 的距离,即将 G3, G6 相应的两行两列归并一行一列,新的行列由原来的两行(列) 中较小的一个组成,计算结果得表 D( 2) 如下: D74=min{D41,D42,D43}=min{6,5,3.5}=3.5 D75=min{D51,D52,D53}=min{8,7,5.5}=5.5
G 4 = {X 4 }
G5 = {X 5 }
D( 0) 中非对角线最小元素是 D12 = 1 ,合并 G1 与 G 2 成
G6
i = 3,4,5
计算新类 G6 与其它类的距离,按公式:
Gi 6 = max( Di1 , Di 2 )
D63=max{D31,D32}=max{2.5,1.5}=2.5 D64=max{D41,D42}=max{6,5}=6 D65=max{D51,D52}=max{8,7}=8
G 7 = {X 1 , X 2 , X 3 } G8 = {X 4 , X 5 }
0 3.5 0
最后将 G7 和 G8 合并成 G9,上述并类过程可用下图表达。横坐标的刻度是并类的距离。
将上述计算结果整理成联结表,然后再绘成聚类图
联结顺序 1 2 3 4 联结法 新类 G6 G7 G8 G9 类别 G1,G2 G3,G6 G4,G5 G7,G8 距离系数 1 1.5 2 3.5
2 最最距离法
定义类 G i 与类 G j 之间距离为两类最远样品的距离,即
D pq = max d ij
i∈G p , j∈Gq
最最距离法与最最距离法的并类步骤完全一样,也是将各样品先自成一 类, 然后将非对角线上最小元素对应的两类合并。 设某一步将类 G p 与 G q 合 并为 G r ,则任一类 G k 与 G r 的距离用最最距离公式为
2对指标分类 ( 称为 型聚类分析 ) 常用的距 对指标分类( 称为R-型聚类分析 型聚类分析) 对指标分类 离和相似系数定义 p个指标(变量)之间相似性的定义与样品相似 性定义类似,但此时是在n维空间中来研究的, 变量之间的相似性是通过原始资料矩阵X中p列 间相似关系来研究的。
(1)距离 )
令 dij 表示变量 X i = ( x1i , L , x ni ) ′ 与变量 X j = ( x1 j , L , x nj ) ′ 之中距离。 明氏距离
R型分类——以变量为分类对象
变量归为同一类是因为它们各个样品中的分布状况相 似,变量之间具有一定的相关性
应用 环境科研和监测 地理分区与分类 植被生态研究 在社会经济领域:核算工业企业经济效益, 在社会经济领域:核算工业企业经济效益, 物价指数
二、类与类之间的距离 相异或相似系数) (相异或相似系数)
相似(异 性量度指标 相似 异)性量度指标
样品之间的相似程度是通过各变量的数据来确定的,变量的数 据可用不同的测量尺度来表示。常用的下列三类: 间隔尺度: 间隔尺度: 指标度量时用数量来表示,其数值由测量或计数、 统计得到,如最度、重量、收入、支出等。 有序尺度: 有序尺度:变量度量时没有明确的数量表示,而是划分一些 等级,等级之间有次序关系 名义尺度: 名义尺度:变量度量时,既没有数量表示,也没有次序关系
Dkr = min{Dkp , Dkq }
将 D( 0) 中第 p、 行及 p、 列用上面公式并成一个新行新列, q q 新行新列对应 G r , 所得到的矩阵记为 D(1) 。 (4)对 D(1) 重复上述对 D( 0) 的(2)(3)两步得 D( 2) ;如此下去,直到所有的 、 元素并成一类为止。 如果某一步 D( k ) 中非对角线最小的元素不止一个, 则对应这些最小元素的类可 以同时合并。
例1 设抽取五个样品,每个样品只测一个指标,它 们是1,2,3.5,7,9,试用最最距离法对五个样品 进行分类。 (1)定义样品间距离采用绝对距离,计算样品两两 距离,得距离阵如下:
D(0) 表1
G1 = {X 1 }
G 2 = {X 2 }
G 3 = {X 3 }
G 4 = {X 4 }
G 5 = {X 5 }
距离
设有 n 个样品,每个样品测得 p 项指标(变量) ,原始资料阵为
X 1 x11 x X 2 21 X = M M X n xn1
x12 x22 M xn 2
x1 p L x2 p M L xnp L
如果把n个样品(X中的n个行)看成p维空间中n个点,则两个 样品间相似程度可用p维空间中两点的距离来度量。令dij表示样 品Xi与Xj的距离。常用的距离有: