第六章_聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可以证明:
S S1 S2
对于给定的数据来说,S是个常数,S1最小,S2 必然最大。因此可将段内离差平方和
k nl m
S1
(xlj (i) xl(i) )2
l 1 j1 i1
做为分解法聚类分析的聚类统计量。 一个地质数据序列分段后满足段内离差平方和 最小,则称相应的分法为最优分割。
表6-1 常用聚类分析统计量
相关系数 矢量Xi与Xj的相关系数为:
ri j
m
(xik xi )(x jk x j )
k 1
m
m
(xik xi )2 (x jk x j )2
k 1
k 1
Si j SiiS j j
(6-2)
(i, j 1, 2, , n)
如此可形成一个相关系数矩阵R=[rij]n×n 。 在相关系数矩阵中: rij =rji , rii=1。rij越接近1, Xi与Xj的相关程度越大。
m
xik x jk
k 1
m
m
xi2k
x
2 jk
k 1
k 1
x1 x2
x3
x4
x5
x6
1
ij
0.7524 1
0.5493 0.9549
0.9133 0.8808
0.9519 0.8617
0.9763
0.7471
x1 x2
1
0.7654 0.7346 0.5505
l1 j1 i1
l1 i1
其中:
k
n nl 为样品的总数; l 1
xlj(i)为第l 段内第j个样品第 i个变量的观测值;
xl(i)为第l 段内第 i个变量nl 个观测值的平均值;
x(i)
1 n
k l 1
nl
x(i) lj
j 1
1 n
k
nl xl(i)
l 1
为第i个变量n个观测值的平均值。
类脂体 壳质体 镜质体 惰质体 H/C O+S/C
55
20
25
0
10 2.1
25
10
40
25 15.2 8.13
15
0
55
30 19.5 10.49
45
10
40
5 10.1 1.55
40
20
40
0
10 4.67
45
30
25
0 9.01 2.93
26
解:(1)写出原始数据阵
55 20 25 0 10 2.1
如果把Xn×m分成k段(组),每段内有nl (l = 1, 2,…,k) 个样品,分段结果记为:
x (1) 11
x(2) 11
x (1) 12
x(2) 12
x (1) 1n1
x (2) 1n1
x(m) 11
x (1) 21
x(2) 21
x(m) 12
x (1) 22
x(2) 22
x(m) 1n1
聚合法
分解法
相似系数
段内离差平方和
相关系数
段间离差平方和
距离系数
总离差平方和
§2 聚合法聚类分析
聚合法聚类是将类由多变少、直到把全部个体 合并成一类的聚类方法。它是目前对个体进行聚类 的常用方法。聚类过程大致如下:
(1)原始类,即聚类以前的个体各自成类; (2)第1级聚类,以某种统计量计算各个体间的亲 疏程度,把关系密切的对象合并成1类,并构造成 一个代表性个体,做为新的个体参加下一级聚类;
一、聚合法聚类分析的准备-数据预处理
(1)原因 样品的各个指标(即变量)的观测值在量纲和量级上可
能不一样,直接使用原始数据,可能突出某些数量级大 的指标的作用,压低甚至排除某些量级小的指标的作用。 因此,首先要统一指标量纲。
(2)方法(详见第三章内容)
xi'j
xij sj
xj
x x '
ij
x ij
聚合法聚类分析是按个体在性质或成因上的亲疏 关系,把个体逐级聚集成类的一种多元统计分析方 法。又称为点群分析,
这种聚类分析开始时,每个个体各自为一类,然 后以某种表示个体亲疏关系的统计量为分类依据, 把彼此关系相对密切的个体合并为小类,再把关系 相对密切的小类进一步合并,…,最后直到合并成 一个大类为止。最终得到一个反映各对象间亲疏关 系的分类结果 — 聚类分析谱系图,如图6-1。
xn1
x22 xn2
由 Xn×m可以看出:
x1m x2m xnm
分 类 对 象
❖ 第i行是第i个样品m个变量的观测值,可视为m
维空间的一个点或一个矢量;
❖ 第j 列是第j个变量的n次观测值,可视为n维空间 的一个点或一个矢量; ❖ 样品间的相似性就是矩阵行间的相似性,对样 品聚类就是将矩阵中相似程度高的行合并为类; ❖变量间的相关性就是矩阵列间的相关性,对变量 聚类就是将矩阵中相关程度高的列合并为类。
ri j
n
(xki xi )(xkj x j )
k 1
n
n
(xki xi )2 (xkj x j )2
k 1
k 1
Si j SiiS j j
(i, j 1, 2, , m)
(6-5)
形成相关系数矩阵[rij]m×m 。其中: rij =rji , rii=1。 rij越接近1,Xi与Xj的相关程度越大。
对样品进行分类—称Q型聚类分析
对变量进行分类—称R型聚类分析
2. 分解法聚类分析 这种聚类方法与聚合法“方向”恰好相反,开始 时全部个体为1大类,依据某种分类指标,把全部 个体分为2类、3类、…, 直到满足分类的要求为止。
例如{1 1 2 2 3 3}是6个个体,据个体的相似性, 把个体分为3类,结果是:{1 1}、{2 2}、{3 3}。这是 一种把大类分解成小类的问题,地层的岩性段划 分属于这类问题。
(1) Q型聚类分析统计量
相似系数 设样品观测值:
X i xi1, xi2 , , xim
X j x j1, x j2 , , x jm
将Xi与Xj看成两个矢量,则Xi与Xj的相似系数定 义为两矢量夹角的余弦:
ri j
cosi j
Xi X j Xi X j
m
xik x jk
k 1
1.00
0.75 0.50
0.25
1 0.95
2 0.90
5 0.83
4 0.82
6 0.88
7 0.35
3 0.07
8 0.93
9 1.00
10 1.00
11 1.00
13 1.00
12 0.91 14
图6-1 油气化探指标聚类谱系图 (1,2,…,14为化探指标编号)
参照上例,给出聚合法聚类分析的一般概念。
x11 x12 x1m
X nm
x21
xn1
x22 xn2
x2m xnm
分类 对象
这里的Xn×m是数据序列(数据的排列顺序不能改 变)。
此处分类是指按行把数据序列分割开多个段。
对Xn×m的最优分割是指把Xn×m 分段后,各段内 数据的离差平方和最小(各段内样品的差异最小), 而各段间数据的离差平方和最大(各段之间样品的 差异最大)。
ri j cosi j
Xi X j Xi X j
n
xki xkj
k 1
n
n
xk2i xk2j
k 1 k 1
(6-4)
(i, j 1, 2, , m)
形成相似系数矩阵[rij]m×m 。其中: rij =rji , rii=1。 rij越接近1,Xi与Xj的相似程度越大。
相关系数 矢量Xi与Xj的相关系数为:
25 10 40 25 15.2
8.13
xij
15
0 55 30 19.5 10.49
40 20 40 0 10.1 4.67
45 30 25 0 9.01 2.93
(各指标量级差别不大,不必进行数据转换)
27
(2)选择适当的相似统计量如下:
本例选用样品间相似系数 cosij
算得相似系数矩阵=[cos ij]
总离差平方和:
k nl m
S
(xlj (i) x (i) )2(常数)
l1 j1 i1
k nl m
段内离差平方和: S1
(xlj (i) xl(i) )2 (6-7)
l 1 j1 i1
段间离差平方和:
k nl m
k
m
S2
(xl(i) x (i) )2 nl (xl(i) x (i) )2
第六章 聚 类 分 析
§1 聚类分析和聚类统计量 §2 聚合法聚类分析 §3 分解法聚类分析(最优分割法) §4 应用简介
❖引言 地质学中有很多分类研究的问题,如沉积岩、古
生物、矿物、油气藏、油气地球化学勘探指标的分 类等是一些直接分类的例子;油气资源评价、油源 对比等研究中也有分类;地层划分属于另一种分类。 为叙述方便,在此把分类的具体目标统称为个体 (样品或变量)。
(2) R型聚类分析统计量 变量间的相关性是数据矩阵列间的相关关系。
x11 x12 x1m
分
X nm
x21
xn1
x22 xn2
x2m xnm
类 对 象
仿照Q 型聚类分析统计量,容易写出R型聚类分 析统计量。
注意求和限的变化及角标的变化。
相似系数 矢量Xi与Xj的相似系数为:
m
m
xi2k
x
2 jk
k 1 k 1
(i, j 1, 2, , n)
(6-1)
如此,可形成一个相似系数矩阵R=[rij]n×n 。
r11 r12 r1n
R r21 r22
r2n
来自百度文库
rn1 rn2
rnn
在上述相似系数矩阵中, rij =rji , rii=1。rij 越接 近1,Xi与Xj的性质越相近。R描述了各样品间的相 似程度。
x x j max
sj
n
1 1
(
i
n 1
(
xij
x
j
)
2
)
标准差变换
j min
极差变换
(极差规格化或极差正规化)
j min
24
二、一步形成法聚合法聚类分析
1、原理 一步形成法是一种最简单的聚类方法,计算量不大。
它由相似性或相似性矩阵出发直接得到最终的分类结果。
2.原则 (1)若选出一对样品在已经分好的组中都未出现过,则
多个个体组成的小类
(3) 第2级聚类,再计算个体间的亲疏程度,把关 系密切的个体合并为1类(可能是个体与个体或个体 与上一级已聚成的小类合并),并又构造一个代表 该类的代表性个体参加下一级聚类;
(4) 按上述方法进行第3级聚类、第4级聚类、…, 直到全部个体合并为1类为止。
在上述聚类过程中,需要不断地计算个体与个体 、个体与类、类与类间的亲疏程度,下面介绍计算 它们之间亲疏程度的递推公式和聚类过程。
距离系数 在m 维直角坐标系中,2个点间的距离为:
di j
m k 1
(
xik
1/ 2
x
jk
)2
为避免dij过大造成计算溢出,将上式改为:
di
j
1 m
m
( xik
k 1
1/ 2
x
jk
)
2
(6-3)
(i, j 1, 2, , n)
即形成距离系数矩阵[dij]n×n 。dij =dji , dii=0。dij 越接近0,Xi与Xj的性质越相近。
二、聚类分析统计量 衡量个体间性质或成因亲疏(相似、相关)程度的 统计指标。
几个常用的聚类分析统计量:
1. 聚合法聚类统计量
设有n个样品,每个样品有m个变量,它们的观
测值xij (i =1 , 2 ,…, n ; j =1 , 2 ,…, m)构成一个数据
矩阵,记为:
x11 x12
X nm
x21
距离系数 在n 维直角坐标系中,2个点间的距离为:
di
j
1 n
n
( xki
k 1
xkj
)2
1/
2
(6-6)
(i, j 1, 2, , m)
形成距离系数矩阵[dij]m×m 。dij =dji , dii=0。dij越 接近0,Xi与Xj的性质越相近。
2.分解法聚类统计量 仅介绍分解法中的最优分割法。 n个样品m个变量的观测值构成一个数据矩阵:
聚类分析:根据个体之间的亲疏程度,将它们进 行逐级定量分类的一种多元统计分析方法。
根据分类的不同方式,又把聚类分析分为聚合法 和分解法聚类分析。
§1 聚类分析和聚类统计量
一、聚类分析
1. 聚合法聚类分析 引例:化探指标的分类 如某地区油气地表化探 样品具有14项指标,按照 指标相关程度分类,结果如 图。类内指标具有密切的 成因联系,据此可以化简 研究系统。
x (1) 2n2
x (2) 2n2
x(m) 21
x (1) k1
x(2) k1
… x(m) 22
x (1) k2
x(2) k2
x(m) 2n2
x (1) k nk
x (2) k nk
x(m) k1
x(m) k2
x(m) k nk
第1段
第2段
…
第k段
把Xn×m分为k段有很多种可能的分法。对于其中 的任何一种分法,都有:
把它们形成一个独立的新组。 (2)若选出的一对样品中,有一个出现在已经分好的组
里,则把另一个样品也加入到该组中去。 (3)若选出两个样品,它们分别出现在已经分好的两个
组中,则把这两个组联在一起。 (4)若选出的一对样品都出现在同一组中,则这对样
品就不再分组了。 25
3、解例
南海地区取得干酪根样品6个,每个样品测定了6个指 标,分别是:类脂体、壳质体、镜质体、惰质体、H/C原子 比和O+S/C原子比,原始数据如表4-5所示。现要求对样 品进行分类。