12_第七章-聚类分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

无论哪种聚类分析得出的结论都是为了某种
目的所做的工作,往往并非在自然界真实存在。
常用的聚类方法
逐步并类法 :一开始,每个样品自成一类,然后按
一定的规则每次缩小一类,直到所有的样品都成为
“一类”为止。又称为“合二为一” 逐步分解法:一开始,所有样品的全体成为一类,
然后按一定的规则每次将一类分为两类,直到无法
聚类分析的原则是同一类中的个体有较大的 相似性,不同类中的个体差异很大。 根据分类对象的不同,分为样本聚类和变量 聚类。
1.样品聚类 样品聚类在统计学中又称为Q型聚类。 就是对事件 Cases( 或称样品或称观测量)进行 聚类。是根据被观测的对象的各种特征,即反映被 观测对象特征的各变量值进行分类。 样品聚类是进行判别分析的之前的必要工作。
2* 1*
3*
4*
6* 5*
(1 , 2 , 3 ) (1 , 2 , 4 ) (1 , 2 , 5 ) (1 , 2 , 6 )
1 3 1 3 1 3 1 3
( 12 13 23 )
1 3
( 0 . 142 0 . 547 0 . 491 ) 0 . 393
(i ) ( A , B ) ( B , A ) ( ii ) (A, B) 0 (iii) (A, B) 随 A , B 之 间间的相似性增
(A, 其中,
B)

称为个体A与B之间的相似系数, rkl
和sij因为虽然满足上述性质(i),却并不满足性 质(ii),但是经过7.1和7.2的变换后就满足了。
在实际问题中,研究 n 个时间观测点之间
的相关系数没有明显的物理意义。 因为,在计算两时间点相关系数时,要用 到空间点的平均值和方差,再加上如果变量是 不同气象要素时,在实际解释上更为困难。
虽然rkl和sij是衡量两个空间点和时间点相关程度
的 ,但还不能用它们作为聚类过程的相似性系 数,因为一般的相似系数应具有如下性质:
θ及α的数值变化在0到π之间,
θ=0时为完全相似,
θ=π时则为完全不相似。
不同个体的相似系数还可以进行相加或平均, 这些在原来的rkl和sij中都是不能解释的。
3.距离系数 在聚类分析中,也可以使用距离系数进行聚类, 距离比较近的个体可以归为一类。
I Minkovski 距离
m p 1
d
ij
应该注意的是,不同的目的选用不同的指标作为分 类的依据。例如,对少年为选拔运动员所选用的指
标就不同于为分课外活动小组所选用的指标,对啤
酒按价格进行分类和按成分进行分类所选用的指标 也是不同的。
2.变量聚类
变量聚类在统计学中又称为R型聚类。
反映同一事物特点的变量有很多,我们往往
根据所研究的问题选择部分变量对事物的某一方 面进行研究。由于人类对客观事物的认识是有限 的,往往难以找出真正彼此独立的有代表性的变 量,而影响对问题的进一步认识和研究。
可分为止。又称“一分为二”。
调优法:先给定一个初始分类,按照某种最优准则
,不断调整分类,最终得到合理的分类。
§1 相似性度量
在聚类分析中,需要对不同个体(空间点或
时间点)进行相似分析,相似的就归为一类, 客观地度量任两个个体的相似程度大致有下面 几种指标: 相关距离系数
相似系数
1. 相关距离系数
报量的可能属于的类别—判别分类。
分类问题
1)气候区的划分:干旱、半干旱 2)天气过程的分类:根据多个气象要素(温度,气压,湿
度等)的时间演变曲线分类。 3)大气环流分型:纬向型(西风),经向型
1. 先确定 典型 ,然后根据与“典型”的 相似程度 进行 类型划分。 2. 利用相关、相似性度量,考察样品之间的亲疏关系。
* *
*
* * *
* * *
*
空间中的p个点
例: 设有p=6个空间点的要素场,计算它们的相
关阵及相关距离系数,表中上三角阵列出各点之 间相关系数,下三角阵列出相关距离系数,系数 以弧度为单位。从相关距离系数阵出发作逐级归 并。 第一级根据相似系数最小为最相似的原则把 l 与 2点归为一类,其相似水平 (记为α)定义为它们 间的距离即为0.142。 第二级考察在3,4,5,6点中哪一点与第一级 的组最相似,即分别计算
1 p
p
d
ij

k 1
( x ik x
jk
)
2
III Pearson距离
m
d
ij


k 1
( x ik x sk
2
jk
)
2
IV Mahalanobis距离
d ij ( x i x j ) S
1
( xi x j )
上述距离系数是对时间点而言的,对空间点
之间距离的度量可以类似地定义,只需将i,j换
基本原理
第二步把其余的组与第一步合并组进行比较, 以哪一组与它最相似为原则进行归并。由于相 似系数具有可加性,可用平均相似系数作衡量 判据。
如此下去,每一次都将“最相似”(或“最近”)
的两组归并,直到所有个体归并为一组为止。
归并过程可制成枝形图(或称树图)。
* * * *
* * *
**
* * * **
( p ) (
k 1
x ik x
jk
)
p
(1) p=1,域块距离(Block distance)
m
d
ij
(1 )

k 1
x ik x
jk
(2) p=2, 欧氏距离( Euclidean 距离)
m
d
ij
(2)

k 1
( x ik x
jk
)
2
实际中更常用平方欧氏距离
II 平均距离
第2步:重新计算串组后的距离系数矩阵D(1)。 做法是将已经合并的1,5点看做时间空间中的 一个新点,记为15。其与其它数据点之间的距 离系数用前一步距离系数的平均值代替。
例如,计算第K个点(k=2,3,4,6)与15点的
新距离系数
d
(1 ) k ;15
1 (d 2
(0) k ;1
d
(0) k ;5
一水平下还应有另一类,即5,6点组成的一类。 第三级,余下的第4点应归哪一类,计算
(1 , 2 , 3 , 4 ) ( 4 ,5 , 6 )
1 3 1 6 ( 12 13 14 23 24 34 ) 1 . 091
( 45 46 56 ) 1 . 258
平均权重串组法与上节方法类似,只是在每一 级归并后重新考虑各组的相似系数阵。
以北京1951-1956年12月-2月气温资料为例:
研究对象是时间点(年)分类(相似系数),据 7.4计算各年之间的距离阵。
第1步:在相似距离系数矩阵中找出6个时间点之
间距离最小的两个点归为1类。在本例中,1,5
点满足这一要求,可归为一类,这一过程称为串 组。
根据样品聚类的结果进行判别分折。得出判别函数,
进而对其他研究对象属于哪一类作出判断。
[ 例 ] 在选拔少年运动员时首先要根据少年的身体形态、身 体素质、生理功能的各种指标 ( 变量 ) 进行测试,得到各种 指标的测试值 ( 变量值 ) ,据此对少年进行分类。根据分类 结果再求出选材的判别函数,作为选材的依据。 又比如,可以根据啤酒中含有的酒精成分、钠成分、 热量的“卡路里”数值对啤酒进行分类。

li
( x l x ( i , j ))
2
1 j
j
i 1
xl
l 1
区间离差平方和
最优分割计算步骤
(1)由上式计算任意分割点i,j之间的变差,组 成一变差矩阵V; (2)由矩阵V中元素计算各种可能的2分割对应 的各部分数据的总变差;
v m ( 2 | i ) v (1 , i ) v ( i 1 , m ) (i 1,2,...m - 1, m 2,3,...n)
例如,在回归分析中由于自变量的共线性导
致偏回归系数不能真正反映自变量对因变量的 影响,等等。 因此,往往先要进行变量聚类,找出彼此独 立且有代表性的自变量,而又不丢失大部分信 息(如主成分分析)。
在生产活动中也有很多需要进行变量聚类的 实例:制衣业制定衣服型号就是根据人体各部分 尺寸数据找出最有代表性的指标,如身长、胸围 、裤长、腰围等作为上衣及裤子的代表性指标。 制鞋业中制定鞋的型号也是如此。 变量聚类使批量生产成为可能。
用来研究要素场中不同空间点之间的相似程度
。设对 p 个空间点的要素场,抽取 n 个时间点的样
本资料,那么衡量第 k 个与第 l 个空间点之间的 相似程度可用相关距离系数:
kl arccos rkl
n
(x
i
x )( yi y )
n 2
相关系数
r
i 1 n
(x
i 1
i
x)
(y
i 1
i
y)
2
2.相似系数
研究要素场不同时间点之间的相似程度。 衡量第 i 个时间点与第 j 个时间点之间相似程度用:
ij arccos
where
s ij
p p
s Fra Baidu bibliotekj
x ik x
p 2 ik jk

k 1

k 1
x

k 1
x
2 jk
上面的sij衡量了两个时间点之间的相关程度,它常在Q 型因子分析中用来代替两个变量的相关系数。
)
第3步:以新的相似距离系数矩阵为基础,重复
第2步的过程,做新的合并后,又重新计算串组 后的距离系数矩阵。 最后的结果是一个树状图。其中的横坐标叫做 “串组水平”。 如果分为2类,则1951、1955和1953年为一类, 代表气温是下降型;1952、1956和1954年为另 一类,代表气温有上升趋势类。
( 12 14 24 ) 1 . 281 ( 12 15 25 ) 1 . 906 ( 12 16 26 ) 1 . 902
其中以 θ(1,2,3) 为最小,故 3 点归到 1 , 2 点的一类, 相似水平为0.393。
但比这一级距离还小的有θ56=0.330,故实际上在这
可见第 4 点与 1 , 2 , 3 点最相似,归为一类,记
此为I类;5,6点为II类。
6个空间点可分
为二类,分级水平为 1.091 . 分 类 过 程 可 绘成树图. 由图可见,若要
把 6 个点分为三类,
则1,2,3为一类,4 点独成一类,5,6点 为另一类。分类水平 为0.393.
§3
平均权重串组法
各段变差之和作为某种分割的优劣标准,以最小
者为最优。因此变差的计算是十分重要的。
变差的计算 设一变量的有序样本x1,x2,….xn,分为若干
段,
由 第 i 个 值 到 第 j 个 值 (j=1 , 2 . … , n-
1;j>i)的某段变差计算公式为
j
v (i, j ) w here x (i, j )
找出其中的最小值,以确定最佳分割点。最小值 记为:
v m ( 2 ) min
* 1 i m 1
vm (2 | i)
(m 2,3,...n)
(3)由vm*(2)及V中的元素计算
§4
最优分割法
最优分割是有序样本聚类分析的一种方 法,可用于对某一阶段气象要素资料进行 分段,以确定不同时段的气候特征。
变差及其计算
在对气象要素时间序列分割中,总希望分割出的
各段内数据比较接近,而某段内各数据的变化幅
度则是用该段的方差来表示,或者用离差平方和
来表示。 在分割法中简称为变差,变差愈小表明各段 数据愈接近。 因此,要比较不同的分割,可以用分割后的
第7章 聚类分析
第3章 判别分析
第七章 聚类分析
分类学是人类认识世界的基础科学。聚类分析和判 别分析是研究事物分类的基本方法, 广泛地应用于自然
科学研究、社会科学研究、工农业生产各个领域。
在大气科学研究中,存在着两种不同的分类问
题:
1)事先不知道分类的类别和分类数目,也不 清楚样本的属性,需要根据一定的规则进行分类— 聚类问题; 2)事先已经知道分类的类别,用因子判定预
成空间点k,l即可。 这些距离系数的性质:
(1 ) d
ij
0, i, j 0 , (i d d
ji
非负性
j)
(2)d (3) d (4)d
ij
唯一性
对称性 三角不等式
ij
, i, j d
kj
ij
ik
, i, j, k
§2
1 基本原理
逐级归并法
一开始假定每一个体为独立的一组(类),设 分析对象为空间中p个点,这样就有p个组。 第一步要找两个最相似的组把它们合并,得 到(p-1)组。在这一步中要普查p(p-1)/2个相似 系数中哪两个最相似,最相似的两个点的相似系 数保留下来作为第一级归并级的相似水平。
相关文档
最新文档