§34系统聚类分析方法-哈尔滨学院
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五步,作D(2)表.先从D(1)表中删去G3类 和G7类所在行与列中的元素,再把新计算 出来的D8,4,D8,5和D8,6的值填到D(1)中,即 成D(2)表.
G4 G5 G6 G7 0.501 0.693 1.596 0.589 1.336 1.743 G5 G6
第六步,在D(2)表中,最小元素为 D45=0.501,再将G4和G5合成一新类 G , G G9, G ,然后再计算新类G9与其 9 4 5 它类间的距离
3.将D(0)中第p,q行和p,q列删去,加上第r 行和第r列. 4.对D(1)表,按第2,3步方法重复计算,直 到所有样品并为一类为止.
例:以我国新疆地区6个地点和4个指标 为例,用最短距离法进行聚类分析.
第一步,将原始数据经标准化处理后,以 欧氏距离作为分类统计量,得初始距离 矩阵D(0),如下表所示.
③ 极大值标准化,即
x ( i 1 , 2 , , m ; j 1 , 2 , , n ) ij max { x } ij
i
x ij
经过这种标准化所得的新数据,各要素 的极大值为1,其余各数值小于1。
④ 极差的标准化,即
x x in i jm i j i x ( i 1 , 2 , , m ; j 1 , 2 , , n ) i j m x ax m x in i j i j
i i
经过这种标准化所得的新数据,各 要素的极大值为1,极小值为0,其余 的数值均在0与1之间。
例:下表给出了某地区九个农业区的七项指标,
它们经过极差标准化处理后,如表3.4.3所示.
表3.4.2 某地区九个农业区的七项经济指标数据
区代 号 G1 G2 人均耕地 x1(hm2/人) 0.294 0.315 劳均耕地 x2(hm2/个 ) 1.093 0.971 水田比重 x3(%) 5.63 0.39 复种指数 x4(%) 113.6 95.1 粮食亩产 x5(kg/ hm2) 4510.5 2773.5 人均粮食 x6(kg/人 ) 1036.4 683.7 稻谷占粮 食比重x7 (% ) 12.2 0.85
G2
G3 G4 G5 G6 G7 G8 G9
1.00
0.20 0.44 0.03 0.03 0.00 0.91 0.38
0.87
0.15 0.38 0.03 0.03 0.00 0.53 0.26
0.00
0.07 0.00 1.00 0.61 0.90 0.07 0.04
0.00
0.44 0.13 1.00 0.69 0.81 0.00 0.00
第三步,作D(1)表.先从D(0)表中删去G1类和 G2类所在的行和列中的元素,然后把新计算 出来的 G7与其它类间的距离D7,3,D7,4,D7,5 填到D(0)中,即成D(1)表.
G3 G4 G5 G6 G7 1.926 1.662 2.154 0.483 0.501 0.693 1.596 0.589 1.336 1.743 G4 G5 G6
第九步,作D(4)表,先从D(3)表中删去G6 类和G9类所在行列中的元素,再把新计 算出来的D10,8的值填到D(3)中,即成 D(4)表.
G8 G10 1.336
由此表可知,G8类与G10类最后合成一 类为G11类,计算过程结束.
第十步,将上述计算结果整理成联结表 ,然后再绘成聚类图.
联结表
步骤:
1.确定计算距离方法,计算出各地点(样品) 间距离,列出初始距离矩阵D(0)表,其中每 个元素都自成一类,这时Dpq=dpq.
2.在初始距离矩阵D(0)中,选出最短距离,即 最小元素Dpq,将Gp类和Gq类合并成一新类 Gr, G G , G r p q 再计算新类Gr与其它各类间的距离Drk.
第四步,在D(1)表中,最小元素为D37=0.483, 再将G3与G7合成一新类G8,G ,然后 G , G 8 3 7 再计算新类G8与其它类间的距离.
D min( d ,d ) min( 1 . 926 , 1 . 596 ) 1 . 596 8 ,4 34 47 D min( d ,d ) min( 1 . 662 , 1 . 336 ) 1 . 336 8 , 5 35 57 D min( d ,d ) min( 2 . 154 , 1 . 743 ) 1 . 743 8 , 6 36 67
第六章 地理系统的聚类分析与判别分析
第一节 地理系统的聚类分析
聚类分析方法: 是定量地研究地理事物分类问题 和地理分区问题的重要方法。常见的 聚类分析方法有系统聚类法、动态聚 类法和模糊聚类法等。
一. 聚类分析的数据处理
当分类要素的对象确定之后,在进行聚类分析之前,首
先要对聚类要素进行数据处理。假设有 m 个聚类的对象, 每一个聚类对象都有n个要素构成。它们所对应的要素数 据可用下表给出。 聚 类 对 象
0.00
0.44 0.18 1.00 0.65 0.84 0.10 0.15
0.24
0.08 0.13 0.45 0.13 0.13 0.43 0.00
0.00
0.07 0.00 1.00 0.59 1.00 0.09 0.00
二.聚类分析的统计量
(一) 相似系数
相似系数是描述地理数据之间相似程度的一种指标.
在聚类分析中,常用的聚类要素的数据处理方
法有如下几种: ① 总和标准化。分别求出各聚类要素所对应的 数据的总和,以各要素的数据除以该要素的数 据的总和,即
m x ij x ij
i 1
x ij
( i 1 , 2 , , m ;j 1 , 2 , , n )
这种标准化方法所得到的新数据满足
6934.5
4458 12249 8973 10689 3679.5 4231.5
611.1
632.6 791.1 636.5 634.3 771.7 574.6
6.49
0.92 80.38 48.17 80.17 7.8 1.17
表3.4.3 极差标准化处理后的数据
x1 G1 0.91 x2 1.00 x3 0.07 x4 0.15 X5 0.18 X6 1.00 X7 0.14
x 1
ij i 1 m
(j 1 , 2 , ,n )
② 标准差标准化,即
x x ij j x ij s j ( i 1 , 2 , , m ; j 1 , 2 , , n )
由这种标准化方法所得到的新数据,各要素的 平均值为0,标准差为1,即有
m 1 x x 0 j ij m i 1 m 1 2 s ( x x ) 1 j ij j m i 1
G1 G2 G3 G4 G5 G6 0.375 0.483 1.749 1.516 1.972 0.776 1.596 1.336 1.743 1.926 1.662 2.154 0.501 0.693 0.589 G2 G3 G4 G5
第二步,在D(0)中,最小元素为D12=0.375,将 G , G G1与G2合并成一新类G7,G ,然后再 7 1 2 计算新类G7与其它各类间的距离.
2. 最短距离聚类法
定义:最短距离聚类法,是在原来的m×m距离矩阵的
非对角元素中找出最短距离dpq,把分类对象Gp和Gq归 并为一新类Gr,然后按计算公式
d m d in{ , d }( k p , q ) rk pk qk
计算原来各类与新类之间的距离,这样就得到一个新 的(m-1)阶的距离矩阵;再从新的距离矩阵中选出 最小者dij,把Gi和Gj归并成新类;再计算各类与新类的 距离,这样一直下去,直至各分类对象被归为一类为 止。
( i ,j 1 , 2 , , m )
④ 切比雪夫距离。当明科夫斯基距 有
d max x x ij ik jk
k
p 时,
( i , j 1 , 2 , , m )
三.地理系统的聚类方法
过程:
1.直接聚类法
先把各个分类对象单独视为一类,然后根据距离最小 的原则,依次选出一对分类对象,并成新类。如果其 中一个分类对象已归于一类,则把另一个也归入该类; 如果一对分类对象正好属于已归的两类,则把这两类 并为一类。每一次归并,都划去该对象所在的列与列 序相同的行。经过m-1次就可以把全部分类对象归为 一类,这样就可以根据归并的先后顺序作出聚类谱系 图。
G3
G4 G5 G6 G7 G8 G9
0.123
0.179 0.081 0.082 0.075 0.2பைடு நூலகம்3 0.167
0.316
0.527 0.212 0.211 0.181 0.666 0.414
5.28
0.39 72.04 43.78 65.15 5.35 2.9
148.5
111 217.8 179.6 194.7 94.9 94.8
D d ,d )min( 0 .483 ,0 .776 )0 .483 7 ,3 min( 13 23 D d ,d )min( 1 .749 , 1 .596 ) 1 .596 7 ,4 min( 14 24 D d ,d ) min( 1 .516 , 1 .336 ) 1 .336 7 ,5 min( 15 25 D d ,d )min( 1 .972 , 1 .743 ) 1 .743 7 ,6 min( 16 26
d x x ij ik jk
i 1 n
( i , j 1 , 2 , , m )
② 欧氏距离
2 d ( x x ) ij ik jk n
( i ,j 1 , 2 , , m )
③ 明科夫斯基距离 1
k 1
n p p d x x ij ik jk k 1
r ij
(x
k1 m k 1
m
ik
xi )(xjk x j )
m
2 2 ( x x ) . ( x x ) i j ik jk k 1
1 m r xik.xjk ij m k1
(二) 距离系数
距离:是事物之间差异性的测度,是系统聚 类分析的依据。 常见的距离有 : ① 绝对值距离
联结顺序 1 2 3 4 5
联结法 新类
G7 G8 G9 G10
类别
G1,G2 G3,G1,G2 G4,G5 G6,G4,G5
距离系数 0.375 0.483 0.501 0.589 1.336
1 2 i m
要 素 x ,x ,x 1x 2 j n
x 11 x 21 x i1 x m1 x 12 x 22 xi2 xm2 , x1 j , x2 j , x ij , x mj , , , x1n x2n x in
, x mn
D min( d , d ) min( 0 . 693 , 0 . 589 ) 0 . 589 9 , 6 46 56 D min( d , d ) min( 1 . 596 , 1 . 336 ) 1 . 336 9 , 8 48 58
第七步,作D(3)表,先从D(2)表中删去G4类 和G5类所在的行与列中的元素,再把新计 算出来的D9,6和D9,8的值填到D(2)中,即成 D(3)表. G6 G8
G8
G9
1.743
0.589 1.336
第八步,在D(3)表中,最小元素为 D69=0.589,再将G6和G9合成一新类 G , G G , G , G G10, G ,然后再计 10 8 9 6 4 5 算G10与其它类间的距离
D min( d , d ) min( 1 . 743 , 1 . 336 ) 1 . 33 10 , 8 68 89
1.夹角余弦(cosθ)
设有n个地点,每个地点有m个特征值,如把每个地点 的特征值看作是多维空间的一个向量,则两个地点之 间的相似程度可用两个向量间夹角的余弦来表示 ,即: m
cos ij
x
k 1 m
ik
. x jk
m
k 1
x . x 2 jk
2 ik k 1
2.相关系数(r)