第六章 地理系统的聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计量地理学基础
张金萍
聊城大学环境与规划学院 2006-7
第六章 地理系统的聚类分析
聚类分析的基本思想 主要聚类方法
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§1 聚类分析的基本思想
一、聚类分析的意义和作用
聚类分析法: 基本思路: 具体做法: 特点:
上一页
下一页
返回目录
第六章 地理系统的聚类分析
drk max{dpk , dqk}
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
m
m
xi2k
x
2 jk
k 1
k 1
式个上中地一页:点i和和第j代j个表地两下点个一的地页第点k(个样地品理返)指回,目标x录值ik,x。jk分别代退表出第
第六章 地理系统的聚类分析
§1 聚类分析的基本思想
三、分类统计量-夹角余弦
相似系数矩阵
c os11 cos21
c os n1
性质:
§2 主要聚类方法
一、系统分类法
聚类分析的分类:
Q型聚类分析 R型聚类分析
基本做法:
将n个地点各自看成一类,定义类与类间的距离; 选择距离最小的一对合成一新类; 计算新类与其它类间的距离,重复第一步。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§2 主要聚类方法
一、系统分类法
定义类与类之间距离的方法:
三、分类统计量-夹角余弦
二维: 三维:
n 维:
cos
xi1x j1 xi2 x j2
( xi21
xi22
)(
x
2 j1
x
2 j2
)
cos
xi1x j1 xi2 x j2 xi3 x j3
( xi21
xi22
xi23 )(
x
2 j1
x
2 j2
x
2 j3
)
cosij
m
xik x jk
k 1
1.442
4.d78=1.442,将G7 和G8合并成新类G9,
0.862
记为G9={G7,G8},并 0.723
记入联结表中。
5.作出分类谱系图。 0.043
G9 G8
G7
G6
上一页
下一页
G1 G2 G3 G4 G5
返回目录
退出
第六章 地理系统的聚类分析
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
xj
1 n
n i 1
xij
Sj
n
(xij x j )2
i 1
n 1
变换后,每一列均 值为0,方差为1,且 与指标的量纲无关。
上一页
下一页
返回目录
退出
第六章 地理系统的聚类分析
§1 聚类分析的基本思想
二、原始数据处理
(二)数据的标准化
级差标准化
xi'j
xij min(x j ) max(x j ) min(x j )
1.442 0.862 0.723
G8 G7
1.442 0.862 0.723
G9 G8
G7
0.043
G6
0.043
G6
G1 G2 G3 G4 G5
上一页
下一页
G1 G3 G2 G4 G5
返回目录
退出
第六章 地理系统的聚类分析
§2 主要聚类方法
二、聚类形成的方法
(二)最长距离法
定义新类与其它类距离的原理不同; 其余相同。
(i 1,2, , n; j 1,2, , m)
变换后,数据的变化范围都在0到1之间, 也消除了量纲的影响。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§1 聚类分析的基本思想
三、分类统计量
x2
Pi(xi1,xi2)
(一)相似系数
xi2 P1
1.夹角余弦(cosθ) xj2
P2 Pj(xj1,xj2)
二维空间:
cos cos(1 2 )
O 2
cos1 cos2 sin1 sin2 1
xi1
xj1
x1
xi1 x j1 xi2 x j2 P1 P2 P1 P2
P1 xi21 xi22
P2
x
2 j1
x
2 j2
上一页
下一页
返回目录
退出
第六章 地理系统的聚类分析
§1 聚类分析的基本思想
下一页
返回目录
第六章 地理系统的聚类分析
退出
§1 聚类分析的基本思想
三、分类统计量-欧氏距离
相关阵 性质:
d11 d12 d1n
D d21
d22
d2
n
dn1 dn2
d
nn
对角线元素为0
对称方阵
取值越小,相似程度越强。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
联结表
联结顺序
1 2 3 4
新类
联结法 类别
距离系数
G6
G1、G2
0.043
G7
G3、G1、G2
0.723
G8
G4、G5
0.862
G9 G3、G1、G2、 G4、G5 1.442
第上一页步
第下二一页步
返第回三目步录
第六章 地理系统的聚类分析
第退四出步
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
c os12 c os 22
c os n 2
cos1n
c
os2
n
c
os
nn
对角线元素为1 取值范围:-1~1
对称方阵
绝对值越大,相似程度越强。
上一页
下一页
返回目录
退出
第六章 地理系统的聚类分析
§1 聚类分析的基本思想
三、分类统计量
(一)相似系数 2.相关系数(r)
m
(xik xi )(x jk x j )
(一)数据的对数变换
xi'j ln xij
(二)数据的标准化
标准差标准化 级差标准化
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§1 聚类分析的基本思想
二、原始数据处理
(二)数据的标准化
标准差标准化
xi'j
xij x j Sj
(i 1,2, , n; j 1,2, , m)
其中:
退出
§1 聚类分析的基本思想
二、原始数据处理
为什么要对聚类分析的原始数据进行标准化 处理?
原始地理数据矩阵
1
地2 点
上一页
n
下一页
…
1 2 … m 指标
x11 x12
x21
x22
x1m
x2
m
xn1
xn2
xnm
返回目录
退出
第六章 地理系统的聚类分析
§1 聚类分析的基本思想
二、原始数据处理
n维空间中:i(xi1,xi2,…,xim),j (xj1,xj2,…,xjm)
m
dij
(xik x jk )2
k 1
式中:i和j代表两个地点(样品),xik,xjk分别代表 第i个地点和第j个地点的第k个地理指标值。
欧氏距离系数:dij (2)
1 m
m
( xik
k 1
x jk )2
上一页
退出
§1 聚类分析的基本思想
三、分类统计量-相关系数
相关阵
性质:
r11 r12 r1n
R r21
r22
r2n
rn1 rn2
rnn
对角线元素为1 取值范围:0~1
对称方阵
取值越大,相关程度越强。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§1 聚类分析的基本思想
(二)距离系数 2.欧氏距离(dij(1))
空间中两点的距离:
d (x1 x2 )2 ( y1 y2 )2 (z1 z2 )2
称为三维空间中的欧几里德距离,简称欧氏距离。 距离小表示两点接近,反之则远离。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§1 聚类分析的基本思想
三、分类统计量-夹角余弦
rij
k 1 m
m
(xik xi )2 (x jk x j )2
k 1
k 1
在数据标准化后,相关系数公式简化为:
rij
1 m
m k 1
xik
x jk
式中:i和j代表两个地点(样品),xik,xjk分别代 表第i个地点和第j个地点的第k个地理指标值。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
最短距离法 最长距离法 类平均法 重心法 离差平方和法
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§2 主要聚类方法
二、聚类形成的方法
(一)最短距离法
应用广泛;
定义两类之间的距离:两类间所有样本中最近的 两个样本距离;
dij表示地点i与j的距离; G1,G2,…表示类别。
drk min{d pk , dqk}
1. 在D(0)中,选出距离系数最小的,即d12=0.043,将 G1和G2合并成新类G6,记为G6={G1,G2},并记入 联结表中。 再利用最短距离公式计算G6与其它各类之间的距离。
d63 min{ d13, d23} min{1.167 ,0.723} 0.723
d64 min{ d14 , d24} min{ 2.484 ,2.060} 2.060
三、分类统计量
(二)距离系数 1.绝对距离(dij(1))
m
dij (1) xik x jk k 1
式中:i和j代表两个地点(样品),xik,xjk分别代 表第i个地点和第j个地点的第k个地理指标值。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§1 聚类分析的基本思想
三、分类统计量
上一页
新类的记号
下一页
返回目录
第六章 地理系统的聚类分析
旧类的记号
退出
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
例:有一组5个 区域,2个指标 的地理资料矩阵 如表所示。试对 这5个区域用最 短距离法进行聚 类分析。
区域
1 2 3 4 5 均值 标准差
指标x1
1 2 4 6 8 4.2 2.86
G4 G5
0 0.862
0
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
3.在D(2)中,选出距离系数最小的,即d45=0.862, 将G4和G5合并成新类G8,记为G8={G4,G5},并记入 联结表中。
计算G8与其它各类之间的距离。
d87 min{ d47 , d57} min{1.442 ,2.252} 1.442
从而形成距离系数矩阵D(2)。
G7 G8 D(2) GG87 1.4042 0
上一页
下一页
返回目录
退出
第六章 地理系统的聚类分析
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
注意:分类谱系图不能交叉。例如:
联结顺序
1 2 3 4
新类
联结法 类别
距离系数
G6
G1、G3
0.043
G7
G2、G4
0.723
G8
G5、G2、G4
0.862
G9 G1、G3、 G5、G2、G4 1.442
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出Βιβλιοθήκη Baidu
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
d65 min{ d15, d25} min{3.337 ,2.910} 2.910
从而形成距离系数矩阵D(1)。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
G6 D(1) GGGG5643 220...9070162003
G3
0 1.442 2.252
G4 G5
0 0.862
0
2.在D(1)中,选出距离系数最小的,即d63=0.723, 将G6和G3合并成新类G7,记为G7={G6,G3},并记入 联结表中。
计算G7与其它各类之间的距离。
上一页
下一页
返回目录
退出
第六章 地理系统的聚类分析
0 0.723 2.060 2.910
0 1.442 2.252
0 0.862
0
2 3 4 5
-0.77 -0.07 0.63 1.33
-0.71 -0.45 0.81 1.31
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
指标x2
3 4 5 10 12 6.8 3.96
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
1.数据的标准差标准化处理。 2.计算初始距离系数矩阵D(0)。
区域 指标x1 指标x2
G1
G2
G3
G4 G5
1
-1.12 -0.96
D(0) GGGGG15432 1320....1340063847743
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
d74 min{ d64 , d34} min{ 2.060 ,1.442} 1.442
d75 min{ d65, d35} min{ 2.910 ,2.252} 2.252
从而形成距离系数矩阵D(2)。
G7 D(2) GGG754 12..4204522
张金萍
聊城大学环境与规划学院 2006-7
第六章 地理系统的聚类分析
聚类分析的基本思想 主要聚类方法
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§1 聚类分析的基本思想
一、聚类分析的意义和作用
聚类分析法: 基本思路: 具体做法: 特点:
上一页
下一页
返回目录
第六章 地理系统的聚类分析
drk max{dpk , dqk}
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
m
m
xi2k
x
2 jk
k 1
k 1
式个上中地一页:点i和和第j代j个表地两下点个一的地页第点k(个样地品理返)指回,目标x录值ik,x。jk分别代退表出第
第六章 地理系统的聚类分析
§1 聚类分析的基本思想
三、分类统计量-夹角余弦
相似系数矩阵
c os11 cos21
c os n1
性质:
§2 主要聚类方法
一、系统分类法
聚类分析的分类:
Q型聚类分析 R型聚类分析
基本做法:
将n个地点各自看成一类,定义类与类间的距离; 选择距离最小的一对合成一新类; 计算新类与其它类间的距离,重复第一步。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§2 主要聚类方法
一、系统分类法
定义类与类之间距离的方法:
三、分类统计量-夹角余弦
二维: 三维:
n 维:
cos
xi1x j1 xi2 x j2
( xi21
xi22
)(
x
2 j1
x
2 j2
)
cos
xi1x j1 xi2 x j2 xi3 x j3
( xi21
xi22
xi23 )(
x
2 j1
x
2 j2
x
2 j3
)
cosij
m
xik x jk
k 1
1.442
4.d78=1.442,将G7 和G8合并成新类G9,
0.862
记为G9={G7,G8},并 0.723
记入联结表中。
5.作出分类谱系图。 0.043
G9 G8
G7
G6
上一页
下一页
G1 G2 G3 G4 G5
返回目录
退出
第六章 地理系统的聚类分析
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
xj
1 n
n i 1
xij
Sj
n
(xij x j )2
i 1
n 1
变换后,每一列均 值为0,方差为1,且 与指标的量纲无关。
上一页
下一页
返回目录
退出
第六章 地理系统的聚类分析
§1 聚类分析的基本思想
二、原始数据处理
(二)数据的标准化
级差标准化
xi'j
xij min(x j ) max(x j ) min(x j )
1.442 0.862 0.723
G8 G7
1.442 0.862 0.723
G9 G8
G7
0.043
G6
0.043
G6
G1 G2 G3 G4 G5
上一页
下一页
G1 G3 G2 G4 G5
返回目录
退出
第六章 地理系统的聚类分析
§2 主要聚类方法
二、聚类形成的方法
(二)最长距离法
定义新类与其它类距离的原理不同; 其余相同。
(i 1,2, , n; j 1,2, , m)
变换后,数据的变化范围都在0到1之间, 也消除了量纲的影响。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§1 聚类分析的基本思想
三、分类统计量
x2
Pi(xi1,xi2)
(一)相似系数
xi2 P1
1.夹角余弦(cosθ) xj2
P2 Pj(xj1,xj2)
二维空间:
cos cos(1 2 )
O 2
cos1 cos2 sin1 sin2 1
xi1
xj1
x1
xi1 x j1 xi2 x j2 P1 P2 P1 P2
P1 xi21 xi22
P2
x
2 j1
x
2 j2
上一页
下一页
返回目录
退出
第六章 地理系统的聚类分析
§1 聚类分析的基本思想
下一页
返回目录
第六章 地理系统的聚类分析
退出
§1 聚类分析的基本思想
三、分类统计量-欧氏距离
相关阵 性质:
d11 d12 d1n
D d21
d22
d2
n
dn1 dn2
d
nn
对角线元素为0
对称方阵
取值越小,相似程度越强。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
联结表
联结顺序
1 2 3 4
新类
联结法 类别
距离系数
G6
G1、G2
0.043
G7
G3、G1、G2
0.723
G8
G4、G5
0.862
G9 G3、G1、G2、 G4、G5 1.442
第上一页步
第下二一页步
返第回三目步录
第六章 地理系统的聚类分析
第退四出步
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
c os12 c os 22
c os n 2
cos1n
c
os2
n
c
os
nn
对角线元素为1 取值范围:-1~1
对称方阵
绝对值越大,相似程度越强。
上一页
下一页
返回目录
退出
第六章 地理系统的聚类分析
§1 聚类分析的基本思想
三、分类统计量
(一)相似系数 2.相关系数(r)
m
(xik xi )(x jk x j )
(一)数据的对数变换
xi'j ln xij
(二)数据的标准化
标准差标准化 级差标准化
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§1 聚类分析的基本思想
二、原始数据处理
(二)数据的标准化
标准差标准化
xi'j
xij x j Sj
(i 1,2, , n; j 1,2, , m)
其中:
退出
§1 聚类分析的基本思想
二、原始数据处理
为什么要对聚类分析的原始数据进行标准化 处理?
原始地理数据矩阵
1
地2 点
上一页
n
下一页
…
1 2 … m 指标
x11 x12
x21
x22
x1m
x2
m
xn1
xn2
xnm
返回目录
退出
第六章 地理系统的聚类分析
§1 聚类分析的基本思想
二、原始数据处理
n维空间中:i(xi1,xi2,…,xim),j (xj1,xj2,…,xjm)
m
dij
(xik x jk )2
k 1
式中:i和j代表两个地点(样品),xik,xjk分别代表 第i个地点和第j个地点的第k个地理指标值。
欧氏距离系数:dij (2)
1 m
m
( xik
k 1
x jk )2
上一页
退出
§1 聚类分析的基本思想
三、分类统计量-相关系数
相关阵
性质:
r11 r12 r1n
R r21
r22
r2n
rn1 rn2
rnn
对角线元素为1 取值范围:0~1
对称方阵
取值越大,相关程度越强。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§1 聚类分析的基本思想
(二)距离系数 2.欧氏距离(dij(1))
空间中两点的距离:
d (x1 x2 )2 ( y1 y2 )2 (z1 z2 )2
称为三维空间中的欧几里德距离,简称欧氏距离。 距离小表示两点接近,反之则远离。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§1 聚类分析的基本思想
三、分类统计量-夹角余弦
rij
k 1 m
m
(xik xi )2 (x jk x j )2
k 1
k 1
在数据标准化后,相关系数公式简化为:
rij
1 m
m k 1
xik
x jk
式中:i和j代表两个地点(样品),xik,xjk分别代 表第i个地点和第j个地点的第k个地理指标值。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
最短距离法 最长距离法 类平均法 重心法 离差平方和法
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§2 主要聚类方法
二、聚类形成的方法
(一)最短距离法
应用广泛;
定义两类之间的距离:两类间所有样本中最近的 两个样本距离;
dij表示地点i与j的距离; G1,G2,…表示类别。
drk min{d pk , dqk}
1. 在D(0)中,选出距离系数最小的,即d12=0.043,将 G1和G2合并成新类G6,记为G6={G1,G2},并记入 联结表中。 再利用最短距离公式计算G6与其它各类之间的距离。
d63 min{ d13, d23} min{1.167 ,0.723} 0.723
d64 min{ d14 , d24} min{ 2.484 ,2.060} 2.060
三、分类统计量
(二)距离系数 1.绝对距离(dij(1))
m
dij (1) xik x jk k 1
式中:i和j代表两个地点(样品),xik,xjk分别代 表第i个地点和第j个地点的第k个地理指标值。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§1 聚类分析的基本思想
三、分类统计量
上一页
新类的记号
下一页
返回目录
第六章 地理系统的聚类分析
旧类的记号
退出
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
例:有一组5个 区域,2个指标 的地理资料矩阵 如表所示。试对 这5个区域用最 短距离法进行聚 类分析。
区域
1 2 3 4 5 均值 标准差
指标x1
1 2 4 6 8 4.2 2.86
G4 G5
0 0.862
0
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
3.在D(2)中,选出距离系数最小的,即d45=0.862, 将G4和G5合并成新类G8,记为G8={G4,G5},并记入 联结表中。
计算G8与其它各类之间的距离。
d87 min{ d47 , d57} min{1.442 ,2.252} 1.442
从而形成距离系数矩阵D(2)。
G7 G8 D(2) GG87 1.4042 0
上一页
下一页
返回目录
退出
第六章 地理系统的聚类分析
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
注意:分类谱系图不能交叉。例如:
联结顺序
1 2 3 4
新类
联结法 类别
距离系数
G6
G1、G3
0.043
G7
G2、G4
0.723
G8
G5、G2、G4
0.862
G9 G1、G3、 G5、G2、G4 1.442
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出Βιβλιοθήκη Baidu
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
d65 min{ d15, d25} min{3.337 ,2.910} 2.910
从而形成距离系数矩阵D(1)。
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
G6 D(1) GGGG5643 220...9070162003
G3
0 1.442 2.252
G4 G5
0 0.862
0
2.在D(1)中,选出距离系数最小的,即d63=0.723, 将G6和G3合并成新类G7,记为G7={G6,G3},并记入 联结表中。
计算G7与其它各类之间的距离。
上一页
下一页
返回目录
退出
第六章 地理系统的聚类分析
0 0.723 2.060 2.910
0 1.442 2.252
0 0.862
0
2 3 4 5
-0.77 -0.07 0.63 1.33
-0.71 -0.45 0.81 1.31
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
指标x2
3 4 5 10 12 6.8 3.96
上一页
下一页
返回目录
第六章 地理系统的聚类分析
退出
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
1.数据的标准差标准化处理。 2.计算初始距离系数矩阵D(0)。
区域 指标x1 指标x2
G1
G2
G3
G4 G5
1
-1.12 -0.96
D(0) GGGGG15432 1320....1340063847743
§2 主 要 聚 类 方 法
二、聚类形成的方法-最短距离法
d74 min{ d64 , d34} min{ 2.060 ,1.442} 1.442
d75 min{ d65, d35} min{ 2.910 ,2.252} 2.252
从而形成距离系数矩阵D(2)。
G7 D(2) GGG754 12..4204522