07第七章 地理系统的聚类分析和判别分析(新)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7.1.1 聚类分析的基本思想
二、原始数据处理
(一)数据的对数变换
x ln xij
' ij
(二)数据的标准化
标准差标准化
级差标准化
7.1.1 聚类分析的基本思想
二、原始数据处理
标准差标准化
x
' ij
xij x j Sj
(i 1,2,, n; j 1,2,, m)
对角线元素为0 取值越小,相似程度越强。
7.1.2 主要聚类方法
一、系统分类法
聚类分析的分类:
Q型聚类分析(对地点、地区、样品分类)
——样本聚类
R型聚类分析(对要素、指标、变量分类)
——变量聚类
7.1.2 主要聚类方法
一、系统分类法
基本做法:
将n个地点各自看成一类,定义类与类间的
三、分类统计量
(一)相似系数
x2 xi2
P1
Pi(xi1,xi2) Pj(xj1,xj2) P2
1. 夹角余弦(cosθ)
二维空间:
xj2
O
1
cos cos(1 2 )
2
cos1 cos 2 sin 1 sin 2 xi1 x j1 xi 2 x j 2 2 2 P1 xi1 xi 2 P1 P 2 P1 P 2
r12 r1n r22 r2 n rn 2 rnn
取值范围:0~1 取 值 越 大 , 相 关 程 度
性质:
对角线元素为1
对称方阵
越强。
7.1.1 聚类分析的基本思想
三、分类统计量
(二)距离系数
1.绝对距离(dij(1))
d ij (1) xik x jk
逐步回归的基本思想
在SPSS中如何实现呢? (1)
逐步回归的基本思想
在SPSS中如何实现呢? (2)
第七章 地理系统的聚类分析和 判别分析
7.1 聚类分析 7.2 判别分析
第七章 地理系统的聚类分析和 判别分析
基本要求:
(1)理解聚类分析的统计思想和作用; (2)掌握地理数据的标准化方法; (3)了解聚类分析所涉及的统计量; (4)了解聚类方法并掌握系统聚类法; (5)了解判别分析的基本原理和方法; (6)掌握运用SPSS软件进行聚类分析与判 别分析。 重点:系统聚类法。
1 n 其中: x j xij n i 1
Sj ( xij x j ) 2
i 1 n
n 1
变换后,每一 列均值为0,方差 为1,且与指标的 量纲无关
7.1.1 聚类分析的基本思想
二、原始数据处理
极差标准化
x
' ij
xij min(x j ) max(x j ) min(x j )
定义两类之间的距离:两类间所有
样本中最近的两个样本距离; dij表示地点i与j的距离; G1,G2,…表示类别。
drk min{ pk , dqk } d
新类的记号 旧类的记号
7.1.2 主要聚类方法
二、聚类形成的方法——最短距离法 例:有一组5个 区域,2个指标 的地理资料矩阵 如表所示。试对 这5个区域用最 短距离法进行聚 类分析。
(i 1,2,, n; j 1,2,, m)
变换后,数据的变化范围都在0到1之间, 也消除了量纲的影响
7.1.1 聚类分析的基本思想
三、分类统计量
(一)相似系数
1. 夹角余弦(cosθ) 2. 相关系数(r)
(二)距离系数
1. 绝对距离 2. 欧氏距离
7.1.1 聚类分析的基本思想
距离;
选择距离最小的一对合成一新类;
计算新类与其它类间的距离,重复第一步。
7.1.2 主要聚类方法
一、系统分类法
定义类与类之间距离的方法:
最短距离法
最长距离法 类平均法 重心法 离差平方和法
7.1.2 主要聚类方法
二、聚类形成的方法
(一)最短距离法
[ 应用广泛 ]
7.1.1 聚类分析的基本思想
二、原始数据处理
为什么要对聚类分析的原始数据进行标准 化处理? (量纲、数量级、数量变化程度) 原始地理数据矩阵
1 1 地 2 点 … 2
n
x11 x12 x 21 x22 xn1 xn 2
… m 指标 x1m x2 m xnm
二、聚类形成的方法——最短距离法
3. 在D(0)中,选出距离系数最小的,即d12=0.043,将
G1和G2合并成新类G6,记为G6={G1,G2},并记入 联结表中。 再利用最短距离公式计算G6与其它各类之间的距离。
d63 min{ 13 , d23} min{ .167,0.723 0.723 d 1 } d64 min{ 14 , d24 } min{ .484,2.060 2.060 d 2 } d65 min{ 15 , d25 } min{ .337,2.910 2.910 d 3 }
从而形成距离系数矩阵D(2)。
G7
G4
G5
G7 0 D ( 2) G4 1.442 0 G5 2.252 0.862 0
7.1.2 主要聚类方法
二、聚类形成的方法——最短距离法
n 维: cos ij
x
k 1 m k 1
m
ik
x jk
m
2 xik x 2 jk k 1
式中:i和j代表两个地点(样品),xik,xjk分别代 表第i个地点和第j个地点的第k个地理指标值。
7.1.1 聚类分析的基本思想
三、分类统计量——1.夹角余弦
相似系数矩阵
cos11 cos 21 cos n1 cos12 cos 22 cos n 2 cos1n cos 2 n cos nn
思考题
学生进行野外实习时,用自 序号 h(cm) v(m/s) 造的简易流速计测河流流速。 1 2 0.29 为了解决流速计的刻度问题用 2 5 0.39 回归分析法——因流速计中的 3 6 0.43 石蜡柱在水压的作用下产生高 度差h(cm),h与流速v(m/s)有相 4 13 0.56 关关系,数据如下表。以v为因 5 14 0.67 变量作出散点图,如果不是线 6 20 0.69 性关系,通过变换可化为线性 7 28 0.74 关系,并求出回归方程。
性质:
对角线元素为1
取值范围:-1~1
绝对值越大,相似程
对称方阵
度越强。
7.1.1 聚类分析的基本思想
三、分类统计量
(一)相似系数
rij
m
(x
k 1 k 1
m
ik
xi )(x jk x j )
m
2.相关系数(r)
( xik xi ) 2 ( x jk x j ) 2
从而形成距离系数矩阵D(1)。
7.1.2 主要聚类方法
二、聚类形成的方法——最短距离法
G6
G3
G4
G5
G6 0 G3 0.723 0 D(1) G4 2.060 1.442 0 G5 2.910 2.252 0.862 0
4. 在D(1)中,选出距离系数最小的,即d63=0.723, 将G6 和G3 合并成新类G7,记为G7={G6 ,G3},并记 入联结表中。
(提示:用对数变换化为线性关系。)
思考题答案
石蜡柱高度差与流速关系问题:
回归方程:ˆ 0.1291 0.1834ln x y
残差:Q 0.0080135 相关指数: 0.954697 R
2
剩余标准差: 0.04 S
第六章 逐步回归分析
6.1 逐步回归的基本思想 逐步回归是建立最优回归方程的方 法之一。 什么是最优回归方程? 就是在这个方程中,包含了所有对 因变量有显著影响的自变量而又不包含 对因变量没有显著影响的自变量。
计算G7与其它各类之间的距离。
7.1.2 主要聚类方法
二、聚类形成的方法——最短距离法
2 } d74 min{ 64 , d34 } min{ .060,1.442 1.442 d 2 } d75 min{ 65 , d35 } min{ .910,2.252 2.252 d
逐步回归的基本思想
(1)从一个自变量开始,将自变量一个一个地引入回归 方程,并且在每一次决定引入一个自变量时,这个自 变量的偏回归平方和,经过检验应该是所有尚未引入 回归方程的自变量中最为显著的那一个; (2)在引入一个新的自变量、建立新的线性回归方程之 后,接着对早先引入回归方程的自变量逐个进行检验, 由偏回归平方和最小的自变量开始,将偏回归平方和 经过检验是不显著的自变量从回归方程中逐个地进行 剔除; (3)引入自变量与剔除自变量交替进行,直到再也不能 引入新的自变量又不能从回归方程中剔除已经引入的 自变量为止。
区域 1 2 3 4 5 均值 标准差 指标x1 1 2 4 6 8 4.2 2.86 指标x2 3 4 5 10 12 6.8 3.96
7.1.2 主要聚类方法
二、聚类形成的方法——最短距离法
1.数据的标准差标准化处理。 区域 指标x1 指标x2 2.计算初始距离系数矩阵D(0)。
1 2 3 4 -1.12 -0.77 -0.07 0.63 -0.96 -0.71 -0.45 0.81
k 1
m
式中:i和j代表两个地点(样品),xik,xjk分 别代表第i个地点和第j个地点的第k个地理指标 值。
7.1.1 聚类分析的基本思想
三、分类统计量
(二)距离系数
2.欧氏距离(dij(2))
空间中两点的距离:
d ( x1 x2 ) 2 ( y1 y2 ) 2 ( z1 z 2 ) 2
7.1 地理系统的聚类分析
7.1.1 聚类分析的基本思想 7.1.2 主要聚类方法
7.1.1 聚类分析的基本思想
一、聚类分析的意义和作用 概念:
将物理或抽象对象的集合分组成为由类似 的对象组成的多个类的分析过程。
基本方法:统计量——归类——谱系图
特点:
无需要知道分类对象的分类结构 选好分类统计量,按步骤计算 形成分类系统图
xi1
xj1
2 j1 2 j2
x1
P2 x x
7.1.1 聚类分析的基本思想
三、分类统计量——1.夹角余弦
二维: cos
三维: cos
xi1 x j1 xi 2 x j 2 ( xi2 xi22 )(x 21 x 22 ) 1 j j xi1 x j1 xi 2 x j 2 xi 3 x j 3 ( xi2 xi22 xi23 )(x 21 x 22 x 23 ) 1 j j j
k 1
在数据标准化后,相关系数公式简化为: 1 m rij xik x jk m k 1 式中:i和j代表两个地点(样品),xik,xjk 分别代表第i个地点和第j个地点的第k个地理 指标值。
7.1.1 聚类分析的基本思想
三、分类统计量——2.相关系数
相关阵
r11 r 21 R rn1
G1
G2
G3
G4
G5
G1 0 G2 0.043 0 D (0) G3 1.167 0.723 0 G4 2.484 2.060 1.442 0 G5 3.337 2.910 2.252 0.862 0
5
1.33
1.31
7.1.2 主要聚类方法
称为三维空间中的欧几里德距离,简称欧氏距离。 距离小表示两点接近,反之则远离。
7.1.1 聚类分析的基本思想
三、分类统计量——2.欧氏距离
n维空间中:i(xi1,xi2,…,xim),j (xj1,xj2,…,xjm)
d ij ( xik x jk ) 2
k 1 m
式中:i和j代表两个地点(样品),xik,xjk分别代 表第i个地点和第j个地点的第k个地理指标值。
欧氏距离系数: d ij (2)
1 m ( xik x jk ) 2 m k 1
7.1.1 聚类分析的基本思想
三、分类统计量——2.欧氏距离
Leabharlann Baidu
距离系数矩阵
性质:
对称方阵
d11 d 21 D d n1
d12 d 22 dn2
d1n d 2n d nn