第九章 地理系统聚类分析模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第九章地理系统聚类分析模型
第一节聚类分析的方法及变量模型
聚类分析(Cluster Analysis)是数理统计中研究“物以类聚”的一种方法。
一、地理系统分类的意义
对地理系统的研究很重要的一个问题就是进行地理分区与分类。
聚类分析法可避免传统分类法的主观性和任意性的特点。ﻫ但应特别引起注意的是,对地理数据处理不当,或只要求方法的新颖,有时分类的结果可能与地理实际不符合。
一种科学的分类法,应能正确地反映客观地理事物的内在联系,并能表达出它们之间的相似性和差异性。
聚类分析法的基本特点
二、聚类分析的方法
聚类分析的职能是建立一种分类方法,它是将地理样品或变量,按它们在性质上的亲疏程度进行分类。
描述亲疏程度的两个途径
当确定了样品或变量的距离或相似系数后,就要对样品或变量进行分类,分类的方法很多,主要的两种是:
分类方法
分类方法(续)
在进行聚类分析处理时,样品间的相似系数和距离有各种不同的定义,而这些定义与变量的类型关系极大,通常按照它们的特性分类,变量的特性有三种类型:
变量特性的三种类型
1、名义特性(无序多态)
2、顺序特性(有序多态)
它是由一个有序状态序列所确定,指标量度时没有明确的数量关系,只有次序关系,如对某种地理要素的定性评价为“好的、比较好的、一般的、差的”,又如对某一事件的量度估价为“罕见的、偶然的、一般的、大量的”等。
3、数值特性(定量)
它是由测量或计数、统计所得的量,如长度、重量、压力、经济统
计数字、人口普查数字、抽样调查数据等。
不同类型的变量在定义距离相似性测度时有很大的差异,这里主要研究具有数值特性的变量的聚类分析问题。
聚类分析的分类
R型聚类分析的作用ﻫ
选择变量的方法:
在聚合的每类变量中,各选出一个有代表性的变量作为典型变量,为此计算每一个变量与其同类的其它变量的决定系数r2(即相关系数的平方)的均值:
r2 =Σr i2/(K-1)
式中,K为该类的变量个数。
挑选r2值最大的变量xi作为该类的典型变量。
Q型聚类分析优点ﻫ
第二节系统聚类分析
系统聚类分析(Hierachical Cluster Analysis)是聚类分析中应用最广泛的一种方法,凡是具有数值特征的变量和样品都可以采用系统聚类法。
选择不同的距离和聚类方法可获得满意的数值分类效果。
系统聚类法是把个体逐个地合并成一些子集,直至整个总体都在一个集合之内为止。ﻫ系统聚类法的分类步骤如下:
(1)聚类前先对数据进行变换处理(假定在聚类处理之前,已经对变量进行了筛选,选择了那些相关性不很显著的而且贡献大的指标,而剔除了相关性很强的变量)。
(2)聚类分析处理的开始是各样品自成一类(n个样品一共有n类),计算各样品之间的距离,并将距离最近的两个样品并成一类。
(3)选择并计算类与类之间的距离,并将距离最近的两类合并,如果类的个数大于1,则继续并类,直至所有样品归为一类为止。
(4)最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。
一、数据变换处理ﻫﻫ在聚类分析处理过程中,首先应对原始数据矩阵进行变换处理。
由于在抽取样本对数据进行量度处理时,不同指标(变量)一般都有不同的量纲,并且有不同的数量级单位,为了使不同量纲、不同数量级的数据能放在一起比较,通常需要对数据进行变换处理。
例1、研究世界各国森林、草原资源的分布规律,并抽取22个国家(即
22个样品)数据,每个国家有4项指标,以此作聚类分析处理,原始数据见表
表中所列的几个变量:森林面积、森林覆盖率、林木蓄积量、草原面积都分别有不同的量纲,而且数值的数量级也相差很大,为了在一起进行比较,需进行变换处理。
所谓数据变换,就是将原始数据矩阵中的每个元素,按照某种特定的运算把它变为一个新值,而且数值的变化不依赖于原始数据集合中其它数据的新值。
常用的变换方法
1、中心化变换
中心化是一种标准化处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化后的数据。
设原始数据矩阵为:
ﻫX=
ﻫ
式中:m为样本数,n为变量数。ﻫ设中心化后的数据为x ij’ﻫ则有:xij’=x ij-xj
I=1,2,…,mﻫj=1,2,…,n变换的结果使每列数据之和均为0,而且每列数据的平方和是该列数据方差的(n-1)倍,任何不同两列数据之交叉积是这两列的协方差的(n-1)倍,所以这是一种很方便地计算方差-协方差的变换。
中心化变换数据表
2、规格化变换
规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每一个原始数据中减去该变量的最小值,再除以极差,就得到规格化数据。
’
原始数据仍见上表,规格化后的数据为x i
j
则有:ﻫxij’=(x ij–min{x ij})/(max{xij}-min{x ij})ﻫI=1,2,…,m
j=1,2,…,n
经过变换后,将每列的最大数据变为1,最小数据变为0,其余数据取值在0~1之间。
变换后的数据表
3、标准化变换
标准化变换方法主要是对变量的属性进行变换处理,首先对列进行中心化,然后用标准差进行标准化。
xij’=(x ij–x j)/ S jﻫI=1,2,…,mﻫj=1,2,…,nﻫ其中: x j=(1/n)Σx ij
S j=[{(1/(n-1)}Σ(xij– x j)2]1/2
经过变换后,每列数据的平均值为0,方差为1,使用标准差标准化处理后,在抽样样本改变时,它仍然保持相对稳定性。ﻫ变换后的数据表
4、对数变换
对数变换可将具有指数特征的数据结构化为线性数据结构。
对数变换数据表
此外,还有极差标准化、平方根变换、立方根变换等。
极差标准化变换和规格化类似,它是把每个变量的样本极差皆化为1,排除量纲的干扰。
立方根变换和平方根变换的主要作用是把非线性的数据结构变为线性数据结构,以适应某些统计方法的需要。
二、相似系数和距离
目前已经设计了大量的相似系数和距离,据统计约有40多种。ﻫ但在数值分类中比较常用的却是少数,这里只介绍在聚类分析中常用的相似系数和距离。
1、距离ﻫ设有数据矩阵为:
xij表示i个样品的第j个指标;第j个指标的均值和标准差为x j 和s j;用d ij表示i个样品和j个样品之间的距离。距离d ij应满足如下几个条件:
(1) dij≥0(一切i,j)
常用的距离
上述的各种距离是假定变量之间相互独立,即在正交空间中讨论的距离,但在实际问题中,变量之间往往存在着一定的相关性,为克服变量之间的相关性影响,可以采用马氏距离。
(6)马氏距离(P.C.Mahalanobis)
马氏距离虽然可以排除变量之间相关性的干扰,并且不受量纲的影响,但是在聚类分析处理之前,如果用全部数据计算的均值和协方差阵来