实验四 聚类分析与主成分分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验四 主成分分析与聚类分析
一、 实验目的
深入理解主成分分析的降维作用,熟练掌握用SPSS 进行主成分分析的操作方法,对主成分的信息量、主成分载荷、主成分得分等概念有清晰的把握。
掌握地理对象聚类分析的基本原理,掌握不同聚类方法的操作方法和步骤,学会比较不同聚类方法的结果。
理解主成份分析在聚类分析中的应用。
二、 实验要求
1. 实验设备和仪器
a) 硬件:每人一台计算机,要求能够顺畅地运行SPPS 软件 b) 软件:SPSS 、EXCEL 。
2. 实验数据
a) 21个农业区的经济生态数据;
上述该数据保存在“实验四数据.xls ”文件中。
3. 实验报告
a) 完成实验内容及练习,按照规定的内容书写实验报告,要求阐明实验内容和结
果,并对结果进行讨论。
三、 基本原理
1. 主成分分析的基本原理与计算步骤 (1)基本原理
主成分分析是一种通过线性变换构建综合性指标的方法,并对这些综合性指标依据信息量的大小进行排序,从而可以只选取信息量大的少数综合指标来反映地理系统,而抛弃信息量不多的其它指标,使得在信息量损失不多的情况下能够降低数据量,抓住系统主要特征。
假定有n 个地理样本,每个样本共有p 个变量,构成一个p n ⨯阶的地理数据矩阵:
⎥
⎥⎥⎥⎥⎦⎤
⎢⎢⎢⎢⎢⎣
⎡=np n n p
p x x x x x x x x x X
2
12222111211 (4-1)
则我们希望通过线性变换的方法来构造一系列新的综合指标:
⎪⎪
⎩⎪⎪
⎨
⎧+++=+++=+++=p mp m m m
p p p
p x
l x l x l z x l x l x l z x l x l x l z 22112222121212121111............
(4-2)
采用主成分分析方法,确定各个系数ij l 使得
①i z 与()m j i j i z j ,,2,1,; =≠相互无关(独立);
②1z 是p x x x ,,,21的一切线性组合中方差最大者, 2z 是与1z 不相关的的所有线性组合中方差最大者;…;m z 是与都不相关的p x x x ,,,21的所有线性组合中方差最大者。
则新变量指标m z z z ,,,21 分别称为原变量指标p
x x x ,,,21的第1,第2,…,第
m 主成分。
(2)主成份分析的计算步骤
主成分分析的计算步骤简列如下:
a) 计算相关系数矩阵;
b) 计算特征值与特征向量: ① 计算得m 个特征值; ② 对每个特征值,计算出相应的特征向量; ③ 按特征值的大小排序,计算累计贡献率,当累计贡献率达85%y 以上时,前几
位的特征值所对应的第1、第2、第3、…主成份保留,其它可以忽略; ④ 计算主成分载荷; ⑤ 计算主成分得分。
2. 聚类分析
聚类分析是指根据地理事物各种要素取值的异同,采用某种数学方法定量地确定地理事
物的距离,并按照这种距离对地理事物进行聚类。
(1)聚类分析之前的数据处理
在地理分类和分区研究中,被聚类的对象常常是多个要素构成的。
不同要素的数据往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。
因此当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。
① 总和标准化。
)
,,2,1;,,2,1(1
n j m i x
x x m
i ij
ij
ij
==='∑= (4-3)
② 标准差标准化
(4-4)
③ 极大值标准化
(4-5)
④ 极差的标准化
)
,,2,1;,,2,1(}
{m ax n j m i x x x ij i
ij
ij
===')
,,2,1;,,2,1(n j m i s
x x x j
j
ij ij
==-='
(4-6)
(2)距离的计算
经过标准化后,可以计算各个地理数据之间的距离,作为聚类的依据。
通常用得比较多得距离有绝对距离和欧氏距离。
① 绝对值距离
),,2,1,(1
m j i x x d n
k jk
ik ij =-=
∑
= (4-7)
② 欧氏距离
(4-8)
注意到,对于n 个地理对象,可以求得每一对对象之间的距离,从而构造出n n ⨯距离矩阵。
(3) 聚类方法
有了距离矩阵后,可以采用不同的方法进行聚类,一般有直接聚类法、最短距离聚类法、最远距离聚类法等等。
可参见徐建华的《计量地理学》(徐建华,2006)。
四、 实验内容
1. 聚类分析
徐建华《计量地理学》附录光盘中“practice ”文件夹中的“PDF ”子文件夹中有一个“8.pdf ”,是关于聚类分析的。
打开该文件,按照其用SPSS 进行聚类分析的步骤进行实验。
注意:其中的数据采用农业区数据。
关于在SPSS 中如何进行聚类分析,以及相关参数设置的意义,见PPT 《用SPSS 进行聚类分析》。
2. 主成分分析
按9.pdf 进行。
数据同上。
并参见《用SPSS 进行因子分析》。
3. 主成分分析与聚类分析结合进行综合分析
既然主成分能够尽量地用较少的变量来反映大部分的信息,并且这些变量相互独立,分别描述地理事物的一个方面的内容,因此,我们在对地理事物进行聚类之前,可以先进行主成分分析,然后再根据前面几个主成分开展聚类分析。
先根据9.dbf 进行主成分分析,再利用前3个主成分进行聚类分析。
将结果与单独进行聚类分析的结果进行比较,回答以下问题:
(1) 最先三次的聚类是否不同?分别是由哪些区聚为一类的? (2) 全部聚成一大类的聚类距离分别是多少? (3) 你认为哪种聚类更合理?为什么?
参考文献:
1、 徐建华,计量地理学,高等教育出版社,2006,北京
)
,,2,1,()
(1
2
m j i x x
d n
k jk ik
ij =-=
∑={}{}{}
)
,,2,1;,,2,1(m in m ax m in n j m i x x x x x ij i ij i
ij i
ij ij ==--=。