地理系统的主成分分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
步骤如下: (1)将表中的数据作标准差标准化处理, 然后将它们代入公式,计算相关系数矩阵,如 表7.2所示.
表7.2 相关系数矩阵
x1 x1 x2 x3 x4 x5 x6 x7 x8 x9 1 -0.33 -0.34 0.309 0.408 0.79 0.744 x2 1 0.644 0.42 0.009 x3 x4 x5 0.309 0.42 -0.74 0.383 1 0.734 0.672 0.098 0.747 x6 0.408 0.255 -0.755 0.069 0.734 1 0.658 0.222 0.707 x7 0.79 x8 0.156 x9 0.744 0.094 -0.924 0.073 0.747 0.707 0.89 0.29 1 -0.327 -0.714 -0.336 -0.035 0.644 1 0.07 -0.74 -0.93 0.07 1 0.383 -0.046
wenku.baidu.com
2 −1 对矩阵施行初等变换时, 1 由于矩阵中的元素已经 1 B= 改变,变换后的矩阵和 4 −6 3 变换前的矩阵已经不相 6 等,所以在表达上不能 用等号,而要用箭号 “→”. 1 1 r1 ↔ r 2 2 −1 2 −3 r3 ÷ 2 6 3
1 2 −1 1 − 4 −2 2 −2 4 7 9 −9
注意:行最简形矩阵是由方程组唯一确定的, 注意:行最简形矩阵是由方程组唯一确定的,行 阶梯形矩阵的行数也是由方程组唯一确定的. 阶梯形矩阵的行数也是由方程组唯一确定的. 行最简形矩阵再经过初等列变换, 行最简形矩阵再经过初等列变换,可化成标 准形. 准形.
主成分分析问题的提出
例1:我们知道生产服装有很多指标,比如袖长、 肩宽、身高等十几个指标,服装厂生产时,不可能 按照这么多指标来做,怎么办?一般情况,生产者 考虑几个综合的指标,象标准体形、特形等。 例2:企业经济效益的评价,它涉及到很多指标。 例百元固定资产原值实现产值、百元固定资产原值 实现利税,百元资金实现利税,百元工业总产值实 现利税,百元销售收入实现利税,每吨标准煤实现 工业产值,每千瓦时电力实现工业产值,全员劳动 生产率,百元流动资金实现产值等,我们要找出综 合指标,来评价企业的效益。
x 11 x 21 X = M x n1
x 12 x 22 M xn2
L L L
x1 p x2 p M x np
(3.5.1)
当p较大时,在p维空间中考察问题比较麻 烦。为了克服这一困难,就需要进行降维处理, 即用较少的几个综合指标代替原来较多的变量指 标,而且使这些较少的综合指标既能尽量多地反 映原来较多变量指标所反映的信息,同时它们之 间又是彼此独立的。
人均耕 森林覆 经济作物占农 耕地占土地 果园与林 样本 人口密度 农民人均纯收入 人均粮食产量 地面积 盖率 作物播面比例 面积比率 地面积之 序号 x 1 /(人.km- 2 ) x 4 /(元.人-1 ) x 5 /(kg.人-1 ) x 6 /% x 7 /% 比x 8 /% x 2 /hm2 x 3 /% 1 2 3 4 5 363.912 141.503 100.695 143.739 131.412 0.352 1.684 1.067 1.336 1.623 16.101 24.301 65.601 33.205 16.607 192.11 1 752.35 1 181.54 1 436.12 1 405.09 295.34 452.26 270.12 354.26 586.59 26.724 32.314 18.266 17.486 40.683 18.492 14.464 0.162 11.805 14.401 2.231 1.455 7.474 1.892 0.303
n
ki
− xi )( x kj − x j )
2
∑ ( xki − xi )
( x kj − x j ) 2 ∑
k =1
n
(3.5.4)
(二)计算特征值与特征向量
① 解特征方程 λI − R = 0 ,常用雅可比法 (Jacobi)求出特征值,并使其按大小顺序排 列 λ1 ≥ λ2 ≥ L ≥ λ p ≥ 0 ; ② 分别求出对应于特征值 λi 的特征向量
z11 z 21 Z= M z n1 z12 z 22 M zn2 z1m L z2m M L z nm L
(3.5.6)
三、 主成分分析方法应用实例
下面,我们根据表7.1给出的数据,对某 农业生态经济系统做主成分分析。
表7.1 某农业生态经济系统各区域单元的有关数据
−2 −1 1 −9
1 1 −1 7
4 2 2 9
行阶梯形矩阵和行最简形阶梯形矩阵
行阶梯形矩阵需满足 的条件
1 0 0 0 )、每个台阶 (2)、每个台阶 只 )、 有一行, 有一行,
(1)可划出一条阶 ) 梯线, 梯线,线的下方全 为零; 为零;
0 −1 0 4 1 −1 0 3 = B5 0 0 1 −3 0 0 0 0
事实上,这种想法是可以实现的,主成分 分析方法就是综合处理这种问题的一种强有力 的工具。 主成分分析是把原来多个变量划为少数几 个综合指标的一种统计分析方法。 从数学角度来看,这是一种降维处理技术。
一、主成分分析的基本原理
假定有n个地理样本,每个样本共有p个 变量,构成一个n×p阶的地理数据矩阵
地理系统是多要素的复杂系统。在地理学研究中, 多变量问题是经常会遇到的。变量太多,无疑会 增加分析问题的难度与复杂性,而且在许多实际 问题中,多个变量之间是具有一定的相关关系的。 因此,人们会很自然地想到,能否在相关分 析的基础上,用较少的新变量代替原来较多的旧 变量,而且使这些较少的新变量尽可能多地保留 原来变量所反映的信息?
台阶数即是非零行的行数, 台阶数即是非零行的行数,阶梯线的竖线后面的 第一个元素为非零元, 第一个元素为非零元,即非零行的第一个非零 元.
行阶梯形矩阵B 还称为行最简形矩阵, 行阶梯形矩阵 5还称为行最简形矩阵, 即非 零行的第一个非零元为 ,且这些非零元所在的 1 列 的其他元素都为零.
对于任何矩阵Am×n ,总可经过有限次初等行 变换把他变为行阶梯形 和行最简形.
( i = 1, 2 , L , p )
k
一般取累计贡献率达85%~95%的特征值 λ1 , λ 2 , L, λ m 所对应的第1、第2、…、第m(m≤p)个主成分。
④ 计算主成分载荷
lij = p( zi , x j ) = λi eij (i, j = 1,2,L, p)
(3.5.5)
⑤ 各主成分的得分
定义:记x1,x2,…,xP为原变量指标, z1,z2,…,zm(m≤p)为新变量指标
z1 = l11 x1 + l12 x 2 + L + l1 p x p z 2 = l 21 x1 + l 22 x 2 + L + l 2 p x p .......... .. z m = l m 1 x1 + l m 2 x 2 + L + l mp x p
e i (i = 1, 2, L , p ) ,要求 e i
2 其中 e表示向量 ∑ ij = 1 j =1 p
=1,即 e eij 的第j个分量。i
,
③ 计算主成分贡献率及累计贡献率 贡献率
λi
∑λ
k =1
p
( i = 1, 2 , L , p )
k
累计贡献率
∑λ ∑λ
k =1 k =1 p i k
从以上的分析可以看出,主成分分析的 实质就是确定原来变量xj(j=1,2 ,…, p) 在诸主成分zi(i=1,2,…,m)上的荷载 lij ( i=1,2,…,m; j=1,2 ,…,p)。 从数学上可以证明,它们分别是相关矩 阵m个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤
(一)计算相关系数矩阵
r11 r 21 R = M r p1 r12 r22 M rp 2 L L L r1 p r2 p M r pp
(3.5.3)
rij (i,j=1,2,…,p)为原变量xi 与xj的相关系数, rij=rji,其计算公式为
rij =
∑ (x
k =1 n k =1
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
68.337 95.416 62.901 86.624 91.394 76.912 51.274 68.831 77.301 76.948 99.265 118.51 141.47 137.76 117.61 122.78
4.065 4.063 2.645 5.176 5.643 4.881 4.066 4.484 5.721 3.133 4.615 6.053 6.442 7.881 5.789 7.162
0.011 0.012 0.034 0.055 0.076 0.001 0.015 0.002 5.055 0.01 0.011 0.154 0.012 0.069 0.048 0.092
(1) 互换两行(对调
(2 ) 以数 k ≠ 0 乘以某一行的所有元素
(第 i 行乘 k , 记作 ri × k)
i , j 两行 , 记作 ri ↔ r j);
;
(3 ) 把某一行所有元素的 k 倍加到另一行
对应的元素上去( 对应的元素上去(第 j 行的 k 倍加到第 i 行上 . 记作 ri + kr j)
4.861 4.862 3.201 6.167 4.477 6.165 5.402 5.79 8.413 3.425 5.593 8.701 12.945 12.654 8.461 10.078
73.307 1 501.24 225.25 68.904 66.502 50.302 64.609 62.804 60.102 897.36 911.24 103.52 968.33 957.14 824.37 196.37 226.51 217.09 181.38 194.04 188.09
68.001 1 255.42 211.55 60.702 1 251.03 220.91 63.304 1 246.47 242.16 54.206 814.21 193.46
55.901 1 124.05 228.44 54.503 805.67 175.23
49.102 1 313.11 236.29
2.032 0.801 1.652 0.841 0.812 0.858 1.041 0.836 0.623 1.022 0.654 0.661 0.737 0.598 1.245 0.731
76.204 71.106
1540.29 926.35
216.39 291.52
8.128 8.135 18.352 16.861 18.279 19.793 4.005 9.11 19.409 11.102 4.383 10.706 11.419 9.521 18.106 26.724
(3.5.2)
系数lij的确定原则: ① zi与zj(i≠j;i,j=1,2,…,m)相 互无关;
② z1是x1,x2,…,xP的一切线性组合 中方差最大者,z2是与z1不相关的x1,x2,…, xP的所有线性组合中方差最大者;…; zm是与 z1,z2,……,zm-1都不相关的x1,x2,…xP, 的所有线性组合中方差最大者。 则新变量指标z1,z2,…,zm分别称为原 变量指标x1,x2,…,xP的第1,第2,…,第 m主成分。
第七章 地理系统的主成分分析
Analysis) (Principal Component Analysis)
线性代数知识补充
1. 矩阵的初等变换 2. 行阶梯形矩阵和行最简形阶梯形矩阵 3. 齐次现行方程组的求解 4. 矩阵的特征值和特征向量
矩阵的初等变换
定义1 下面三种变换称为矩阵的初等行变换: 定义 下面三种变换称为矩阵的初等行变换