大学生数学建模——主成分分析方法页PPT文档
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
从以上的分析可以看出,主成分分析的
实质就是确定原来变量xj(j=1,2 ,…, p) 在诸主成分zi(i=1,2,…,m)上的荷载 lij ( i=1,2,…,m; j=1,2 ,…,p)。
从数学上容易知道,从数学上可以证明,
它们分别是的相关矩阵的m个较大的特征值所 对应的特征向量。
二、计算步骤
1540.29 926.35 1501.24 897.36 911.24 103.52 968.33 957.14 824.37 1255.42 1251.03 1246.47 814.21 1124.05 805.67 1313.11
216.39 291.52 225.25 196.37 226.51 217.09 181.38 194.04 188.09 211.55 220.91 242.16 193.46 228.44 175.23 236.29
65.601 1181.54 270.12 18.266 0.162 7.474 12.489
33.205 1436.12 354.26 17.486 11.805 1.892 17.534
16.607 1405.09 586.59 40.683 14.401 0.303 22.932
6 68.337 7 95.416 8 62.901 9 86.624 10 91.394 11 76.912 12 51.274 13 68.831 14 77.301 15 76.948 16 99.265 17 118.505 18 141.473 19 137.761 20 117.612 21 122.781
人) 295.34
x 6:经济 作物占农 作物面积 比例(%)
26.724
x 7:耕地 占土地面 积比率
(%)
18.492
x 8:果 园与林 地面积 之比
2.231
x 9:灌溉 田占耕地 面积之比
(%)
26.262
24.301 1752.35 452.26 32.314 14.464 1.455 27.066
贡献率表示所定义的主成分在整个数据
分析中承担的主要意义占多大的比重, 当取前 m个主成分来代替原来全部变量 时,累计贡献率的大小反应了这种取代 的可靠性,累计贡献率越大,可靠性越 大;反之,则可靠性越小。一般要求累 计贡献率达到 70% 以上。
④ 计算主成分载荷
lijp (zi,xj) ie i( ji,j 1 ,2 , ,p )(5)
表4 主成分载荷
占方差的百分数
z1
z2
z3
(%)
x1
0.739
-0.532 -0.0061
82.918
x2
0.123
0.887 -0.0028
80.191
x3
-0.964 0.0096 0.0095
92.948
x4
0.0042
0.868
0.0037
75.346
x5
0.813
0.444 -0.0011
e
2 ij
1
,
j 1
其中 e ij 表示向量 e i 的第j个分量。
③ 计算主成分贡献率及累计贡献率
▲贡献率:
i
p
k
k1
(i 1,2,, p)
▲累计贡献率:
i
k
k 1
p
k
k 1
(i 1,2,, p)
一般取累计贡献率达85—95%的特征值 1,2,,m
所对应的第一、第二、…、第m(m≤p)个主成分。
定义:记x1,x2,…,xP为原变量指标,z1, z2,…,zm(m≤p)为新变量指标
z1 l11x1 l12x2 l1p xp
z2 l21x1 l22x2 l2p xp
(2)
zm lm1x1 lm2 x2 lmpxp
系数lij的确定原则:
事实上,这种想法是可以实现的,主成分 分析方法就是综合处理这种问题的一种强有力 的工具。
主成分分析是把原来多个变量划为少数几 个综合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
一、主成分分析的基本原理
假定有n个地理样本,每个样本共有p个变 量,构成一个n×p阶的地理数据矩阵
8.128 8.135 18.352 16.861 18.279 19.793 4.005 9.11 19.409 11.102 4.383 10.706 11.419 9.521 18.106 26.724
4.065 4.063 2.645 5.176 5.643 4.881 4.066 4.484 5.721 3.133 4.615 6.053 6.442 7.881 5.789 7.162
状况,因此可以认为第一主成分z1是生态 经济结构的代表。
②第二主成分z2与x2,x4,x5呈显出较强的 正相关,与x1呈显出较强的负相关,其中, 除了x1为人口总数外,x2,x4,x5都反映了 人均占有资源量的情况,因此可以认为第
二主成分z2代表了人均资源量。
③第三主成分z3,与x8呈显出的正相关程度 最高,其次是x6,而与x7呈负相关,因此可 以认为第三主成分在一定程度上代表了农业
累积贡献率(%) 51.791 75.007 86.596 92.234 95.736 97.876 99.147 99.65 100
(3)对于特征值=4.6610,=2.0890,
=1.0430分别求出其特征向量e1,e2,e3, 再用公式(5)计算各变量x1,x2,…,x9 在主成分z1,z2,z3上的载荷(表4)。
x3 -0.71 -0.035 1 0.07 -0.74 -0.755 -0.93 -0.109 -0.924
x4 -0.34 0.644 0.07 1 0.383 0.069 -0.05 -0.031 0.073
x5 0.309 0.42 -0.74 0.383 1
0.734 0.672 0.098 0.747
x6 0.408 0.255 -0.755 0.069 0.734
1 0.658 0.222 0.707
x7 0.79 0.009 -0.93 -0.046 0.672 0.658 1 -0.03 0.89
x8 0.156 -0.078 -0.109 -0.031 0.098 0.222 -0.03 1
2.032 0.801 1.652 0.841 0.812 0.858 1.041 0.836 0.623 1.022 0.654 0.661 0.737 0.598 1.245 0.731
76.204 71.106 73.307 68.904 66.502 50.302 64.609 62.804 60.102 68.001 60.702 63.304 54.206 55.901 54.503 49.102
85.811
x6
0.819
0.179
0.125
71.843
x7
0.933
-0.133 -0.251
95.118
x8
0.197
-0.1
0.97
98.971
x9
0.964 -0.0025 0.0092
92.939
分析:
①第一主成分z1与x1,x5,x6,x7,x9呈显出 较强的正相关,与x3呈显出较强的负相关, 而这几个变量则综合反映了生态经济结构
0.011 0.012 0.034 0.055 0.076 0.001 0.015 0.002 5.055 0.01 0.011 0.154 0.012 0.069 0.048 0.092
4.861 4.862 3.201 6.167 4.477 6.165 5.402 5.79 8.413 3.425 5.593 8.701 12.945 12.654 8.461 10.078
① zi与zj(i≠j;i,j=1,2,…,m)相互 无关;
② z1是x1,x2,…,xP的一切线性组合中方差 最大者,z2是与z1不相关的x1,x2,…,xP的 所有线性组合中方差最大者;
…… zm是与z1,z2,……,zm-1都不相关的x1, x2,…xP, 的所有线性组合中方差最大者。
则新变量指标z1,z2,…,zm分别称为原变量 指标x1,x2,…,xP的第一,第二,…,第m 主成分。
1
x1:人 口密度
(人 /km2) 363.91
x 2:人 均耕地 面积
(ha) 0.352
2 141.5 1.684
3 100.7 1.067
4 143.74 1.336
5 131.41 1.623
x 3:森 林覆盖 率(%)
16.101
x 4:农 民人均 纯收入 (元/人)
192.11
x 5:人 均粮食 产量 (kg/
0.29
x9 0.744 0.094 -0.924 0.073 0.747 0.707 0.89 0.29
1
(2)由相关系数矩阵计算特征值,以及各 个主成分的贡献率与累计贡献率(见表3)。 由表3可知,第一,第二,第三主成分的累 计贡献率已高达86.596%(大于85%),故 只需要求出第一、第二、第三主成分z1,z2, z3即可。
主成分分析方法
主成分分析的基本原理 主成分分析的计算步骤 主成分分析方法应用实例
问题的提出:
地理系统是多要素的复杂系统。在地理学 研究中,多变量问题是经常会遇到的。变量太 多,无疑会增加分析问题的难度与复杂性,而 且在许多实际问题中,多个变量之间是具有一 定的相关关系的。
因此,人们会很自然地想到,能否在相关 分析的基础上,用较少的新变量代替原来较多 的旧变量,而且使这些较少的新变量尽可能多 地保留原来变量所反映的信息?
x11 x12 x1 p
X
x21
x22
x2
p
xn1
xn 2
xnp
(1)
当p较大时,在p维空间中考察问题比较麻 烦。为了克服这一困难,就需要进行降维 处理,即用较少的几个综合指标代替原来 较多的变量指标,而且使这些较少的综合 指标既能尽量多地反映原来较多变量指标 所反映的信息,同时它们之间又是彼此独 立的。
(一)计算相关系数矩阵
r11 r12 r1 p
R
r21
r22
r2
p
r
p1
rp2
rpp
(3)
rij(i,j=1,2,…,p)为原变量xi与xj
的相关系数, rij=rji,其计算公式为:
rij
n
(xki xi )(xkj xj )
步骤如下:(1)将表1中的数据作标准差 标准化处理,然后将它们代入公式(4)计算 相关系数矩阵(见表2)。
表2 相关系数矩阵
x1
x2
x3
x4
x5
x6
x7
x8
x9
x1
1 -0.327 -0.714 -0.336 0.309 0.408 0.79 0.156 0.744
x2 -0.33 1 -0.035 0.644 0.42 0.255 0.009 -0.078 0.094
经济结构。
④另外,表4中最后一列(占方差的百分 数),在一定程度反映了三个主成分z1、z2、 z3包含原变量(x1,x2,…,x9)的信息量多 少。
显然,用三个主成分z1、z2、z3代替原来9个变量(x1, x2,…,x9),描述农业生态经济系统,可以使问题更进
一步简化、明了。
⑤ 各主成分的得分:
z11 z12 z1m
Z
z
21
z 22
z
2
m
z
n1
zn2
z
nm
ቤተ መጻሕፍቲ ባይዱ
(6)
三、 主成分分析方法应用实例
下面,我们根据表1给出的数据,对 某农业生态经济系统做主成分分析,
表1 某农业生态经济系统各区域单元的有关数据
样本 序号
主成分 z1 z2 z3 z4 z5 z6 z7 z8 z9
表3 特征值及主成分贡献率
特征值 4.661 2.089 1.043 0.507 0.315 0.193 0.114 0.0453 0.0315
贡献率(%) 51.791 23.216 11.589 5.638 3.502 2.14 1.271 0.504 0.35
k1
n
n
(xki xi )2 (xkj xj )2
k1
k1
(4)
(二)计算特征值与特征向量:
① 解特征方程 I R 0 ,常用雅可比法 (Jacobi)求出特征值,并使其按大小顺序排
列 12 ,p0;
②
分别求出对应于特征值
的特征向量
i
p
ei(i1,2, ,p),要求 e i =1,即