主成分分析法例子剖析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x1
x2
x3
x4
x5
x6
x7
x8
x9
x1
1 -0.327 -0.714 -0.336 0.309 0.408 0.79 0.156 0.744
x2 -0.33 1 -0.035 0.644 0.42 0.255 0.009 -0.078 0.094
x3 -0.71 -0.035 1 0.07 -0.74 -0.755 -0.93 -0.109 -0.924
65.601 1181.54 270.12 18.266 0.162 7.474 12.489
33.205 1436.12 354.26 17.486 11.805 1.892 17.534
16.607 1405.09 586.59 40.683 14.401 0.303 22.932
6 68.337 2.032 7 95.416 0.801 8 62.901 1.652 9 86.624 0.841 10 91.394 0.812 11 76.912 0.858 12 51.274 1.041 13 68.831 0.836 14 77.301 0.623 15 76.948 1.022 16 99.265 0.654 17 118.505 0.661 18 141.473 0.737 19 137.761 0.598 20 117.612 1.245 21 122.781 0.731
4.065 4.063 2.645 5.176 5.643 4.881 4.066 4.484 5.721 3.133 4.615 6.053 6.442 7.881 5.789 7.162
0.011 0.012 0.034 0.055 0.076 0.001 0.015 0.002 5.055 0.01 0.011 0.154 0.012 0.069 0.048 0.092
从以上的分析可以看出,主成分分析的
实质就是确定原来变量xj(j=1,2 ,…, p) 在诸主成分zi(i=1,2,…,m)上的载荷 lij ( i=1,2,…,m; j=1,2 ,…,p)。
从数学上可以证明,载荷lij分别是相关 矩阵的m个较大的特征值所对应的特征向量。
二、计算步骤
(一)计算相关系数矩阵
216.39 291.52 225.25 196.37 226.51 217.09 181.38 194.04 188.09 211.55 220.91 242.16 193.46 228.44 175.23 236.29
8.128 8.135 18.352 16.861 18.279 19.793 4.005 9.11 19.409 11.102 4.383 10.706 11.419 9.521 18.106 26.724
1
(2)由相关系数矩阵计算特征值,以及各 个主成分的贡献率与累计贡献率(见表3)。 由表3可知,第一,第二,第三主成分的累 计贡献率已高达86.596%(大于85%),故 只需要求出第一、第二、第三主成分z1,z2, z3即可。
主成分 z1 z2 z3 z4 z5 z6 z7 z8 z9
表3 特征值及主成分贡献率
定义:记x1,x2,…,xP为原变量指标,z1, z2,…,zm(m≤p)为新变量指标
z1 l11 x1 l12 x2 l1p x p
z
2
l21 x1 l22 x2
l2p xp
(2)
zm lm1 x1 lm2 x2 lmp x p
(xki xi )2 (xkj x j )2
k 1
k 1
(4)
(二)计算特征值与特征向量:
① 解特征方程 I R 0 ,求出特征值,并 使其按大小顺序排列 ;
1 2 , p 0
②
分别求出对应于特征值
的特征向量
i
li (i 1,2, , p) ,要求 li =1,即
x4 -0.34 0.644 0.07 1 0.383 0.069 -0.05 -0.031 0.073
x5 0.309 0.42 -0.74 0.383 1
0.734 0.672 0.098 0.747
x6 0.408 0.255 -0.755 0.069 0.734
1 0.658 0.222 0.707
特征值 4.661 2.089 1.043 0.507 0.315 0.193 0.114 0.0453 0.0315
贡献率(%) 51.791 23.216 11.589 5.638 3.502 2.14 1.271 0.504 0.35
累积贡献率(%) 51.791 75.007 86.596 92.234 95.736 97.876 99.147 99.65 100
,
p
其中表li2j示向1 量 的lij第j个分量。li
j 1
③ 计算主成分贡献率及累计贡献率
▲贡献率:
i
p
k
k 1
(i 1,2, , p)
▲累计贡献率:
i
k
k 1
p
k
k 1
(i 1,2, , p)
一般取累计贡献率达85—95%的特征值 1, 2 , , m 所对应的第一、第二、…、第m(m≤p)个主成分。
x4
0.0042
0.868
0.0037
75.346
x5
0.813
0.444
-0.0011
85.811
x6
0.819
0.179
0.125
71.843
x7
0.933
-0.133
-0.251
95.118
x8
0.197
-0.1
0.97
98.971
x9
0.964
-0.0025
0.0092
92.939
上述计算过程,可以借助于SPSS软件系统实现。
76.204 71.106 73.307 68.904 66.502 50.302 64.609 62.804 60.102 68.001 60.702 63.304 54.206 55.901 54.503 49.102
1540.29 926.35 1501.24 897.36 911.24 103.52 968.33 957.14 824.37 1255.42 1251.03 1246.47 814.21 1124.05 805.67 1313.11
人)
295.34
x 6:经济 作物占农 作物播面 比例(%)
26.724
x 7:耕地 占土地面 积比率
(%)
18.492
x 8:果 园与林 地面积 之比
2.231
x 9:灌溉 田占耕地 面积之比
(%)
26.262
24.301 1752.35 452.26 32.314 14.464 1.455 27.066
r11 r12 r1p
R
r21
r22
r2
p
rp1 rp2
rpp
(3)
rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji, 其计算公式为:
rij
n
(xki xi )(xkj x j )
k 1
n
n
❖ 系数lij的确定原则:
① zi与zj( i≠j;i,j=1,2,…,m )相互无关; ② z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与 z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;
…… zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP, 的所有 线性组合中方差最大者。 则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…, xP的第一,第二,…,第m主成分。
二主成分z2代表了人均资源量。
③第三主成分z3,与x8呈显出的正相关程度 最高,其次是x6,而与x7呈负相关,因此可 以认为第三主成分在一定程度上代表了农业 经济结构。
显然,用三个主成分z1、z2、z3代替原来9个变量(x1, x2,…,x9),描述农业生态经济系统,可以使问题更进
一步简化、明了。
x7 0.79 0.009 -0.93 -0.046 0.672 0.658 1 -0.03 0.89
x8 0.156 -0.078 -0.109 -0.031 0.098 0.222 -0.03 1
0.29
x9 0.744 0.094 -0.924 0.073 0.747 0.707 0.89 0.29
④各主成分的得分
l11 l12 l1p x1
Z l21
l22
l2
p
x2
.
ln1 ln2
lnp
x
p
(6)
三、 主成分分析方法应用实例
表1 某农业生态经济系统各区域单元的有关数据
样本 序号
1
x1:人 口密度
(人 /km2)
363.91
x 2:人 均耕地 面积
(ha)
0.352
2 141.5 1.684
3 100.7 1.067
4 143.74 1.336
5 131.41 1.623
x 3:森 林覆盖 率(%)
16.101
x 4:农 民人均 纯收入 (元/人)
192.11
x 5:人 均粮食 产量 (kg/
分析:Βιβλιοθήκη Baidu
①第一主成分z1与x1,x5,x6,x7,x9呈显出 较强的正相关,与x3呈显出较强的负相关, 而这几个变量则综合反映了生态经济结构
状况,因此可以认为第一主成分z1是生态 经济结构的代表。
②第二主成分z2与x2,x4,x5呈显出较强的 正相关,与x1呈显出较强的负相关,其中, 除了x1为人口总数外,x2,x4,x5都反映了 人均占有资源量的情况,因此可以认为第
一、主成分分析的基本原理
❖ 假定有n个样本,每个样本共有p个变量, 构成一个n×p阶的数据矩阵
x11
X
x21
xn1
x12 x22 xn 2
x1 p
x2
p
xnp
(1)
❖降维处理!!!
当p较大时,在p维空间中考察问题比较麻烦。 降维是用较少的几个综合指标代替原来较多 的变量指标,而且使这些较少的综合指标既 能尽量多地反映原来较多变量指标所反映的 信息,同时它们之间又是彼此独立的。
4.861 4.862 3.201 6.167 4.477 6.165 5.402 5.79 8.413 3.425 5.593 8.701 12.945 12.654 8.461 10.078
步骤如下:
(1)将表1中的数据作标准差标准化处理,
然后将它们代入公式(4)计算相关系数矩阵
(见表2)。
表2 相关系数矩阵
(3)对于特征值=4.6610,=2.0890, =1.0430分别求出其特征向量l1,l2,l3。
表4 主成分载荷
占方差的百分数
z1
z2
z3
(%)
x1
0.739
-0.532
-0.0061
82.918
x2
0.123
0.887
-0.0028
80.191
x3
-0.964
0.0096
0.0095
92.948