主成分分析法例子
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8.128 8.135 18.352 16.861 18.279 19.793 4.005 9.11 19.409 11.102 4.383 10.706 11.419 9.521 18.106 26.724
1540.29 926.35 1501.24 897.36 911.24 103.52 968.33 957.14 824.37 1255.42 1251.03 1246.47 814.21 1124.05 805.67 1313.11
216.39 291.52 225.25 196.37 226.51 217.09 181.38 194.04 188.09 211.55 220.91 242.16 193.46 228.44 175.23 236.29
r11 r12 r1p
R
Fra Baidu bibliotek
r21
r22
r2
p
rp1
rp2
rpp
(3)
rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji, 其计算公式为:
rij
n
(xki xi )(xkj x j )
k 1
n
n
(xki xi )2 (xkj x j )2
l11 l12 l1p x1
Z
l21
l22
l2
p
x2
.
ln1
ln2
lnp
x
p
(6)
三、 主成分分析方法应用实例
表1 某农业生态经济系统各区域单元的有关数据
样本 序号
1
x1:人 口密度
(人 /km2)
363.91
x 2:人 均耕地 面积
(ha)
0.352
2 141.5 1.684
3 100.7 1.067
4 143.74 1.336
5 131.41 1.623
x 3:森 林覆盖 率(%)
16.101
x 4:农 民人均 纯收入 (元/人)
192.11
x 5:人 均粮食 产量 (kg/
人)
295.34
x 6:经济 作物占农 作物播面 比例(%)
从以上的分析可以看出,主成分分析的
实质就是确定原来变量xj(j=1,2 ,…, p) 在诸主成分zi(i=1,2,…,m)上的载荷 lij ( i=1,2,…,m; j=1,2 ,…,p)。
从数学上可以证明,载荷lij分别是相关 矩阵的m个较大的特征值所对应的特征向量。
二、计算步骤
(一)计算相关系数矩阵
一、主成分分析的基本原理
假定有n个样本,每个样本共有p个变量, 构成一个n×p阶的数据矩阵
x11
X
x21
xn1
x12 x1 p
x22
x2
p
xn 2
xnp
(1)
降维处理!!!
当p较大时,在p维空间中考察问题比较麻烦。 降维是用较少的几个综合指标代替原来较多 的变量指标,而且使这些较少的综合指标既 能尽量多地反映原来较多变量指标所反映的 信息,同时它们之间又是彼此独立的。
k 1
k 1
(4)
(二)计算特征值与特征向量:
① 解特征方程 I R 0 ,求出特征值,并 使其按大小顺序排列 ;
1 2 , p 0
②
分别求出对应于特征值
的特征向量
i
li (i 1,2,, p) ,要求 li =1,即
,
p
其中表li2j示向1 量 的lij第j个分量。li
系数lij的确定原则:
① zi与zj( i≠j;i,j=1,2,…,m )相互无关; ② z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与 z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;
…… zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP, 的所有 线性组合中方差最大者。 则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…, xP的第一,第二,…,第m主成分。
33.205 1436.12 354.26 17.486 11.805 1.892 17.534
16.607 1405.09 586.59 40.683 14.401 0.303 22.932
6 68.337 7 95.416 8 62.901 9 86.624 10 91.394 11 76.912 12 51.274 13 68.831 14 77.301 15 76.948 16 99.265 17 118.505 18 141.473 19 137.761 20 117.612 21 122.781
2.032 0.801 1.652 0.841 0.812 0.858 1.041 0.836 0.623 1.022 0.654 0.661 0.737 0.598 1.245 0.731
76.204 71.106 73.307 68.904 66.502 50.302 64.609 62.804 60.102 68.001 60.702 63.304 54.206 55.901 54.503 49.102
定义:记x1,x2,…,xP为原变量指标,z1, z2,…,zm(m≤p)为新变量指标
z1 l11 x1 l12 x2 l1p x p
z
2
l21 x1
l22 x2
l2p xp
(2)
zm lm1 x1 lm2 x2 lmp x p
26.724
x 7:耕地 占土地面 积比率
(%)
18.492
x 8:果 园与林 地面积 之比
2.231
x 9:灌溉 田占耕地 面积之比
(%)
26.262
24.301 1752.35 452.26 32.314 14.464 1.455 27.066
65.601 1181.54 270.12 18.266 0.162 7.474 12.489
j 1
③ 计算主成分贡献率及累计贡献率
▲贡献率:
i
p
k
k 1
(i 1,2,, p)
▲累计贡献率:
i
k
k 1
p
k
k 1
(i 1,2,, p)
一般取累计贡献率达85—95%的特征值 1, 2 ,, m 所对应的第一、第二、…、第m(m≤p)个主成分。
④各主成分的得分