3.5主成分分析法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
188.34 150.11 291.87 23.6 36.53 129.54 187.97 185.32 266.39 206.9 98.92 141.47 142.82 62.88 215.23 33.34 68.83 148.62 238.23 67.74 121.13 114.64 160.07 29.97 72.05 4.48 416.88 193.56 36.21 79.34 73.99 25.94 6.58 17.16 7.85
0.6 0.58 0.23 0.66 0.44 0.63 0.49 0.41 0.46 0.74 0.53 0.36 0.25 0.32 0.27 0.49 0.4 0.41 0.37 0.34 0.59 0.31 0.62 0.79 0.41 0.84 0.21 0.34 0.46 0.39 0.41 0.54 0.52 0.57 0.82
z1反映的信息,就是 ( z1i z1 ) 2 在整个平方和中占的比例。
i 1
n
x11 x12 … x1n x1 x21 x22 … x2n x2 令 X= … = … xm1 xm2 …xmn xm l1 l2 = … lm
Z=
z1 z2 … zm
=
z11 z12 … z1n z21 z22 … z2n … zm1 zm2 …zmn
4 确定主成分个数
主成分Zk的贡献率为:
k
i 1
m
(k 1,2, , m)
i
累计贡献率为:
i 1 j 1 m
k
j
i
一般取累计贡献率85%以上的特征值 λ1 , λ2 ,..., λk对应的主成分即可。
5 计算主成分载荷
概念:主成分zk与变量xi之间的相关系数,用p(zk,xi)表示
§3.6 主成分分析法
本节内容
一 二 三 四 主成分分析法基本思想 主成分分析的基本原理 旋转矩阵L的求解过程 主成分分析法步骤
ห้องสมุดไป่ตู้
一 主成分分析法基本思想
在对某一事物进行实证研究中,为了更全面、准确地 反映出事物的特征及其发展规律,人们往往要考虑与其有 关系的多个指标,这样就产生了如下问题: 一方面人们为了避免遗漏重要的信息而考虑尽可能多 的指标;
(i 1,2,, n; j 1,2,, m)
2 计算X*的协方差矩阵C
C11 C12 C1m C C C 22 2m C 21 C C C m2 mm m1
3 计算协方差矩阵C的m个特征值λ1 , λ2 ,..., λm及 其对应的特征向量l1,l2,…,lm。 Clk= λklk
1999.97 2264.55 688.58 273.78 81.65 582.67 842.64 596.63 418.61 5452.91 1307.27 1200.08 1062.29 251.41 655.54 575.11 230.59 628.59 1149.2 528.76 750.61 309.82 2334.81 2036.83 114.97 71.75 858.55 589.43 224.79 360.57 366.59 294.09 71.13 66.12 184.72
z1 z2 … zm
=
z11 z12 … z1n z21 z22 … z2n … zm1 zm2 …zmn
L=
则Z=LX
(1)
问题的关键在求出系数lij。
主成分分析法的几何意义
设有n个样品,每个样品有两个观测变量x1,x2,这样,在由 x1,x2组成的坐标空间中,n个样品点散步的情况如下图:
x2
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
设它们的综合指标用z1,z2,…,zp(p≦m)来表示。新的综合 指标(设p=m)可由原始指标的线性组合表示。
z1=l11x1+ l12x2+…+ l1mxm z2=l21x1+ l22x2+…+ l2mxm … zm=lm1x1+lm2x2+…+lmmxm
用矩阵形式表示:
x11 x12 … x1n x1 x21 x22 … x2n x2 令 X= … = … xm1 xm2 …xmn xm l1 l2 = … lm l11 l12 … l1m l21 l22 … l2m … Lm1 lm2 …lmm Z=
X=[1249.9 910.17 875.4 299.92 207.78 677.08 545.31 691.23 927.09 1313.12 537.44 616.05 538.41 429.95 583.13 128.99 424.2 557.63 702.97 615.36 740.2 582.47 685.0 119.85 285.87 54.38 3072.34 1003.56 321.5 473.39 674.5 287.59 133.95 95.38 158.92
四 主成分分析法步骤
1 对原始数据X进行标准差标准化处理:
x1 x11 x x 2 21 X xm xm1 x12 x22 xm 2 x1n x2 n xmn
xij
*
xij x j Sj
p( zk , xi ) k lki (i, k 1,2,, m)
6 计算主成分得分 Z=LX*
z1=l11x1*+ l12x2*+…+ l1mxm* z2=l21x1*+ l22x2*+…+ l2mxm* … zm=lm1x1*+lm2x2*+…+lmmxm*
例题: P116 第16题
2680.66 1130.19 709.59 394.31 139.66 901.7 755.68 480.37 645.0 2597.12 568.05 742.6 524.64 162.29 503.02 210.83 264.05 412.7 497.8 513.53 574.81 346.12 2040.18 951.99 219.09 162.68 909.1 747.97 178.77 412.79 586.4 264.16 85.51 81.41 236.55
2016/10/23
利用主成分分析得到的主成分与原始变量之 间有如下基本关系:
1.每一个主成分都是各原始变量的线性组合 2.主成分的数目大大少于原始变量的数目 3.主成分保留了原始变量绝大多数信息 4.各主成分之间互不相关
2016/10/23
二 主成分分析的基本原理
设有n个样本,每个样本涉及到m个变量, 用x1,x2,…,xm表示,构成一个n×m阶的数据矩 阵
● ● ● ● ● ● ●
● ● ●
x1
●
● ●
这n个样品无论是沿x1轴方向还是沿x2轴方向均有较大的 离散性,其离散程度可以分别用观测变量x1和x2的方差定量 地表示,显然,若只考虑x1或x2中的任何一个,原始数据中 的信息均会有较大的损失。
考虑x1和x2的线性组合,使得原始数据中的信息可以 由新的变量z1和z2来刻画。 将坐标轴按逆时针方向旋转θ角度,得到新坐标轴z1 x2 和 z2 :
L=
l11 l12 … l1m l21 l22 … l2m … Lm1 lm2 …lmm
则Z=LX (1) lij由下列原则决定: ①Li’Li=1(i=1,2,…,m) ② zi,zj(i≠j, i,j=1,2,…,p)互相无关; ③z1是x1,x2,…,xm的所有线性组合中方差最大的;z2是与z1不相 关的x1,x2,…,xm的所有线性组合中方差最大的;zm是与 z1,z2,…,zm-1不相关的x1,x2,…,xm的所有线性组合中方差最大的; z1,z2,…,zm分别称为原始指标的第1,第2,。。。第m主成分。
三 旋转矩阵L的求解过程:
原始指标x1,x2,…,xm之间的协方差矩阵为C,新的综合 指标Z之间互不相关,所以它们之间的协方差矩阵应为对 角阵Λ:
C11 C12 C1m C C C 22 2m C 21 C C C m2 mm m1
x11 x 21 X xn1
x12 x22 xn 2
x1m x2 m xnm
当m较大时,在m维空间中考察问题比较麻 烦。为了克服这一困难,就需要进行降维处理, 即用较少的几个综合指标代替原来较多的变量 指标,而且使这些较少的综合指标既能尽量多 地反映原来较多变量指标所反映的信息,同时 它们之间又是彼此独立的。
z1和z2称为原始指标x1和x2的主成分。
图上对原始指标x1,x2的值记作{x1i}, {x2i}, 对主成分z1,z2的值记作{z1i}, {z2i},(i=1,2…,n), 则有:
2 2 2 2 ( x x ) ( x x ) ( z z ) ( z z ) 2 1i 1 2i 1i 1 2i 2 i 1 i 1 i 1 i 1 n n n n
577.33 225.43 75.89 65.4 30.93 115.28 96.59 88.44 130.92 560.54 135.79 118.09 82.4 36.96 68.06 65.75 47.96 75.67 96.17 69.68 131.48 59.7 304.76 189.03 37.18 19.81 160.68 120.07 41.97 84.23 88.52 55.09 21.93 17.86 51.76];
1
2
m
由线性代数知识可知,若C为m阶实对称阵,则一定可以对角化, 即有正交阵P,使 1
P 1CP
2
m
其中,Λ对角线上的元素λ1 , λ2 ,..., λm为C的特征值 ( Z1,Z2,…,Zm的方差),P的列向量是C的m个线性无关 的特征向量(L1,L2,…,Lm)。
● ● ● ● ● ● ● ● ● ● ● ●
●
● ●
θ ●
●
● ● ● ● ● ● ● ● ● ●
● ●
●
x1
z1 x1 cos x2 sin 坐标轴旋转公式为: z2 x1 sin x2 cos
z1 cos 其矩阵形式为: z2 sin
sin x1 L X cos x2
其中L为旋转变换矩阵,它是正交阵,满足L’=L-1,L’×L=1
经过旋转之后,n个样品点在z1轴上的离散 程度最大,变量z1代表了原始数据绝大部分信 息,这样有时在研究实际问题时,即使不考虑 z2也无损大局。 经过转换把原始数据的信息集中到z1轴上, 对数据中所包含的信息起到了浓缩的作用。 进行主成分分析的目的就是要找出旋转矩阵L。
n阶方阵的特征值与特征向量: 设A为n阶方阵,如果数λ和n维非零列向量x使关系式Ax=λx 成立,那么λ称为方阵A的特征值,非零向量x称为A的对应 于特征值λ的特征向量。
因此,求旋转矩阵L就相当于求原始变量 x1,x2,…,xm协方差矩阵C的对应于λ1 , λ2 ,..., λm的 m个特征向量。
另一方面选取的指标过多,给研究带来一定困难,并 且众多的指标之间可能存在一定的相关性,这样就造成了 信息的重叠,给研究结果带来影响。
基于上述问题,人们就希望在定量研究中 涉及的变量较少,而得到的信息量又较多。 主成分分析正是研究如何把原来多个变量 转化为少数几个综合指标的一种统计分析方法。
既然研究某一问题涉及的众多变量之间有一定 的相关性,就必然存在着起支配作用的共同因素, 根据这一点,通过对原始变量相关矩阵或协方差矩 阵内部结构关系的研究,利用原始变量的线性组合 形成几个综合指标(主成分),在保留原始变量主 要信息的前提下起到降维与简化问题的作用,使得 在研究复杂问题时更容易抓住主要矛盾。
279.09 112.81 35.23 20.33 10.58 56.79 70.92 35.71 48.14 431.85 66.43 44.96 50.17 23.36 46.75 41.88 16.77 46.07 65.84 38.73 60.47 32.37 176.15 184.79 14.97 11.52 89.89 56.12 19.79 52.42 40.89 16.95 4.91 7.48 25.49