主成分分析法精华讲义及实例
主成分分析法精华讲义及实例
![主成分分析法精华讲义及实例](https://img.taocdn.com/s3/m/a208ad8283d049649b665825.png)
主成分分析类型:一种处理高维数据的方法。
降维思想:在实际问题的研究中,往往会涉及众多有关的变量。
但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。
一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。
因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。
一、总体主成分1.1 定义设 X 1,X 2,…,X p 为某实际问题所涉及的 p 个随机变量。
记 X=(X 1,X 2,…,Xp)T ,其协方差矩阵为()[(())(())],T ij p p E X E X X E X σ⨯∑==--它是一个 p 阶非负定矩阵。
设1111112212221122221122Tp p Tp pT pp p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X⎧==+++⎪==+++⎪⎨⎪⎪==+++⎩(1) 则有()(),1,2,...,,(,)(,),1,2,...,.T T i i i i TT T i j ijij Var Y Var l X l l i p Cov Y Y Cov l X l X l l j p ==∑===∑= (2)第 i 个主成分: 一般地,在约束条件1T i i l l =及(,)0,1,2,..., 1.T i k i k Cov Y Y l l k i =∑==-下,求 l i 使 Var(Y i )达到最大,由此 l i 所确定的T i i Y l X =称为 X 1,X 2,…,X p 的第 i 个主成分。
1.2 总体主成分的计算设 ∑是12(,,...,)T p X X X X =的协方差矩阵,∑的特征值及相应的正交单位化特征向量分别为120p λλλ≥≥≥≥及12,,...,,p e e e则 X 的第 i 个主成分为1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= (3)此时(),1,2,...,,(,)0,.Ti i i i Ti k i k Var Y e e i p Cov Y Y e e i k λ⎧=∑==⎪⎨=∑=≠⎪⎩ 1.3 总体主成分的性质1.3.1 主成分的协方差矩阵及总方差记 12(,,...,)T p Y Y Y Y = 为主成分向量,则 Y=P T X ,其中12(,,...,)p P e e e =,且12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ=由此得主成分的总方差为111()()()()(),p ppTTiii i i i Var Y tr P P tr PP tr Var X λ=====∑=∑=∑=∑∑∑即主成分分析是把 p 个原始变量 X 1,X 2,…,X p 的总方差1()pii Var X =∑分解成 p 个互不相关变量 Y 1,Y 2,…,Y p 的方差之和,即1()pii Var Y =∑而 ()k k Var Y λ=。
主成分分析实例及含义讲解 优质课件
![主成分分析实例及含义讲解 优质课件](https://img.taocdn.com/s3/m/54c14f0e27d3240c8547ef25.png)
这里,第一个因子主要和语文、历史、英语三科有很强的正相关; 而第二个因子主要和数学、物理、化学三科有很强的正相关。因 此可以给第一个因子起名为“文科因子”,而给第二个因子起名 为“理科因子”。从这个例子可以看出,因子分析的结果比主成 分分析解释性更强。
25
• 这些系数所形成的散点图(在SPSS中也称载荷图)为
例)。比如第一主成分为数学、物理、化学、语文、历史、英
语这六个变量的线性组合,系数(比例)为-0.806, -0.674, -
0.675, 0.893, 0.825, 0.836。
15
• 如y成1,分用y2为x,1y,3x,2y,4x,3y,5x,4y,6x表5,示x6新分的别主表成示分原,先那的么六,个第变一量和,第而二主用
3
.457
7.619
88.761
4
.323
5.376
94.137
5
.199
3.320
97.457
6
.153
2.543
100.000
Extraction Method: Principal Component Analysis.
Extraction Sums of Squared Loadings
Total
• 当然不能。 • 你必须要把各个方面作出高度概括,用一两个指标简单明了地
把情况说清楚。
2
主成分分析
• 每个人都会遇到有很多变量的数据。 • 比如全国或各个地区的带有许多经济和社会变量的数据;各个
学校的研究、教学等各种变量的数据等等。 • 这些数据的共同特点是变量很多,在如此多的变量之中,有很
多是相关的。人们希望能够找出它们的少数“代表”来对它们 进行描述。 • 本章就介绍两种把变量维数降低以便于描述、理解和分析的方 法:主成分分析(principal component analysis)和因子分 析(factor analysis)。实际上主成分分析可以说是因子分析 的一个特例。在引进主成分分析之前,先看下面的例子。
主成分分析实例及含义讲解PPT课件
![主成分分析实例及含义讲解PPT课件](https://img.taocdn.com/s3/m/26443b8e3b3567ec102d8ae4.png)
.
1
汇报什么?
• 假定你是一个公司的财务经理,掌握了公司的所有数据,比如 固定资产、流动资金、每一笔借贷的数额和期限、各种税费、 工资支出、原料消耗、产值、利润、折旧、职工人数、职工的 分工和教育程度等等。
• 如果让你向上面介绍公司状况,你能够把这些指标和数字都原 封不动地摆出去吗?
• 当然不能。
.
25
• 这些系数所形成的散点图(在SPSS中也称载荷图)为
Component Plot in Rotated Space
.
12
• 对于我们的数据,SPSS输出为
Total Variance Explained
Initial EigenvEaxltureasction Sums of Squared Loadi
ComponT eo nt ta %l of VariCaunmcuelative T%ota %l of VariCaunmcuelative %
• 这些系数称为主成分载荷(loading),它表示主成分和相应的 原先变量的相关系数。
• 比 变量如的y1表相示关式系中数x为1的-0系.80数6。为-0.806,这就是说第一主成分和数学 • 相关系数(绝对值)越大,主成分对该变量的代表性也越大。可
以看得出,第一主成分对各个变量解释得都很充分。而最后的 几个主成分和原先的变量就不那么相关了。
y 1 - 0 .8 0 6 x 1 -0 .6 7 4 x 2 -0 .6 7 5 x 3 0 .8 9 3 x 4 0 .8 2 5 x 5 0 .8 3 6 x 6
y 2 0 .3 5 3 x 1 0 .5 3 1 x 2 0 .5 1 3 x 3 0 .3 0 6 x 4 0 .4 3 5 x 5 0 .4 2 5 x 6
主成分分析法概念及例题
![主成分分析法概念及例题](https://img.taocdn.com/s3/m/266ae3650975f46526d3e18c.png)
主成分分析法主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法目录[显示]1 什么是主成分分析法2 主成分分析的基本思想3 主成分分析法的基本原理4 主成分分析的主要作用5 主成分分析法的计算步骤6 主成分分析法的应用分析o案例一:主成分分析法在啤酒风味评价分析中的应用[1]1 材料与方法2 主成分分析法的基本原理3 主成分分析法在啤酒质量一致性评价中的应用4 结论7 参考文献[编辑]什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
[编辑]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
主成分分析法例子
![主成分分析法例子](https://img.taocdn.com/s3/m/2d67afd8bdeb19e8b8f67c1cfad6195f302be841.png)
x7 0.79 0.009 -0.93 -0.046 0.672 0.658 1 -0.03 0.89
x8 0.156 -0.078 -0.109 -0.031 0.098 0.222 -0.03 1
0.29
x9 0.744 0.094 -0.924 0.073 0.747 0.707 0.89 0.29
▲贡献率:
i
p
k
k 1
(i 1,2,, p)
▲合计贡献率:
i
k
k 1
p
k
k 1
(i 1,2,, p)
一般取合计贡献率达85—95%旳特征值 1, 2 ,, m
所相应旳第一、第二、…、第m(m≤p)个主成份。
④各主成份旳得分
l11 l12 l1p x1
Z
l21
l22
l2
p
x2
二主成份z2代表了人均资源量。
③第三主成份z3,与x8呈显出旳正有关程度 最高,其次是x6,而与x7呈负有关,所以能 够以为第三主成份在一定程度上代表了农业 经济构造。
显然,用三个主成份z1、z2、z3替代原来9个变量(x1, x2,…,x9),描述农业生态经济系统,能够使问题更进
一步简化、明了。
x4
0.0042
0.868
0.0037
75.346
x5
0.813
0.444
-0.0011
85.811
x6
0.819
0.179
0.125
71.843
x7
0.933
-0.133
-0.251
95.118
x8
0.197
-0.1
0.97
98.971
主成分分析案例
![主成分分析案例](https://img.taocdn.com/s3/m/8c1595e3c67da26925c52cc58bd63186bdeb927e.png)
Y2得分
-2.06481 2.32993 -1.47145 0.66326 -0.87181 1.25757 -1.40987 -0.36439 0.04577 -2.04139 -0.42078 0.33126 0.07660 0.86909 0.45974 -0.83575
主成分分析在 市场研究中的应用
1——5 组表示男性,6——10 组表示女性 1——5, 6——10 年龄从小到大排序
假若你是该食品加工业决策部 门的高级顾问,为了对食品生 产作出合理决策,请你对以上 的调查资料进行分析,为决策 者提供建议。
特征向量
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
特征根 i
方差贡献率
女性喜欢
一般喜欢
孩子 咖喱饭
炸肉饼、火腿面包
成人 鸡蛋烩饭、炸猪排 酸汤、大头鱼
一般不喜欢 特别不喜欢
孩子 干咖喱、浓汤 成人 煮牛肉、生蛋
菜粥、清汤
饼干、带馅面包 酱面条、烧鱼
服装的定型分类问题
为了较好地满足市场的需要,服装生产厂 要了解所生产的一种服装究竟设计几种型号合 适?这些型号的服装应按怎样的比例分配生产 计划才能达到较好的经济效益?
4、取每一组的中心 ( y1*k , y2*k ) (k=1,2,…,g) 作为该组的 代表点。
相应原16个指标的尺寸:
x1' r11 y1*k r12 y2*k x2' r21 y1*k r22 y2*k
x1' 6 r16,1 y1*k r16,2 y2*k
5、各种型号的比例按 该组样品数/128 确定。
Y2
0.513225 0.203116 -0.182858 0.193618 0.217290 0.113642 -0.164527 -0.114637 -0.509240 -0.025832 0.083471 0.132592 0.105402 0.199407 -0.181330 -0.261367 -0.295756
主成分分析法概念及例题.doc
![主成分分析法概念及例题.doc](https://img.taocdn.com/s3/m/038a85da8e9951e79a8927a0.png)
主成分分析法主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法[编辑]什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
[编辑]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
主成分分析实例和含义讲解
![主成分分析实例和含义讲解](https://img.taocdn.com/s3/m/84216940fad6195f302ba636.png)
a. Rotation converged in 3 iterations.
22
• 这x文6来个)表表,示说hism明toa六rtyh(个(历变数史量学)和),因,e子pnhg的ylis关s(h(系物英。理语为))简,等单ch变记em量,(。我化这们学样用)因x1,,子xli2ft,1e和xr3a,ft2x(与4,语这x5, 些原变量之间的关系是(注意,和主成分分析不同,这里把成分(因 子)写在方程的右边,把原变量写在左边;但相应的系数还是主成分 和各个变量的线性相关系数,也称为因子载荷):
• 那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在 极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些 点的变化了;这样,由二维到一维的降维就自然完成了。
6
4
2
0
-2
-4
-4
-2
0
2
4
7
椭球的长短轴
• 当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主 要变化,而代表短轴的变量就描述了数据的次要变化。
11
主成分分析的数学
• 要寻找方差最大的方向。即使得向量X的线性组合a’X的方差
最大的方向a. • 而Var(a’X)=a’Cov(X)a;由于Cov(X)未知;于是用X的样本相
关阵R来近似.因此,要寻找向量a使得a’Ra最大(注意相关阵 和协方差阵差一个常数 • 记得相关阵和特征值问题吗?回顾一下吧! • 选择几个主成分呢?要看“贡献率.”
16
•可以把第一和第二主成分的载荷点出一个二维图以直 观地显示它们如何解释原来的变量的。这个图叫做载荷 图。
17
Component Plot
1.0
cphheyms
主成分分析实例及含义讲解
![主成分分析实例及含义讲解](https://img.taocdn.com/s3/m/cf20e1f5fd0a79563d1e7234.png)
• 对于我们的数据,SPSS输出为
Total Variance Explained
Initial Eigenvalues
Component Total % of Variance Cumulative %
1
3.735
62.254
62.254
2
1.133
18.887
81.142
3
.457
7.619
• 这些系数称为主成分载荷(loading),它表示主成分和相应 的原先变量的相关系数。
• 比学变如量y1表的示相式关中系x数1的为系-0数.80为6。-0.806,这就是说第一主成分和数 • 相关系数(绝对值)越大,主成分对该变量的代表性也越大。
可以看得出,第一主成分对各个变量解释得都很充分。而最 后的几个主成分和原先的变量就不那么相关了。
88.761
4
.323
5.376
94.137
5
.199
3.320
97.457
6
.153
2.543
100.000
Extraction Method: Principal Component Analysis.
Extraction Sums of Squared Loadings
Total % of Variance Cumulative %
.353
-.040
.468
PHYS
-.674
.531
-.454
-.240
CHEM
-.675
.513
.499
-.181
LITERAT
.893
.306
-.004
-.037
主成分分析法实例
![主成分分析法实例](https://img.taocdn.com/s3/m/fe1c38d9aa00b52acfc7caf7.png)
1、主成分法:用主成分法寻找公共因子的方法如下:假定从相关阵出发求解主成分,设有p 个变量,则可找出p 个主成分。
将所得的p 个主成分按由大到小的顺序排列,记为1Y ,2Y ,…,P Y , 则主成分与原始变量之间存在如下关系:11111221221122221122....................p p p p pp p pp p Y X X X Y X X X Y X X Xγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 式中,ij γ为随机向量X 的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从X 到Y 得转换关系是可逆的,很容易得出由Y 到X 得转换关系为:11112121212122221122....................p p p p pp p pp p X Y Y Y X Y Y Y X Y Y Yγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 对上面每一等式只保留钱m 个主成分而把后面的部分用i ε代替,则上式变为:1111212112121222221122....................m m m m p p p mp m p X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩上式在形式上已经与因子模型相一致,且i Y (i=1,2,…,m )之间相互独立,且i Y 与i ε之间相互独立,为了把i Y 转化成合适的公因子,现在要做的工作只是把主成分i Y 变为方差为1的变量。
为完成此变换,必须将i Y 除以其标准差,由主成分分析的知识知其标准差即为特征根的平方根/i i F Y =,12m ,则式子变为:1111122112211222221122....................m m m m p p p pm m p X a F a F a F X a F a F a F X a F a F a F εεε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩这与因子模型完全一致,这样,就得到了载荷A 矩阵和 初始公因子(未旋转)。
计量地理学-3.5-主成分分析
![计量地理学-3.5-主成分分析](https://img.taocdn.com/s3/m/aba6e101bfd5b9f3f90f76c66137ee06eff94eec.png)
主成分(chéng fèn)分析的基本原理
在某多要素地理系统中,假定有n个样本,每个样本共有p个变量,构成一个 (yī ɡè)n×p阶的地理数据矩阵:
x11 x12 x1 p
X
x21
x22
x2
p
xn1
xn 2
xnp
地理数据样本数n,自然是越
大越好,也即数据矩阵的行数n
越大越好。
一方面新的主成分变量保留了 超过85%的原变量信息内容; 另一方面主成分个数m少于原 变量个数p,达到了数据降维效 果。
精品资料
④计算主成分载荷(zài hè)系数
第i个主成分的载荷(zài hè)系数lij的求解:
lij p(zi , x j ) i eij (i, j 1,2,, p)
第i个特征根 i
同时它们之间又是彼此独立的。
精品资料
记x1,x2,…,xP为原变量指标,z1,z2,…,zm(m≤p)为新的综合变量指标, 则考虑每个新变量都是由原所有(suǒyǒu)变量的线性加权总和所构成:
z1 l11x1 l12 x2 l1p xp
z2
l21x1
l22 x2
l2 p xp
............
12 51.274 1.041 64.6
968.33
人均粮食产量 经济作物占农 耕地占土地 果园与林
x 5/(kg.人-1)
作物播面比例 x 6/%
面积比率 x 7/%
地面积之 比x 8/%
295.34 452.26 270.12
26.724 32.314 18.266
18.492 14.464 0.162
5.176 0.055
226.51
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析类型:一种处理高维数据的方法。
降维思想:在实际问题的研究中,往往会涉及众多有关的变量。
但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。
一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。
因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。
一、总体主成分1.1 定义设 X 1,X 2,…,X p 为某实际问题所涉及的 p 个随机变量。
记 X=(X 1,X 2,…,Xp)T ,其协方差矩阵为()[(())(())],T ij p p E X E X X E X σ⨯∑==--它是一个 p 阶非负定矩阵。
设1111112212221122221122Tp p Tp pT pp p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X⎧==+++⎪==+++⎪⎨⎪⎪==+++⎩ (1) 则有()(),1,2,...,,(,)(,),1,2,...,.T T i i i i TT T i j ijij Var Y Var l X l l i p Cov Y Y Cov l X l X l l j p ==∑===∑= (2)第 i 个主成分: 一般地,在约束条件1T i i l l =及(,)0,1,2,..., 1.T i k i k Cov Y Y l l k i =∑==-下,求 l i 使 Var(Y i )达到最大,由此 l i 所确定的T i i Y l X =称为 X 1,X 2,…,X p 的第 i 个主成分。
1.2 总体主成分的计算设 ∑是12(,,...,)T p X X X X =的协方差矩阵,∑的特征值及相应的正交单位化特征向量分别为120p λλλ≥≥≥≥及12,,...,,p e e e则 X 的第 i 个主成分为1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= (3)此时(),1,2,...,,(,)0,.Ti i i i Ti k i k Var Y e e i p Cov Y Y e e i k λ⎧=∑==⎪⎨=∑=≠⎪⎩ 1.3 总体主成分的性质1.3.1 主成分的协方差矩阵及总方差记 12(,,...,)T p Y Y Y Y = 为主成分向量,则 Y=P T X ,其中12(,,...,)p P e e e =,且12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ=由此得主成分的总方差为111()()()()(),p ppTTiii i i i Var Y tr P P tr PP tr Var X λ=====∑=∑=∑=∑∑∑即主成分分析是把 p 个原始变量 X 1,X 2,…,X p 的总方差1()pii Var X =∑分解成 p 个互不相关变量 Y 1,Y 2,…,Y p 的方差之和,即1()pii Var Y =∑而 ()k k Var Y λ=。
第 k 个主成分的贡献率:1ipii λλ=∑;前m 个主成分累计贡献率:11mii pii λλ==∑∑,它表明前 m 个主成分Y 1,Y 2,…,Y m 综合提供 X 1,X 2,…,X p 中信息的能力。
1.3.2 主成分 Y i 与变量 X j 的相关系数 由于 Y=P T X ,故 X=PY ,从而1122,(,).j j j pj p i j i ij X e Y e Y e Y Cov Y X e λ=+++=由此可得 Y i 与 X j 的相关系数为,(,)ijY X ij Cov Y X e λρ===(4)1.4 标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。
为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令*,1,2,...,,i X i p == (5)其中 (),().i i ii i E X Var X μσ== 这时****12(,,...,)TpX X X X = 的协方差矩阵便是12(,,...,)T p X X X X =的相关矩阵 ()ij p p ρρ⨯=,其中**(,)().ij ijCov X X E X X ρ==(6)利用 X 的相关矩阵 ρ 作主成分分析,有如下结论:设 ****12(,,...,)Tp X X X X =为标准化的随机向量,其协方差矩阵(即 X 的相关矩阵)为 ρ ,则 *X 的第 i 个主成分为******12(),1,2,...,.T i i i i ipX Y e X e e e i p μ-==+++= (7)并且***111()(),pp pii i i i i Var YVar X p λ======∑∑∑ (8)其中 ***120p λλλ≥≥≥≥为 ρ的特征值,****12(,,...,)Ti i i ip ee e e =为相应于特征值*i λ的正交单位特征向量。
第 i 个主成分的贡献率:*i pλ;前 m 个主成分的累计贡献率:*1mii pλ=∑;*i Y 与*i X 的相关系数为 ***,ijij Y X ρ=。
二、样本主成分前面讨论的是总体主成分,但在实际问题中,一般 ∑(或ρ)是未知的,需要通过样本来估计。
设12(,,...,),1,2,...,.T i i i ip x x x x i n ==为取自12(,,...,)T p X X X X =的一个容量为n 的简单随机样本,则样本协方差矩阵及样本相关矩阵分别为11()()(),1(),n T ij p p k k k ij p pS s x x x x n sR r ⨯=⨯==---⎛⎫==∑ (9)其中12111(,,...,),,1,2,...,,1()(),,1,2,...,.1nTp j ij i nij kii kj j k x x x x x x j p n s x x x x i j p n ======--=-∑∑分别以 S 和 R 作为 ∑和ρ的估计,然后按总体主成分分析的方法作样本主成分分析。
三、 例 题某市为了全面分析机械类个企业的经济效益,选择了8个不同的利润指标,14企业关于这8个指标的统计数据如下表所示,试进行主成分分析。
表1 14家企业的利润指标的统计数据解:样本均值向量为:(27.97910.9509.1008.54311.06414.6141.55214.686)T x =,样本协方差矩阵为:168.33360.35745.75741.21557.90671.6728.602101.62037.20716.82515.50523.53529.029 4.78544.02324.84324.33536.47849.278 3.62939.41024.42336.28349.146 3.67538.71856.04675.404 5.00259.723103.018 6.82174.5231.1S =37 6.722102.707⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦168.3360.35745.75841.21657.90671.6728.602101.6260.35737.20716.82515.50523.53529.0294.784644.02345.75816.82524.84324.33536.47849.2783.62939.4141.21615.50524.33524.42336.28349.1463.674738.71857.90623.S =53536.47836.28356.04675.4045.002259.72371.67229.02949.27849.14675.404103.026.821574.5238.602 4.78463.629 3.67475.00226.82151.137 6.7217101.6244.02339.4138.71859.72374.5236.7217102.71⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎢⎢⎢⎢⎣⎦⎥⎥⎥⎥⎥ 由于S 中主对角线元素差异较大,因此我们样本相关矩阵R 出发进行主成分分析。
样本相关矩阵R 为:1 0.76266 0.70758 0.64281 0.59617 0.54426 0.62178 0.772851 0.553410.51434 0.51538 0.468880.73562 0.7121410.98793 0.9776 0.974090.68282 0.78019 R = 1 0.98071 0.97980.69735 0.77306 1 0.992350.62663 0.78718 10.6303 0.72449 1 0.62202 1⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦矩阵R 的特征值及相应的特征向量分别为:R 的特征值及贡献率见下表前3个标准化样本主成分类及贡献率已达到95.184%,故只需取前三个主成分即可。
前3个标准化样本主成分中各标准化变量 *(1,2,...,8)i x x i ==前的系数即为对应特征向量,由此得到3个标准化样本主成分为********112345678********212345678*310.32113x +0.29516x +0.38912x +0.38472x +0.37955x +0.37087x +0.31996x +0.35546x -0.4151x -0.59766x +0.22974x +0.27869x +0.31632x +0.37151x -0.27814x -0.15684x -0.45123x +0.103y y y ===*******234567803x -0.039895x +0.053874x -0.037292x +0.075186x +0.77059x -0.42478x ⎧⎪⎨⎪⎩注意到,y 1近似是8个标准化变量*(1,2,...,8)i x x i ==的等权重之和,是反映各企业总效应大小的综合指标,y 1的值越大,则企业的效益越好。
由于y 1的贡献率高达76.708%,故若用y 1的得分值对各企业进行排序,能从整体上反映企业之间的效应差别。
将S 中s ii 的值及x 中各i x 的值以及各企业关于x i的观测值代入y1的表达式中,可求得各企业y1的得分及其按其得分由大到小的排序结果。