主成分分析实例及含义讲解
主成分分析法精华讲义及实例
主成分分析类型:一种处理高维数据的方法。
降维思想:在实际问题的研究中,往往会涉及众多有关的变量。
但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。
一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。
因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。
一、总体主成分1.1 定义设 X 1,X 2,…,X p 为某实际问题所涉及的 p 个随机变量。
记 X=(X 1,X 2,…,Xp)T ,其协方差矩阵为()[(())(())],T ij p p E X E X X E X σ⨯∑==--它是一个 p 阶非负定矩阵。
设1111112212221122221122Tp p Tp pT pp p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X⎧==+++⎪==+++⎪⎨⎪⎪==+++⎩(1) 则有()(),1,2,...,,(,)(,),1,2,...,.T T i i i i TT T i j ijij Var Y Var l X l l i p Cov Y Y Cov l X l X l l j p ==∑===∑= (2)第 i 个主成分: 一般地,在约束条件1T i i l l =及(,)0,1,2,..., 1.T i k i k Cov Y Y l l k i =∑==-下,求 l i 使 Var(Y i )达到最大,由此 l i 所确定的T i i Y l X =称为 X 1,X 2,…,X p 的第 i 个主成分。
1.2 总体主成分的计算设 ∑是12(,,...,)T p X X X X =的协方差矩阵,∑的特征值及相应的正交单位化特征向量分别为120p λλλ≥≥≥≥及12,,...,,p e e e则 X 的第 i 个主成分为1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= (3)此时(),1,2,...,,(,)0,.Ti i i i Ti k i k Var Y e e i p Cov Y Y e e i k λ⎧=∑==⎪⎨=∑=≠⎪⎩ 1.3 总体主成分的性质1.3.1 主成分的协方差矩阵及总方差记 12(,,...,)T p Y Y Y Y = 为主成分向量,则 Y=P T X ,其中12(,,...,)p P e e e =,且12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ=由此得主成分的总方差为111()()()()(),p ppTTiii i i i Var Y tr P P tr PP tr Var X λ=====∑=∑=∑=∑∑∑即主成分分析是把 p 个原始变量 X 1,X 2,…,X p 的总方差1()pii Var X =∑分解成 p 个互不相关变量 Y 1,Y 2,…,Y p 的方差之和,即1()pii Var Y =∑而 ()k k Var Y λ=。
主成分分析法例子.ppt
表3
主成分 z1 z2 z3 z4 z5 z6 z7 z8 z9
特征值及主成分贡献率
贡献率(%) 51.791 23.216 11.589 5.638 3.502 2.14 1.271 0.504 0.35 累积贡献率(%) 51.791 75.007 86.596 92.234 95.736 97.876 99.147 99.65 100
特征值 4.661 2.089 1.043 0.507 0.315 0.193 0.114 0.0453 0.0315
(3)对于特征值=4.6610,=2.0890, =1.0430分别求出其特征向量l1,l2,l3。
表4
主成分载荷
占方差的百分数 (%) 82.918 80.191 92.948 75.346 85.811 71.843 95.118 98.971 92.939
j 1 p
=1,即 l ij j个分量。 的第 li
li
,
③ 计算主成分贡献率及累计贡献率
▲贡献率:
i
k 1
p
(i 1 ,2, , p)
k
▲累计贡献率:
k 1 k 1 p i k
(i 1,2, , p )
k
, , , 一般取累计贡献率达85—95%的特征值 1 2 m 所对应的第一、第二、…、第m(m≤p)个主成分。
假定有n个样本,每个样本共有p个变量, 构成一个n×p阶的数据矩阵
x11 x 21 X xn 1 x12 x22 xn 2 x1 p x2 p xnp
(1)
降维处理!!!
当p较大时,在p维空间中考察问题比较麻烦。 降维是用较少的几个综合指标代替原来较多 的变量指标,而且使这些较少的综合指标既 能尽量多地反映原来较多变量指标所反映的 信息,同时它们之间又是彼此独立的。
主成分分析法实例
【转】主成分分析法概述、案例实例分析主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。
在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。
依次类推,I 个变量就有I个主成分。
这种方法避免了在综合评分等方法中权重确定的主观性和随意性,评价结果比较符合实际情况;同时,主成份分量表现为原变量的线性组合,如果最后综合指标包括所有分量,则可以得到精确的结果,百分之百地保留原变量提供的变差信息,即使舍弃若干分量,也可以保证将85%以上的变差信息体现在综合评分中,使评价结果真实可靠。
是在实际中应用得比较广的一种方法。
由于其第一主成份(因子)在所有的主成分中包含信息量最大,很多学者在研究综合评价问题时常采用第一主成分来比较不同实体间的差别。
综上所述,该方法的优点主要体现在两个方面:1.权重确定的客观性;2.评价结果真实可靠。
1.主成分分析的基本原理主成分分析:把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维处理技术。
)记原来的变量指标为x1,x2,…,xP,它们的综合指标——新变量指标为z1,z2,…,zm(m≤p),则z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m 主成分,在实际问题的分析中,常挑选前几个最大的主成分。
主成分分析法例子之一
l11 l12 l1p x1
Z
l21
l22
l2
p
x2
.
ln1
ln2
lnp
x
p
(6)
第十页,共19页。
三、 主成分分析方法应用实例
表1 某农业生态经济系统各区域单元的有关数据
样本 序号
1
x1:人 口密度
(人 /km2)
363.91
x 2:人 均耕地 面积
(ha)
0.352
2 141.5 1.684
j 1
第八页,共19页。
③ 计算主成分贡献率及累计贡献率
▲贡献率:
i
p
k
k 1
▲累计贡献率:
(i 1,2,, p)
i
k
k 1
p
k
k 1
(i 1,2,, p)
一般取累计贡献率达85—95%的特征值 1, 2 ,, m
所对应的第一、第二、…、第m(m≤p)个主成分。
第九页,共19页。
④各主成分的得分
第五页,共19页。
从以上的分析可以看出,主成分分析的实质
就是确定原来变量xj(j=1,2 ,…, p)在诸主 成分zi(i=1,2,…,m)上的载荷 lij( i=1, 2,…,m; j=1,2 ,…,p)。
从数学上可以证明,载荷lij分别是相关矩 阵的m个较大的特征值所对应的特征向量。
第六页,共19页。
0.29
x9 0.744 0.094 -0.924 0.073 0.747 0.707 0.89 0.29
1
第十三页,共19页。
(2)由相关系数矩阵计算特征值,以及各个 主成分的贡献率与累计贡献率(见表3)。由 表3可知,第一,第二,第三主成分的累计贡 献率已高达86.596%(大于85%),故只需要求
主成分分析案例数据
主成分分析案例数据主成分分析案例数据,这可是个挺有趣的话题呢!咱先来说说啥是主成分分析。
简单来讲,主成分分析就是把一堆乱七八糟的数据,通过一些巧妙的办法,找出其中最关键、最重要的几个成分。
就好比你走进一个乱糟糟的房间,然后想办法找出最显眼、最有用的那几件东西。
给您举个例子吧。
我之前教过一个学生,叫小明。
他特别喜欢收集各种石头,什么形状、颜色、大小的都有。
有一天,他拿着他的宝贝石头来找我,说他想弄清楚这些石头有没有什么规律。
这可把我难住了,那么多石头,怎么找规律呀?这时候我就想到了主成分分析。
我先让小明把石头的一些特征记录下来,比如石头的长度、宽度、高度、重量、颜色的深浅等等。
这就像是我们收集了一堆关于石头的数据。
然后呢,通过主成分分析,我们发现石头的大小(长度、宽度、高度、重量综合起来)和颜色的深浅这两个方面,是最能区分这些石头的关键因素。
比如说,大而颜色深的石头往往是他在河边捡到的;小而颜色浅的石头多数是在公园里找到的。
您看,这就是主成分分析的作用。
它能帮我们从复杂的数据中找出关键的信息,就像在一堆乱麻中理出了几根主要的线头。
再比如说,在学校的成绩分析中也能用到主成分分析。
咱们不只是看学生的语文、数学、英语成绩,还会考虑他们的课堂表现、作业完成情况、参加活动的积极性等等。
这么多的数据,如果一股脑儿地去看,那简直要让人头晕眼花。
但通过主成分分析,我们可能会发现,课堂表现和作业完成情况这两个因素,对学生的综合成绩影响最大。
那咱们就可以重点关注这两个方面,想办法帮助学生提高。
还有在市场调研中,假如一家公司想了解消费者对他们产品的看法。
他们可能会收集消费者的年龄、性别、收入水平、购买频率、对产品的满意度等等数据。
经过主成分分析,也许会发现年龄和购买频率是影响消费者满意度的主要成分。
总之,主成分分析就像是一个神奇的工具,能让我们在纷繁复杂的数据海洋中找到方向,抓住重点。
您想想,如果没有主成分分析,我们面对那么多的数据,不就像没头的苍蝇一样乱撞吗?所以说呀,学会主成分分析,能让我们更聪明地处理数据,做出更准确的判断和决策。
主成分分析法案例
主成分分析法案例主成分分析法(Principal Component Analysis, PCA)是一种常用的多变量统计分析方法,它可以帮助我们发现数据中的主要特征和结构,从而简化数据集并减少信息丢失。
在本文中,我们将通过一个实际案例来介绍主成分分析法的应用。
案例背景。
假设我们有一个包含多个变量的数据集,我们希望通过主成分分析法来找出其中的主要特征,并将数据进行降维,以便更好地理解和解释数据。
数据准备。
首先,我们需要对数据进行预处理,包括数据清洗、缺失值处理、标准化等操作。
在这个案例中,我们假设数据已经经过了预处理,并且符合主成分分析的基本要求。
主成分分析。
接下来,我们将利用主成分分析法来分析数据。
主成分分析的基本思想是通过线性变换将原始变量转化为一组线性无关的新变量,这些新变量被称为主成分,它们能够最大程度地保留原始数据的信息。
在进行主成分分析之前,我们需要计算数据的协方差矩阵,并对其进行特征值分解。
通过特征值分解,我们可以得到数据的主成分和对应的特征值,从而找出数据中的主要特征。
案例分析。
假设我们得到了数据的前三个主成分,我们可以通过观察主成分的载荷(loadings)来理解数据中的结构。
载荷可以帮助我们理解每个主成分与原始变量之间的关系,从而解释数据的特点和规律。
通过主成分分析,我们可以发现数据中的主要特征和结构,从而更好地理解数据。
同时,我们还可以利用主成分分析的结果进行数据的降维,从而简化数据集并减少信息丢失。
结论。
通过以上案例分析,我们可以看到主成分分析法在多变量数据分析中的重要作用。
通过主成分分析,我们可以发现数据中的主要特征和结构,从而简化数据集并减少信息丢失。
同时,主成分分析还可以帮助我们更好地理解和解释数据,为后续的分析和应用提供有力支持。
总结。
在本文中,我们通过一个实际案例介绍了主成分分析法的基本原理和应用。
主成分分析是一种常用的多变量统计分析方法,它可以帮助我们发现数据中的主要特征和结构,从而简化数据集并减少信息丢失。
主成分分析例题详解
主成分分析例题详解主成分分析(Principal Component Analysis,简称PCA)是一种常用的数据降维技术,用于发现数据中的主要模式和结构。
本文将通过一个例题详细介绍主成分分析的原理和应用。
1. 问题描述假设我们有一个包含10个变量的数据集,每个变量都与某个特定的因素相关。
我们希望通过主成分分析来降低数据的维度,并找出对总体方差贡献最大的主成分。
2. 数据预处理在进行主成分分析之前,我们需要对数据进行预处理。
首先,我们需要对数据进行标准化,使得每个变量具有相同的尺度。
这样可以避免某些变量的值对主成分分析结果造成过大的影响。
其次,我们计算数据的协方差矩阵。
协方差矩阵描述了各个变量之间的线性关系。
通过计算协方差矩阵,我们可以得到数据中的主要结构和模式。
3. 特征值分解在得到协方差矩阵之后,我们对其进行特征值分解。
特征值分解可以将协方差矩阵分解为特征值和特征向量的乘积。
特征值表示了每个特征向量对应的主成分解释的方差。
特征向量则表示了每个主成分的权重。
对于该例题,我们得到了10个特征值和10个特征向量。
我们可以通过排序特征值的大小,找出贡献最大的主成分。
4. 主成分的选择通常情况下,我们选择前k个特征值对应的特征向量作为主成分。
这样可以保留数据中大部分的结构和模式。
在该例题中,假设前3个特征值分别为λ1、λ2和λ3,并对应的特征向量分别为v1、v2和v3。
我们选择前3个特征值对应的特征向量作为主成分。
5. 降维和重构通过选择主成分,我们可以将数据从原先的10维降到3维。
其中,每个样本在新的3维空间中的坐标可以通过与主成分的内积计算得到。
此外,我们还可以通过主成分将数据从降维空间重新投影回原始空间。
这样可以保留主成分中所包含的结构和模式。
6. 结论通过主成分分析,我们成功地降低了数据的维度,并找到了对总体方差贡献最大的主成分。
这样的降维操作可以减少特征空间的维度,并提取出数据中的重要信息。
主成分分析实例和含义讲解
主成分分析实例和含义讲解1.数据标准化:对原始数据进行标准化处理,使得每个变量的均值为0,方差为1、这一步是为了将不同量级的变量进行比较。
2.计算协方差矩阵:根据标准化后的数据,计算协方差矩阵。
协方差矩阵反映了各个变量之间的线性关系。
3.特征值分解:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
特征值表示了各个特征向量的重要程度。
4.选择主成分:根据特征值的大小,选择前k个特征向量作为主成分,k通常是根据主成分所解释的方差比例进行确定。
5.数据投影:将原始数据投影到选取的主成分上,得到降维后的数据。
主成分分析的含义可以从两个方面来解释。
一方面,主成分分析表示了原始数据在新坐标系下的投影,可以帮助我们理解数据的结构和变化。
通过选择前几个主成分,我们可以找到最能够代表原始数据的几个因素,从而实现数据的降维。
例如,在一个包含多个变量的数据集中,如果我们选择了前两个主成分,那么我们可以通过绘制数据在这两个主成分上的投影,来理解数据的分布和变化规律。
同时,主成分的累计方差贡献率可以帮助我们评估所选择的主成分对原始数据方差的解释程度,从而确定降维的精度。
另一方面,主成分分析还可以用于数据的预处理和异常值检测。
通过计算每个变量在主成分上的权重,我们可以判断每个变量对主成分的贡献大小。
如果一些变量的权重很小,那么可以考虑将其从数据集中剔除,从而减少数据的维度和复杂度。
此外,主成分分析还可以检测数据集中的异常值。
在降维的过程中,异常值对主成分的计算结果会产生较大的影响,因此可以通过比较各个主成分的方差贡献率,来识别可能存在的异常值。
总之,主成分分析是一种常用的数据降维方法,它能够帮助我们理解数据集的结构,并鉴别对数据变化影响最大的因素。
通过选择适当的主成分,我们可以实现数据的降维和可视化,并对异常值进行检测。
在实际应用中,主成分分析常常与其他数据挖掘和机器学习方法结合使用,从而发现数据的隐藏模式和关联规则,提高数据分析的效果和准确性。
主成分分析法例子
从以上的分析可以看出,主成分分析的
实质就是确定原来变量xj(j=1,2 ,…, p) 在诸主成分zi(i=1,2,…,m)上的载荷 lij ( i=1,2,…,m; j=1,2 ,…,p)。
33.205 1436.12 354.26 17.486 11.805 1.892 17.534
16.607 1405.09 586.59 40.683 14.401 0.303 22.932
6 68.337 2.032 7 95.416 0.801 8 62.901 1.652 9 86.624 0.841 10 91.394 0.812 11 76.912 0.858 12 51.274 1.041 13 68.831 0.836 14 77.301 0.623 15 76.948 1.022 16 99.265 0.654 17 118.505 0.661 18 141.473 0.737 19 137.761 0.598 20 117.612 1.245 21 122.781 0.731
3 100.7 1.067
4 143.74 1.336
5 131.41 1.623
x 3:森 林覆盖 率(%)
16.101
x 4:农 民人均 纯收入 (元/人)
192.11
x 5:人 均粮食 产量 (kg/
人)
295.34
x 6:经济 作物占农 作物播面 比例(%)
26.724
x 7:耕地 占土地面 积比率
二主成分z2代表了人均资源量。
主成分分析案例
Y2得分
-2.06481 2.32993 -1.47145 0.66326 -0.87181 1.25757 -1.40987 -0.36439 0.04577 -2.04139 -0.42078 0.33126 0.07660 0.86909 0.45974 -0.83575
主成分分析在 市场研究中的应用
1——5 组表示男性,6——10 组表示女性 1——5, 6——10 年龄从小到大排序
假若你是该食品加工业决策部 门的高级顾问,为了对食品生 产作出合理决策,请你对以上 的调查资料进行分析,为决策 者提供建议。
特征向量
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
特征根 i
方差贡献率
女性喜欢
一般喜欢
孩子 咖喱饭
炸肉饼、火腿面包
成人 鸡蛋烩饭、炸猪排 酸汤、大头鱼
一般不喜欢 特别不喜欢
孩子 干咖喱、浓汤 成人 煮牛肉、生蛋
菜粥、清汤
饼干、带馅面包 酱面条、烧鱼
服装的定型分类问题
为了较好地满足市场的需要,服装生产厂 要了解所生产的一种服装究竟设计几种型号合 适?这些型号的服装应按怎样的比例分配生产 计划才能达到较好的经济效益?
4、取每一组的中心 ( y1*k , y2*k ) (k=1,2,…,g) 作为该组的 代表点。
相应原16个指标的尺寸:
x1' r11 y1*k r12 y2*k x2' r21 y1*k r22 y2*k
x1' 6 r16,1 y1*k r16,2 y2*k
5、各种型号的比例按 该组样品数/128 确定。
Y2
0.513225 0.203116 -0.182858 0.193618 0.217290 0.113642 -0.164527 -0.114637 -0.509240 -0.025832 0.083471 0.132592 0.105402 0.199407 -0.181330 -0.261367 -0.295756
主成分分析实例和含义讲解
a. Rotation converged in 3 iterations.
22
• 这x文6来个)表表,示说hism明toa六rtyh(个(历变数史量学)和),因,e子pnhg的ylis关s(h(系物英。理语为))简,等单ch变记em量,(。我化这们学样用)因x1,,子xli2ft,1e和xr3a,ft2x(与4,语这x5, 些原变量之间的关系是(注意,和主成分分析不同,这里把成分(因 子)写在方程的右边,把原变量写在左边;但相应的系数还是主成分 和各个变量的线性相关系数,也称为因子载荷):
• 那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在 极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些 点的变化了;这样,由二维到一维的降维就自然完成了。
6
4
2
0
-2
-4
-4
-2
0
2
4
7
椭球的长短轴
• 当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主 要变化,而代表短轴的变量就描述了数据的次要变化。
11
主成分分析的数学
• 要寻找方差最大的方向。即使得向量X的线性组合a’X的方差
最大的方向a. • 而Var(a’X)=a’Cov(X)a;由于Cov(X)未知;于是用X的样本相
关阵R来近似.因此,要寻找向量a使得a’Ra最大(注意相关阵 和协方差阵差一个常数 • 记得相关阵和特征值问题吗?回顾一下吧! • 选择几个主成分呢?要看“贡献率.”
16
•可以把第一和第二主成分的载荷点出一个二维图以直 观地显示它们如何解释原来的变量的。这个图叫做载荷 图。
17
Component Plot
1.0
cphheyms
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
清楚。
.
2
主成分分析
• 每个人都会遇到有很多变量的数据。 • 比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的
研究、教学等各种变量的数据等等。 • 这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相
• 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长 短轴,并进行变换,使得新变量和椭圆的长短轴平行。
• 如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两 个变量(舍去次要的一维),降维就完成了。
• 椭圆(球)的长短轴相差得越大,降维也越有道理。
.
8
4
2
0
-2
-4
-4
-2
1
3.735 62.254 62.254 3.735 62.254 62.254
2
1.133 18.887 81.142 1.133 18.887 81.142
3
.4 57
7.619 88.761
4
.3 23
5.376 94.137
5
.1 99
3.320 97.457
6
.1 53
2.543 100.000
所涉及的问题可以推广到对企业,对学校进行分析、排序、 判别和分类等问题。
.
5
空间的点
• 例中的的数据点是六维的;也就是说,每个观测值是6维空间中的一个点。 我们希望把6维空间用低维空间表示。
• 先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此 每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一 个椭圆形状的点阵(这在变量的二维正态的假定下是可能的)
.
3
成绩数据(student.sav)
• 100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。
.
4
从本例可能提出的问题
• 目前的问题是,能不能把这个数据的6个变量用一两个综 合变量来表示呢?
• 这一两个综合变量包含有多少原来的信息呢? • 能不能利用找到的综合变量来对学生排序呢?这一类数据
• 那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在 极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些 点的变化了;这样,由二维到一维的降维就自然完成了。
.
6
4
2
0
-2
-4
-4
-2
0
2
4
.
7
椭球的长短轴
• 当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主 要变化,而代表短轴的变量就描述了数据的次要变化。
.
12
• 对于我们的数据,SPSS输出为
Total Variance Explained
Initial EigenvE ax lt ur ea sction Sums of Squared Load
ComponT eo nta %l of VariCaunmcuelative T%ota %l of VariCaunmcuelative %
Scree Plot
4
3Hale Waihona Puke 2Eigenvalue
1
0
1
2
3
4
5
6
Component Number
.
14
• 怎么解释这两个主成分。前面说过主成分是原始六个变量的线性组合。是怎么样的组合呢?SPSS可 以输出下面的表。
C o m p o n e n t M a t ra i x
Compon ent
MATH
1 -.806
2 .353
3 -.040
4 .468
5 .021
6 .068
PHYS
-.674
.531
-.454
-.240
-.001
-.006
CHEM
-.675
.513
.499 -.181
.002
.003
LITERA T .893
.306 -.004 -.037
.077
.320
HISTOR Y .825
0
2
4
.
9
主轴和主成分
• 对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地 看见罢了。
• 首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个 轴作为新变量;这样,主成分分析就基本完成了。
• 注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正 交的新变量是原先变量的线性组合,叫做主成分(principal component)。
Extraction Method: Principal Component Analysis.
• 这里的Initial Eigenvalues就是这里的六个主轴长度,又称特征值(数 据相关阵的特征值)。头两个成分特征值累积占了总方差的81.142%。 后面的特征值的贡献越来越少。
.
13
• 特征值的贡献还可以从SPSS的所谓碎石图看出
.
10
主成分之选取
• 正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变 量,就有几个主成分。
• 选择越少的主成分,降维就越好。什么是标准呢?那就是这些被 选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。 有些文献建议,所选的主轴总长度占所有主轴长度之和的大约 85%即可,其实,这只是一个大体的说法;具体选几个,要看实 际情况而定。
.435
.002
.079 -.342 -.083
.
11
主成分分析的数学
• 要寻找方差最大的方向。即使得向量X的线性组合a’X的方差
最大的方向a. • 而Var(a’X)=a’Cov(X)a;由于Cov(X)未知;于是用X的样本相
关阵R来近似.因此,要寻找向量a使得a’Ra最大(注意相关阵 和协方差阵差一个常数 • 记得相关阵和特征值问题吗?回顾一下吧! • 选择几个主成分呢?要看“贡献率.”
主成分分析和因子分析
吴喜之
.
1
汇报什么?
• 假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、 流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、 产值、利润、折旧、职工人数、职工的分工和教育程度等等。
• 如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地 摆出去吗?
关的。人们希望能够找出它们的少数“代表”来对它们进行描述。 • 本章就介绍两种把变量维数降低以便于描述、理解和分析的方法:主
成 分 分 析 ( principal component analysis ) 和 因 子 分 析 ( factor analysis)。实际上主成分分析可以说是因子分析的一个特例。在引 进主成分分析之前,先看下面的例子。