主成分分析-实例
主成分分析之PCA
95
M
90
85
80
75
70
65
60 64 66 68 70 72 74 76 78 80 82 84
❖ 先假定数据只有二维,即只有两个 变量,它们由横坐标和纵坐标所代表; 因此每个观测值都有相应于这两个坐 标轴的两个坐标值;
❖ 如果这些数据形成一个椭圆形状的 点阵(这在变量的二维正态的假定下 是可能的).
F简化了系统结构,抓住了主要矛盾。
整理课件
35
稍事休息
§3.4 PCA的性质
一、两个线性代数的结论
1、若A是p阶实对称阵,则一定可以找到正交阵U,使
1 0 0
U1AU
0
2
0
0
0
p
pp
其中 i,i1.2. p是A的特征根。
2、若上述矩阵的特征根所对应的单位特征向量 为 u1,,up
例 设 x1,x2,x3的协方差矩阵为
1 2 0
2 5 0 0 0 2
解得特征根为
,,
15.8,32 2.00,30.17
0.383
U1
0 .924
0.000
0
U
2
0
1
0 .924
U
3
0
.383
0 .000
第 一 个 主 成 分 的 贡 献 率 为 5.83/ ( 5.83+2.00+0.17 ) =72.875%,尽管第一个主成分的贡献率并不小,但应该取 两个主成分。97.88%
❖ 注意,和二维情况类似,高维椭球的 主轴也是互相垂直的。这些互相正交 的新变量是原先变量的线性组合,叫 做主成分(principal component)。
主成分分析 实例
§8 实例 实例1计算得1x =71.25,2x =67.5分析1:基于协差阵∑ 求主成分。
369.6117.9117.9214.3S ⎛⎫= ⎪⎝⎭特征根与特征向量(S无偏,用SPSS )Factor 1 Factor 2 11x x - 0.880 -0.47422x x -0.474 0.880 特征值 433.12 150.81 贡献率0.7417 0.2583注:样本协差阵为无偏估计11(11)1n n n S X I X n n''=--, 所以,第一、二主成分的表达式为1122120.88(71.25)0.47(67.5)0.47(71.25)0.88(67.5)y x x y x x =-+-⎧⎨=--+-⎩ 第一主成分是英语与数学的加权和(反映了综合成绩),且英语的权数要大于数学的权数。
1y 越大,综合成绩越好。
(综合成分)第二主成分的两个系数异号(反映了两科成绩的均衡性)。
不妨将英语称为文科,数学称为理科。
2y 越大,说明偏科(文、理成绩不均衡),2y 越小,越接近于零,说明不偏科(文、理成绩均衡)。
(结构成分)问题:英语的权数为何大?如何解释? 分析2:基于相关阵R 求主成分。
因为1x =71.25,2x =67.5所以相关阵11R ⎛=⎪⎪⎭解得R 的特征根为:1λ=1.419,2λ=0.581,对应的单位特征向量分别为:Factor 1 Factor 2 111x x s - 0.707 0.707 222x x s - 0.707 -0.707 特征根 1.419 0.581 贡献率0.7090.291所以,第一、二主成分的表达式为12112271.2567.50.7070.70717.9813.6971.2567.50.7070.70717.9813.69x x y x x y --⎧=+=+⎪⎪⎨--⎪=-=-⎪⎩1122120.039(71.25)0.052(67.5)0.039(71.25)0.052(67.5)y x x y x x =-+-⎧⎨=---⎩ 1122120.0390.052 6.2730.0390.0520.671y x x y x x =+-⎧⎨=-+⎩ *2*11707.0707.0x x y += *2*12707.0707.0x x y -=基于相关阵的更说明了:第一主成分是英语与数学的加权总分。
主成分分析实例及含义讲解
Component
MATH
1 -.806
2 .353
3 -.040
4 .468
PHYS
-.674
.531
-.454
-.240
CHEM
-.675
.513
.499
-.181
LITERAT
.893
.306
-.004
-.037
HISTORY
.825
.435
.002
.079
ENGLISH
.836
.425
.000
f1 11x1 12 x2 1p xp f2 21x1 22 x2 2 p xp
因子得分
fm m1x1 m2 x2 mp xp
20
因子分析的数学
• 因子分析需要许多假定才能够解. 具体来说.
21
• 对于我们的数据,SPSS因子分析输出为
.074
Extraction Method: Principal Component Analysis.
a. 6 components extracted.
5 .021
-.001 .002 .077
-.342 .276
6 .068
-.006 .003 .320
-.083 -.197
• 这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分为 数学、物理、化学、语文、历史、英语这六个变量的线性组合,系数(比例)为-0.806, 0.674, -0.675, 0.893, 0.825, 0.836。
• 当然不能。 • 你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说
清楚。
主成分分析法实例
1、主成分法:用主成分法寻找公共因子的方法如下:假定从相关阵出发求解主成分,设有p 个变量,则可找出p 个主成分。
将所得的p 个主成分按由大到小的顺序排列,记为1Y ,2Y ,…,P Y , 则主成分与原始变量之间存在如下关系:11111221221122221122....................p p p p pp p pp p Y X X X Y X X X Y X X Xγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 式中,ij γ为随机向量X 的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从X 到Y 得转换关系是可逆的,很容易得出由Y 到X 得转换关系为:11112121212122221122....................p p p p pp p pp p X Y Y Y X Y Y Y X Y Y Yγγγγγγγγγ=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 对上面每一等式只保留钱m 个主成分而把后面的部分用i ε代替,则上式变为:1111212112121222221122....................m m m m p p p mp m p X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩上式在形式上已经与因子模型相一致,且i Y (i=1,2,…,m )之间相互独立,且i Y 与i ε之间相互独立,为了把i Y 转化成合适的公因子,现在要做的工作只是把主成分i Y 变为方差为1的变量。
为完成此变换,必须将i Y 除以其标准差,由主成分分析的知识知其标准差即为特征根的平方根/i i F Y =,12m ,则式子变为:1111122112211222221122....................m m m m p p p pm m p X a F a F a F X a F a F a F X a F a F a F εεε=++++⎧⎪=++++⎪⎨⎪⎪=++++⎩这与因子模型完全一致,这样,就得到了载荷A 矩阵和 初始公因子(未旋转)。
主成分分析法概念及例题
主成分分析法主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法[编辑]什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
[编辑]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
主成分分析法例子
x7 0.79 0.009 -0.93 -0.046 0.672 0.658 1 -0.03 0.89
x8 0.156 -0.078 -0.109 -0.031 0.098 0.222 -0.03 1
0.29
x9 0.744 0.094 -0.924 0.073 0.747 0.707 0.89 0.29
▲贡献率:
i
p
k
k 1
(i 1,2,, p)
▲合计贡献率:
i
k
k 1
p
k
k 1
(i 1,2,, p)
一般取合计贡献率达85—95%旳特征值 1, 2 ,, m
所相应旳第一、第二、…、第m(m≤p)个主成份。
④各主成份旳得分
l11 l12 l1p x1
Z
l21
l22
l2
p
x2
二主成份z2代表了人均资源量。
③第三主成份z3,与x8呈显出旳正有关程度 最高,其次是x6,而与x7呈负有关,所以能 够以为第三主成份在一定程度上代表了农业 经济构造。
显然,用三个主成份z1、z2、z3替代原来9个变量(x1, x2,…,x9),描述农业生态经济系统,能够使问题更进
一步简化、明了。
x4
0.0042
0.868
0.0037
75.346
x5
0.813
0.444
-0.0011
85.811
x6
0.819
0.179
0.125
71.843
x7
0.933
-0.133
-0.251
95.118
x8
0.197
-0.1
0.97
98.971
主成分分析__原理
外贸平衡等等。
在进行主成分分析后,竟以97.4%的精度,用 三个新变量就取代了原17个变量。
8
根据经济学知识,斯通给这三个新 变量分别命名为总收入F1、总收入变化
率F2和经济发展或衰退的趋势F3。更有
意思的是,这三个变量其实都是可以直
接测量的。
9
主成分分析就是试图在力保数据信息丢 失最少的原则下,对这种多变量的数据表进 行最佳综合简化,也就是说,对高维变量空
27
-4
-2
0
中心
中心
2. 样本协方差
注意:协方差 是对称矩阵且半正定
1 T S BB n 1 协方差的大小在一定程度上反映了多变 量之间的关系,但它还受变量自身度量 单位的影响.
28
3.3
特征值与特征向量
定义 A为n阶方阵,λ为数, 为n维非零向量, X 若 AX X 则λ称为A的特征值, 称为A的特征向量. X
3
PCA
• 多变量问题是经常会遇到的。变量太多,无疑会增加分析问 题的难度与复杂性.
• 在许多实际问题中,多个变量之间是具有一定的相关关系的。 因此,能否在各个变量之间相关关系研究的基础上,用较少 的新变量代替原来较多的变量,而且使这些较少的新变量尽 可能多地保留原来较多的变量所反映的信息?事实上,这种 想法是可以实现的.
7
况下主成分的个数应该小于原始变量的个数。
实例1: 经济分析
美国的统计学家斯通(Stone)在1947年关于国民 经济的研究是一项十分著名的工作。他曾利用美国 1929一1938年各年的数据,得到了17个反映国民收 入与支出的变量要素,例如雇主补贴、消费资料和 生产资料、纯公共支出、净增库存、股息、利息、
主成分分析实例
在统计学中,主成分分析(principal components analysis, PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
主成分分析的主要作用体现在五个方面,第一,主成分分析能降低所研究的数据空间的维数。
第二,可通过因子负荷的结论,弄清X变量间的某些关系。
第三,可用于多为数据的一种图形表现方法。
第四,可由主成分分析构造回归模型,即把各个主成分作为新自变量代替原来自变量做回归分析。
第五,用主成分分析筛选回归变量。
案例分析:下表是关于全国31个省市的8项经济指标,以此为例,进行主成分分析。
主成分分析和因子分析实例
从本例可能提出的问题
目前的问题是,能不能把这个数据的6个变量用 一两个综合变量来表示呢?
这一两个综合变量包含有多少原来的信息呢? 能不能利用找到的综合变量来对学生排序呢? 这一类数据所涉及的问题可以推广到对企业、
对学校进行分析、排序、判别和分类等问题。
2020/7/30
主成分分析
这里,第一个因子主要和语文、历史、英语科有很强的正 相关;而第二个因子主要和数学、物理、化学三科有很强 的正相关。因此可以给第一个因子起名为“文科因子”, 而给第二个因子起名为“理科因子”。从这个例子可以看
出,因子分析的结果比主成分分析解释性更强。
R o ta t e d Co m p o n en t M a tra i x
主成分分析
那么这个椭圆有一个长轴和一个短轴 。在短轴方向上,数据变化很少;在 极端的情况,短轴如果退化成一点, 那只有在长轴的方向才能够解释这些 点的变化了;这样,由二维到一维的 降维就自然完成了。
2020/7/30
主成分分析
当坐标轴和椭圆的长短轴平行,那么代表长轴的 变量就描述了数据的主要变化,而代表短轴的变 量就描述了数据的次要变化。
2020/7/30
主成分分析和因子分析
介绍两种把变量维数降低以便于描述、理 解和分析的方法:主成分分析( principal component analysis)和因子 分析(factor analysis)。
在引进主成分分析之前,先看下面的例子 。
2020/7/30
成绩数据
100个学生的数学、物理、化学、语文、历史、 英语的成绩如下表(部分)。
Co mp on ent
MA TH
1 -. 38 7
主成分分析实例和含义讲解
主成分分析实例和含义讲解1.数据标准化:对原始数据进行标准化处理,使得每个变量的均值为0,方差为1、这一步是为了将不同量级的变量进行比较。
2.计算协方差矩阵:根据标准化后的数据,计算协方差矩阵。
协方差矩阵反映了各个变量之间的线性关系。
3.特征值分解:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
特征值表示了各个特征向量的重要程度。
4.选择主成分:根据特征值的大小,选择前k个特征向量作为主成分,k通常是根据主成分所解释的方差比例进行确定。
5.数据投影:将原始数据投影到选取的主成分上,得到降维后的数据。
主成分分析的含义可以从两个方面来解释。
一方面,主成分分析表示了原始数据在新坐标系下的投影,可以帮助我们理解数据的结构和变化。
通过选择前几个主成分,我们可以找到最能够代表原始数据的几个因素,从而实现数据的降维。
例如,在一个包含多个变量的数据集中,如果我们选择了前两个主成分,那么我们可以通过绘制数据在这两个主成分上的投影,来理解数据的分布和变化规律。
同时,主成分的累计方差贡献率可以帮助我们评估所选择的主成分对原始数据方差的解释程度,从而确定降维的精度。
另一方面,主成分分析还可以用于数据的预处理和异常值检测。
通过计算每个变量在主成分上的权重,我们可以判断每个变量对主成分的贡献大小。
如果一些变量的权重很小,那么可以考虑将其从数据集中剔除,从而减少数据的维度和复杂度。
此外,主成分分析还可以检测数据集中的异常值。
在降维的过程中,异常值对主成分的计算结果会产生较大的影响,因此可以通过比较各个主成分的方差贡献率,来识别可能存在的异常值。
总之,主成分分析是一种常用的数据降维方法,它能够帮助我们理解数据集的结构,并鉴别对数据变化影响最大的因素。
通过选择适当的主成分,我们可以实现数据的降维和可视化,并对异常值进行检测。
在实际应用中,主成分分析常常与其他数据挖掘和机器学习方法结合使用,从而发现数据的隐藏模式和关联规则,提高数据分析的效果和准确性。
主成分分析法实例
【转】主成分分析法概述、案例实例分析主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。
在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。
依次类推,I 个变量就有I个主成分。
这种方法避免了在综合评分等方法中权重确定的主观性和随意性,评价结果比较符合实际情况;同时,主成份分量表现为原变量的线性组合,如果最后综合指标包括所有分量,则可以得到精确的结果,百分之百地保留原变量提供的变差信息,即使舍弃若干分量,也可以保证将85%以上的变差信息体现在综合评分中,使评价结果真实可靠。
是在实际中应用得比较广的一种方法。
由于其第一主成份(因子)在所有的主成分中包含信息量最大,很多学者在研究综合评价问题时常采用第一主成分来比较不同实体间的差别。
综上所述,该方法的优点主要体现在两个方面:1.权重确定的客观性;2.评价结果真实可靠。
1.主成分分析的基本原理主成分分析:把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维处理技术。
)记原来的变量指标为x1,x2,…,xP,它们的综合指标——新变量指标为z1,z2,…,zm(m≤p),则z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m 主成分,在实际问题的分析中,常挑选前几个最大的主成分。
主成分分析法概念及例题
主成分分析法概念及例题 Ting Bao was revised on January 6, 20021主成分分析法主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法目录[]o[]什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多转化为少数几个综合指标。
在中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
[]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的反映的信息在一定程度上有重叠。
在用研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行的过程中,涉及的变量较少,得到的较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
主成分分析案例
Y2得分
-2.06481 2.32993 -1.47145 0.66326 -0.87181 1.25757 -1.40987 -0.36439 0.04577 -2.04139 -0.42078 0.33126 0.07660 0.86909 0.45974 -0.83575
主成分分析在 市场研究中的应用
1——5 组表示男性,6——10 组表示女性 1——5, 6——10 年龄从小到大排序
假若你是该食品加工业决策部 门的高级顾问,为了对食品生 产作出合理决策,请你对以上 的调查资料进行分析,为决策 者提供建议。
特征向量
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
特征根 i
方差贡献率
女性喜欢
一般喜欢
孩子 咖喱饭
炸肉饼、火腿面包
成人 鸡蛋烩饭、炸猪排 酸汤、大头鱼
一般不喜欢 特别不喜欢
孩子 干咖喱、浓汤 成人 煮牛肉、生蛋
菜粥、清汤
饼干、带馅面包 酱面条、烧鱼
服装的定型分类问题
为了较好地满足市场的需要,服装生产厂 要了解所生产的一种服装究竟设计几种型号合 适?这些型号的服装应按怎样的比例分配生产 计划才能达到较好的经济效益?
4、取每一组的中心 ( y1*k , y2*k ) (k=1,2,…,g) 作为该组的 代表点。
相应原16个指标的尺寸:
x1' r11 y1*k r12 y2*k x2' r21 y1*k r22 y2*k
x1' 6 r16,1 y1*k r16,2 y2*k
5、各种型号的比例按 该组样品数/128 确定。
Y2
0.513225 0.203116 -0.182858 0.193618 0.217290 0.113642 -0.164527 -0.114637 -0.509240 -0.025832 0.083471 0.132592 0.105402 0.199407 -0.181330 -0.261367 -0.295756
主成份分析和因子分析实例
• 定义:因子分析是一种降维分析方法,通过研究多个变量之间的相关性,将多个变量归结为少数几个公 共因子
• 原理:基于变量的相关性,通过旋转因子矩阵,使得每个变量仅与一个公共因子高度相关,从而实现对 数据的简化分析 以下是用户提供的信息和标题: 我正在写一份主题为“主成份分析和因子分析实例” 的PPT,现在准备介绍“因子分析的步骤”,请帮我生成“步骤”为标题的内容 步骤
数据来源:某高校学生成 绩数据
数据清洗:去除异常值、缺失值和重复值
数据转换:将非数值型数据转换为数值型数据 数据标准化:将数据进行标准化处理,使每个变量的平均值为0,标准差为 1 数据降维:将高维数据降维到低维空间,保留主要特征
定义:计算变量之间的相关系数矩阵
目的:了解变量之间的相关性
计算方法:使用统计学软件或编程语言计算相关系数矩阵 结果解释:通过相关系数矩阵,可以了解变量之间的线性关系强度 和方向
因子分析缺点:对数据的要求较高,需要数据量足够大且各变量间相关性较强;在确定因子数量 时,需要主观判断。
拓展应用领域:从金融、经济领域拓展到更多领域,如社会学、心理学等 优化算法和模型:提高主成份分析和因子分析的准确性和效率,减少误差 结合其他技术:与数据挖掘、机器学习等技术结合,提高数据分析的深度和广度 强化实际应用:在更多实际问题中应用主成份分析和因子分析,为决策提供支持
根据累积方差贡 献率确定主成份 个数
根据碎石图确定 主成份个数
根据主成份得分 矩阵确定主成份 个数
根据因子载荷矩 阵确定主成份个 数
计算每个观测值 在每个主成份上 的得分
将每个观测值在 每个主成份上的 得分进行加权求 和
得到每个观测值 的主成份得分
将每个观测值的 主成份得分进行 排序,得到主成 份得分排名
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§8 实例 实例1计算得1x =71.25,2x =67.5分析1:基于协差阵∑ 求主成分。
369.6117.9117.9214.3S ⎛⎫= ⎪⎝⎭特征根与特征向量(S无偏,用SPSS )Factor 1 Factor 2 11x x - 0.880 -0.47422x x -0.474 0.880 特征值 433.12 150.81 贡献率0.7417 0.2583注:样本协差阵为无偏估计11(11)1n n n S X I X n n''=--, 所以,第一、二主成分的表达式为1122120.88(71.25)0.47(67.5)0.47(71.25)0.88(67.5)y x x y x x =-+-⎧⎨=--+-⎩ 第一主成分是英语与数学的加权和(反映了综合成绩),且英语的权数要大于数学的权数。
1y 越大,综合成绩越好。
(综合成分)第二主成分的两个系数异号(反映了两科成绩的均衡性)。
不妨将英语称为文科,数学称为理科。
2y 越大,说明偏科(文、理成绩不均衡),2y 越小,越接近于零,说明不偏科(文、理成绩均衡)。
(结构成分)问题:英语的权数为何大?如何解释? 分析2:基于相关阵R 求主成分。
因为1x =71.25,2x =67.5所以相关阵11R ⎛=⎪⎪⎭解得R 的特征根为:1λ=1.419,2λ=0.581,对应的单位特征向量分别为:Factor 1 Factor 2 111x x s - 0.707 0.707 222x x s - 0.707 -0.707 特征根 1.419 0.581 贡献率0.7090.291所以,第一、二主成分的表达式为12112271.2567.50.7070.70717.9813.6971.2567.50.7070.70717.9813.69x x y x x y --⎧=+=+⎪⎪⎨--⎪=-=-⎪⎩1122120.039(71.25)0.052(67.5)0.039(71.25)0.052(67.5)y x x y x x =-+-⎧⎨=---⎩ 1122120.0390.052 6.2730.0390.0520.671y x x y x x =+-⎧⎨=-+⎩ *2*11707.0707.0x x y += *2*12707.0707.0x x y -=基于相关阵的更说明了:第一主成分是英语与数学的加权总分。
第二主成分是对两科成绩均衡性的度量。
此例说明:基于协差阵与基于相关阵的主成分分析的结果不一致。
结合此例的实际背景,经对比分析可知,基于协差阵的主成分分析更符合实际。
Y1 Y2 Y3 Y4 Y5 Y6x 1:身高 0.469 -0.365 -0.092 -0.122 0.08 -0.786 x2:坐高 0.404 -0.397 -0.613 0.326 -0.027 0.443 x 3:胸围 0.394 0.397 0.279 0.656 -0.405 -0.125 x 4:臂长 0.408 -0.365 0.705 -0.108 0.235 0.371 x 5:肋围 0.337 0.569 -0.164 -0.019 0.731 0.034 x 6:腰围 0.427 0.308 -0.119-0.661 -0.49 0.179 特征值3.287 1.406 0.459 0.426 0.295 0.126 贡献率 0.6373 0.169 0.0719 0.0508 0.0351 0.0091 累计贡献率 0.6373 0.8063 0.87810.9289 0.964 1从第一主成分可看出,各原始变量的载荷均为正,且近似相等。
若1y 较大,则意味着各原始变量也较大,说明身材高大;若1y 较小,则意味着各原始变量也较小,说明身材矮小。
因此,第一主成分1y 可称为(身材)大小成分。
(规模成分)从第二主成分可看出,在“身高*1x 、坐高*2x 、臂长*4x ”等纵向指标上有中等的负载荷,在“胸围*3x 、肋围*5x 、腰围*6x ”等横向指标上有中等的正载荷。
因此,第二主成分2y 可称为体形成分。
(比例成分—纵、横比例)从第三主成分可看出,在“坐高*2x ”上有较大的负载荷,在“臂长*4x ”上有较大的正载荷,而其他变量上的载荷都较小。
故第三主成分基本上是反映的是“坐高*2x ”与“臂长*4x ”的比例。
因此,第三主成分3y 可称为上身比例成分。
(局部比例成分)第四主成分的贡献率较小,实际意义也不好解释,故取前两个或前三个主成分即可。
例、用“消费支出数据”,从样本相关矩阵出发进行主成分分析,食品服装用品医疗通讯文化居住杂项北京2959.19 730.79 749.41 513.34 467.87 1141.82 478.42 457.64 天津2459.77 495.47 697.33 302.87 284.19 735.97 570.84 305.08 河北1495.63 515.9 362.37 285.32 272.95 540.58 364.91 188.63 山西1406.33 477.77 290.15 208.57 201.5 414.72 281.84 212.1 内蒙古1303.97 524.29 254.83 192.17 249.81 463.09 287.87 192.96 辽宁1730.84 553.9 246.91 279.81 239.18 445.2 330.24 163.86 吉林1561.86 492.42 200.49 218.36 220.69 459.62 360.48 147.76 黑龙江1410.11 510.71 211.88 277.11 224.65 376.82 317.61 152.85 上海3712.31 550.74 893.37 346.93 527 1034.98 720.33 462.03 江苏2207.58 449.37 572.4 211.92 302.09 585.23 429.77 252.54 浙江2629.16 557.32 689.73 435.69 514.66 795.87 575.76 323.36 安徽1844.78 430.29 271.28 126.33 250.56 513.18 314 151.39 福建2709.46 428.11 334.12 160.77 405.14 461.67 535.13 232.29 江西1563.78 303.65 233.81 107.9 209.7 393.99 509.39 160.12 山东1675.75 613.32 550.71 219.79 272.59 599.43 371.62 211.84 河南1427.65 431.79 288.55 208.14 217 337.76 421.31 165.32 湖北1783.43 511.88 282.84 201.01 237.6 617.74 523.52 182.52 湖南1942.23 512.27 401.39 206.06 321.29 697.22 492.6 226.45 广东3055.17 353.23 564.56 356.27 811.88 873.06 1082.82 420.81 广西2033.87 300.82 338.65 157.78 329.06 621.74 587.02 218.27 海南2057.86 186.44 202.72 171.79 329.65 477.17 312.93 279.19 重庆2303.29 589.99 516.21 236.55 403.92 730.05 438.41 225.8 四川1974.28 507.76 344.79 203.21 240.24 575.1 430.36 223.46 贵州1673.82 437.75 461.61 153.32 254.66 445.59 346.11 191.48 云南2194.25 537.01 369.07 249.54 290.84 561.91 407.7 330.95 西藏2646.61 839.7 204.44 209.11 379.3 371.04 269.59 389.33 陕西1472.95 390.89 447.95 259.51 230.61 490.9 469.1 191.34 甘肃1525.57 472.98 328.9 219.86 206.65 449.69 249.66 228.19 青海1654.69 437.77 258.78 303 244.93 479.53 288.56 236.51 宁夏1375.46 480.89 273.84 317.32 251.08 424.75 228.73 195.93 新疆1608.82 536.05 432.46 235.82 250.28 541.3 344.85 214.4x5 0.828 0.086 0.585 0.531 1 x6 0.729 0.255 0.856 0.684 0.708 1x7 0.670 -0.201 0.569 0.314 0.800 0.647 1x8 0.877 0.349 0.667 0.628 0.776 0.745 0.525 10.9055 -0.0898 0.3147 -0.1334 -0.1170 -0.0158 -0.0199 0.2023 0.2981 0.8712 0.2515 -0.0968 0.2807 0.0052 0.0204 -0.0154 0.8470 0.0757 -0.3349 -0.3484 -0.0370 0.1956 -0.0550 -0.0282 0.7225 0.4008 -0.3622 0.4199 -0.0321 0.0324 0.0289 0.0833 0.8756 -0.2695 0.2116 0.2331 0.1135 0.0359 -0.2050 -0.0737 0.9163 0.0316 -0.2349 -0.1488 0.0019 -0.2819 -0.0263 -0.0440 0.7367 -0.5768 -0.0257 0.0169 0.3078 0.0321 0.1667 0.0066 0.89480.11160.26180.0684-0.28060.03010.1324-0.1284x 1 0.401 -0.077 -0.415 -0.209 -0.221 0.75 0.065 0.045x2 0.132 0.749 -0.332 -0.152 0.529 -0.057 -0.067 -0.015 x 3 0.375 0.065 0.442 -0.547 -0.07 -0.105 0.181 -0.559 x 4 0.32 0.345 0.478 0.659 -0.061 0.309 -0.095 -0.093 x 5 0.388 -0.232 -0.279 0.366 0.214 -0.273 0.673 -0.103 x 6 0.406 0.027 0.31 -0.233 0.004 -0.163 0.086 0.806 x 7 0.326 -0.496 0.034 0.026 0.58 0.025 -0.548 -0.092 x 8 0.396 0.096 -0.345 0.107 -0.529 -0.476 -0.435 -0.086 特征值 5.098 1.352 0.5750.406 0.281 0.073 0.093 0.122 贡献率 0.6373 0.169 0.07190.0508 0.0351 0.0091 0.0116 0.0153 累计贡献率 0.6373 0.8063 0.87810.9289 0.964 0.9731 0.9848 1从第一主成分可看出,各原始变量的载荷均为正,且近似相等(除了x 2以外),若1y 较大,则意味着各原始变量也较大;若i y 较小,则意味着各原始变量也较小。