统计学第10章 主成份分析和因子分析

合集下载

SPSS统计分析 第10章 主成分分析和因子分析

SPSS统计分析 第10章 主成分分析和因子分析

累积%
合计 方差的%
累积%
1
6.049
40.325
40.325
6.049 40.325
40.325
2
5.813
38.755
79.080
5.813 38.755
79.080
3
1.142
7.616
86.696
1.142 7.616
86.696
4
.876
5.842
92.538
5
.599
3.996
96.534
y1 -2.19 -2.56 0.45 -1.69 5.28 3.30 -0.43 -1.91 -1.68 4.46 0.87 1.40 -0.61 -2.35 -1.36 -0.99
y2 0.07 -0.11 1.85 -0.46 -6.26 6.07 -0.47 -0.06 -0.68 0.98 0.46 1.34 0.10 -0.20 -0.92 -1.73
xp ap1F1 ap2F2
a1mFm a2mFm
x3 28.53 0.279 0.653 1.011 3.572 3.682 0.898 1.584 1.657 0.497 1.84 2.252 0.321 1.533 0.502
x4 0.878 0.339 10.254
1.6 27.841 6.429 8.276 2.327 2.837 26.151 9.242 9.558 8.153 1.499 5.773
x9 0.547 0.193
1.3 0.78 0.143 29.941 5.145 2.3 0.212 19.642 5.841 8.971 1.913 0.298 1.371

MBA统计学10主成分和因子分析

MBA统计学10主成分和因子分析

-4
-2
0
2
4
-4
-2
0
2
4
椭圆的长短轴
当坐标轴和椭圆的长短轴平行, 那么代表长轴的变量就描述了数 据的主要变化,而代表短轴的变 量就描述了数据的次要变化。 但是,坐标轴通常并不和椭圆的 长短轴平行。因此,需要寻找椭 圆的长短轴,并进行变换,使得 新变量和椭圆的长短轴平行。
椭圆的长短轴
如果长轴变量代表了数据包含的 大部分信息,就用该变量代替原 先的两个变量(舍去次要的一 维),降维就完成了。 椭圆的长短轴相差得越大,降维 也越有道理。
统计学
─从数据到结论
第十章主成分分析和因子分析
汇报什么?
假定你是一个公司的财务经理,掌握 了公司的所有数据,这包括众多的变 量,如:固定资产、流动资金、借贷 的数额和期限、各种税费、工资支出、 原料消耗、产值、利润、折旧、职工 人数、分工和教育程度等等。 如果让你向上级或有关方面介绍公司 状况,你能够把这些指标和数字都原 封不动地摆出去吗?
因子分析(m<p)
f1 11 x1 + 12 x2 + + 1 p x p f 2 21 x1 + 22 x2 + + 2 p x p f m m1 x1 + m 2 x2 + + mp x p
因子得分
因子分析的数学
因子分析需要许多假定才 能够解. 具体公式.
需要高度概括
在如此多的变量之中,有很 多是相关的。人们希望能够 找出它们的少数“代表”来 对它们进行描述。 需要把这种有很多变量的数 据进行高度概括。
10.1 主成分分析
本章介绍两种把变量维数降低以便 于描述、理解和分析的方法:主成 分 分 析 ( principal component analysis ) 和 因 子 分 析 ( factor analysis)。 实际上主成分分析可以说是因子分 析的一个特例。在引进主成分分析 之前,先看下面的例子。

卫生统计学:主成分分析与因子分析

卫生统计学:主成分分析与因子分析
〔factor loading〕矩阵
通常先对x作标准化处理,使其均值为 零,方差为1.这样就有
x i a i1 f1 a i2 f2 a im fm e i
假定〔1〕fi的均数为 i22 0,方差为1; 〔2〕ei的均数为0,方差为δi; 〔3〕 fi与ei相互独立.
那么称x为具有m个公共因子的因子模型
〔2〕δi称为特殊方差〔specific variance〕,是不能由公共因子解 释的局部
▪ 因子载荷〔负荷〕aij是随机变量xi与 公共因子fj的相关系数。
▪设
p
g
2 j
a
2 ij
i1
j 1, 2 ,..., m
▪ 称gj2为公共因子fj对x的“奉献〞, 是衡量公共因子fj重要性的一个指标。
根本思想:使公共因子的相对负荷 〔lij/hi2〕的方差之和最大,且保持 原公共因子的正交性和公共方差总和 不变。
可使每个因子上的具有最大载荷的变量 数最小,因此可以简化对因子的解释。
〔2〕斜交旋转〔oblique rotation〕
因子斜交旋转后,各因子负荷发生 了较大变化,出现了两极分化。各 因子间不再相互独立,而彼此相关。 各因子对各变量的奉献的总和也发 生了改变。
ai2j
g
2 j
i1
▪ 极大似然法〔maximum likelihood factor〕
▪ 假定原变量服从正态分布, 公共因子和特殊因子也服从正态分 布,构造因子负荷和特殊方差的似 然函数,求其极大,得 factor〕
▪ 设原变量的相关矩阵为 R=(rij),其逆矩阵为R-1=(rij)。 各变量特征方差的初始值取为逆 相关矩阵对角线元素的倒数, δi’=1/rii。那么共同度的初始值 为(hi’) 。

主成分分析和因子分析(朱艳科)

主成分分析和因子分析(朱艳科)

主成分分析和因子分析法一、主成分分析概论主成分分析的工作对象是样本点×定量变量类型的数据表。

它的工作目标,就是要对这种多变量的平面数据表进行最佳综合简化。

也就是说,要在力保数据信息丢失最少的原则下,对高维变量空间进行降维处理。

很显然,识辨系统在一个低维空间要比一个高维空间容易得多。

英国统计学家斯格特(M.Scott )在1961年对157个英国城镇发展水平进行调查时,原始测量的变量有57个。

而通过主成分分析发现,只需5个新的综合变量(它们是原变量的线性组合),就可以95%的精度表示原数据的变异情况,这样,对问题的研究一下子从57维降到5维。

可以想象,在5维空间中对系统进行任何分析,都比在57维中更加快捷、有效。

另一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。

他曾利用美国1929~1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息和外贸平衡等等。

在进行主成分分析后,竟以97.4%的精度,用三个新变量就取代了原17个变量。

根据经济学知识,斯通给这三个新变量要别命名为总收入1F 、总收入变化率2F 和经济发展或衰退的趋势3F (是时间t 的线性项)。

更有意思的是,这三个变量其实都是可以直接测量的。

二、主成分分析的基本思想与理论1、主成分分析的基本思想在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。

这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时也由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息有时甚至会抹杀事物的真正特征与内在规律。

基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。

主成分分析、因子分析

主成分分析、因子分析

主成分分析在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。

多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。

如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。

盲目减少指标会损失很多信息,容易产生错误的结论。

因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。

由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。

主成分分析与因子分析就属于这类降维的方法。

主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。

主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。

最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。

因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。

如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。

2. 问题描述下表1是某些学生的语文、数学、物理、化学成绩统计:首先,假设这些科目成绩不相关,也就是说某一科目考多少分与其他科目没有关系。

第10讲主成分分析与因子分析

第10讲主成分分析与因子分析
i 1
2014-8-25
m
p
24
(3) 原始变量对主成分yj的贡献 设主成分yj的表达式为 yj=t1jx1+t2jx2+…+tpjxp 则称tij为第j个主成分yj在第i个原始变 量xi上的载荷,它反映了xi对yj的重要 程度。 在实际中,通常根据载荷 tij解释 主成分的实际意义。
2014-8-25 25
2014-8-25 43
的原始变量的信息。
2014-8-25
44
第一主成分与前三个变量的相关 系数都接近于 1 ,说明它主要涵盖了 前三个变量的信息,可以称之为“公 司资产的获利能力 ”,而第二个主 成分主要涵盖了第四个变量的信息, 可以称之为“公司的经营能力”。 因为主成分分析只不过是一种矩 阵变换,所以各个主成分并不一定有
21
此性质表明, p 个不相关的主成 分包含了原始数据中的全部信息。 第i个主成分yi的方差在总方差中 所占比例
i
j
j 1
p
称为主成分 yi的贡献率。 贡献25 22
变量信息的能力,即解释原始信息的 能力。 显然,第一个主成分的贡献率最 大,依次递减。前m(m≤p)个主成分 的贡献率之和
2014-8-25
36
6. 主成分分析结果的解释 主成分分析结果的解释是一个难 点,许多学生能熟练地用 SPSS 对数 据进行主成分分析,但却全然不知这 些结果的含义。 下面对主成分分析的结果进行详 细的解释: (1) 系数相关矩阵
2014-8-25 37
SPSS 首先给出了所有变量的系 数相关矩阵,这个结果主要用于判断 此问题是否适合用主成分分析法。 本例相关系数表明四个变量存在 显著相关性,适宜用主成分分析。

第10章 主成分分析与因子分析

第10章  主成分分析与因子分析

第十章 主成分分析与因子分析一个有经验的裁缝加工一件上衣,需要测量上体长、手臂长、胸围、颈围、肩宽、腰围等14个指标,但在批量生产中,测量每个人的14个指标是不可能的,怎么办呢?人们发现,这14个指标之间具有相关性,如果从这些指标中构造出少数几个指标,只要根据这少数的几个主要指标加工出的上衣就能适合大多数人的体型,即这少数几个指标充分把握了上衣的主要特征。

事实上,采用主成分分析和因子分析便能找到两个不相关的指标“型和号”,根据这两个指标加工出的上衣,特体除外,95%以上的人都能穿。

从14个指标中构造出两个不相关的指标的过程就称为降维。

在现实中类似的降维事例是很多的,在统计学中主要利用因子分子和主成分分析实现对数据的降维处理。

这一章我们将介绍因子分析和主成分分析如何实现降维,以及在SPSS 中如何实现这两种方法。

第一节 主成分分析一、主成分分析的基本思想1. 基本思想和数学模型 在对某一事件进行研究时,常常会涉及到与此相关的多个变量,而这些变量之间往往存在着相关性,很多的变量以及变量间的相关性大大增加了研究的复杂程度。

主成分分析就是在解决上述问题过程中产生的,目的在于用少数几个不相关的主成分来代表原来的多个变量,以方便我们对问题的分析。

所谓的主成分就是指多个变量的线性组合,不同的主成分之间相互无关。

假设有n 个样品,每个样品有p 个变量分别为p X X X ,...,,21,则主成分的个数最多可以有p 个,用公式表示为: p pi i i i X a X a X a F +++=...2211 p i ,...,2,1=。

方程应满足下列条件:(1)1 (2)2221=+++pi i i a a a 。

(2)i F 与j F (p j i j i ,...,2,1,;=≠)不相关。

(3)1F 到p F 方差依次递减。

第一个条件对系数加以限制使得方差不会任意增大。

如果不对系数加以限制,方差可以趋于无穷大就变得没有意义了,同时第一个条件也使得每个主成分都是原始变量的凸函数。

主成分分析与因子分析法

主成分分析与因子分析法

主成分分析与因子分析法主成分分析是一种减少数据维度的统计学方法,通过将多变量数据投影到一个较低维度的空间中,实现数据的降维。

主成分分析的基本思想是将原始数据转换为一组新的变量,这些新的变量称为主成分,通过主成分的降序排列,能够使原始数据中较大方差的信息更好地保留下来。

1.数据标准化:根据数据的特点,将数据进行标准化处理,使得各个变量具有相同的尺度。

2.计算协方差矩阵:通过计算数据的协方差矩阵,了解各个变量之间的相关性。

3.求解特征向量和特征值:通过对协方差矩阵进行特征值分解,得到特征向量和特征值。

4.选择主成分:选取前k个特征向量对应的主成分,使得它们能够解释绝大部分的方差。

通常选择的标准是特征值大于1,或者解释方差的累积比例达到一定的阈值。

5.主成分系数:计算原始变量和主成分之间的线性关系,这个关系可以用主成分的特征向量作为系数矩阵进行表示。

1.降低维度:主成分分析能够将高维数据降维,提取出最能代表原始数据的主成分。

2.去除冗余信息:通过选择主成分,可以去除原始数据中的冗余信息,提取出最有用的信息。

3.可视化:降维后的数据可以更容易地可视化和解释。

二、因子分析法(Factor Analysis)因子分析法是一种用于确定多个观测变量之间的潜在结构的统计学方法。

它假设观测变量是由一组潜在因子决定的,通过观测变量和因子之间的相关性,可以推断出潜在因子之间的关系。

因子分析法的基本步骤如下:1.确定因子数:根据研究的目的和背景,确定潜在因子的个数。

2.求解因子载荷矩阵:通过最大似然估计或主因子方法,求解因子载荷矩阵,得到每个观测变量与潜在因子之间的相关关系。

3.提取因子:根据因子载荷矩阵,提取出与观测变量相关性最高的因子,将原始数据映射到潜在因子空间中。

4.旋转因子:通过旋转因子载荷矩阵,使得因子之间更易解释和解读,常用的旋转方法有正交旋转和斜交旋转。

5.因子得分:根据观测变量的信息和因子载荷矩阵,计算每个样本在每个因子上的得分。

主成分分析与因子分析

主成分分析与因子分析

在实际工作中,为了全面的分析问题,往往会收集很多变量,这些变量之间通常都会存在大量重复信息,如果直接用来分析,不但计算繁琐,模型复杂,而且还有一个更严重的问题就是共线性问题,前面提到过共线性问题会导致模型误差增大,失去意义。

当面对变量过多时,通常的处理方法是降维,即设法将原来众多具有一定相关性的变量,重新组合成一组新的互相无关的综合变量,这些综合变量要尽可能多的反映原有变量的信息。

降维的方法有很多,其中最常用的就是主成分分析和因子分析一、主成分分析(Principal Component Analysis,PCA)1.基本思路设有n个原始变量,如果将它们都用散点图表示,会发现一些变量是存在某种线性关系的,这就是共线性,我们可以利用这个特点,创建一个变量Yi,使它成为某些原始变量的线性组合结果Yi =β+β1x1+...βnxn,这样处理之后,n个原始变量就转化为i个新变量,这i个新变量不同程度的反映了原始变量的信息,并且互不相关,这就解决了共线性问题。

那么接下来的问题是,n个变量的线性组合有很多种,我们取哪种结果作为新变量呢?经典的方法就是根据方差来判断,方差越大,变异越大,而我们的目的并不是消除变异,而是用尽可能少的新变量表示大部分原始变量,因此变异信息也必须尽量完整的反映。

我们将新变量按照方差大小排序,最大者也就是包含变异最多的为第一主成分,以此类推,通常只取前面几个最大的主成分,这样虽然损失部分信息,但是抓住了主要变异,如果全都取的话是没有意义的,因为原则上有多少个原始变量,就可以提取多少个主成分,但是这样做违背了降维的目的,多数情况下,取钱2-3个主成分就可以代表90%以上的变异信息,其余的可以忽略不计。

2.计算过程前面讲了PCA的基本思路,现在用具体数学算法来加以实现<1>数据标准化由于每个变量都有自己的数量级和量纲,首先要对变量进行标准化处理以消除这方面的差异<2>计算协方差矩阵或相关系数矩阵对于一维数据,也就是一个变量的数据,我们可以用均值、方差、标准差来描述,而协方差用于衡量两个变量的总体误差,如果多于两个变量,那就要用协方差矩阵来表示。

主成分分析与因子分析

主成分分析与因子分析

主成分分析与因⼦分析主成分分析,主成份是原始变量的线性组合,在考虑所有主成份的情况下主成份和原始变量间是可以逆转的。

即“简化变量”,将变量以不同的系数合起来,得到好⼏个复合变量,然后在从中挑⼏个能表⽰整体的复合变量就是主成份,然后计算得分。

因⼦分析,公共因⼦和原始变量的关系是不可逆转的,但是可以通过回归得到。

是将变量拆开,分成公共因⼦和特殊因⼦。

过程是:因⼦载荷计算,因⼦旋转,因⼦得分。

主成份分析主成份分析需要知道两变量之间的相关性,⽣成协⽅差举证和相关新矩阵,对应的⽣成的新向量矩阵Y还有特征值λi,对应是第I个新向量对总体信息的贡献率为λi/(λ1+λ2+...+λn),对应的还有⼀个累积贡献率。

确定主成份的个数的⽅法有:特征值⼤于1(要求原始数据的每⼀个变量⾄少能贡献1各单位的变异)、陡坡检验法(陡坡图中开始平坦的点之前的点的个数)、累积解释变异⽐例法(即(λ1+...+λi)/(λ1+λ2+...+λn)>70%)。

同时也可以知道主成分分析对应的⼏个难点①是使⽤协⽅差矩阵还是相关系数矩阵②如何确定主成份的个数。

当数据中不同变量的度量单位不同并且数值相差较⼤就⽤标准化后的相关系数矩阵,当数值相差不⼤并且指标的权重不⼀样时,考虑⽤协⽅差矩阵。

对于个数的确定就是我们⼀些边界问题是否1左右的也可以囊括进主成份中,是否难以确定开始变平坦的是那个点,是否70%不够。

等⼏个问题。

主成分分析可以⽤两个过程步完成PROC FACTORS 、PROC PRINCOMP。

后者能处理的数据量⼤⼀些,效率⾼⼀些,,前者输出的内容丰富些,还可以做旋转因⼦。

以下是主成分分析过程;proc princomp data=sashelp.cars out=car_component;var mpg_city mpg_highway weight wheelbase length;run;输出结果:先是输出统计结果,再是输出相关性矩阵,这⾥princomp步默认使⽤的是相关系数矩阵,实际应⽤过程中,可以通过cov选项来指定使⽤的矩阵。

主成分分析法与因子分析法的区别

主成分分析法与因子分析法的区别

主成分分析和因子分析有十大区别:1.原理不同主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。

因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成。

就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)2.线性表示方向不同因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。

3.假设条件不同主成分分析:不需要有假设(assumptions),因子分析:需要一些假设。

因子分析的假设包括:各个共同因子之间不相关,特殊因子(specificfactor)之间也不相关,共同因子和特殊因子之间也不相关。

4.求解方法不同求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。

(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)注意事项:由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;一般当变量单位相同或者变量在同一数量等级的情况下,可以直接采用协方差阵进行计算;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;实际应用中应该尽可能的避免标准化,因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息。

此外,最理想的情况是主成分分析前的变量之间相关性高,且变量之间不存在多重共线性问题(会出现最小特征根接近0的情况);求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。

因子分析与主成分分析的区别与应用

因子分析与主成分分析的区别与应用

因子分析与主成分分析的区别与应用因子分析与主成分分析是统计学中常用的多变量分析方法,用于降维和提取数据中的主要信息。

虽然它们都可以用于数据分析,但在方法和应用上存在一些区别。

本文将介绍因子分析与主成分分析的区别,并讨论它们各自的应用。

一、因子分析与主成分分析的定义因子分析是一种用于研究多个观测变量之间的内在相关性结构的统计技术。

它通过将多个变量组合为少数几个“因子”来解释数据的方差。

每个因子代表一组相关性高的变量,可以帮助我们理解数据背后的潜在结构。

主成分分析是一种通过将原始变量转换为线性组合(即主成分)来降低多维数据维度的技术。

它通过找到数据中的最大方差方向来确定主成分,并逐步提取主成分,以解释数据的最大方差。

主成分分析可以帮助我们发现数据中的主要特征。

二、因子分析与主成分分析的区别1. 目的不同:因子分析的目的是确定一组能够最好地描述观测数据之间关系的因子,并解释数据中的方差。

因子分析更加关注变量之间的共同性和相关性,希望通过较少的因子来解释数据。

主成分分析的目的是通过寻找数据中的主要结构和主要特征来降低数据的维度。

主成分分析着重于方差的解释,通过线性组合来减少变量数量,提取出主要成分。

2. 基本假设不同:因子分析基于观察变量之间的共同性,假设观测变量是由一组潜在因子决定的。

它假设每个观测变量都与每个因子有一个固定的因子载荷。

主成分分析假设原始变量之间是线性相关的,并且通过线性变换,可以找到解释大部分数据方差的新变量。

3. 输出结果不同:因子分析输出因子载荷矩阵,该矩阵显示每个因子与每个观测变量之间的关系。

因子载荷表示每个因子对每个变量的贡献程度,可用于解释观测变量之间的共同性。

主成分分析输出的是主成分,每个主成分是原始变量的线性组合。

主成分按照解释的方差大小排序,因此前几个主成分更能代表原始数据的方差。

三、因子分析与主成分分析的应用因子分析的应用广泛,可以用于心理学、社会科学、市场调研等领域。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
得到的主成分得分后,可以把各个主成分 看作新的变量代替原始变量,从而达到降 维的目的。
中央财经大学统计学院 16
主成分的贡献率
对于第k个主成分,其对方差的贡献率为 k
p
i
i1
前k个主成分贡献率的累计值称为累计贡献 率。
中央财经大学统计学院 17
主成分个数的确定
通常有两种方式: 1、根据大于1的特征值的个数确定主成 分的个数; 2、根据主成分的累计贡献率确定主成分 的个数,使累计贡献率>85%或者其他值。
• •• •
•• •
• ••
x 1
是“降维”的 有效办法。
• •• •
中央财经大学统计学院 8
主成分分析的几何意义
•对坐标轴进行旋转, n个点在F1轴上的方 差达到最大,即在 此方向上包含了有 关n个样品的最大量 信息。 •因此,欲将二维空 间的点投影到某个 一维方向上,则选 择F1轴方向能使信 息的损失最小。
方程满足下列条件:
(1)ai21ai22ai2p1
(2)Fi与Fj不相关。 (3) F1与Fp到 方差依次递减。
中央财经大学统计学院 13
主成分分析的数学模型
有p个x,相应可以计算出p个主成分。但一 般只使用少数几个主成分就可以提取大部分 信息。
主成分分析的基本任务是计算系数矩阵 a11 …… app。
当这些变量的第一个线性组合不能提取更多 的信息时,再考虑用第二个线性组合继续这 个提取的过程,……,直到提取足够多的信 息为止。这就是主成分分析的思想。
中央财经大学统计学院 5
主成分分析的基本思想
主成分分析适用于原有变量之间存在较高 程度相关的情况。
在主成分分析适用的场合,一般可以用较 少的主成分得到较多的信息量,从而得到 一个更低维的向量。通过主成分既可以降 低数据“维数”又保留了原数据的大部分 信息。
多个变量的大部分信息,这实际上是一种“降维”
的思想。
“主成分分析”、“因子分析” 都可以用来对数据进行降维。
中央财经大学统计学院 4
主成分分析的基本思想
主成分分析(Principal components analysis) 是由Hotelling于1933年首先提出的。
由于多个变量之间往往存在着一定程度的相 关性。人们自然希望通过线性组合的方式, 从这些指标中尽可能快地提取信息。

•• • •

•• •
•• •

x 1

••
• •

中央财经大学统计学院 11
主成分分析的几何意义
x 2
F1
原始变量 相关程度 越高,主 成分分析 效果越好。
F2 ••••
•••••
••••••••
••••••••••••••
•••

x1
中央财经大学统计学院 12
主成分分析的数学模型
F1 a11x1 a12 x2 a1p xp F2 a21x1 a22 x2 a2 p xp Fp ap1x1 ap2 x2 app xp
中央财经大学统计学院 19
主成分分析在SPSS中的实现
SPSS没有直接提供主成分分析的功能,需 要借助于“因子分析”的模块实现。 用SPSS进行主成分分析有几个操作环节 需要特别注意。 下面我们以讲义中应聘的例子加以说明。
中央财经大学统计学院 6
例:斯通关于国民经济的研究
一项十分著名的工作是美国的统计学家斯通 (Stone)在1947年关于国民经济的研究。他 曾利用美国1929一1938年各年的数据,得到 了17个反映国民收入与支出的变量要素,例 如雇主补贴、消费资料和生产资料、纯公共 支出、净增库存、股息、利息外贸平衡等等。
中央财经大学统计学院 14
主成分求解的步骤
主成分可以按以下步骤计算得出: 计算原始变量的相关系数矩阵R。 计算相关系数矩阵R的特征值,并按从大 到小的顺序排列,记为
12 p
计算特征值对应的特征向量,即为主成 分F1……Fp相应的系数。
中央财经大学统计学院 15
主成分得分
把原始变量的值代入主成分表达式中,可 以计算出主成分得分。 注意在计算主成分得分时需要先对原始变 量进行标准化。
最常见的情况是主成分的个数为2-3个。
中央财经大学统计学院 18
主成分分析的应用
主成分回归。即把各主成分作为新自变量代替原 来自变量x做回归分析。还可以进一步还原得到Y 与x的回归方程(可以避免多重共线性的问题)。
用于综合评价。 按照单个的主成分(例如第一主成分)可以对 个体进行排序。 按照几个主成分得分的加权平均值对个体进行 排序也是一种评价方法。一般用各个主成分的 方差贡献率加权。由于加权得分缺少实际意义, 这种方法理论上有争议。
在进行主成分分析后,竟以97.4%的精度, 用三个新变量就取代了原17个变量。
中央财经大学统计学院 7
主成分分析的几何意义
x2
如果仅考虑X1 或X2中的任何 一个分量,那 么包含在另一 分量中的信息 将会损失,因 此,直接舍弃 x1或x2分量不
•• • •
•• •
•• •

• •
•••



• •••

••
•• •• •
•• •
• ••

F1
x2
•• • •
• •
• •


• •
•• •

• •••

x1
• 平• 移、旋转坐标轴
中央财经大学统计学院 9
主成分分析的几何意义
第一主成分的效果与椭圆的形状有关。椭圆越 扁平,n个点在F1轴上的方差就相对越大,在 F2轴上的方差就相对越小,用第一主成分代替 所有样品造成的信息损失就越小。
统计学第10章 主成份分析和因子分析
学习目标
1.主成分分析的基本思想 2.主成分分析的软件实现和结果分析 3.因子分析的基本思想 4.因子分析的软件实现和结果分析
中央财经大学统计学院 2
主成分分析
中央财经大学统计学院
主成分分析的原理
多元统计分析处理的是多变量(多指标)问题。 由于变量较多,增加了分析问题的复杂性。但在 实际问题中,变量之间可能存在一定的相关性, 因此,多变量中可能存在信息的重叠。人们自然 希望通过克服相关性、重叠性,用较少的变量来 代替原来较多的变量,而这种代替可以反映原来
中央财经大学统计学院 10
主成分分析的几何意义
x2
F
1
F2

原始变量 不相关时, 主成分分 析没有效 果。

• •• • •••• •••••••••••••••••••••••• •••••••••• •••
•• • •


•• •
•• •
•• • • • • •

••
•• •••
• • ••
相关文档
最新文档