主成分分析与因子分析(第20章)

合集下载

主成分与因子分析

主成份分析与因子分析转载自网站/teachers/lidf/docs/statsoft/html/statsoft.html作者：北京大学概率统计系李东风现实中的统计对象经常用多个指标来表示，比如人口普查，就可以有姓名、性别、出生年月日、籍贯、婚姻状况、民族、政治面貌、地区等，企业调查，可以有净资产、负债、盈利、职工人数、还贷情况等等。

多个指标（变量）可以分别进行分析，但是，我们往往希望综合使用这些指标，这时，有主成份分析、因子分析等方法可以把数据的维数降低，同时又尽量不损失数据中的信息。

I. 主成份分析一、理论介绍主成份分析的目的是从原始的多个变量取若干线性组合，能尽可能多地保留原始变量中的信息。

从原始变量到新变量是一个正交变换（坐标变换）。

设有是一个维随机变量，有二阶矩，记，。

考虑它的线性变换易见如果要用尽可能多地保留原始的的信息，经典的办法是使的方差尽可能大，这需要对线性变换的系数加限制，一般要求它是单位向量，即。

其它的各也希望尽可能多地保留的信息，但前面的已保留的信息就不再保留，即要求，同时对也有的要求，在这样的条件下使最大。

设协方差阵的特征值为，相应的单位特征向量分别为（当特征根有重根时单位特征向量不唯一）。

这时的第个主成分为，，且。

记，，，则为正交阵，，，且，其中为的主对角线元素。

主成份与原始变量的相关系数称为因子负荷量（factor loading），可以证明，，。

为了减少变量的个数，希望前几个就可以代表的大部分信息。

定义为主成份的贡献率，称为主成份的累计贡献率。

一般取使得累计贡献率达到70%－80%以上。

累计贡献率表示个主成份从中提取了多少信息，但没有表达用它来恢复每一个能恢复多少，为此定义个主成份对原始变量的贡献率，为对的复相关系数平方，可以用公式计算（注意时）。

前个主成份在的个线性组合中能对最好地线性逼近。

在上面的主成份计算方法中，方差越大的变量越被优先保留信息，实际中为了消除这种影响经常把变量标准化，即令这时的协方差阵就是的相关阵。

主成分分析与因子分析

multivariate
什么是主成分分析？
将彼此相关的指标变量转化为彼此不相关的指标变量；将个数较多的指标变量转化为个数较少的指标变量。将意义单一的指标变量转化为意义综合的指标变量。
第一节主成分分析的基本原理
最简情形：相关数据的散点图：序号胸围体重 Id x1 x2 ……
基本原理
原坐标系：。x1,x2相关。x1,x2变异均匀新坐标系：。Z1,Z2不相关。Z1,Z2变异不均匀 var(Z1)>var(Z2)
坐标变换公式： z1= cosθx1 + sinθx2 + c1 z2=-sinθx1 + cosθx2 + c2
坐标变换
忽略不计
分析难度增加
multivariate
儿童生长发育指标
身高，腿长，臂长长度肩宽，胸宽，臀骨宽宽度胸围，臂围，大腿围围度如果分别用每一个指标对儿童的生长发育做评价，评价孤立，非综合。如果仅选用其中的几个独立的指标，失去了许多有用的信息，容易得出片面结论。
Error Sign
问题
寻找一种合理的综合性方法，使得：减少指标变量的个数。尽量不损失或者稍损失原指标变量中所包含的信息。(用方差衡量) 使得原本相关的指标转化为彼此不相关（用相关系数阵衡量）
多元统计分析中存在的问题和解决方法
主要存在问题多指标问题
主要解决方法主成分分析因子分析结构方程模型
例1的相关系数表
心象性别年龄身高体重胸围 y x1 x2 x3 x4 x5 性别年龄身高体重胸围
Multicollinearity !!
例1 的回归分析结果：
模型总体检验：，参数估计和检验 Var DF Est SE t Prob > |T| Int 1 54.58 124.3 0.439 X1 1 -7.76 8.07 -0.962 X2 1 0.12 0.18 0.672 X3 1 0.29 0.42 0.693 X4 1 1.12 2.26 0.497 X5 1 -0.94 2.33 -0.404

因子分析、主成分分析

通过主成分分析，可以研究多个变量之间的相关性，揭示变量
之间的内在联系。
多元回归分析
03
在多元回归分析中，主成分分析可以用来消除变量间的多重共
线性，提高回归分析的准确性和稳定性。
金融数据分析
风险评估
在金融数据分析中，主成分分析可以用来评估投资组合的风险，通过提取主要因子来反映市场的整体波动。
市场趋势分析
主成分分析案例：金融数据分析
总结词
主成分分析用于金融数据分析中，能够降低数据维度并揭示主要经济趋势。
VS
详细描述
在金融领域，主成分分析被广泛应用于股票、债券等资产组合的风险评估和优化。通过对大量金融数据进行主成分分析，可以提取出几个关键主成分，这些主成分代表了市场的主要经济趋势。投资者可以利用这些信息进行资产配置和风险管理。
特征提取
主成分分析能够提取出数据中的主要特征，突出数据中的主要变化方向，有助于揭示数据的内在规律。
数据可视化
降低数据维度后，数据的可视化变得更加容易，有助于直观地理解和分析数据。
多元统计
多元数据描述
01
主成分分析可以用来描述多元数据的总体特征，提供对多元数
据分布的整体理解。
多元相关分析
02
目的
通过找出影响观测变量的潜在结构，更好地理解数据的意义，简化复杂数据的分析，并解决诸如多重共线性等问题。
因子分析的原理
1 2 3
基于相关性
因子分析基于观测变量之间的相关性，通过找出这些相关性背后的公因子来解释变量之间的依赖关系。
降维
通过提取公因子，将多个观测变量的复杂关系简化为少数几个潜在因子的线性组合，实现数据的降维。

主成分分析与因子分析

∴
( yk ,xi )
k ii
tik
4. m个主成分对原始变量的贡献率
用xi 与 y1 , …, ym 的复相关系数的平方，作为
度量主成分y1 , …, ym包含有 xi 的信息多少的指标
称为m个主成分y1 , …, ym对原始变量xi的贡献率，
记为νi（ i21 m）。
m
m
ቤተ መጻሕፍቲ ባይዱ
i 2 ( xi ,y j ) jti2j / ii
载荷矩阵
∵ X=T y 其中 T = ( tij )

x1 x2

t11 t21
t12 t22
x p
t p1
t p2
t1 p t2 p

y1 y2

t
pp

y
p

选取前m个主成分，记

xˆ 1

一般地，第 i 主成分为：
y i tiT x
var yi i ,
i 1, p
主成分的性质
1.主成分的协方差矩阵
Y

y1

,

1
0
y p
0
p
由于 Y T T X X TY
var(Y ) var( T T x ) T T var( x )T T T T TTTTTT
标准化主成分 f 的载荷矩阵
先对m个主成分的方差标准化，再求出主成分的载荷矩阵。令：

主成分分析和因子分析(朱艳科)

主成分分析和因子分析法一、主成分分析概论主成分分析的工作对象是样本点×定量变量类型的数据表。

它的工作目标，就是要对这种多变量的平面数据表进行最佳综合简化。

也就是说，要在力保数据信息丢失最少的原则下，对高维变量空间进行降维处理。

很显然，识辨系统在一个低维空间要比一个高维空间容易得多。

英国统计学家斯格特（M.Scott ）在1961年对157个英国城镇发展水平进行调查时，原始测量的变量有57个。

而通过主成分分析发现，只需5个新的综合变量（它们是原变量的线性组合），就可以95%的精度表示原数据的变异情况，这样，对问题的研究一下子从57维降到5维。

可以想象，在5维空间中对系统进行任何分析，都比在57维中更加快捷、有效。

另一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。

他曾利用美国1929～1938年各年的数据，得到了17个反映国民收入与支出的变量要素，例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息和外贸平衡等等。

在进行主成分分析后，竟以97.4%的精度，用三个新变量就取代了原17个变量。

根据经济学知识，斯通给这三个新变量要别命名为总收入1F 、总收入变化率2F 和经济发展或衰退的趋势3F （是时间t 的线性项）。

更有意思的是，这三个变量其实都是可以直接测量的。

二、主成分分析的基本思想与理论1、主成分分析的基本思想在对某一事物进行实证研究中，为了更全面、准确地反映出事物的特征及其发展规律，人们往往要考虑与其有关系的多个指标，这些指标在多元统计中也称为变量。

这样就产生了如下问题：一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标，而另一方面随着考虑指标的增多增加了问题的复杂性，同时也由于各指标均是对同一事物的反映，不可避免地造成信息的大量重叠，这种信息有时甚至会抹杀事物的真正特征与内在规律。

基于上述问题，人们就希望在定量研究中涉及的变量较少，而得到的信息量又较多。

主成分分析和因子分析

x1-100元固定资产原值实现产值, X2-100元固定资产原值实现利税, X3-100元资金实现利税, X4-100元工业总产值实现利税, X5-100元销售收入实现利税, X6-每吨标准煤实现工业产值, X7-每千瓦时电力实现工业产值, X8-全员劳动生产率, X9-100元流动资金实现产值
SPSS操作：分析——描述统计——描述
第4题
朗莱曾分析美国联邦政府雇员人数（Y）与国民总产出隐含平减指数（X1），国民总产出（X2），失业人数（ X3），武装力量人数（X4），14岁及以上非慈善机构人口数（X5），时间变量（X6）等的关系，数据如下。他利用了美国47—62年数据（如下）做多元线性回归。现请你重新做下朗莱的工作，判断有无多重共线性，如有，试用主成分法回归分析消除多重共线性。
计算各企业经济效益的综合得分
由综合得分可排出企业经济效益的名次。
九章第2题
在企业经济效益的评价中,涉及的指标往往很多.为了简化系统结构,抓住经济效益评价中的主要问题,可利用主成分分析法进行综合评价。在对我国部分省,市,自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,用主成分分析进行综合评价。
第一主成分的方差为3.686，第二主成分的方差为1.237 根据成分矩阵得到两个主成分的线性方程：
计算两个主成分对应的值：
两个主成分对应值如下表：
做标准化的因变量与主成分的线性回归：
原始变量均值和标准差如下表：
第5题
经济工作者希望通过国内总产值x1，存储量x2，消费总量x3,去预测进口总额y,为此收集了某地区共计十一年的有关数据，利用主成分估计建立回归方程。
第一主成分得分
2.858915 3.756416 -0.54939 -1.73507 -3.08695 0.320264

主成分分析和因子分析案例分析PPT课件

主成分分析和因子分析
+姓名
主成分分析
基础概念：主要成分分析就是考虑各指标之间的相互关系，利用降维方法将多个指标转换为少数几个互不相关的指标，从而使进一步研究变得简单的一种统计方法。
分析步骤：（1）原始数据标准化处理（2）计算相关数矩阵（3）计算特征值及单位特征向量（4）计算主成分的方差贡献率和累积方差贡献率（5）计算主成分
试分析一个国家参与经济全球化的过程主要受哪些因素影响?
从数据来看，一共15个因素，但有些因素是存在相关性的，同时各因素对全球化影响程度也不一样，故可采用主成分分析。
确定变量及相关步骤
因子分析结果
（1）特征值和方差贡献值
从表中可看前3个主成分已经解释了总方差的近86.7%，故可以选择前3个主成分进行分析。
谢谢大家
荣幸这一路，与你同行
It'S An Honor To Walk With You All The Way
演讲人：XXXXXX 时间：XX年XX月XX日
表明因子提取方法是主成分分析，旋转的方法是方差极大法。
得出结论：北京受x1-x15因素的影响排在第一位。山东排在最后一位。
结束语
当你尽了自己的最大努力时，失败也是伟大的，所以不要放弃，坚持就是正确的。
When You Do Your Best, Failure Is Great, So Don'T Give Up, Stick To The End
旋转后的因子载荷矩阵
是按照前面设定的“方差极大法”对因子载荷矩阵旋转的结果。在旋转前的的矩阵中，因子变量在许多变量上均有较高的载荷，从旋转后的因子可以看出，因子1在1、3、6、7、12、13、 14上有较大载荷，反映科技投入与产出情况，可以命名为创新水平因子：因子2在指标5、8、 15上较大载荷，反映地区经济发展及财政科技投入水平，可以命名为创新因子；因子3在指标9和10上有较大载荷，可以命民为高科技产业发展因子。

主成分分析与因子分析

在实际工作中，为了全面的分析问题，往往会收集很多变量，这些变量之间通常都会存在大量重复信息，如果直接用来分析，不但计算繁琐，模型复杂，而且还有一个更严重的问题就是共线性问题，前面提到过共线性问题会导致模型误差增大，失去意义。

当面对变量过多时，通常的处理方法是降维，即设法将原来众多具有一定相关性的变量，重新组合成一组新的互相无关的综合变量，这些综合变量要尽可能多的反映原有变量的信息。

降维的方法有很多，其中最常用的就是主成分分析和因子分析一、主成分分析(Principal Component Analysis，PCA)1.基本思路设有n个原始变量，如果将它们都用散点图表示，会发现一些变量是存在某种线性关系的，这就是共线性，我们可以利用这个特点，创建一个变量Yi，使它成为某些原始变量的线性组合结果Yi =β+β1x1+...βnxn，这样处理之后，n个原始变量就转化为i个新变量，这i个新变量不同程度的反映了原始变量的信息，并且互不相关，这就解决了共线性问题。

那么接下来的问题是，n个变量的线性组合有很多种，我们取哪种结果作为新变量呢？经典的方法就是根据方差来判断，方差越大，变异越大，而我们的目的并不是消除变异，而是用尽可能少的新变量表示大部分原始变量，因此变异信息也必须尽量完整的反映。

我们将新变量按照方差大小排序，最大者也就是包含变异最多的为第一主成分，以此类推，通常只取前面几个最大的主成分，这样虽然损失部分信息，但是抓住了主要变异，如果全都取的话是没有意义的，因为原则上有多少个原始变量，就可以提取多少个主成分，但是这样做违背了降维的目的，多数情况下，取钱2-3个主成分就可以代表90%以上的变异信息，其余的可以忽略不计。

2.计算过程前面讲了PCA的基本思路，现在用具体数学算法来加以实现<1>数据标准化由于每个变量都有自己的数量级和量纲，首先要对变量进行标准化处理以消除这方面的差异<2>计算协方差矩阵或相关系数矩阵对于一维数据，也就是一个变量的数据，我们可以用均值、方差、标准差来描述，而协方差用于衡量两个变量的总体误差，如果多于两个变量，那就要用协方差矩阵来表示。

《主成份与因子分析》课件

助我们理解变量之间的关系。
因子分析的原理和步骤
1
原理
通过假设存在一些潜在的因子来解释观测数据中的相关性。
2
步骤
1. 确定因子数目 2. 估计因子载荷矩阵 3. 旋转因子载荷矩阵 4. 解释因子载荷矩阵 5. 命名解释出的因子
3
总结与展望
因子分析可以帮助我们理解观测数据中的潜在结构与因果关系。
区别与联系
主成份与因子分析
在这份PPT课件中，我们将探讨主成份与因子分析的定义、背景以及它们在不同领域的应用。我们还将介绍分析的原理和步骤，并通过案例研究加深理解。让我们一同进入这个令人着迷的主题！
定义和背景
1 主成份分析
通过线性组合一组变量，提取出能够解释数据方差最多的几个主成份。
2 因子分析
通过假设存在一些无法直接观测到的“因子”，解释观测数据的相关性。
3 背景
这些分析方法应用广泛，从社会科学到自然科学，都有探索变量关系的需求。
主成份分析的原理和步骤
1
原理
通过寻找能够最大化解释数据方差的线
步骤
2
性组合来减少变量数目。
1. 标准化变量
2. 计算协方差矩阵
3. 计算特征值和特征向量
4. 选择最大特征值对应的特征向量
3
总结与展望
5. 归一化主成份
主性组合减少变量数目，因子分析通过解释观测数据的相关性来揭示潜在的因子。
联系
两种分析方法都可以帮助我们理解变量之间的关系，从而为进一步研究和应用提供依据。
应用领域
社会科学
主成份和因子分析被广泛用于心理学、教育学等社会科学领域，帮助揭示变量之间的潜在关系。
市场研究
通过主成份和因子分析，我们可以了解消费者偏好、产品特征等市场信息。

主成分分析与因子分析

主成分分析与因⼦分析主成分分析，主成份是原始变量的线性组合，在考虑所有主成份的情况下主成份和原始变量间是可以逆转的。

即“简化变量”，将变量以不同的系数合起来，得到好⼏个复合变量，然后在从中挑⼏个能表⽰整体的复合变量就是主成份，然后计算得分。

因⼦分析，公共因⼦和原始变量的关系是不可逆转的，但是可以通过回归得到。

是将变量拆开，分成公共因⼦和特殊因⼦。

过程是：因⼦载荷计算，因⼦旋转，因⼦得分。

主成份分析主成份分析需要知道两变量之间的相关性，⽣成协⽅差举证和相关新矩阵，对应的⽣成的新向量矩阵Y还有特征值λi，对应是第I个新向量对总体信息的贡献率为λi/(λ1+λ2+...+λn),对应的还有⼀个累积贡献率。

确定主成份的个数的⽅法有：特征值⼤于1（要求原始数据的每⼀个变量⾄少能贡献1各单位的变异）、陡坡检验法（陡坡图中开始平坦的点之前的点的个数）、累积解释变异⽐例法（即（λ1+...+λi）/(λ1+λ2+...+λn)>70%）。

同时也可以知道主成分分析对应的⼏个难点①是使⽤协⽅差矩阵还是相关系数矩阵②如何确定主成份的个数。

当数据中不同变量的度量单位不同并且数值相差较⼤就⽤标准化后的相关系数矩阵，当数值相差不⼤并且指标的权重不⼀样时，考虑⽤协⽅差矩阵。

对于个数的确定就是我们⼀些边界问题是否1左右的也可以囊括进主成份中，是否难以确定开始变平坦的是那个点，是否70%不够。

等⼏个问题。

主成分分析可以⽤两个过程步完成PROC FACTORS 、PROC PRINCOMP。

后者能处理的数据量⼤⼀些，效率⾼⼀些，，前者输出的内容丰富些，还可以做旋转因⼦。

以下是主成分分析过程；proc princomp data=sashelp.cars out=car_component;var mpg_city mpg_highway weight wheelbase length;run;输出结果：先是输出统计结果，再是输出相关性矩阵，这⾥princomp步默认使⽤的是相关系数矩阵，实际应⽤过程中，可以通过cov选项来指定使⽤的矩阵。

主成分分析与因子分析法ppt课件

9
事实上，以上问题在平时的研究中，也会经常遇到。它所涉及的问题可以推广到对企业、对学校、对区域进行分析、评价、排序和分类等。
比如对n个样本进行综合评价，可选的描述样本特征的指标很多，而这些指标往往存在一定的相关性（既不完全独立，又不完全相关），这就给研究带来很大不便。若选指标太多，会增加分析问题的难度与复杂性，选指标太少，有可能会漏掉对样本影响较大的指标，影响结果的可靠性。
在各种线性组合中方差达到最大者。
满足上述约束得到的合成变量Y1, Y2, …, Yp分别称为原始变量的第一主成分、第二主成分、…、第 p 主成分，
而且各成分方差在总方差中占的比重依次递减。在实际研究
工作中，仅挑选前几个方差较大的主成分，以达到简化系统
结构的目的。
24
24
三、主成分分析的计算步骤
25
21
(二) 主成分分析的基本思想
假如对某一问题的研究涉及 p 个指标，记为X1，X2, …,
Xp，由这 p 个随机变量构成的随机向量为X=(X1, X2, …,
Xp)，设 X 的均值向量为，协方差矩阵为。设Y=(Y1, Y2 ,
… , Yp)为对 X 进行线性变换得到的合成随机向量，即
Y1 11
主成分分析法与因子分析法
1
主要内容
➢ 主成分分析法 ➢ 因子分析法 ➢ 附：主成分分析法与因子分析法的区别
2
主成分分析法
（Principal Components Analysis,PCA） ➢ 主成分分析法概述 ➢ 主成分分析的基本原理 ➢ 主成分分析的计算步骤
3
一、主成分分析概述
4
引子
假定你是一个公司的财务经理，掌握了公司的所有数据，这包括众多的变量，比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。

主成分分析与因子分析(第20章)

Z1为急性炎症成分（X1转氨酶、X2肝大指数） Z2为慢性炎症成分（X3硫酸锌浊度） Z3为癌变成分（X4甲胎球蛋白）
32
3.求出因子载荷阵
qij i aij
表 20-6 因子载荷阵
X1
X2
X3
X4
Z1
0.91753 0.90420 0.11527 0.21337
Z2
0.09935 -0.29662 0.94550 0.31893
利用所有指标：各指标评价的结论可能不一致，使综合评价困难；工作量大。
6
找出几个综合指标(长度、围度、特体)，这些综合指标是原始指标的线性组合，既保留了原始指标的信息，且互不相关。
各综合指标提供的“信息”量大小用其方差来衡量。
衡量一个指标的好坏除了正确性与精确性外，还必须能充分反映个体间的变异，一项指标在个体间的变异越大，提供的信息量越多。

a
2 2m
1
Z1与Z
无关，互相垂直：
2
a a 21 11 a a 22 12 a a 2m 1m 0
Var (Z2 )在所有Zi中为第2大。
……
理论上主成分个数最多为m个(指标个数)
实际工作中确定的主成分个数总是小于m个11Fra bibliotek相关变异
-2
X2 2
1
-1
0
1
-1 -2
2
X1
12
Z2 2
X2 2
1
1
1
2
Z1
-2
-1
1
2
0
X1
-1
-1
-1
-2
-2
-2