主成分分析与因子分析法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x2
•• • • • • • • • • • • •• • •• • •• • • • •• • • • • •• • • • • • •
x1
在上面的例子中 Y1 和 Y2 就是原变量 X1和 X2
的第一主成分和第二主成分。实际上第一主成
分 Y1 就基本上反映了 X1 和X2 的主要信息,因
为图中的各点在新坐标系中的 Y1 坐标基本上就
主成分分析法与因子分析法
主要内容
主成分分析法 因子分析法 附:主成分分析法与因子分析法的区别
(Principal Components Analysis,PCA)
主成分分析法概述 主成分分析的基本原理 主成分分析的计算步骤
主成分分析法
一、主成分分析概述
引子
假定你是一个公司的财务经理,掌握了公 司的所有数据,这包括众多的变量,比如 固定资产、流动资金、每一笔借贷的数额 和期限、各种税费、工资支出、原料消耗、 产值、利润、折旧、职工人数、职工的分 工和教育程度等等。 如果让你向上级或有关方面介绍公司状况, 你能够把这些指标和数字都原封不动地摆 出去吗?
代表了这些点的分布情况,因此可以选 Y1 为一
个新的综合变量。当然如果再选 Y2也作为综合 变量,那么 Y1 和 Y2 则反映了 X1 和 X2的全部 信息。
(二) 主成分分析的基本思想
假如对某一问题的研究涉及 p 个指标,记为X1,X2, „,
Xp,由这 p 个随机变量构成的随机向量为X=(X1, X2, „, Xp),设 X 的均值向量为,协方差矩阵为。设Y=(Y1, Y2 , „ , Yp)为对 X 进行线性变换得到的合成随机向量,即 Y1 11 12 1 p X 1 Y2 21 22 2 p X 2
因为在实际应用中,往往存在指标的量纲 不同,所以在计算之前须先消除量纲的影 响,而将原始数据标准化。为了实现样本 数据的标准化,应求样本数据的平均和方 差。对数据矩阵Y作标准化处理,即对每一 个指标分量作标准化变换,变换公式为:
Yij Y j i 1,2, n X ij j 1,2, p Sj
其中, 样本均值:
1 n Yi Yki n k 1
样本标准差:
1 n Si Yki Yi n 1 k 1
2
原始变量 Y ij 经规格化后变为新变量 X , 其均值为零,方差为1。 对二维空间来讲n个标准化后的样本在 二维空间的分布大体为一椭圆形,该椭 圆有一个长轴和一个短轴。在短轴方向 上数据变化很少,极端的情况下,短轴 如退化成一点,长轴的方向可以完全解 释这些点的变化,由二维到一维的降维 就自然完成了。
其矩阵形式为:
X AF e
其中A (aij ), aij为因子载荷。数学上可以证明,因子载 荷 aij 就是第i变量与第j因子的相关系数,反映了第 i变量在第j因子上的重要性。 F称为X的公共因子或潜因子,矩阵A称为因子载荷矩 阵,e称为X的特殊因子。
附、主成分分析与因子分析的区别
主成分分析法与因子分析法的区别
信息,通常用方差来度量“信息”,Yi 的方差越大表示它 所包含的信息越多。由式(3)可以看出将系数向量i 扩大 任意倍数会使Yi 的方差无限增大,为了消除这种不确定性, 增加约束条件:
a a i 1 i
23
为了有效地反映原始变量的信息,Y的不同分量包含的
信息不应重叠。综上所述,式(1)的线性变换需要满足下 面的约束:
因子模型的表达式为:
x1 a11 F1 a12 F2 a1m Fm e1 x2 a21 F1 a22 F2 a2 m Fm e2 x p a p1 F1 a p 2 F2 a pm Fm e p
(二)因子分析法的模型
狭义的因子分析法常与主成分分析法在处理方法上有相类 似之处,都要对变量规格化,并找出原始变量规格化后的 相关矩阵。其主要不同点在于建立线性方程组时所考虑的 方法,因子分析是以回归方程的形式将变量表示成因子的 线性组合,而且要使因子数m小于原始变量维数p,从而简 化了模型结构。 其步骤为: 将原始数据标准化→求标准化数据的相关矩阵→求相 关矩阵的特征值和特征向量→计算方差贡献率与累计方差 贡献率→确定因子→因子旋转→用原始的线性组合求各因 子得分→求综合得分→得分排序
1 2 p 0
2、分别求出对应于特征值 i 的特征向量
p
ei (i 1,2,, p) ,要求 ei
2 eij 1 , =1,即 j 1
e ij 其中 表示向量 e i 为单位向量。
ei 的第j个分量,也就是说
(三)计算主成分贡献率及累计贡献率
主成分分析是把 p 个随机变量的总方差分解为 p 个不相 关随机变量的方差之和1 + 2 +„+ P,则总方差中属于 第 i 个主成分(被第 i 个主成分所解释)的比例为
Y p1 p 2 pp X p p 设i=(i1, i2 , „, ip), i 1 , 2 ,, p A=(1 , 2 ,„, p),则有
(1)
Y AX
ij
假定语文成绩
x2
(X1) 和数学成
绩 (X2)分别为 标准化后的分数, 右图为其散点图, 椭圆倾斜为45度。
•• • • • • • • • • • • •• • •• • •• • • • •• • • • • •• • • • • • •
x1
如果将坐标轴 X1 和 X2 旋转45º ,那么点在新坐标
在各种线性组合中方差达到最大者。
p-1不相关的条件下,
满足上述约束得到的合成变量Y1, Y2, „, Yp分别称为 原始变量的第一主成分、第二主成分、„、第 p 主成分, 而且各成分方差在总方差中占的比重依次递减。在实际研究
工作中,仅挑选前几个方差较大的主成分,以达到简化系统
结构的目的。
24
三、主成分分析的计算步骤
成绩数据
53个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
从本例可能提出的问题
能不能把这个数据表中的6个变量用一 两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信 息呢?
事实上,以上问题在平时的研究中,也会经 常遇到。它所涉及的问题可以推广到对企业、 对学校、对区域进行分析、评价、排序和分 类等。 比如对n个样本进行综合评价,可选的描述样 本特征的指标很多,而这些指标往往存在一 定的相关性(既不完全独立,又不完全相 关),这就给研究带来很大不便。若选指标 太多,会增加分析问题的难度与复杂性,选 指标太少,有可能会漏掉对样本影响较大的 指标,影响结果的可靠性。
当然不能。汇报什么? 发现在如此多的变量之中,有很多是 相关的。人们希望能够找出它们的少 数“代表”来对它们进行描述。 需要把这种有很多变量的数据进行高 度概括,用少数几个指标简单明了地 把情况说清楚。
什么是主成分分析法?
主成分分析法( Principal Components Analysis ) 和因子分析法(Factor Analysis)就是把变量维数 降低以便于描述、理解和分析的方法。 主成分分析也称为主分量分析,是一种通过降维来 简化数据结构的方法:如何把多个变量化为少数几 个综合变量(综合指标) ,而这几个综合变量可以 反映原来多个变量的大部分信息,所含的信息又互 不重叠,即它们之间要相互独立,互不相关。 这些综合变量就叫因子或主成分,它是不可观测的, 即它不是具体的变量,只是几个指标的综合。 在引入主成分分析之前,先看下面的例子。
1 2 p
称为第 i 个主成分的贡献率。定义
i
j 1 j i 1
m
p
i
m p
称为前 m 个主成分的累积贡献率,衡量了前 m 个主成份对
原始变量的解释程度。
29
(四)计算主成分载荷
lij p( zi , x j ) i eij (i, j 1,2,, p)
(3.5.3)
rij (i,j=1,2,…,p)为原变量xi 与xj 标准化后的 相关系数, rij=rji,其计算公式为
rij
(x
k 1
n
ki
xi )(xkj x j )
n
(x
k 1
n
ki
xi ) 2 ( xkj x j ) 2
k 1wk.baidu.com
(3.5.4)
(二)计算特征值与特征向量 1、解特征方程 I R 0 ,求出特征值,并使 其按大小顺序排列
系中的坐标(Y1,Y2)与原坐标(X1,X2)有如下的
关系:
Y1和Y2均是X1 和 X2 的线性组合
在新坐标系中, 可以发现:虽然 散点图的形状没 有改变,但新的 随机变量 Y1 和 Y2 已经不再相 关。而且大部分 点沿 Y1 轴散开, 在 Y1 轴方向的 变异较大(即 Y1的方差较 大) ,相对来说, 在 Y2轴方向的 变异较小(即 Y2 的方差较 小) 。
成
在主成分之间不相关时,主成分载荷就是主 分zi与变量xj之间的相关系数
因子分析法 (Factor Analysis,FA)
因子分析法概述 因子分析法的模型 附:主成分分析与因子分析的区别
(一)因子分析法概述
因子分析法与主成分分析法都基于统计分 析法,但两者有较大的区别。主成分分析 是通过坐标变换提取主成分,也就是将一 组具有相关性的变量变换为一组独立的变 量,将主成分表示为原始观察变量的线性 组合。而因子分析法是要构造因子模型, 将原始观察变量分解为因子的线性组合。 因此因子分析法是主成分分析法的发展。
主成分分析 因子分析
将主成分表示为原观测变量的线性 将原观测变量表示为新因子的线性组合 组合
新变量的坐标维数p与原变量维数 相同,它只是将一组有相关性的变 量通过正交变换转成一组维数相同 的独立变量,再按总方差误差的允 许值大小来选定q个主成分
经正交变换的变量系数是相关矩阵R的 特征向量的相应元素 新变量数m小于原变量数p,它是要构造 一个模型,将多变量减少为几个新因子, 从而构造一个结构简单的模型
(一)计算相关系数矩阵 (二)计算特征值与特征向量 (三)计算主成分贡献率及累计贡献率 (四)计算主成分载荷
(一)计算相关系数矩阵
r11 r 21 R rp1 r12 r22 rp 2 r1 p r2 p rpp
(1) a ai 1 即 a a a 1 ,i =1, 2, „, p。 i (2) Y1在满足约束 (1) 即的情况下,方差最大;Y2是在满足
2 i1 2 i2 2 ip
约束(1) ,且与Y1不相关的条件下,其方差达到大;„„;
Yp是在满足约束(1) ,且与Y1,Y2,„,Y
(2)
22
且
var( i ) α Σαi Y i cov( i , Y j ) αi Σα j Y
i 1 , 2 ,, p i, j 1 , 2 ,, p
(3)
由是式(1)(2)能够看出,可以对原始变量进行任意 的线性变换,不同线性变换得到的合成变量Y的统计特征显
然是不一样的。每个Yi 应尽可能多地反映 p 个原始变量的
这就需要我们在相关分析的基础上,采 用主成分分析法找到几个新的相互独立 的综合指标,达到既减少指标数量、又 能区分样本间差异的目的。
二、主成分分析的基本原理
(一)主成分分析的几何解释 (二)主成分分析的基本思想
(一)主成分分析的几何解释 例中数据点是六维的;即每个观测值是6维空 间中的一个点。希望把6维空间用低维空间表 示。 先假定只有二维,即只有两个变量,语文成 绩(x1)和数学成绩(x2),分别由横坐标和 纵坐标所代表; 每个学生都是二维坐标系中的一个点。