主成分分析和因子分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(13.1.8)
8
由上述推导得
Y1 e1 X ,Y2 e2 X ,,Yp ep X (13.1.9)
可见Y1, Y2, …, Yp 即为原始变量的 p 个主成份。因此,主
成分的求解转变为求 X1, X2, …, Xp 协方差矩阵 的特征值和特
征向量的问题。
9
2.主成份的性质
性质1 Y的协方差矩阵为对角阵,即
1
ຫໍສະໝຸດ Baidu
13.1 主成分分析
主成分分析(principal components analysis,简称 PCA)是由霍特林(Hotelling)于1933年首先提出的。 它通过投影的方法,实现数据的降维,在损失较少数 据信息的基础上把多个指标转化为几个有代表意义的 综合指标。
2
13.1.1 主成分分析的基本思想
(2) Y1在满足约束 (1) 即的情况下,方差最大;Y2是在满 足约束(1) ,且与Y1不相关的条件下,其方差达到最大;……; Yp是在满足约束(1) ,且与Y1,Y2,…,Y p-1不相关的条件下, 在各种线性组合中方差达到最大者。
满足上述约束得到的合成变量Y1, Y2, …, Yp分别称为原始 变量的第一主成分、第二主成分、…、第 p 主成分,而且各 成分方差在总方差中占的比重依次递减。在实际研究工作中,
e2 ,…, ep为 矩阵各特征值对应的标准正交特征向量,则对于任
意的ei 和 ej,有

eie j
1, 0,
i j i j
(13.1.4)
p
Σ ieiei , i 1
p
ei ei I
i 1
(13.1.5)
7
因此
p
p
a1Σa1 a1( ieiei)a1 1a1( eiei)a1 1a1Ia1 1
中属于第 i 个主成分(被第 i 个主成分所解释)的比例为
i 1 2 p
称为第 i 个主成分的贡献度。定义
(13.1.12)
m
j
j 1
p
i
i 1
m p
(13.1.13)
称为前 m 个主成分的累积贡献度,衡量了前 m 个主成份对原 始变量的解释程度。
11
性质3 记第k个主成分 Yk 与原始变量 Xi 的相关系数为 r(Yk,Xi),称为因子载荷,或者因子负荷量,则有
仅挑选前几个方差较大的主成分,以达到简化系统结构的目
的。
5
13.1.2 总体主成分求解及其性质
13.1.1节中提到主成分分析的基本思想是考虑合成 变量的方差大小及其对原始变量波动(方差)的贡献大小, 而对于原始随机变量X1,X2,…,Xp,其协方差矩阵 或相关矩阵正是对各变量离散程度和相关程度的度量。 在实际求解主成分时,一般从原始变量的协方差矩阵 或相关矩阵的结构分析出发。
1p X 1 2 p X 2
Yp p1 p2 pp X p
(13.1.1)
设i=(i1, i2 , …, ip),( i 1 , 2 ,, p ), A=(1 , 2 ,…,
p),则有
Y AX
(13.1.2)
3

var(Yi ) αi Σαi cov(Yi ,Yj ) αiΣα j
6
1.从协方差矩阵出发求解主成分
设1是任意 p1向量,求解主成份就是在约束条件 ai ai 下 1,
求 X 的线性函数
Y1 a使1X其方差
var(Y1) a1达Σa到1 最大,
即达到最大,且
ai ai,其1 中 是随机变量向量X =(X1, X2, …,
Xp)的协方差矩阵。设1 ≥ 2 ≥ … ≥ p ≥ 0 为 的特征值,e1 ,
假如对某一问题的研究涉及 p 个指标,记为X1,X2, …, Xp,由这 p 个随机变量构成的随机向量为X=(X1, X2, …, Xp),
设 X 的均值向量为,协方差矩阵为。设Y=(Y1, Y2 , … , Yp)
为对 X 进行线性变换得到的合成随机向量,即
Y1 11
Y2
21
12
22
r(Yk , X i )
cov(Yk , X i ) var(Yk ) var(X i )
k eki eki k
k ii
ii
i , k 1, 2,, p (13.1.14)
i 1 , 2 ,, p
i, j 1 , 2 ,, p
(13.1.3)
由式(13.1.1)和式(13.1.2)可以看出,可以对原始变
量进行任意的线性变换,不同线性变换得到的合成变量Y的
统计特征显然是不一样的。每个Yi 应尽可能多地反映 p 个原 始变量的信息,通常用方差来度量“信息”,Yi 的方差越大 表示它所包含的信息越多。由式(13.1.3)可以看出将系数
1 0
var(Y ) Λ
0
p
(13.1.10)
性质2 设=(ij)p×p是随机变量向量 X 的协方差矩阵,
可得
p
p
var(X i ) var(Yi )
i 1
i 1

p
p
ii i
i 1
i 1
10
由此可见,主成分分析是把 p 个随机变量的总方差分解为
p 个不相关随机变量的方差之和1 + 2 +…+ P,则总方差
向量i 扩大任意倍数会使Yi 的方差无限增大,为了消除这种
不确定性,增加约束条件:
ai ai 1
4
为了有效地反映原始变量的信息,Y的不同分量包含的 信息不应重叠。综上所述,式(13.1.1)的线性变换需要满 足下面的约束:
(1) ai ai 1,即 ai21 ai22 ai2p 1 ,i =1, 2, …, p。
i 1
i 1
(13.1.6)
当1 = e1 时有
e1Σe1 e11e1 1e1e1 1
(13.1.7)
此时 var(Y1) a1Σa1 达到最大值为1。同理有 var(eiX ) i
并且
cov(eiX , ej X ) eiΣe j j eie j 0,
i j 1, 2,, p
第十三章 主成分分析和因子分析
在建立多元回归模型时,为了更准确地反映事物的特 征,人们经常会在模型中包含较多相关解释变量,这不仅 使得问题分析变得复杂,而且变量之间可能存在多重共线 性,使得数据提供的信息发生重叠,甚至会抹杀事物的真 正特征。为了解决这些问题,需要采用降维的思想,将所 有指标的信息通过少数几个指标来反映,在低维空间将信 息分解为互不相关的部分以获得更有意义的解释。本章介 绍的主成分分析和因子分析可用于解决这类问题。
相关文档
最新文档