第五章主成分分析与典型相关分析教材
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
m
p
i / i 称为Y1,Y2,…,Ym的累计贡献率。
i 1
i 1
实际中常取m<p,使前m个主成分的累计贡献率达到
较高的比例。累计贡献率表达了前m个主成分提取了原
变量X1,X2,…,Xp的多少信息,但没有表达某个变量被提 取了多少信息,为此
定义5.2 前m个主成分对原变量xi的贡献率Fi是
M
Yp
l
T p
X
lp1 X1 lp2 X 2
L
l pp X p
3
易知有
Var(Yi ) Var(liT X ) liT li , i 1, 2,L , p,
Cov(Yi
,Yj
)
Cov(liT
X
,
l
T j
X
)
liT
l
j
,
j 1, 2,L , p.
如果我们希望用Y1代替原来 p个变量X1,X2,…Xp,这就要 求Y1尽可能地反映原 p个变量的信息。这里“信息”用 Y1的方差来度量,即要求
7
总体主成分的性质
1. 主成分的协方差矩阵及总方差 记Y=(Y1,Y2,…Yp)T为主成分向量,则Y=TX ,其中
=(1, 2,…, p),且
Cov(Y ) Cov(T X ) T Diag(1,L , p )
由此得主成分的总方差为
p
p
p
Var(Yi ) i tr(T ) tr() Var( Xi )
达到最大。Var(Y1) l1T l1
若l1不加限制,则Var(Y1)无界。在约束条件l1Tl1=1之 下,求 l1使Var(Y1)达到最大,由此l1所确定的随机变量
Y1 l1T X 称为 X1,X2,…,Xp的第一主成分。
4
如果第一主成分Y1还不足以反映原变量的信息,进一 步求Y2。为了使Y1和Y2反映原变量的信息不相重叠,要 求Y1与Y2不相关,即
Yi iT X i1X1 i2 X2 L ip X p , i 1, 2,L , p
其中i=(i1, i2,…, ip)T. 这时易见:
Var(Yi ) iT i iiTi i , i 1, 2,L , p
Cov(Yi ,Yk )
iT
k
k iT k
0,
ik
证明从略。
6
以上结果告诉我们,求 X 的各主成分,等价于求 它的协方差矩阵的各特征值 及相应的正交单位化特 征向量。按特征值由大到小所对应的正交单位化特征 向量为组合系数的X1,X2,…,Xp 的线性组合分别为X 的 第一、第二、直至第 p 个住成分,而各主成分的方差 等于相应的特征值。
=(ij)pp=E[(X-E(X))(X-E(X))T]
它是一个p阶非负定矩阵。设li=(li1,li2,…,lip)T (i=1,2,…,p) 为p个常数向量,考虑如下线性组合:
Y1 l1T X l11 X1 l12 X 2 ... l1p X p
Y2 l2T X l21 X1 l22 X 2 L l2 p X p
由此可得 Yi 与 Xj相关系数(也称为因子负荷量)为
Yi , X j
Cov(Yi , X j ) Var(Yi ) Var(X j )
iij i jj
i jj
ij
它给出了主成分Yi与 原始变量Xj 的关联性的度量。
9
p
定义5.1 k / i 称为第k 个主成分Yk 的贡献率; i 1
m
Fi ki2k /ii k 1
10
wk.baidu.com
通过具体例子说明求总体主成分的方法。
例5.1 设随机变量X=(X1,X2,X3)T 的协方差矩阵为
1 2 0 2 5 0
0 0 2
求 X的各主成分。
解 易得的特征值及相应的正交化特征向量分别为
1 5.83,1T (0.383, 0.924, 0),
第五章 主成分分析与典型相关分析
主成分分析是研究如何通过原来变量的少数几个线 性组合来解释随机向量的方差——协方差结构。 具体地说,其目的 (1)化简数据
当p个变量的大部分变量能够由它们的k(比p小很 多)个主成分(特殊的线性组合)来概括。如果所考 虑的问题是这种情况,那么包括在这k个主成分中的信 息与原来p个变量几乎一样多,可以用这k个主成分代 替原p个变量,这样一来,由p个变量的n次观测组成的 数据就被简化为k个主成分的n
1
(2)揭示变量间的关系 主成分的另一种作用是揭示变量之间的一些关系,
而这些关系往往是用别的方法或具体专业知识所难以 预料的。例如主成分应用在回归分析中,可以给出回 归自变量的近似复共线关系,这对于数据分析会带来
2
§5.1 总体主成分
设X1,X2,…,Xp为某实际问题所涉及的p个随机变量。
记X=(X1,X2,…,Xp)T, 其均值向量=E(X), 协方差矩阵
i 1
i 1
i 1
即主成分分析是把p个原变量X1,X2,…,Xp的总方差分解 成p个不相关变量Y1,Y2,…,Yp 的方差之和。
8
2. 主成分Yi与变量Xj的相关系数 由于 Y T X ,故 X Y ,从而
X j 1 jY1 2 jY2 L pjYp ,
Cov(Yi , X j ) iij
Cov(Y1,Y2 ) l1T l2 0
于是,在约束条件l2Tl2 =1及l1Tl2 =0之下,求l2 使 Var(Y2)达到最大,由此l2 所确定的随机变量Y2=l2TX 称 为X1, X2, …, Xp的第二主成分。
一般地,在约束条件 liT li 1 及
Cov(Yi ,Yk ) liT
l k
0
(k 1, 2,L ,i 1)
下,求li 使Var(Yi) 达到最大,由此li所确定的 Yi liT X 称为X1,X2,…,Xp的第i个主成分 。
5
总体主成分的求法
关于总体主成分有如下结论:
定理5.1 设是X=(X1,X2,…Xp)T 的协方差矩阵,的特征
值及相应的正交单位化特征向量分别为1≥2≥...≥p 及 1,2,…,p,则X的第i 主成分为