主成分分析法精华讲义及实例

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

主成分分析

类型:一种处理高维数据的方法。

降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。

一、总体主成分

1.1 定义

设 X 1,X 2,…,X p 为某实际问题所涉及的 p 个随机变量。记 X=(X 1,X 2,…,Xp)T ,其协方差矩阵为

()[(())(())],T ij p p E X E X X E X σ⨯∑==--

它是一个 p 阶非负定矩阵。设

1111112212221122221122T

p p T

p p

T p

p p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X

⎧==+++⎪==+++⎪⎨

⎪==+++⎩ (1) 则有

()(),1,2,...,,(,)(,),1,2,...,.

T T i i i i T

T T i j i

j

i

j Var Y Var l X l l i p Cov Y Y Cov l X l X l l j p ==∑===∑= (2)

第 i 个主成分: 一般地,在约束条件

1T i i l l =

(,)0,1,2,..., 1.T i k i k Cov Y Y l l k i =∑==-

下,求 l i 使 Var(Y i )达到最大,由此 l i 所确定的

T i i Y l X =

称为 X 1,X 2,…,X p 的第 i 个主成分。 1.2 总体主成分的计算

设 ∑是12(,,...,)T p X X X X =的协方差矩阵,∑的特征值及相应的正交单位化特征向量分别为

120p λλλ≥≥

≥≥

12,,...,,p e e e

则 X 的第 i 个主成分为

1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==++

+= (3)

此时

(),1,2,...,,

(,)0,.

T

i i i i T

i k i k Var Y e e i p Cov Y Y e e i k λ⎧=∑==⎪⎨=∑=≠⎪⎩ 1.3 总体主成分的性质

1.3.1 主成分的协方差矩阵及总方差

记 12(,,...,)T p Y Y Y Y = 为主成分向量,则 Y=P T X ,其中12(,,...,)p P e e e =,且

12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ=

由此得主成分的总方差为

1

1

1

()()()()(),p p

p

T

T

i

i

i i i i Var Y tr P P tr PP tr Var X λ

=====∑=∑=∑=∑∑∑

即主成分分析是把 p 个原始变量 X 1,X 2,…,X p 的总方差

1

()p

i

i Var X =∑

分解成 p 个互不相关变量 Y 1,Y 2,…,Y p 的方差之和,即

1

()p

i

i Var Y =∑

而 ()k k Var Y λ=。

第 k 个主成分的贡献率:

1

i

p

i

i λλ

=∑;

前m 个主成分累计贡献率:

11m

i

i p

i

i λλ

==∑∑,它表明前 m 个主成分Y 1,Y 2,…,

Y m 综合提供 X 1,X 2,…,X p 中信息的能力。 1.3.2 主成分 Y i 与变量 X j 的相关系数 由于 Y=P T X ,故 X=PY ,从而

1122,

(,).

j j j pj p i j i ij X e Y e Y e Y Cov Y X e λ=+++=

由此可得 Y i 与 X j 的相关系数为

,(,)i

j

Y X ij Cov Y X e λρ=

=

=

(4)

1.4 标准化变量的主成分

在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令

*,1,2,...,,i X i p =

= (5)

其中 (),().i i ii i E X Var X μσ== 这时

****12(,,...,)T

p

X X X X = 的协方差矩阵便是

12(,,...,)T p X X X X =

的相关矩阵 ()ij p p ρρ⨯=,其中

*

*(,)

().ij i

j

Cov X X E X X ρ==

(6)

利用 X 的相关矩阵 ρ 作主成分分析,有如下结论:

设 ****12(,,...,)T

p X X X X =为标准化的随机向量,其协方差矩阵(即 X 的相关

矩阵)为 ρ ,则 *X 的第 i 个主成分为

******

1

2

(),1,2,...,.T i i i i ip

X Y e X e e e i p μ-==++

+= (7)

并且

*

**1

1

1

()(),p

p p

i

i i i i i Var Y

Var X p λ======∑∑∑ (8)

其中 ***120p λλλ≥≥

≥≥为 ρ的特征值,****12(,,...,)T

i i i ip e

e e e =为相应于特征值

*i λ的正交单位特征向量。

第 i 个主成分的贡献率:*

i p

λ;

前 m 个主成分的累计贡献率:*1

m

i

i p

λ

=∑;

*i Y 与*i X 的相关系数为 ***

,i

j

ij Y X ρ=。

相关文档
最新文档