主成分分析数据的标准化与非标准化的对比分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析的基本理论
假设我们所讨论的实际问题中有p 个指标,我们把这p 个指标看作p 个随机变量,记为12,,
P X X X 。这p 个指标构成的p 维随机向量为12(,,
)'P X X X X =.
设随机向量X 的均值为μ,协方差为∑。
对X 进行线性转换,可以形成新的综合变量,用Y 表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足
11112121212122221122p p
p p p p p pp p
Y u X u X u X Y u X u X u X Y u X u X u X =+++=+++=++
+
由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量Y 的统计特征也不尽相同。因此为了取得较好的效果,我们总是希望
'i i Y u X =的方差尽可能大且各j Y 之间互相独立,由于
var()var(')'i i i i Y u X u u ==∑
而对任给的常数c ,有2var(')''i i i i i cu X cu u c c u u =∑=∑
因此对i u 不加限制时,可使var()i Y 任意增大,问题将变得没有意义。我们将线性变换约束在下面原则下:
1. 每个主成分的系数平方和为1,'1i i u u =即22
2121i i pi u u u ++
+=
2. 主成分之间相互独立,即无重叠的信息。即
012)i j Cov F F i j i j p =≠=(,),(;,,,
,
3. 主成分的方差依次递减,重要性依次递减,1Y 是12,,
P X X X 所有线性组合
中方差最大者;即2Y 是与1Y 不相关的12,,P X X X 所有线性组合中方差最大者;
1p Y -是与121,,
,p Y Y Y -不相关的12,,P X X X 所有线性组合中方差最大
者。12()()p Var
F Var F Var F ≥≥≥()
基于以上三条原则决定的综合变量12,,
,p Y Y Y 分别为原始变量的第一、二、
第p 主成分。其中,各综合变量在总方差中占得比重依次递减。
主成分分析基本思想是在力保数据信息损失最少的原则下,把多个指标转化为少数几个综合指标的一种对多变量数据进行最佳综合简化。对于随机变量
12,,
,P X X X 而言,其协方差矩阵或相关矩阵正是对个变量离散程度与变量之间
的相关程度的信息的反映,而相关矩阵是将原始变量标准化后的协方差矩阵。本
文所要讨论的主成分分析数据的标准化与非标准化的对比分析本质上就是对原始变量的协方差矩阵以及相关矩阵求解主成分进行对比分析。下面就对二者进行讨论。
主成分求解
一、从协方差矩阵出发求解主成分
(一)第一主成分:
设X 的协方差阵为: 1112121
22
212
P P X P P PP σσσσσσσσσ⎡⎤⎢⎥⎢⎥
∑=⎢⎥
⎢
⎥⎣⎦
由于x ∑为非负定的对称阵,则有利用线性代数的知识可得,必存在正交
阵U ,使得 100p λλ⎡⎤⎢
⎥'=⎢
⎥⎢⎥⎣
⎦
X U ΣU 其中12,,,p λλλ⋅⋅⋅为x ∑的特征根,不妨假设12p λλλ≥≥⋅⋅⋅≥。而U 恰好是由特征根相对应的特征向量所组成的正交阵。
1112
12122212(,,)p p p p pp u u u u u u u u u ⎡⎤⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎣⎦
1p U u u ()121,2,,i i pi u u u i P '
==i U ,,,
下面我们来看,是否由U 的第一列元素所构成为原始变量的线性组合是否有最大的方差。
设有P 维正交向量(
)111211,,
,p a a a '=a
11111'p p Y a X a X a X =++⋅⋅⋅+=
1
2
11111()p V Y λλλ⎡⎤
⎢
⎥'''=∑=⎢⎥⎢⎥⎣
⎦
a a a U U a
12
1
2
1111
111
()()p
i i i i p
i i i p
i i p
i i i λλλλλλλ====''='='≤''='''===∑∑∑∑a u u a
a u a u a u u a
a UU a a a
当且仅当11a u =时,即11111p p Y u X u X =++时,有最大的方差1λ。因为
1111()'Var F U xU λ=∑=如果第一主成分的信息不够,则需要寻找第二主成分。
(二) 第二主成分
在约束条件12cov(,)0Y Y =下,寻找第二主成分 21212p p Y u X u X =++
因为121221121cov(,)cov(,)0Y Y u x u x u u u u λ''''==∑== 所以210u u '=
则,对p 维向量2u ,有2
2222221
1
()()p p
i i i i i i i V Y u u λλ==''''=∑=
=∑∑u u u u u u 22222221
p
i i i λλλλ='''''====∑222u u u u u UU u u u
所以如果取线性变换:21212222p p Y u X u X u X =+++则2Y 的方差次大。
类推11112121212122221122p p
p p p p p pp p
Y u X u X u X Y u X u X u X Y u X u X u X
=+++=+++=+++
写为矩阵形式:Y '=U X
11
12
121
2221
2
(,
,)p p p p pp u u u u u u u u u ⎡⎤⎢⎥==⎢⎥⎢⎥⎣⎦
1p U u u
12(,,
,)p X X X '=X
上述推导表明:变量x 的主成分y 是以∑的特征向量为系数的线性组合,它们互不相关,方差为∑的特征根。而∑得特征根120p λλλ≥≥⋅⋅⋅≥>,所以
12()()()0p Var y Var y Var y ≥≥⋅⋅⋅≥>。