7-1主成分分析解析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X2 Y2
Y1
X1
对于二元正态分布变量,n个点的散布大致为一个椭圆, 若在椭圆长轴方向取坐标轴Y1,在短轴方向取Y2,这相 当于在平面上作一个坐标变换,即:
Y1 X 1 cos X 2 sin Y2 X 1 sin X 2 cos
可以看到Y1、Y2是原变量X1和X2的线性组合,用矩阵表 示为
第一主成分可解释为身材魁伟与否. 第二主成分可解释为体型成分. 当y2较大时,表明x1, x4大而x2, x3小,说明该生较瘦 当y2较小,时,表明x1 ,x4小而x2, x3大,说明该生较胖
4 . 举例
例一
设模式X=(X1,X2,X3)T的协方差矩阵为
1 2 0 2 5 0 , 0 0 2
袖长 胸围 长度指标 经过主成分分析 胖痩指标 腰围 肩宽 反映特体的指标 肩厚
在实际问题中,研究多变量问题是经常遇到的, 然而在多数情况下,不同指标之间是有一定相关性.
由于指标较多,再加上指标之间有一定的相关性,势
中选出少数几个新变量并使它们含有尽可能多的原
变量带有的信息,从而使得用这几个新变量代替原变 量分析问题和解决问题成为可能.当研究的问题确定 之后,变量中所含“信息”的大小通常用该变量的方 差或样本方差来度量.
如图, 设二维样本 集呈现扁椭圆分布. 将二维样本Xi向长 轴方向投影,可得 到一维样本yi 设u为长轴方向的 单位向量,则有
yi eiT x e1i x1 e2i x2
e pi x p , i 1,2,
, p,
其中x=(x1,x2,…,xp)T为X的任一观测值.当依次代入X 的n个观测值xk=(x1k,x2k,…,xpk)T时,便得到第i个样本 主成分yi的n个观测值yik(k=1,2,…,n).
1 n sij ( xik xi )( x jk x j ), i, j 1,2, n 1 j 1
分别以S和R作为∑和ρ的估计,按前面所述的方法求得 的主成分称为样本主成分.具体有如下结论:
设S=(sij)p×p是样本协方差矩阵,其特征值为 1 2 p 0 ,相应的正交单位化特征向量为 e1 , e2 , , e p ,则第i个样本主成分为:
i 1, 2,..., k 1
利用微积分知识的知识,可得如下结论. 定理1 设∑是X=(X1,X2,…,Xp)T的协方差矩阵, ∑的特 征值及其相应的正交单位特征向量分别为 1 2 p 0 及e1,e2,…,ep,则X的第i个主成分为
Yi e X e1i X1 e2i X 2
Y1 cos Y2 sin
sin X1 X U X cos 2
显然U’=U-1且是正交矩阵. 如果上图的椭圆是相当扁平的,可以只考虑长轴Y1方 向上的波动,忽略Y2方向的波动.这样,二维可以降为 一维.
一般情况,p个变量组成p维空间,n个样本就是p 维空间的n个点,对p元正态分布变量来说,找主 成分的问题就是找p维空间中椭圆体的主轴问 题.
必增加了分析问题的复杂性.主成分分析就是设法将 原来指标重新组合成一组新的相互无关的几个综合 指标来代替原来指标,同时根据实际需要从中可取几 个较少的综合指标尽可能多地反映原来指标的信息 .
这种将多个指标化为少数相互无关的综合指标的统
计方法叫做主成分分析.
主成分分析的基本方法是通过构造原变量的适 当的线性组合,以产生一系列互不相关的新信息,从
1 /(1 2 ) 99.2%
可以看到由于X2的方差很大,它完全控制了提取信息 量占99.2%的第一主成分,淹没了X1的作用.
如果从ρ出发作主成分分析,易求得 * 1* 1.4, e1 (0.707,0.707)T ,
* * 2 0.6, e2 (0.707, 0.707)T
T
只要求出R的特征值及相应的正交单位化特征向量,类 似上述结果可求得标准化样本主成分.这时标准化样 本的样本总方差为p.
1) 理论解释
3. 主成分解释
从代数观点看主成分就是p个变量X1,X2,…,Xp的一些 特殊的线性组合. 在几何上这些线性组合正是把X1,X2,…,Xp构成的坐标 系旋转产生新坐标系,新坐标系轴使之通过样本变差 最大的方向(或说具有最大的样本方差). 下面以最简单的二元正态变量来说明主成分的几何 意义. 设有n个样本,每个样本有p个变量记为X1,X2,…,Xp,它 们的综合变量记为Y1,Y2,…,Yp.当p=2时,原变量是X1, X2,设X=(X1,X2)’~N2(μ, ∑),它们有下图的相关关系:
易知有:
Var (Yi ) Var (liT X ) liT li , i 1, 2, , p, i, j 1, 2, , p.
T Cov(Yi , Y j ) Cov(liT X , l T X ) l j i l j , i j,
我们希望用Y1代替原来p个变量,这就要求Y1尽可能的 反映原p个变量的信息,即Var(Y1)越大.为此,我们对li 做如下限制,否则Var(Y1)无界,即:
2) 实际解释 关于主成分的实际意义,要结合具体为体和有关专 业知识才能给出合理的解释. 如:对某中学初一学生进行体检,测量四个量:身高x1, 体重x2, 胸围x3, 坐高x4,经计算得第一,第二主成分为
y1 0.42 x1 0.66 x2 0.57 x3 0.26 x4 y2 0.78x1 0.23x2 0.47 x3 0.34 x4
X*的两个主成分分别为
* Y1 0.707 X1* 0.707 X 2 0.707( X1 1 ) 0.707( X 2 2 ) * Y2 0.707 X1* 0.707 X 2 0.707( X1 1 ) 0.707( X 2 2 )
取第一主成分,则贡献率为
5.83 73% 5.83 2.00 0.17
若取前两个主成分,则累计贡献率为
5.83 2.00 98% 5.83 2.00 0.17
因此,可用前两个主成分代替原来三个变量.
例二
设随机变量X=(X1,X2 )T的协方差矩阵为
1 0.4 , 相应的相关矩阵为 0.4 1 4 1 , 0.4 100
2.主成分的计算方法
在实际问题中,一般∑(或ρ)是未知的,需要通过样本来 估计.设 1 n T S ( sij ) p p ( x x )( x x ) , k k n 1 k 1 sij R (rij ) p p sii s jj
其中
x ( x1 , x2 , , x p )T , 1 n xi xij , i 1,2, n j 1 , p, , p.
T ì Y A l ï 1 1 X = l11X 1 + l21X 2 + L + l p 1X p , ï ï ï T ï Y A l 2 2 X = l12X 1 + l22X 2 + L + l p 2X p , ï ï í ï M ï ï ï T ï Y A l ï p p X = l1p X 1 + l2 p X 2 + L + lpp X p , ï î
x2
Xi
yi
u
x1
yi u X i
T
一般如何求“最好”的方向 u
1. 数学模型
设X1,X2,…,Xp为某实际问题所涉及的p个随机变量. 记X=(X1,X2,…,Xp)T,其协方差矩阵为
( ij ) p p E X E ( X ) X E ( X )
T
设li=(l1i, l2i ,…, lpi )T(i=1,2,…,p)为p个常数向量,考虑 如下线性组合:
T l2 l2 1 及 l1T l2 0 之下
求l2 使Var(Y2)达到最大,由此l2所确定的随机变量 Y2=l2TX称为X的第二主成分.
T max Var(Y) l l 一般,由优化问题 l
lT l 1 T Cov ( Y , Y ) l li 0, i 的l解得的Y=lTX称为X的第k主成分.
如果从∑出发作主成分分析,易求得 1 100.16, e1 (0.040,0.999)T ,
2 0.84, e2 (0.999, 0.040)T
X的两个主成分分别为
Y1 0.040 X1 0.999 X 2 , Y2 0.999 X1 0.040 X 2.
第一主成分的贡献率为
第七章 主成分分析 Principal Component Analysis Factory Analysis
主成分分析
1 . 数学模型 2 . 主成分的计算方法 3. 主成分解释
4. 举例
主成分分析是处理降维的一种方法.如下例所示:
某人要做一件上衣要测量很多尺寸,如身长、袖长 等十几项指标,但某服装厂要生产一批新型服装绝 不可能把尺寸的型号分得过多,而是从多种指标中 综合成几个少数的综合指标,作为分类的型号,如下 图: 身长
Var ( X )
i 1 i i 1
p
p
ii
i Var (Yi ).
i 1 i 1
p
p
由定理2,我们特给出如下定义: 定义 第k个主成分Yk的贡献率为:
k
i 1
p
i
前m个主成分Y1,Y2,…,Ym的累计贡献率为:
i 1 i 1 p
m
i
i
在实际应用中,通常选取m<p,使前m个累计贡献率达到 一定的比例(80%~90%).这样用前m 个主成分代替原 来的变量X1,X2,…,Xp而不至于损失太多的信息,从而到 达减少变量个数的目的.
为了消除量纲的影响,我们可以对样本进行标准化,即 令
x x x x x x pi p , i 1,2, , n. xi* 1i 1 , 2i 2 , , s11 s s 22 pp
则标准化数据的样本协方差矩阵即为原数据的样本相 关矩阵R. 由R出发所求得的样本主成分称为标准化样本主成分.
T i
epi X p , i 1,2,
, p,
并且有:
Var (Yi ) eiT ei i , i 1, 2, , p, T Cov ( Y , Y ) e i k i ek 0, i k .
由此可知,求X的各主成分,等价于求∑的各个特征 值及其相应的正交单位化特征向量,按特征值由大 到小所对应的特征向量为组合系数的X1,X2,…,Xp的 线性组合分别为X的第一、第二、甚至第p个主成分, 而各主成分的方差等于相应的特征值. 下面进一步讨论X1,X2,…,Xp的方差与各主成分的方 差之间的关系,以确定各主成分所包含的信息占中总 信息的份额.易证下面结果: 定理2 设Yi=eiTX(i=1,2,…,p)为X的p各主成分,则:
liT li 1
因此,我们希望在约束条件l1Tl1=1之下,求l1使达到最 大,由此l1所确定的随机变量Y1=l1TX称为X的第一主 成分.
如果第一主成分Y1还不足以反映原变量的信息,考虑 采用Y2.但要求Y1与Y2不相关,即
Cov(Y1, Y2 ) l l2 0.
T 1Leabharlann Baidu
于是,在约束条件
求X的各主成分.
解: 易求得∑的特征值及其相应的正交化特征向量 分别为 1 5.83, e1T (0.383, 0.924,0),
T 2 2.00, e2 (0,0,1), T 3 0.17, e3 (0,924,0,383,0).
因此X的主成分为
T Y1 e1 X 0.383 X 1 0.924 X 2 , T Y2 e2 X X3, T Y3 e3 X 0.924 X 1 0.383 X 2 .