主成分分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

二、主成分的数学推导
设 X ( X1 ,, X p ) 为一个 p 维随机向量, 并假定存在二阶 矩,其均值向量与协差阵分别记为: μ E (X) , Σ D(X) 考虑如下的线性变换 Y t X t X t X T X 1p p 1 1 11 1 12 2 Y t X t X t X T X 2 21 1 22 2 2p p 2 Yp t p1 X 1 t p 2 X 2 t pp X p Tp X 用矩阵表示为 Y TX 其中 Y (Y1 , Y2 ,Yp ) , T (T1 , T2 ,, Tp ) 。 (3)
主成分分析也称主分量分析,是由Hotelling于 1933年首先提出的。由于多个变量之间往往存在着 一定程度的相关性。人们自然希望通过线性组合的 方式,从这些指标中尽可能快地提取信息。当第一 个线性组合不能提取更多的信息时,再考虑用第二 个线性组合继续这个快速提取的过程,……,直到 所提取的信息与原指标相差不多时为止。这就是主 成分分析的思想。一般说来,在主成分分析适用的 场合,用较少的主成分就可以得到较多的信息量。 以各个主成分为分量,就得到一个更低维的随机向 量;因此,通过主成分既可以降低数据“维数”又 保留了原数据的大部分信息。
Cov(Yi , Yk ) Cov(Ti X, Tk X) TiCov( X, X)Tk Ti ΣTk i, k 1,2,, m 这样, 我们所要解决的问题就转化为, 在新的变量 Y1 , , Ym 相
互独立的条件下,求 Ti 使得 D(Yi ) Ti ΣTi ,i 1,2,, m ,达到 最大。

考虑两种极端的情形:


一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆, 第一主成分只含有二维空间点的约一半信息,若仅用 这一个综合变量,则将损失约50%的信息,这显然是 不可取的。造成它的原因是,原始变量X1和X2的相关 程度几乎为零,也就是说,它们所包含的信息几乎不 重迭,因此无法用一个一维的综合变量来代替。 另一种是椭圆扁平到了极限,变成y1轴上的一条线, 第一主成分包含有二维空间点的全部信息,仅用这一 个综合变量代替原始数据不会有任何的信息损失,此 时的主成分分析效果是非常理想的,其原因是,第二 主成分不包含任何信息,舍弃它当然没有信息损失。
(5)
(6)
(7)
(8) 由于 X 的协差阵 Σ 为非负定的,其特征方程(7)的根均大于零, 不 最大方差值为 1 ,其相应的单位化特征向量为 T1 。
妨设 1 2 p 0 。 由(8)知道 Y1 的方差为 。 那么,Y1 的
在 求 第 二 主 成 分 之 前 , 我 们 首 先 明 确 , 由 (6) 知 Cov(Y2 , Y1 ) T2 ΣT1 T2T1 。那么,如果 Y2 与 Y1 相互独立,即有
k 1
Hale Waihona Puke (13)对目标函数 k (Tk , , i ) 求导数有: k 1 k 2ΣTk 2Tk 2 iTi 0 i 1 Tk
(14)
用 Ti 左乘(14)式有
Ti ΣTk TiTk Ti ( iTi ) 0
i 1
k 1
即有 iTiTi 0 ,那么, i 0 ( i 1,2,k 1 ) 。从而
主成分分析PCA
在实际问题中,研究多指标的问题是经常遇到的,然 而在多数情况下,不同指标之间是有一定关系的。由于 指标较多再加上指标之间有一定的相关性,势必增加了 分析问题的复杂性。主成分分析就是设法将原来指标重 新组合成一组新的互相无关的几个综合指标来代替原来 指标,同时根据实际需要从中可取几个较少的综合指标 尽可能多滴反映原来指标的信息。这种多个指标化为少 数互不干扰的综合指标的统计方法叫做主成分分析法, 如某人要做一件上衣要测量很多尺寸,如身长、袖长、 胸围、腰围、肩宽、肩厚等十几项指标。但是某服装产 生产一批新型服装绝不可能吧尺寸型号分的过多。而是 从其中选取几个综合性的指标作为分类型号。1、反映 胖瘦。2、反映特体。3、反映长度。
其中的 ei (0,, 0,1, 0,, 0) ,它是除第 i 个元素为 1 外其他元 素均为 0 的单位向量。而
Cov(TkX, ei X) TkΣei ei( ΣTk ) ei(kTk ) k eiTk k tki
p 0 ,相应的单位化的特征向量为 T1 , T2 ,, Tp 。那么,由此所确
定的主成分为 Y1 T1 X ,Y2 T2 X , , Ym Tm X ,其方差分别为 Σ 的特征根。
主成分的性质
一 主成分的一般性质
二 主成分的方差贡献率
一、主成分的一般性质
设 Y (Y1 , Y2 ,, Yp ) 是 X 的主成分,由 Σ 的所有特征根构 成的对角阵为 1 0 Λ 0 p 主成分可表示为 Y TX 性质 1 主成分的协方差矩阵是对角阵。 证明:实际上,由(3)式知 E(Y) E(TX) Tμ D(Y) TD(X)T TΣT Λ
用 T1 左乘(10)式有
(Σ I)T2 0
T1 ΣT2 T1T2 T1T1 0
(9)
(10)
由于 T1 ΣT2 0 , T1T2 0 ,那么, T1T1 0 ,即有 0 。从而 (11) (12) 而且
T2 ΣT2
这样说明, 如果 X 的协差阵 Σ 的特征根为 1 2 p 0 。 由(12)知道 Y2 的最大方差值为第二大特征根 2 ,其相应的单位化 的特征向量为 T2 。 针 对 一 般 情 形 , 第 k 主 成 分 应 该 是 在 TkTk 1 且 Tk Ti 0 或
T2T1 0 或 T1T2 0 。这时,我们可以构造求第二主成分的目标函
数,即
2 (T2 , , ) T2 ΣT2 (T2T2 1) 2 (T1T2 ) 对目标函数 2 (T2 , , ) 求导数有: 2 2ΣT2 2T2 2 T1 0 T2
(4)
我们希望寻找一组新的变量 Y1 , , Ym ( m p ) ,这组新的变 量要求充分地反映原变量 X 1 ,, X p 的信息,而且相互独立。 这里我们应该注意到,对于 Y1 , , Ym 有
D(Yi ) D(Ti X) Ti D( X)Ti Ti ΣTi
i 1,2,, m
主成分的几何意义
如果我们将该坐标系按逆时针方向旋转某个角度 变成新坐 标系 y1Oy2 , 这里 y1 是椭圆的长轴方向, 2 是椭圆的短轴方向。 y 旋转公式为 Y1 X 1 cos X 2 sin (1) Y2 X 1 sin X 2 cos 我们看到新变量 Y1 和 Y2 是原变量 X 1 和 X 2 的线性组合,它的 矩阵表示形 式为: Y1 cos Y sin 2
求第一主成分,构造目标函数为: 1 (T1 , ) T1 ΣT1 (T1T1 1) 对目标函数 1 (T1 , ) 求导数有: 1 2ΣT1 2T1 0 T1 即 (Σ I)T1 0 由 7 式两边左乘 T1 得到
T1 ΣT1
i 1
p
性质 3 主成分 Yk 与原始变量 X i 的相关系数为
(Yk , X i )
k ii
tki
(22)
并称之为因子负荷量(或因子载荷量) 。
证明:事实上
(Yk , X i )
Cov(Yk , X i ) D(Yk ) D( X i )

Cov(TkX, ei X)
k ii
(17)
(18)
(19)
性质 2 主成分的总方差等于原始变量的总方差。 证明:由矩阵“迹”的性质知
tr (Λ) tr (TΣT) tr (ΣTT) tr ( Σ)
所以
p

i 1 i i 1
p
p
ii
(20) (21)

i 1
D(Yi ) D( X i )
(Σ I)Tk 0
(15) (16)
而且
Tk ΣTk
对于 X 的协差阵 Σ 的特征根 1 2 p 0 。由(15)和(16)知道
Yk 的最大方差值为第 k 大特征根 k ,其相应的单位化的特征向量为 Tk 。
综上所述, X ( X1 ,, X p ) 的协差阵为 Σ , 设 其特征根为 1 2
sin X 1 TX cos X 2
(2)
1
其中, T 为旋转变换矩阵,它是正交矩阵,即有 T T 或 TT I 。

易见,n个点在新坐标系下的坐标Y1和Y2几乎不相关。称它 们为原始变量X1和X2的综合变量,n个点y1在轴上的方差达 到最大,即在此方向上包含了有关n个样品的最大量信息。 因此,欲将二维空间的点投影到某个一维方向上,则选择y1 轴方向能使信息的损失最小。我们称Y1为第一主成分,称Y2 为第二主成分。第一主成分的效果与椭圆的形状有很大的关 系,椭圆越是扁平,n个点在y1轴上的方差就相对越大,在 y2轴上的方差就相对越小,用第一主成分代替所有样品所造 成的信息损失也就越小。
TiTk 0 ( i k ) 的 条 件 下 , 使 得 D(Yk ) Tk ΣTk 达 到 最 大 的 Yk Tk X 。这样我们构造目标函数为
k (Tk , , i ) Tk ΣTk (TkTk 1) 2 i (TiTk )
i 1
我们下面将借助投影寻踪(Projection Pursuit)的思想来解决这 一问题。首先应该注意到,使得 D(Yi ) 达到最大的线性组合,显 然用常数乘以 Ti 后, D(Yi ) 也随之增大,为了消除这种不确定性, 不妨假设 Ti 满足 TiTi 1 或者 T 1 。那么,问题可以更加明确。 第 一主成 分为, 满足 T1T1 1 , 使得 D(Y1 ) T1 ΣT1 达 到最大的
Y1 T1 X 。
第二主成分为,满足 T2T2 1 ,且 Cov(Y2 , Y1 ) Cov(T2 X, T1 X) 0 , 使得 D(Y2 ) T2 ΣT2 达到最大的 Y2 T2 X 。 一般情形,第 k 主成分为,满足 TkTk 1 , 且 Cov(Yk , Yi ) Cov(Tk X, Ti X) 0 ( i k ) ,使得 D(Yk ) Tk ΣTk 达 到最大的 Yk Tk X 。
主成分的几何意义及数学推导
一 主成分的几何意义
二 主成分的数学推导
一、主成分的几何意义

主成分分析数学模型中的正交变换,在几何上就是作一个 坐标旋转。因此,主成分分析在二维空间中有明显的几何 意义。假设共有n个样品,每个样品都测量了两个指标 (X1,X2),它们大致分布在一个椭圆内如图1所示。事 实上,散点的分布总有可能沿着某一个方向略显扩张,这 个方向就把它看作椭圆的长轴方向。显然,在坐标系 x1Ox2中,单独看这n个点的分量X1和X2,它们沿着x1方向 和x2方向都具有较大的离散性,其离散的程度可以分别用 的X1方差和X2的方差测定。如果仅考虑X1或X2中的任何一 个分量,那么包含在另一分量中的信息将会损失,因此, 直接舍弃某个分量不是“降维”的有效办法。
相关文档
最新文档