主成分分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• •
• •
•
•
• •
•• •
•
•
• •••
•
••
x1
2021/2/21
6
事实上,散点的分布总
有可能沿着某一个方向略显
扩张,这个方向就把它看作
椭圆的长轴方向。显然,在
坐标系X1OX2中,单独看这n个
点的分量X1和X2,它们沿着X1 方向和X2方向都具有较大的 离散性,其离散的程度可以
分别用的X1方差和X2的方差测
定的主成分为 Y1 T1X ,Y2 T2X , ,Ym TmX ,其方差分别为 Σ 的特征根。
2021/2/21
20
4、主成分的性质
设 Y(Y1,Y2, ,Yp)是X的主成分,X的协方差矩阵为
11 12 21 22
p1 p 2
1p
2
p
pp
(6.17)
由的所有特征根构成的对角阵为
Y1 的最大方差值为 1 ,其相应的单位化特征向量为T1 。
2021/2/21
17
在 求 第 二 主 成 分 之 前 , 我 们 首 先 明 确 , 由 (6.6) 知
Cov(Y2 ,Y1) T2ΣT1 T2T1 。那么,如果 Y2 与 Y1 相互独立,即有
T2T1 0 或 T1T2 0 。这时,我们可以构造求第二主成分的目标函 数,即
k 1
2 iTi i 1
0
(6.13) (6.14)
2021/2/21
19
用 Ti 左乘(6.14)式有
TiΣTk
TiTk
Ti
k 1
(
iTi
)
0
i 1
即有 iTiTi 0 ,那么, i 0 ( i 1, 2, k 1)。从而 (Σ I)Tk 0
(6.15)
而且 D(Yk ) TkΣTk
定。
x2
••
•• •• •
•• •
••
•• • • •
• •
• •
•
•
• •
•• •
•
•
• •••
•
••
x1
2021/2/21
7
如果仅考虑X1或X2中
的任何一个分量,那么包
含在另一分量中的信息将 y 2
会损失,因此,直接舍弃 某个分量不是“降维”的 有效办法。
如果我们将该坐标系 按逆时针方向旋转某个角 度变成新坐标系y1Oy2,这 里y1是椭圆的长轴方向,
•••
•••
• y x
1
1
2021/2/21
13
3、主成分的数学推导
设 X (X1, , X p ) 为一个 p 维随机向量,并假定存在二阶
矩,其均值向量与协差阵分别记为:
E(X) u , D(X)
(6.3)
考虑如下的线性变换
Y1
t11 X1
t12 X 2
Y2
t21 X1
t22 X 2
主成分分析
2021/2/21
1
第六章 主成分分析
▪ 1、引言 ▪ 2、主成分的几何意义 ▪ 3、主成分的数学推导 ▪ 4、主成分的性质 ▪ 5、主成分方法应用中应注意 的问题
2021/2/21
2
1 引言
多元统计分析处理的是多变量(多指标)问题,由于变量较 多,增加了分析问题的复杂性。
但在实际问题中,变量之间可能存在一定的相关性,因此, 多变量中可能存在信息的重叠。
(6.16)
对于 X 的协差阵 Σ 的特征根 1 2 p 0 。由(6.15)和(6.16)
知道 Yk 的最大方差值为第 k 大特征根 k ,其相应的单位化的特征向量
为 Tk 。
综上所述,设 X (X1, , X p ) 的协差阵为 Σ ,其特征根为 1 2 p 0 ,相应的单位化的特征向量为 T1,T2 , ,Tp 。那么,由此所确
Yp t p1 X1 t p2 X 2
t1p X p T1X t2 p X p T2X
t pp X p TpX
用矩阵表示为
Y TX
其中 Y (Y1,Y2 , Yp ) , T (T1,T2 , ,Tp ) 。
(6.4)
2021/2/21
14
我们希望寻找一组新的变量 Y1, ,Ym ( m p ),这组新的变 量要求充分地反映原变量 X1, , X p 的信息,而且相互独立。 这里我们应该注意到,对于 Y1, ,Ym 有
Λ
1
0
0
p
(6.18)
2021/2/21
21
主成分可表示为 YTX
其中T为正交阵,要求Y的各分量是不相关的,并且Y的
第一个分量的方差是最大的,第二个分量的方差次之,……,
2021/2/21
15
我们下面将借助投影寻踪(Projection Pursuit)的思想来解决这 一问题。首先应该注意到,使得 D(Yi ) 达到最大的线性组合,显 然用常数乘以 Ti 后, D(Yi ) 也随之增大,为了消除这种不确定性,
不妨假设 Ti 满足 TiTi 1或投者影T寻踪1 。是那处么理,和问分题析可高以更维加数明据确的。 第 一 主 成 分 为 , 满 足 T1是T一1将类1高新,维兴使数的得据统D投计(Y影1方) 到法T低1,Σ维T其1 (达基1到本~最思3维大想)的
y2是椭圆的短轴方向。
••
•• •• •
•• •
••
x2 y1
•• • • •
• •
• •
•
•
• •
•• •
•
•
• •••
•
••
x1
2021/2/21
8
旋转公式为
YY21XX11csoisnX X22scin os
(6.1)
我们看到新变量和是原变量和的线性组合,它的矩阵表示 形式为:
Y Y12csoisn csoinsX X12TX
2021/2/21
4
一般说来,在主成分分析适用的场合,用较少的主成 分就可以得到较多的信息量。以各个主成分为分量,就得到 一个更低维的随机向量;因此,通过主成分既可以降低数据 “维数”又保留了原数据的大部分信息。
主成分分析是把各变量之间互相关联的复杂关系进行 简化分析的方法。
我们知道,当一个变量只取一个数据时,这个变量提供 的信息量是非常有限的,当这个变量取一系列不同数据时, 我们可以从中读出最大值、最小值、平均数等信息。变量的 变异性越大,说明它对各种场景的“遍历性”越强,提供的 信息就更加充分,信息量就越大。主成分分析中的信息,就 是指标的变异性,用标准差或方差表示它。
(6.2)
其中,T 为旋转变换矩阵,它是正交矩阵,即有T T=I
2021/2/21
9
易见,n个点在新坐标系
下的坐标Y1和Y2几乎不相关。 称它们为原始变量X1和X2的综
合变量,n个点y1在轴上的方 y 2
差达到最大,即在此方向上
包含了有关n个样品的最大量
信息。
因此,欲将二维空间的点
投影到某个一维方向上,则
选择y1轴方向能使信息的损失
最小。
••
•• •• •
•• •
••
x2 y1
•• • • •
• •
• •
•
•
• •
•• •
•
•
• •••
•
••
x1
2021/2/21
10
我们称Y1为第一主成分, 称Y2为第二主成分。
第一主成分的效果与椭 y 2
圆的形状有很大的关系,椭
圆越是扁平,n个点在y1轴上 的方差就相对越大,在y2轴
主成分分析也称主分量分析,是由Hotelling于1933年 首先提出的。由于多个变量之间往往存在一定程度的相关性。 人们自然希望通过线性组合的方式,从这些指标中尽可能快 地提取信息。当第一个线性组合不能提取更多的信息时,再 考虑用第二个线性组合继续这个快速提取的过程,……,直 到所提取的信息与原指标相差不多时为止。这就是主成分分 析的思想。
2 (T2 , , ) T2ΣT2 (T2T2 1) 2 (T1T2 )
对目标函数 2 (T2 , , ) 求导数有:
2
T2
2ΣT2
2T2
2T1
0
(6.9) (6.10)
用 T1 左乘(6.10)式有
T1ΣT2 T1T2 T1T1 0
由于 T1ΣT2 0 , T1T2 0 ,那么, T1T1 0 ,即有 0 。从而
D(Yi ) D(TiX) TiD(X)Ti TiΣTi i 1, 2, , m
Cov(Yi ,Yk ) Cov(TiX,TkX) TiCov(X, X)Tk TiΣTk
i,k 1,2, ,m
这样,我们所要解决的问题就转化为,在新的变量Y1, ,Ym 相
互独立的条件下,求 Ti 使得 D(Yi ) TiΣTi ,i 1,2, , m ,达到 最大。
量X1和X2的相关程度几乎
为零,也就是说,它们所 包含的信息几乎不重迭, 因此无法用一个一维的综 合变量来代替。
2021/2/21
x2
y 2 •••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••y 1
x1
12
另一种是椭圆扁平到
了极限,变成y1轴上的一
条线,第一主成分包含有 y 2
二维空间点的全部信息, 仅用这一个综合变量代替 原始数据不会有任何的信 息损失,此时的主成分分 析效果是非常理想的,其 原因是,第二主成分不包 含任何信息,舍弃它当然 没有信息损失。
•••••••••
••••
x2 •••••••••••••••
人们自然希望通过克服相关性、重叠性,用较少的变量来代 替原来较多的变量,而这种代替可以反映原来多个变量的大部分 信息.
这实际上是一种“降维”的思想。
2021/2/21
3
一项十分著名的工作是美国的统计学家斯通(stone)在 1947年关于国民经济的研究。他曾利用美国1929一1938年各 年的数据,得到了17个反映国民收入与支出的变量要素,例 如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、 股息、利息外贸平衡等等。在进行主成分分析后,竟以97.4 %的精度,用三个新变量就取代了原来的17个变量。根据经 济学知识,斯通给这三个新变量分别命名为总收入F1、总收 入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这 三个变量其实都是可以直接测量的。
且 Cov(Yk ,Yi ) Cov(TkX,TiX) 0 ( i k ),使得 D(Yk ) TkΣTk 达
到最大的 Yk TkX 。
2021/2/21
16
求第一主成分,构造目标函数为:
1(T1, ) T1ΣT1 (T1T1 1)
(6.5)
对目标函数 1(T1, ) 求导数有:
1
T1
Y1 T1X子。空间上,寻找出反映原高维数据 第二主成分为,满足 T2T2 的 1结,构且或Co特v(征Y2 ,的Y1)投影Co,v(T以2X达,T到1X研) 究0 ,
使得 D(Y2 ) T2和ΣT分2 达析到高最维大数的据Y的2 目T2的X。。
一般情形,第 k 主成分为,满足 TkTk 1,
TiTk 0 ( i k ) 的 条 件下 , 使得 D(Yk ) TkΣTk 达 到 最 大 的
Yk TkX 。这样我们构造目标函数为
k (Tk , , i )
TkΣTk
(Tk Tk
1)
k 1
2
i
(TiTk
)
i 1
对目标函数 k (Tk , , i ) 求导数有:
k
Tk
2ΣTk
2Tk
(Σ I)T2 0
(6.11)
而且 D(Y2 ) T2ΣT2
(6.12)
2021/2/21
18
这样说明,如果 X 的协差阵 Σ 的特征根为 1 2 p 0 。
由(6.12)知道 Y2 的最大方差值为第二大特征根 2 ,其相应的单位
化的特征向量为 T2 。
针 对 一 般 情 形 , 第 k 主 成 分 应 该 是 在 TkTk 1 且 TkTi 0 或
2021/2/21
5
2、主成分的几何意义
主成分分析数学模型 中的正交变换,在几何上 就是作一个坐标旋转。
因此,主成分分析在 二维空间中有明显的几何 意义。
假设共有n个样品,每
个样品都测量了两个指标
(X1,X2),它们大致分布在
一个椭圆内,如图所示。
x2
••
•• •• •
•• •
••
•• • • •
上的方差就相对越小,用第
一主成分代替所有样品所造
成的信息损失也就越小。
••
•• •• •
•• •
••
x2 y1
•• • • •
• •
• •
•
•
• •
•• •
•
•
• •••
•
••
x1
2021/2/21ห้องสมุดไป่ตู้
11
考虑两种极端的情形: 一种是椭圆的长轴与
短轴的长度相等,即椭圆 变成圆,第一主成分只含 有二维空间点的约一半信 息,若仅用这一个综合变 量,则将损失约50%的信 息,这显然是不可取的。 造成它的原因是,原始变
2ΣT1
2T1
0
即
(Σ I)T1 0
Y XAX
(6.6)
Y (A A)X X
(6.7)
由 6.7 式两边左乘 T1 得到
D(Y1) T1ΣT1
(6.8)
由于 X 的协差阵 Σ 为非负定的,其特征方程(6.7)的根均大于零,
不妨设 1 2 p 0 。由(6.8)知道 Y1 的方差为 。那么,