第六讲 主成分分析
主成分分析法PPT课件
6
3.832E-16
2.017E-15 100.000
7
3.351E-16
1.764E-15 100.000
8
2.595E-16
1.366E-15 100.000
000
10
1.683E-16
8.860E-16 100.000
11
7.026E-17
3.698E-16 100.000
• 因子分析是要利用少数几个公共因子去解释较多个要观测 变量中存在的复杂关系,它不是对原始变量的重新组合,而 是对原始变量进行分解,分解为公共因子与特殊因子两部分. 公共因子是由所有变量共同具有的少数几个因子;特殊因 子是每个原始变量独自具有的因子.
3、应用中的优缺点比较
• 主成分分析 优点:首先它利用降维技术用少数几个综合变量来代替 原始多个变量,这些综合变量集中了原始变量的大部分信 息.其次它通过计算综合主成分函数得分,对客观经济现象 进行科学评价.再次它在应用上侧重于信息贡献影响力综 合评价. 缺点:当主成分的因子负荷的符号有正有负时,综合评价 函数意义就不明确.命名清晰性低.
12
2.750E-19
1.447E-18 100.000
13
-7.503E-17 -3.949E-16 100.000
14
-1.291E-16 -6.794E-16 100.000
15
-1.742E-16 -9.168E-16 100.000
16
-2.417E-16 -1.272E-15 100.000
四、主成分分析法的步骤
1数据归一化处理:数据标准化Z 2计算相关系数矩阵R: 3计算特征值;
特征值越大说明重要程度越大.
4计算主成分贡献率及方差的累计贡献率; 5计算主成分载荷与特征向量:
主成分分析法全
• 如果我们将xl 轴和x2轴先平移,再同时 按逆时针方向旋转角度,得到新坐标轴Fl和 F2。Fl和F2是两个新变量。
根据旋转变换的公式:
y y1 1 x1xc1soin sx2 xs2cio ns
y y 1 2 cs o in sc si o n s x x 1 2 U x
设有P维正交向量 a1 a11, a21,, ap1
F1 a11X1 L ap1X p aX
1
V
(F1)
a1a1
a1U
2
Ua1
p
1
a1
u1
,
u2
,L,
up
2
O
u1
u2 M
a1
p
up
p
iauiuia i1
p
i (aui )2 i1
1ip1(aui )2
1)贡献率:第i个主成分的方差在全部方差中所占
比重
i
p
i 1
i
,称为贡献率
,反映了原来P个指标多大
的信息,有多大的综合能力 。
2)累积贡献率:前k个主成分共有多大的综合能力, 用这k个主成分的方差和在全部方差中所占比重
k
p
i i
i1
i1
来描述,称为累积贡献率。
我们进行主成分分析的目的之一是希望用尽可能 少的主成分F1,F2,…,Fk(k≤p)代替原来的P个指 标。到底应该选择多少个主成分,在实际工作中,主 成分个数的多少取决于能够反映原来变量80%以上的信 息量为依据,即当累积贡献率≥80%时的主成分的个数 就足够了。最常见的情况是主成分为2到3个。
F 1
主 成
F2
•• • • •
分 分 析 的 几 何
主成分分析【可编辑全文】
• 如果我们将xl 轴和x2轴先平移,再同时 按逆时针方向旋转角度,得到新坐标轴Fl和 F2。Fl和F2是两个新变量。
• 如果变量分组较有规则,则从特征向量各 分量数值作出组内组间对比分析。
主成分分析的一般步骤
6. 解释各个主成分的含义 7. 进行其他分析
利用SPSS进行主成分分析的步骤
1. 指标数据的标准化。
可以利用“Descriptive statistics” 中的“Descriptives”进行标准化。
这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分析通 常的做法是,寻求原指标的线性组合Fi。其中, Xi 是经过标准化后的变量。
F1 u11X1 u21X 2 u p1X p F2 u12 X1 u22 X 2 u p2 X p
Fp u1p X1 u2 p X 2 u pp X p
4. 确 定 主 成 分 Fi 的 表 达 式 : 将 表 “Component Matrix”(初始因子载荷 阵)中的第i列向量除以第i个特征根的平方 根,得到第i个主成分Fi的变量系数向量。
5. 对主成分Fi进行解释。
• x1:数学 • x2:物理 • x3:化学 • x4:语文 • x5:历史 • x6:英语
满足如下的条件:
每个主成分的系数平方和为1。即
u2 1i
u2 2i
u
2 pi
1
主成分之间相互独立,即无重叠的信息。即
Cov(Fi,Fj) 0,i j,i,j 1, 2, ,p 主成分的方差依次递减,重要性依次递减,即
计量经济学(第六讲共线性与主成分分析法的应用)
则称 x1 , x2 ,...,xl 之间存在严格的共线性关系。 如果l个解释变量存在下列关系:
1 x1i 2 x2i ... l xli ei 0
i 1,2,..,n
则称 x1 , x2 ,..., xl 之间存在近似的共线性关系。
2015/12/26 3
第五讲 共线性与主成分分析的应用
n n n
2
将 x2i x1i 代入上式,则有:
ˆ ) Var ( 1
2 2 n 2 n
2
(x
i 1
n
1i
x1 ) 2
2
n 2 ( x1i x1 ) ( x1i x1 ) ( x1i x1 ) 2 i 1 i 1 i 1
2 n 1 (2k 5) ln Detr k
(k 1) Fi ~ F (k 1, n k ) 2 (1 Ri ) nk
2015/12/26
1
Ri2
t
rij x2 x3xk n k 2 1 r
2 ij x1x2 xk
~ t (n k 2)
2015/12/26 5
第五讲 共线性与主成分分析的应用
二、共线性产生的原因与后果 (二)共线性产生的后果 1、回归参数的估计量不能确定,或者虽然能够 确定,但对样本变化的敏感性极强。 考虑二元线性回归模型: yi 0 1 x1i 2 x2i i 假定存在严格的共线性,即有:x2i x1i 。 以第一个回归系数的OLS估计为例,得到:
对 X 1 , X 2 ,..., X p 作如下的线性组合:
y1 a1 X1 a2 X 2 ... a p X p aT X
主成分分析PPT
p
1
a1 u1,u2 ,
,
up
2
p
p
ia1uiuia1 1 a1uiuia1
i 1
i 1
1a1UUa1 1a1a1 1
u1
u2
a1
p
up
下面证明,由U的第一列元素所构成的原始变量的 线性组合有最大的方差。
设有P维单位向量 a1 a11, a21,
, a p1
y1 a11 x1 a21 x2 a p1 x p a1 x
1
D(
y1 )
a1a1
a1U
2
Ua1
主成分分析通常的做法,是寻求原指标的 线性组合yi:
y1 u11 x1 u21 x2 up1 x p y2 u12 x1 u22 x2 up2 x p
y p u1 p x1 u2 p x2
满足如下的条件:
upp x p
(1) 每个主成分的系数平方和为1(否则其方差可 能为无穷大),即
标。在实际工作中,主成分个数的选取通常有两个标准 一个是按累积贡献率达到一定的程度(如 70%或 80%
以上)来确定 m;另一个先计算协方差矩阵或相关矩阵
的特征值的均值 ,取大于 的特征值的个数作为 m.
大量实践表明,当 p 20时,第一个标准容易取太 多的主成分,第二个标准容易取太少的主成分,故最好 将两者结合起来使用,并考虑m 个主成分对 xi 的贡献率。
什么是主成分分析精选全文
可编辑修改精选全文完整版主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。
这就需要多变量数据统计分析。
多变量数据统计分析中一个重要方法是主成份分析。
主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。
从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。
因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。
基于偏最小二乘法原理,可以计算得到这个轴线。
在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。
如果有三条轴线,就是三维立体坐标轴。
形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。
X、Y、Z轴就是第1、2、3主成份。
由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。
图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。
即,主成分上所有观测值的坐标投影方差最大。
从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。
这些转换后的变量,称为主成分(principal component, PC)。
主成分的数目因此低于或等于原有数据集中观测值的变量数目。
PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。
主成分分析方法优秀课件
❖ 从以上的分析可以看出,主成分分析的实质就
是确定原来变量xj(j=1,2 ,…, p)在诸主 成分zi(i=1,2,…,m)上的荷载 lij( i=1, 2,…,m; j=1,2 ,…,p)
❖ 从几何上看,找主成分的问题,就是找出P维空间 中椭球体的主轴问题;从数学上容易知道,从
数学上可以证明,它们分别是相关矩阵的m个
=0
❖ 所以上述条件等同于
6
5Co(Yv1,Y2) y1jy2j 0 j1
❖ 因此,如果原坐标旋转后的Y1轴是我们要 求的使Var(Y1)最大的直线的话,则必然有 Var(Y2)最小,且 Co(Y1v,Y2)0。这说明6个 样方点对新坐标的离差矩阵应为
YT Y 5 C V(Y o (1 a Y ,1 Y )2 v )rC V(Y o (a 1 Y ,2 Y )2 v )r 0 1
力的工具。主成分分析是把原来多个变量划为少数几个综 合指标的一种统计分析方法。从数学角度来看,这是一种 降维处理技术
§1 主成分分析方法的基本原理
假定有n个地理样本,每个样本共有p个 变量,构成一个n×p阶的地理数据矩阵
x11 x12 x1 p
X
x21
x22
x2
p
xn1
xn 2
xnp
6
样方
1
物种X1 1
物种X2 5
2 3 4 5 6 总和 2 0 2 -4 -1 0 2 1 0 -4 -4 0
种X2
X2
12
10
8
6
4
2
0
0
1
2
3
4
5
6
7
种X1
6 5 4 3 2 1 0 -5 -4 -3 -2 -1-1 0 1 2 3 4 5 6 -2 -3 -4 -5
第六章-主成分分析法精选全文
可编辑修改精选全文完整版第六章 主成分分析法主成分分析法是将高维空间变量指标转化为低维空间变量指标的一种统计方法。
由于评价对象往往具有多个属性指标,较多的变量对分析问题会带来一定的难度和复杂性。
然而,这些指标变量彼此之间常常又存在一定程度的相关性,这就使含在观测数据中的信息具有一定的重叠性。
正是这种指标间的相互影响和重叠,才使得变量的降维成为可能。
即在研究对象的多个变量指标中,用少数几个综合变量代替原高维变量以达到分析评价问题的目的。
当然,这少数指标应该综合原研究对象尽可能多的信息以减少信息的失真和损失,而且指标之间彼此相互独立。
第一节 引言主成分分析,也称主分量分析,由皮尔逊(Pearson )于1901年提出,后由霍特林(Hotelling )于1933年发展了,这也正是现在多元统计分析中的一种经典统计学观点。
经典统计学家认为主成分分析是确定一个多元正态分布等密度椭球面的主轴,这些主轴由样本来估计。
然而,现代越来越多的人从数据分析的角度出发,用一种不同的观点来考察主成分分析。
这时,不需要任何关于概率分布和基本统计模型的假定。
这种观点实际上是采用某种信息的概念,以某种代数或几何准则最优化技术对一个数据阵的结构进行描述和简化。
主成分分析方法的主要目的就是通过降维技术把多个变量化为少数几个主要成分进行分析的统计方法。
这些主要成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。
为了使这些主要成分所含的信息互不重迭,应要求它们互不相关。
当分析结束后,最后要对主成分做出解释。
当主成分用于回归或聚类时,就不需要对主成分做出解释。
另外,主成分还有简化变量系统的统计数字特征的作用。
对于任意p 个变量,描述它们自身及其相互关系的数字特征包括均值、方差、协方差等,共有)1(21-+p p p 个参数。
经过主成分分析后,每个新变量的均值和协方差都为零,所以,变量系统的数字特征减少了)1(21-+p p p 个。
主成分分析课件
μ 0 上式有如下展开形式:
1 1 2 X 1 1 22 X 1 1 X 2 2 X 2 2 2 d2
Y1 u11X1 u12X2 u1p Xp Y2 u21X1 u22X2 u2p Xp Yp up1X1 up2X2 uppXp
(5.1)
2019/11/20
7
目录 上页 下页 返回 结束
§1.2 主成分分析的基本理论
由于可以任意地对原始变量进行上述线性变换, 由不同的线性变换得到的综合变量 的统Y计特性也 不尽相同。因此为了取得较好的效果,我们总是希 望 Yi 的ui方'X差尽可能大且各 之间Y i 互相独立, 由于
主成分分析
•§1 主成分分析的基本思想与理论 •§2 主成分分析的几何意义 •§3 总体主成分及其性质 •§4 样本主成分的导出 •§5 有关问题的讨论 •§6 主成分分析步骤及框图 •§7 主成分分析的上机实现
2019/11/20
1
主成分分析
主成分分析(principal components analysis)也称主分量 分析,是由霍特林(Hotelling)于1933年首先提出的。主成 分分析是利用降维的思想,在损失很少信息的前提下把多个 指标转化为几个综合指标的多元统计方法。通常把转化生成 的综合指标称之为主成分,其中每个主成分都是原始变量的 线性组合,且各个主成分之间互不相关,这就使得主成分比 原始变量具有某些更优越的性能。这样在研究复杂问题时就 可以只考虑少数几个主成分而不至于损失太多信息,从而更 容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时 使问题得到简化,提高分析效率。本章主要介绍主成分分析 的基本理论和方法、主成分分析的计算步骤及主成分分析的 上机实现。
主成分分析方法PPT课件
X
x21
x22
x2
p
xn1
xn 2
xnp
❖ 当p较大时,在p维空间中考察问题比较麻烦。 为了克服这一困难,就需要进行降维处理. 要求:较少的几个综合指标尽量多地反映原来较 多变量指标所反映的信息,同时它们之间又是彼 此独立的
例,成绩数据
❖ 100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
p
lk2j 1, (k 1,2,, m)
j 1
Rlk lk (R E)lk 0
计算主成分贡献率及累计贡献率
▲贡献率:
k
p
i
(k 1,2,, p)
i 1
▲累计贡献率:
k
p
j1 j / i1 i
一般取累计贡献率达85—95%的特征值 1, 2 ,, m 所对应的第一、第二、…、第m(m≤p)个主成分
6
6
样方
1
物种X1 1
物种X2 5
2 3 4 5 6 总和 2 0 2 -4 -1 0 2 1 0 -4 -4 0
种X2
X2
12
10
8
6
4
2
0
0
1
2
3
4
5
6
7
种X1
6 5 4 3 2 1 0 -5 -4 -3 -2 -1-1 0 1 2 3 4 5 6 -2 -3 -4 -5
X1
中心化后的原始数据矩阵
X
1 5
2 2
0 1
2 0
4 4
1 4
❖ 把坐标轴X1、 X2刚性地旋转 一个角度,得
到图中新坐标
轴Y1和Y2
X2
6
主成分分析简介课件
4、如未收敛则回到步骤3
注:其中 k和 k 是两个待调整的参数;
函数g(y)的选择见参考文献[2]P68
逐次提取独立成分
—投影追踪方法
度量非正态性(非高斯性):
可以认为,两个独立变量之和形成的分布比两 个原始变量中的任意一个都更接近于正态分布
由于Z是Y的线性组合,只要找到一个度 量非正态性的量,使达到最大,就可以 使Y中各分量独立性最大
所找到的矩阵起到将 Qz (M ) 对角化的作 用
基于四阶累积量的JADE法
步骤: 1、取一组矩阵 M i , 由定义分别求 Qz (M i ) (矩阵的简单取法:取N*N个矩阵,分别
只有一个元素为1,或取一组对称/反对 称的基矩阵,引自[2]P53) 通过优化求解U,使各 Qz (M i ) 联合 对角化(使 (M i ) 中非对角元素的平方 和最小)
此法的矩阵集合可取为 Z [K ijkliikk ijkl (Z )]2
分解结果:
Aˆ W U , Bˆ Aˆ 1 U W , Y BX U WX
非线性PCA的自适应算法
以均方误差最小作为收敛判据, 非线性PCA引入非线性因素等效于考虑高
阶矩 算法具体步骤为: 1、对观测值求均值,用递归法求白化阵
—投影追踪方法
5、归一化: ui (k 1) ui (k 1) 2
ui (k 1)
如果 u p 未收敛,回到步骤3;
令p加1,当p<=m时,回到步骤3。
参考文献
[1] A.Hyvarinen等著,周宗潭等译,独 立成分分析,北京:电子工业出版社, 2007年
[2]杨福生、洪波著,独立分量分析的原 理与应用,北京:清华大学出版社, 2006年
主成分分析完整ppt课件
这样,我们就对主成分分析的几何意义有了一个充分的了解。 主成分分析的过程无非就是坐标系旋转的过程,各主成分表达 式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐 标轴的方向就是原始数据变差最大的方向。
2021/6/12
1199
目录 上页 下页 返回 结束
其中,U为旋转变换矩阵,由上式可知它是正交阵, 即满足
U'U1 , U'UI
2021/6/12
1144
目录 上页 下页 返回 结束
§2 主成分分析的几何意义
经过这样的旋转之后,N个样品点在 Y 1 轴上的离散程度最
大,变量 Y 1 代表了原始数据绝大部分信息,这样,有时在研
究实际问题时,即使不考虑变量 Y 2 也无损大局。因此,经过
指标转化为几个综合指标的多元统计方法。通常把转化生成
的综合指标称之为主成分,其中每个主成分都是原始变量的
线性组合,且各个主成分之间互不相关,这就使得主成分比
原始变量具有某些更优越的性能。这样在研究复杂问题时就 可以只考虑少数几个主成分而不至于损失太多信息,从而更
容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时
上述旋转变换就可以把原始数据的信息集中到
Y
轴上,对数
1
据中包含的信息起到了浓缩的作用。进行主成分分析的目的
就是找出转换矩阵 U ,而进行主成分分析的作用与几何意义
也就很明了了。下面我们用遵从正态分布的变量进行分析,
以使主成分分析的几何意义更为明显。为方便,我们以二元
正态分布为例。对于多元正态总体的情况,有类似的结论。
1.每一个主成分都是各原始变量的线性组合;
《主成分分析法》课件
主成分分析法的目的是减少数据的维 度,同时保留数据中的主要信息,以 便更好地理解和分析数据。
历史与发展
1901年
由英国统计学家Karl Pearson提出主成分的概 念。
1933年
美国统计学家Harold Hotelling将主成分分析 法应用于心理学和教育学领域。
20世纪70年代
随着计算机技术的发展,主成分分析法在各个领域得到广泛应用。
04
主成分分析法的步骤
数据标准化
总结词
消除量纲和数量级对分析的影响
详细描述
在进行主成分分析之前,需要对数据进行标准化处理,即将各指标的均值调整为0,标准差调整为1, 以消除不同量纲和数量级对分析的影响。
计算相关系数矩阵
总结词
衡量变量间的相关性
VS
详细描述
通过计算原变量之间的相关系数矩阵,可 以了解各变量之间的相关性。相关系数矩 阵中的元素表示各指标之间的相关系数, 用于衡量变量间的线性关系。
详细描述
市场细分是主成分分析法在市场营销领域中的重要应 用。通过对市场数据进行主成分分析,可以提取出影 响市场需求的共同因素,进而将市场划分为不同的子 市场。这种分析方法有助于企业识别不同子市场的需 求特点、消费行为和竞争状况,为制定针对性的营销 策略提供依据。
实例二:客户分类
要点一
总结词
利用主成分分析法对客户进行分类,有助于企业更好地了 解客户群体特征,提高客户满意度和忠诚度。
01
数学模型
主成分分析通过线性变换将原始 变量转换为彼此独立的主成分, 这种变换是线性的。
变换矩阵
02
03
特征向量
线性变换需要一个变换矩阵,该 矩阵由原始变量和主成分之间的 系数构成。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析
Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多 变量统计方法 通过析取主成分显出最大的个别差异,也用来削减回归分析和聚 类分析中变量的数目 可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析 成分的保留:Kaiser主张(1960)将特征值小于1的成分放弃,只 保留特征值大于1的成分 如果能用不超过3-5个成分就能解释变异的80%,就算是成功
T 1 T 3 0.17, e3 (0.924, 0.383, 0).
Y , X
i j
i jj
eij
T 2
1 5.83, e (0.383, 0.924, 0); 2 2.00, e (0, 0,1),
进一步求前两个主成分与各原始变量的相关系数分别为
Y , X
T i T i i i
证明从略。
以上结果告诉我们,求 X 的各主成分,等价于求 它的协方差矩阵的各特征值 及相应的正交单位化特 征向量。按特征值由大到小所对应的正交单位化特征 向量为组合系数的X1,X2,…,Xp 的线性组合分别为X 的 第一、第二、直至第 p 个主成分,而各主成分的方差 等于相应的特征值。
* i 1 i i 1 * i i 1 * i * 1* 2* L p 0
p
p
p
第 i 个主成分Yi*的贡献率为i*/p,前m个主成分的累 m 计贡献率为 i* / p,
i 1
Yi*与Xj*的相关系数为
Y
* * i ,X j
e.
* * i ij
例4.2 设X=(X1,X2)T的协方差矩阵为
X j e1 j Y1 e2 j Y2 L e pj Yp ,
Cov(Yi , X j ) i eij
X j e1 j Y1 e2 j Y2 L e pj Yp , Cov(Yi , X j ) i eij
由此可得 Yi 与 Xj相关系数(也称为因子负(载)荷量 factor loading)为
Y , X
1
3
同理,可求得
Y , X 0, Y , X 0, Y , X 1.
2 1 2 2 2 3
即Y1与X1,X2高度相关而与X3不相关;Y2与X3,以概率1 呈完全线性关系.
4.2.4 标准化变量的主成分 实际中, 不同的变量往往有不同的量纲, 由于不同的量纲 会引起各变量取值的分散程度差异较大, 这时总体方差 则主要受方差较大的变量的控制。若用求主成分,则 优先照顾了方差较大的变量, 有时会造成很不合理的结 果。为消除这种影响, 常采用变量标准化的方法, 即令
Y , X
i j
Cov(Yi , X j ) Var(Yi ) Var( X j )
i eij i jj
i jj
eij
它给出了主成分Yi与 原始变量Xj 的关联性的度量。 定义2 前m个主成分对原变量xj的贡献率(共同度)hj是
h j e / jj
k 1 2 k kj
第4章 主成分分析
4.1 引 言
在实际中,往往涉及众多变量,但变量太多不仅增加 计算的复杂性,且也给分析和解释问题带来困难。一般 来说,虽然每个变量都提供了一定的信息,但其重要性 有所不同,而在很多情况下,变量间有一定的相关性, 从而这些变量所提供的信息在一定程度上有所重叠。因 而人们希望对这些变量加以“改造”,用较少的互不相 关的新变量来反映原变量所提供的绝大部分信息,通过 对新变量的分析达到解决问题的目的。主成分分析便是 在这种降维的思想下产生的处理高维数据的方法。
下,求li 使Var(Yi) 达到最大,由此li所确定的 Yi liT X
称为X1,X2,…,Xp的第i个主成分 。
4.2.2 总体主成分的求法
关于总体主成分有如下结论:
设是X=(X1,X2,…Xp)T 的协方差矩阵,的特征值及 相应的正交单位化特征向量分别为1≥2≥...≥p 及 e1,e2,…ep,则X的第i 主成分为
相应的相关矩阵为
1 4 4 100
1 0.4 0.4 1
分别从和 出发,作主成分分析。
解 如果从出发作主成分分析,易求得其特征值和相应 的正交单位化特征向量为
1 100.16, 2 0.84,
=(ij)pp=E[(X-E(X))(X-E(X))T]
它是一个p阶非负定矩阵。设li=(li1,li2,…,lip)T (i=1,2,…,p) 为p个常数向量,考虑如下线性组合:
Y1 l1T X l11 X 1 l12 X 2 ... l1 p X p Y2 l2T X l21 X 1 l22 X 2 L l2 p X p M T Y l p X l p1 X 1 l p 2 X 2 L l pp X p p
Cov( X i , X j )
ii jj
利用X的相关矩阵作主成分分析,有如下结论:
X*的第i 个主成分为
X p p X 1 1 * Yi (e ) X e L eip , i 1, 2, L , p. 11 pp
* * T i * * i1
Var(Y ) Var( X ) p,
m
通过具体例子说明求总体主成分的方法。
例4.1 设随机变量X=(X1,X2,X3)T 的协方差矩阵为
1 2 0 2 5 0 0 0 2
求 X的各主成分。
解 易得的特征值及相应的正交化特征向量分别为
1 5.83, e (0.383, 0.924, 0),
T 1 T 2 2.00, e2 (0, 0,1),
3 0.17, e (0.924, 0.383, 0).
T 3
1 5.83, e (0.383, 0.924, 0),
T 1
2 2.00, e (0, 0,1),
T 2
3 0.17, e (0.924, 0.383, 0).
X
* i
X i i
ii
, i 1, 2,..., p.
其中:i和ii分别为Xi的数学期望和方差。 这时
X ( X , X ,L , X ) 的协方差矩阵便是X的相关矩阵
* * 1 * 中
ij E ( X X )
* i * j
Cov(Y1 , Y2 ) l l2 0
T 1
于是,在约束条件l2Tl2 =1及l1Tl2 =0之下,求l2 使 Var(Y2)达到最大,由此l2 所确定的随机变量Y2=l2TX 称 为X1, X2, …, Xp的第二主成分。
一般地,在约束条件
T i
l l 1 及
T i i
Cov(Yi , Yk ) l lk 0 (k 1, 2,L , i 1)
Yi e X ei1 X1 ei 2 X 2 L eip X p , i 1,2,L , p
T i
其中ei=(ei1,ei2,…,eip)T. 这时易见:
Var (Yi ) e ei e e i , i 1, 2, L , p T T Cov(Yi , Yk ) ei ek k ei ek 0, i k
T 2
Y3 e X 0.924 X 1 0.383 X 2
T 3
X3是一个主成分,由可知,X3和X1,X2均不相关。 如果只取第一主成分,则贡献率为
5.83 73%. 5.83 2.00 0.17
2 此时对x1,x2,x3的贡献率分别为( hj kkj / jj ) m
主成分分析
通过对原始变量进行线性组合,得到优化的指标 把原先多个指标的计算降维为少量几个经过优化指标的计算 (占去绝大部分份额) 基本思想:设法将原先众多具有一定相关性的指标,重新组 合为一组新的互相独立的综合指标,并代替原先的指标
主成分分析的直观几何意义
4.2 总体主成分
4.2.1 总体主成分的定义 设X1,X2,…,Xp为某实际问题所涉及的p个随机变量。 记X=(X1,X2,…,Xp)T, 其协方差矩阵为
易知有
Var (Yi ) Var (liT X ) liT li , i 1,2,L , p, Cov(Yi , Yj ) Cov(liT X , l j T X ) liT l j , j 1,2,L , p.
如果我们希望用Y1代替原来 p个变量X1,X2,…Xp,这就要 求Y1尽可能地反映原 p个变量的信息。这里“信息”用 Y1的方差来度量,即要求 达到最大。
Var (Y1 ) l l1
T 1
若l1不加限制,则Var(Y1)无界。在约束条件l1Tl1=1之 下,求 l1使Var(Y1)达到最大,由此l1所确定的随机变量
Y1 l1T X 称为 X1,X2,…,Xp的第一主成分。
如果第一主成分Y1还不足以反映原变量的信息,进一 步求Y2。为了使Y1和Y2反映原变量的信息不相重叠,要 求Y1与Y2不相关,即
h1=5.830.3832/1=0.855; h2=5.83(-0.924)2/5=0.996;
k 1
h3=0
若取前两个主成分(m=2),则累计贡献率为
5.83 2.00 98% 5.83 2.00 0.17
2 此时对x1,x2,x3的贡献率分别为( Fj kkj / jj ) k 1 m
h1=5.830.3832/1+2.0002/1=0.855; h2=5.83(-0.924)2/5+2.0002/5=0.996; h3=5.8302/2+2.0012/2=1; 前两个主成分与各原始变量的相关系数的计算:
1 2 0 2 5 0 0 2 0