主成分分析原理介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
为了方便,我们在二维空间中讨论主成
分的几何意义。 设有n个样品,每个样品有
两个观测变量xl和x2,在由变量xl和x2 所确
定的二维平面中,n个样本点所散布的情况
如椭圆状。
x2
•• • • • • • • • • • • •• •• • • •• • • • •• • • • • •• • • • • • •
§3.5 主成分分析方法
主成分分析的基本原理
主成分分析的计算步骤
主成分分析方法应用实例
一项十分著名的工作是美国的统计学家斯
通(Stone)在1947年关于国民经济的研究。他曾
利用美国 1929~1938 年各年的数据,得到了 17
个反映国民收入与支出的变量要素,例如雇主
补贴、消费资料和生产资料、纯公共支出、净
展开行列式求值后得λ的特征方程:
3 32 1.74 0.103 0
并可求得三个特征根:
1 2.245 、2 0.688 、3 0.067
第一个特征值λ1=2.245对应的特征向量α1 应满足方程组
2.245E R1 0
11 1 21 31
2 2 2 且 11 21 31 1
因此有
0.867 11 0 2.245 1 0.632 0.331 21 0 0.632 2.245 1 0.867 0.331 2.245 1 31 0
盆地总高度(m),x2:流域盆地山口的海拔高度
(m),x3:流域盆地周长(m),x4:河道总长 度(m),x5:河道总数,x6:平均分叉率,x7: 河谷最大坡度(度),x8:河源数, x9:流域盆地 面积(km2)。
计算过程:
① 对原始数据作标准化处理,计算相关系数,得
到相关系数矩阵。 ② 由相关系数矩阵计算特征值、各个主成分的贡 献率、累计贡献率。由贡献率表可知,第一, 第二,第三主成分的累计贡献率已高达86.5%,
或
F (1Y1 2Y2 mYm ) /(1 2 m )
求得主成分的综合得分F,这个综合得分是在保留了绝 大部分信息的情况之下的得分,其大小可以反映分析 对象的综合表现。按照主成分得分的大小,确定出各 个对象的表现,达到排名的目的。
【补】 以一个简单数字例子,说明在指标不多的情况下如何 从相关矩阵R出发求特征值与相应的特征向量和主成份。
有线性组合中方差最大者。
2、计算步骤
计算相关系数矩阵
r11 r 21 R r p1 r12 r22 rp 2 r1 p r2 p r pp
rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为:
1.000 0.841 0.737 0.167 0.162 0.753 0.910
1.000 0.921 0.094 0.217 0.928 0.937
1.000 0.165 0.158 0.999 0.788
1.000 0.170 0.181 0.071
1.000 0.164 0.158
1.000 0.799
增库存、股息、利息外贸平衡等等。
在进行主成分分析后,竟以 97.4 %的精度, 用 3个新变量就取代了原 17个变量。根据经济学知
识,斯通给这三个新变量分别命名为总收入F1、总
收入变化率F2和经济发展或衰退趋势 F3。更有意思
的是,这三个变量其实都是可以直接测量的。斯
通将他得到的主成分与实际测量的总收入 I、总收 入变化率I以及时间 t因素做相关分析,得到下表:
有n个地理样本,每个样本共有p个变量, 构成一个n×p阶的地理数据矩阵
x11 x 21 X x n1
x12 x 22 xn 2
x1 p x2 p x np
当p较大时,在p维空间中考察问题比较麻烦。
1. 主成分分析的基本原理
U是正交矩阵,即有
U U1 , UU E
zl,z2除了可以对包含在xl,x2中的信息起着
浓缩作用之外,还具有不相关的性质,这就使得
在研究复杂的问题时避免了信息重叠所带来的虚
假性。二维平面上的各点的方差大部分都归结在 zl轴上,而z2轴上的方差很小。zl和z2称为原始变 量x1和x2的综合变量。 z简化了系统结构,抓住了主要矛盾。
② 分别求出对应于特征值 i 的特征向量
ei (i 1,Leabharlann Baidu,, p)
要求
ei
2 =1,即 eij j 1
p
1
,其中 eij
表示向量 ei 的第j个分量。
计算主成分贡献率及累计贡献率
•贡献率:
i
k 1
p
(i 1,2, , p)
k
•累计贡献率:
k 1 k 1 p
为了克服这一困难,就需要进行降维处 理,即用较少的几个综合指标来代替原来的
指标,而且使这些综合指标能尽量多地反映
原来指标所表示的信息,同时他们之间又是 彼此独立的。
综合指标的选取
在选取综合指标时,最简单的形式就是 取原来变量的线性组合,适当调整组合系数, 使新的变量之间相互独立且代表性最好。
主成分分析的几何解释
i
k
(i 1,2, , p)
k
计算主成分贡献率及累计贡献率
一般选取累计贡献率达80%~90%的特
, m 所对应的第一,第二,…, 征值 1,2,
第m 个主成分。
计算主成分载荷
p( zi , x j ) i eij (i, j 1,2,, p)
各主成分的得分:
z11 z Z 21 z n1
x1
可以看出这n个样本点无论是沿着xl 轴方向或 x2轴方向都具有较大的离散性,其离散的程度可以 分别用观测变量xl 的方差和x2 的方差定量地表示 。显然,如果只考虑xl和x2 中的任何一个,那么
包含在原始数据中的信息将会有较大的损失。如果
我们将xl 轴和x2轴先平移,再同时按逆时针方向
旋转角度,得到新坐标轴zl和z2。zl和z2是两个新
变量。
x2
Z2
z1
•• • • • • • • • • • • •• •• • • •• • • • •• • • • • •• • • • • • •
x1
z1 x1 cos x2 sin z2 x1 sin x2 cos
根据旋转变换的公式:
z1 cos z2 sin sin x1 x Ux cos 2
亦即有方程组
11 0.632 21 0.867 31 0 1.245 11 1.245 21 0.331 31 0 0.632 0.867 11 0.331 21 1.245 31 0
解上述线性方程组,得
11 0.6520 、 21 0.4857 31 0.5822
1.000
特征值及主成分贡献率表
主成分
特征值
贡献率(%)
累计贡献率(%)
1 2 3 4 5 6 7 8 9
故只需求出第一、第二、第三主成分 z1, z2, z3
即可。 ③ 对于特征值 λ1=5.043, λ2=1.746, λ3=0.997分别 求出其特征向量 e1, e2, e3,再计算各变量 x1, x2,…,x9在主成分z1,z2,z3上的载荷。
相关系数矩阵表
x1 x1 x2 x3 x4 x5 x6 x7 x8 x9 1.000 -0.370 0.619 0.657 0.474 0.074 0.607 0.481 0.689 x2 1.000 -0.017 -0.157 -0.150 -0.274 -0.566 -0.158 -0.016 x3 x4 x5 x6 x7 x8 x9
*旋转变换的目的是为了使得n个样本点在z1轴方向 上的离散程度最大,即z1的方差最大,变量z1代表 了原始数据的绝大部分信息,在研究某些问题时,
即使不考虑变量z2也损失不多的信息。
z1称为第一主成分,z2称为第二主成分。
推广到p维空间:
记x1,x2,…,xP为原变量指标,z1,z2,…, zm(m≤p)为新变量指标,则:
例:有三个指标X1、X2、X3,得样本相关系数矩阵R
0.632 0.867 1 R 0.632 1 0.331 0.867 0.331 1
相应的特征方程为
1
0.632 0.867
0.632 0.867
1
0.331
0.331 0 1
则第一主成份为
F X 2 0.5822X 3 1 0.652X1 0.4857
同样方法,对λ2λ3也可分别求出对应的特征向量
12 ,22 ,32 和 13 ,23 ,33
的值,从而也就得到第二、第三个主成份F2、F3。
3. 主成分分析方法应用实例
【实例1】降维: 流域系统的主成分分析 某流域系统57个流域盆地的9项变量指标。x1:流域
推广到p维空间:
由此可见,主成分分析的主要任务就是确定 原变量xj(j=1,2,…,p)在诸主成分zi(i=1, 2,...,m)上的系数lij。
系数lij的确定原则:
① zi与zj(i≠j;i,j=1,2,…,m)相互无关; ② z1是x1,x2,…,xP的一切线性组合中方差最 大者,z2是与z1不相关的x1,x2,…,xP的所有 线性组合中方差最大者;……;zm是与z1, z2,……,zm-1都不相关 的x1,x2,…,xP的所
必须考虑许多指标,这些指标能从不同的侧面反
映所研究的对象的特征,但指标过多,会增加分 析的复杂性,原始变量能不能减少为有代表性的 少数几个新变量,用它来代表原来的指标?
1. 主成分分析的基本原理
主成分分析就是寻找用较少的新变量代
替原来较多的旧变量,而且使新变量尽可能
多地保留原来较多信息的方法。
问题的提出
rij
(x
k 1 n k 1
n
ki
xi )(xkj x j )
2 2 ( x x ) kj j k 1 n
( xki xi )
计算特征值与特征向量
① 解特征方程 E R 0 ,求出特征值,并使其
按大小顺序排列,即
1 2 , p 0
的m个主成分代表了分析对象的绝大部分信息,对主成 分进行综合分析就是相当于对分析对象的全部进行综合 分析。以m个主成分的方差贡献率(特征根)为权数, 将m个主成分进行加权平均,加权平均公式为;
F (1Y1 2Y2 mYm ) /(1 2 m )
z1 l11 x1 l12 x 2 l1 p x p z 2 l 21 x1 l 22 x 2 l 2 p x p z m l m1 x1 l m 2 x 2 l mp x p
z1,z2,…,zm分别称为原变量指标x1,x2,…, xP的第一,第二,…,第m主成分。
F1
F1 F2 1 0
F2
F3
I
⊿I
t
1
F3
I ⊿I t
0
0.995 -0.056 -0.369
0
-0.041 0.948 -0.282
1
0.057 -0.124 -0.836 1 -0.102 -0.414 1 -0.112 1
1. 主成分分析的基本原理
问题提出: 为了全面系统的分析和研究问题,
z12 z 22 zn2
z1m z 2m z nm
计算主成分得分
将标准化的数据
( z1 , z2 , z p )
'
。带入到主成分的表达式中,得到第个主成分的得分, 根据主成分得分的大小就可以分析各个样本单位在各个
主成分方面的表现.
综合得分排序
每一个主成分表示了分析对象在某一方面的表现。选取