一、主成分分析基本原理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、主成分分析基本原理
概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。
思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。
原理:假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵,
记原变量指标为x
1,x
2
,…,x
p
,设它们降维处理后的综合指标,即新变量
为 z
1,z
2
,z
3
,…,z
m
(m≤p),则
系数l
ij
的确定原则:
①z
i 与z
j
(i≠j;i,j=1,2,…,m)相互无关;
②z
1是x
1
,x
2
,…,x
P
的一切线性组合中方差最大者,z
2
是与z
1
不相关的x
1
,x
2
,…,
x P 的所有线性组合中方差最大者; z
m
是与z
1
,z
2
,……,z
m-1
都不相关的x
1
,
x 2, (x)
P
,的所有线性组合中方差最大者。
新变量指标z
1
,z
2
,…,z
m
分别称为原变量指标x
1
,x
2
,…,x
P
的第1,第2,…,
第m主成分。
从以上的分析可以看出,主成分分析的实质就是确定原来变量x
j
(j=1,
2 ,…, p)在诸主成分z
i (i=1,2,…,m)上的荷载 l
ij
( i=1,2,…,m;
j=1,2 ,…,p)。
⎥
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎢
⎣
⎡
=
np
n
n
p
p
x
x
x
x
x
x
x
x
x
X
2
1
2
22
21
1
12
11
⎪
⎪
⎩
⎪
⎪
⎨
⎧
+
+
+
=
+
+
+
=
+
+
+
=
p
mp
m
m
m
p
p
p
p
x
l
x
l
x
l
z
x
l
x
l
x
l
z
x
l
x
l
x
l
z
2
2
1
1
2
2
22
1
21
2
1
2
12
1
11
1
..
..........
从数学上可以证明,它们分别是相关矩阵m 个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤 1、计算相关系数矩阵
r ij (i ,j =1,2,…,p )为原变量x i 与x j 的相关系数, r ij =r ji ,其计算公式为
2、计算特征值与特征向量
解特征方程
,常用雅可比法(Jacobi )求出特征值,并使其按大小顺序排列
; 分别求出对应于特征值 的特征向量 ,要求 =1,即 其中
表示向量 的第j 个分量。 3、计算主成分贡献率及累计贡献率
贡献率:
累计贡献率:
一般取累计贡献率达85%-95%的特征值, 所对应的第1、第2、…、第m (m ≤p )个主成分。 4、计算主成分载荷
5、各主成分得分
⎥⎥⎥⎥⎥⎦⎤
⎢⎢⎢⎢⎢⎣
⎡=pp p p p p r r r r r r r r r R 212222111211∑∑∑===----=
n
k n
k j kj
i ki
n
k j kj i ki
ij x x
x x
x x x x
r 1
1
2
2
1
)()
()
)((0=-R I λ021≥≥≥≥p λλλ i λ),,2,1(p i e i L =i e 1
1
2
=∑=p
j ij e ij e i e )
,,2,1(1
p i p
k k
i
L =∑=λ
λ)
,,2,1(11
p i p
k k
i
k k
L =∑∑==λ
λm λλλ,,,21L )
,,2,1,(),(p j i e x z p l ij i j i ij L ===λ