主成分分析原理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分分析原理
(一)教学目的
通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。
(二)基本要求
了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。
(三)教学要点
1、主成分分析基本思想,数学模型,几何解释
2、主成分分析的计算步骤及应用
(四)教学时数
3课时
(五)教学内容
1、主成分分析的原理及模型
2、主成分的导出及主成分分析步骤
在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。
第一节主成分分析的原理及模型
一、主成分分析的基本思想与数学模型
(一)主成分分析的基本思想
主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。
主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。
(二)主成分分析的数学模型
对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为:
⎪⎪
⎪
⎪
⎪
⎭
⎫
⎝⎛=np n n p p x x x x x x x x x X 2
1
22221
11211
()p x x x ,,21=
其中:p j x x x x nj j j j ,2,1,
21=⎪⎪⎪⎪
⎪⎭
⎫ ⎝⎛=
主成分分析就是将
p 个观测变量综合成为p 个新的变量(综合变量),即
⎪⎪
⎩⎪⎪⎨
⎧+++=+++=+++=p
pp p p p p
p p
p x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 简写为:
p jp j j j x x x F ααα+++= 2211
p j ,,2,1 =
要求模型满足以下条件:
①j i F F ,互不相关(j i ≠,p j i ,,2,1, =) ②1F 的方差大于2F 的方差大于3F 的方差,依次类推 ③.,2,11
2
2
22
1p k a a a kp k k ==+++
于是,称1F 为第一主成分,2F 为第二主成分,依此类推,有第p 个主成分。主成分又叫主分量。这里ij a 我们称为主成分系数。
上述模型可用矩阵表示为:
AX F =,其中
⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=p F F F F 21 ⎪⎪⎪⎪⎪⎭
⎫ ⎝⎛=p x x x X 21
⎪⎪⎪
⎪
⎪
⎭
⎫
⎝⎛=
⎪⎪⎪⎪⎪⎭⎫
⎝⎛=p pp p p p p a a a a a a a a a a a a A 212
1
2222111211 A 称为主成分系数矩阵。
二、主成分分析的几何解释
假设有n 个样品,每个样品有二个变量,即在二维空间中讨论主成分的几何意义。设n 个样品在二维空间中的分布大致为一个椭园,如下图所示:
图7.1 主成分几何解释图
将坐标系进行正交旋转一个角度θ,使其椭圆长轴方向取坐标1y ,在椭圆短轴方向取坐标2y ,旋转公式为
⎩⎨
⎧+-=+=θθθ
θcos )sin (sin cos 212211j j j
j j j x x y x x y n j 2,1=
写成矩阵形式为:⎥⎦⎤
⎢
⎣⎡=n n y y y y y y Y 222
21
11211
X U x x x x x x n n ⋅=⎥⎦
⎤
⎢⎣⎡⋅⎥⎦⎤⎢
⎣⎡-=222
21
11211
cos sin sin cos θθ
θθ 其中U 为坐标旋转变换矩阵,它是正交矩阵,即有I U U U U ='='-,1
,即满足
1cos sin 22=+θθ。
经过旋转变换后,得到下图的新坐标:
图7.2 主成分几何解释图
新坐标21y y -有如下性质:
(1)n 个点的坐标1y 和2y 的相关几乎为零。
(2)二维平面上的n 个点的方差大部分都归结为1y 轴上,而2y 轴上的方差较小。
1y 和2y 称为原始变量1x 和2x 的综合变量。由于n 个点在1y 轴上的方差最大,因而将
二维空间的点用在1y 轴上的一维综合变量来代替,所损失的信息量最小,由此称1y 轴为第一主成分,2y 轴与1y 轴正交,有较小的方差,称它为第二主成分。
三、主成分分析的应用
主成分概念首先是由Karl parson 在1901年引进,但当时只对非随机变量来讨论的。1933年Hotelling 将这个概念推广到随机变量。特别是近年来,随着计算机软件的应用,