第6章 主成分分析
主成分分析
引言:主成分分析也称主分量分析,是由霍特林于1933 年首先提出的。
主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。
通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。
这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使得问题得到简化,提高分析效率。
本文用主成分分析的方法对某市14 家企业的经济效益进行分析。
[1] 在处理涉及多个指标问题的时候,为了提高分析的效率可以不直接对p 个指标构成的P维随机向量X=(X1, X2, X3, , Xp)进行分析,而是先对向量x进行线性变换,形成少数几个新的综合变量,使得个综合变量之间相互独立且能解释原始变量尽可能多的信息,这样在意损失很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。
主成分的基本思想就是在保留原始变量尽可能多的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。
而这里对于随机变量X1,X2,X3,……,Xp而言,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度的信息的反映,而相关矩阵不过是将原始变量标准化后的协方差矩阵我们所说的保留原始变量尽可能多的信息,也就是指生成的较少的综合变量 (主成分)的方差和尽可能接近原始变量方差的总和。
因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。
一般来说从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的本文我们用从原始变量的相关矩阵出发求得的主成分进行分析。
[5]一、材料与方法1.1数据材料表1 14 家企业的利润指标的统计数据1.2分析方法本文采用多元统计学方法,选取14家企业作为样本收集每家企业的8个不同的利润指标,利用spss统计软件做主成分分析,给出载荷阵,并通过载荷阵给出主成分系数表,写出主成分表达式以此给出14个企业的得分值,最后根据主成分构造一个综合性评价指标,对14个企业进行综合排名。
主成分分析
一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
思路:一个研究对象,往往是多要素的复杂系统。
变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。
原理:假定有 n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵,x11x12 x1px21 x22 x2p Xxn 1xn2xnp记原变量指标为x1,x2,,,xp ,设它们降维处理后的综合指标,即新变量为 z1,z2,z3,,,zm(m ≤p),则z 1l11x 1 l 12x 2l1p xpz 2 l 21x1 l22x2l2p xp ............ z mlm1x 1 l m2x 2lmp xp系数lij 的确定原则:①zi 与zj (i ≠j ;i ,j=1,2,,,m )相互无关;②z 是x 1 ,x ,,,x 的一切线性组合中方差最大者,z 是与z 不相关的x ,x ,,,1 2P2 1 1 2 xP 的所有线性组合中方差最大者;zm 是与z1,z2,,,, zm -1都不相关的x1,x ,,x P ,的所有线性组合中方差最大者。
2新变量指标z1,z2,,,zm 分别称为原变量指标x1,x2,,,xP 的第1,第2,,,第m 主成分。
从以上的分析可以看出,主成分分析的实质就是确定原来变量xj (j=1,2 ,,,p )在诸主成分zi (i=1,2,,,m )上的荷载lij (i=1,2,,,m ;j=1,2,,,p )。
从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤1、计算相关系数矩阵r11 r12 r1 pr21 r22 r2 pRrp1 rp2 rpprij(i,j=1,2,,,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为n(x ki x i)(x kj x j)r ijk1n n(x ki2(x kj x j)2 x i)k1k12、计算特征值与特征向量解特征方程I R0,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列1 2 p0;p 分别求出对应于特征值i的特征向量e i(i1,2,L,p),要求ei=1,即e ij21j1其中e ij表示向量e i的第j 个分量。
第6章 主成分分析
第6章主成分分析与因子分析6.1主成分分析数学模型当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机 变量,是很必要的。
首先我们看一个例子。
例6.1 为了调查学生的身材状况,可以测量他们的身高(X1)、体重(X2)、胸围(X3)和坐高(X4)。
可是用这4个指标表达学生身材状况不方便。
但若用 y1=3.6356x1+3.3242x2+2.4770x3+2.1650x4表示学生身体魁梧程度;用y2=-3.9739x1+1.3582x2+3.7323x3-1.5729x4表示学生胖瘦程度。
则这两个指标(Y1,Y2)很好概括了4个指标(X1-X4)。
例6.1中,学生不同,身高(X1)、体重(X2)、胸围(X3)和坐高(X4)不同;X1,X2,X3,X4是4维随机向量;Y1,Y2是他们的2个线性组合,Y1,Y2能很好表示X1,X2,X3,X4的特性。
类似的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变量的少数线性组合,使之尽可能刻划全部随机变量的特性,选出的线性组合就是诸多变量的主成分,又称为主分量。
寻求随机向量主成分,并加以解释,称为主成分分析,又称为主分量分析。
主成分分析的数学模型是:对于随机向量X ,想用它分量的线性组合X c '反映随机向 量X 的主要信息。
也即)'(X c D 应当最大。
但是c 的模可以无限增大,从而使)'(X c D 无限变大,这是我们不希望的;于是固定c 模的大小,而改变c 各分量的比例,使)'(X c D 最 大;通常取c 的模为1最方便。
定义6.1 设随机向量)',...(1p x x X =二阶矩存在,若常数向量1c ,在条件c =1下使)'(X c D 最大,则称X c Y '11=是X 的第一主成分或第一主分量。
由定义可见,1Y 尽可能多地反映原来p 个随机变量变化的信息。
主成分分析
(1 )、 数学模型
设有 n 个样品,每个样品观测p项指标(变量), X1,
X2,202…0/7/7,Xp,得到原始数据资料阵:
5
其中
用数据矩阵X的p个向量(即p个指标向量)X1,…,Xp作线
性组合(即综合指标向量)为:
2020/7/7
6
简写成
(注意:Xi是n维向量,所以Fi也是 n 维向量) 上述方程组要求:
主成分分析
2020/7/7
1
一、什么是主成分分析及基本思想
1 、什么是主成分分析
主成分概念首先由Karl parson在1901年引进,不 过当时只对非随机变量来讨论的。1933年Hotelling将 这个概念推广到随机向量:
在实际问题中,研究多指标(变量)问题是经常遇到的,
然而在多数情况下,不同指标之间是有一定相关性。由于
一般情况,p个变量组成p维空间,n个样本就是p维 空间的n个点,对p元正态分布变量来说,找主成分的问 题就是找p维空间中椭球体的主轴问题。
3 主成分的推导及性质
在下面推导过程中,要用到线性代数中的两个定理先 作一下复习:
定理一 若矩阵A是p阶实对称阵,则一定可以找到 正交阵
定理二 若上述矩阵A的特征根所对应的单位特征向量
X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标 轴使之通过样品变差最大的方向(或说具有最大的样品
方差)。下面以最简单的二元正态变量来说明主成分的
几何202意0/7/7义。
9
设有 n 个样本,每个样本有p个变量记为X1,…,Xp,
它们的综合变量记为F1,F2,…,Fp。当p=2时,原变
量是X1,X2,设
指标较多再加上指标之间有一定的相关性,势必增加了分
主成分分析
主成分分析试图在力保数据信息丢失最少的原则下,
在力求数据信息丢失最少的原则下,对高维的变 量空间降维,即研究指标体系的少数几个线性组合, 并且这几个线性组合所构成的综合指标将尽可能多 地保留原来指标变异方面的信息。这些综合指标就 称为主成分。
要解决的问题是: (1)选择几个主成分?主成分分析的目的是简 化变量,一般情况下主成分的个数应该小于原始变 量的个数。关于保留几个主成分,应该权衡主成分 个数和保留的信息。 (2)如何解释主成分所包含的经济意义。
为了方便,我们在二维空间中讨论主成分的几何意义。
设有n个样品,每个样品有两个观测变量xl和x2,在由变量
xl和x2 所确定的二维平面中,n个样本点所散布的情况如
椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向 或x2轴方向都具有较大的离散性,其离散的程度可以分别 用观测变量xl 的方差和x2 的方差定量地表示。显然,如果 只考虑xl和x2 中的任何一个,那么包含在原始数据中的信
•可以把第一和第二主成分的载荷点画在一个二维图上, 以直观地显示它们如何解释原来的变量的。这个图叫做 载荷图。
Component Plot
1.0
.5
phys chem math
history english literat
0.0
-.5
-1.0 -1.0 -.5 0.0 .5 1.0
Component 1
Fl,F2除了可以对包含在Xl,X2中的信息起着 浓缩作用之外,还具有不相关的性质,这就使得
在研究复杂的问题时避免了信息重叠。二维平面
上的n个点的方差大部分都归结在Fl轴上,而F2轴
上的方差很小。Fl和F2称为原始变量x1和x2的综
合变量。F简化了系统结构,抓住了主要矛盾。
(完整版)多元统计分析课后练习答案
第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
主成分分析
解得:1 378 .9,2 132
3.求特征值所对应的单位特征向量
S 130233..14 187.5
1所对应的单位特征向量 (S 1)
0
,其中
a11 a21
(323.4 103.1a11
378.9)a11 103.1a21 (187.5 378.9)a21
胸围x2(cm)
69.5 77.0 78.5 87.5 74.5 74.5 76.5 81.5 74.5 79.0
体重x3(kg)
38.5 55.5 50.8 65.5 49.0 45.5 51.0 59.5 43.5 53.5
对此进行主成分分析。
1. 求样本均值和样本协方差矩阵
x1 161.2 x2 77.3 x3 51.2
0 0
a121 a221 1
解得 ( a11, a21 )= (0.88,0.47)
2 所对应的单位特征向量 (S 2) 0,其中
(323.4 103.1a12
132)a12 103.1a22 (187.5 132)a22
0 0
a122
a2 22
1
解得: (a12 , a22 ) (0.47,0.88)
平移、旋转坐标轴
x 2
F 1
主
F
成
2
•• • • •
分 分 析 的 几 何
•• • •
•• •
•
• •
•••
•
•
•
• •••
• •• •
•• •
• ••
x1
解
••
释
平移、旋转坐标轴
x 2
F 1
主成分分析
主成分分析起源及发展主成分分析是1901年Pearson对非随机变量引入的,1933年Hotelling将此方法推广到随机向量的情形,主成分分析和聚类分析有很大的不同,它有严格的数学理论作基础。
原理在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。
人们自然希望变量个数较少而得到的信息较多。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
应用学科主成分分析作为基础的数学分析方法,其实际应用十分广泛,比如人口统计学、数量地理学、分子动力学模拟、数学建模、数理分析等学科中均有应用,是一种常用的多变量分析方法。
评价步骤1)对原始数据进行标准化处理假设进行主成分分析的指标变量有m个:,,…,,共有n个评价对象,第i个评价对象的第j个指标的取值为。
将各指标值转换成标准化指标,有,(i =1,2,…,n ; j =1,2,…,m)其中, , ,即为第j个指标的样本均值和样本标准差。
对应地,称,(j =1,2,…,m)为标准化指标变量。
2)计算相关系数矩阵R相关系数矩阵, 有, (i,j =1,2,…,m)式中,=,是第i个指标与第j个指标的相关系数。
3)计算特征值和特征向量计算相关系数矩阵R的特征值,及对应的特征向量,其中,由特征向量组成m个新的指标变量:︙式中是第1主成分,是第2主成分,…,是第m 主成分。
4)选择个主成分,计算综合评价值① 计算特征值的信息贡献率和累积贡献率。
主成分分析方法PPT课件
X
x21
x22
x2
p
xn1
xn 2
xnp
❖ 当p较大时,在p维空间中考察问题比较麻烦。 为了克服这一困难,就需要进行降维处理. 要求:较少的几个综合指标尽量多地反映原来较 多变量指标所反映的信息,同时它们之间又是彼 此独立的
例,成绩数据
❖ 100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
p
lk2j 1, (k 1,2,, m)
j 1
Rlk lk (R E)lk 0
计算主成分贡献率及累计贡献率
▲贡献率:
k
p
i
(k 1,2,, p)
i 1
▲累计贡献率:
k
p
j1 j / i1 i
一般取累计贡献率达85—95%的特征值 1, 2 ,, m 所对应的第一、第二、…、第m(m≤p)个主成分
6
6
样方
1
物种X1 1
物种X2 5
2 3 4 5 6 总和 2 0 2 -4 -1 0 2 1 0 -4 -4 0
种X2
X2
12
10
8
6
4
2
0
0
1
2
3
4
5
6
7
种X1
6 5 4 3 2 1 0 -5 -4 -3 -2 -1-1 0 1 2 3 4 5 6 -2 -3 -4 -5
X1
中心化后的原始数据矩阵
X
1 5
2 2
0 1
2 0
4 4
1 4
❖ 把坐标轴X1、 X2刚性地旋转 一个角度,得
到图中新坐标
轴Y1和Y2
X2
6
主成分分析
表1是某市工业部门13个行业的8项重要经济指标的数
主成分分析实例 2
据,这8项经济指标分别是: X1:年末固定资产净值,单位:万元; X2:职工人数据,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:资金利税率,单位:%; X7:标准燃料消费量,单位:吨; X8:能源利用效果,单位:万元/吨。
主成分分析的目的与功能
在多变量分析中,分析者所面临的最大难题是
解决众多变量之间的关系问题。进行数据降维 可以用尽可能少的新指标取代原来较多的指标 变量,并能包含原来指标变量所包含的大部分 信息 。 解决多元回归分析中的多重共线性问题。 综合评价中,人们总是尽可能多地选取评价指 标,而这些评价指标之间往往相互重叠,信息 冗余是不可避免的。主成分分析则可以把这众 多指标所蕴含的信息压缩到少数几个主成分指 标,然后给出这几个主成分指标的权重,综合 到一个评价指标中。
y1 是反映学生身材魁梧与否的综合指标
y2 是反映学生体形特征的综合指标。
表1是某市工业部门13个行业的8项重要经济指标的数 据,这8项经济指标分别是: X1:年末固定资产净值,单位:万元; X2:职工人数据,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:资金利税率,单位:%; X7:标准燃料消费量,单位:吨; X8:能源利用效果,单位:万元/吨。
表1 某市工业部门13个行业8项指标
X1 冶金 电力 煤炭 化学 机器 建材 森工 食品 纺织 缝纫 皮革 造纸 文教 90342 4903 6735 49454 139190 12215 2372 11062 17111 1206 2150 5251 14341 X2 52455 1973 21139 36241 203505 16219 6572 23078 23907 3930 5704 6155 13203 X3 101091 2035 3767 81557 215898 10351 8103 54935 52108 6126 6200 10383 19396 X4 19272 10313 1780 22504 10609 6382 12329 23804 21796 15586 10870 16875 14691 X5 82 34.2 36.1 98.1 93.2 62.5 184.4 370.4 221.5 330.4 184.2 146.4 94.6 X6 16.1 7.1 8.2 25.9 12.6 8.7 22.2 41 21.5 29.5 12 27.5 17.8 X7 197435 592077 726396 348226 139572 145818 20921 65486 63806 1840 8913 78796 6354 X8 0.172 0.003 0.003 0.985 0.628 0.066 0.152 0.263 0.276 0.437 0.274 0.151 1.574
主成分分析法原理简介
主成分分析法原理简介1.什么是主成分分析法主成分分析也称主分量分析,是揭示大样本、多变量数据或样本之间内在关系的一种方法,旨在利用降维的思想,把多指标转化为少数几个综合指标,降低观测空间的维数,以获取最主要的信息。
在统计学中,主成分分析(principal components analysis, PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
2.主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
对同一个体进行多项观察时必定涉及多个随机变量X1,X2,…,X p,它们之间都存在着相关性,一时难以综合。
这时就需要借助主成分分析来概括诸多信息的主要方面。
我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相独立地各代表某一方面的性质。
任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。
如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。
由这一点来看,一项指标在个体间的变异越大越好。
主成分分析
主成分分析专题§1引言我们在作数据分析处理时,涉及的样品往往包含有多个测量指标(比如p 个指标),较多的指标会带来分析问题的复杂性。
然而,这些指标彼此之间常常存在着一定程度的、有时甚至是相当高的相关性,这就使含在观测数据中的信息在一定程度上有所重叠。
主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。
这些综合指标能够反映原始指标的绝大部分信息,它们通常表示为原始p 个指标的某种线性组合。
为了使这些综合指标所含的信息互不重叠,应要求它们互不相关。
例如,考虑p =2的情形,假设共有n 个样品,每个样品都测量了两个指标),(21x x ,它们大致分布在一个椭圆内。
如图所示。
显然,在坐标系21Ox x 中,n 个点的坐标1x 和2x 呈现某种线性相关性。
我们将该坐标系按逆时针方向旋转某个角度 变成新坐标系21Oy y ,这里1y 是椭圆的长轴方向,2y 是短轴方向。
旋转公式为易见,n 个点在新坐标系下的坐标1y 和2y 几乎不相关。
1y 和2y 称为原始变量1x 和2x 的综合变量,n 个点在1y 轴上的方差达到最大,即在此方向上所含的有关n 个样品间差异的信息是最多的。
因此,若欲将二维空间的点投影到某个一维方向,则选择1y 轴方向能使信息的损失降低到最小。
我们称1y 轴为第一主成分,而与1y 轴正交的2y 轴,有着较小的方差,称为第二主成分。
第一主成分的效果与椭圆的形状有很大关系,椭圆越是扁平,n 个点在1y 轴上的方差就相对越大,在2y 轴上的方差就相对越小。
考虑这样两种极端的情形:一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆,第一主成分只含有二维空间点的约一半信息,若仅用这一个综合变量,则将损失约50%的信息,这显然是不可取的。
造成它的原因是,原始变量1x 和2x 的相关程度几乎为零,也就是说,1x 和2x 所包含的信息几乎互不重叠,因此无法用一个一维的综合变量来代替它们。
主成分分析完整ppt课件
这样,我们就对主成分分析的几何意义有了一个充分的了解。 主成分分析的过程无非就是坐标系旋转的过程,各主成分表达 式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐 标轴的方向就是原始数据变差最大的方向。
2021/6/12
1199
目录 上页 下页 返回 结束
其中,U为旋转变换矩阵,由上式可知它是正交阵, 即满足
U'U1 , U'UI
2021/6/12
1144
目录 上页 下页 返回 结束
§2 主成分分析的几何意义
经过这样的旋转之后,N个样品点在 Y 1 轴上的离散程度最
大,变量 Y 1 代表了原始数据绝大部分信息,这样,有时在研
究实际问题时,即使不考虑变量 Y 2 也无损大局。因此,经过
指标转化为几个综合指标的多元统计方法。通常把转化生成
的综合指标称之为主成分,其中每个主成分都是原始变量的
线性组合,且各个主成分之间互不相关,这就使得主成分比
原始变量具有某些更优越的性能。这样在研究复杂问题时就 可以只考虑少数几个主成分而不至于损失太多信息,从而更
容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时
上述旋转变换就可以把原始数据的信息集中到
Y
轴上,对数
1
据中包含的信息起到了浓缩的作用。进行主成分分析的目的
就是找出转换矩阵 U ,而进行主成分分析的作用与几何意义
也就很明了了。下面我们用遵从正态分布的变量进行分析,
以使主成分分析的几何意义更为明显。为方便,我们以二元
正态分布为例。对于多元正态总体的情况,有类似的结论。
1.每一个主成分都是各原始变量的线性组合;
主成分分析
求第一主成分,构造目标函数为:
1(T1, ) T1ΣT1 (T1T1 1)
对目标函数 1(T1, ) 求导数有:
1
T1
2ΣT1
2T1
0
即
(6.5) (6.6)
(Σ I)T1 0
(6.7)
由 6.7 式两边左乘 T1 得到
T1ΣT1
(6.8)
由于 X 的协差阵 Σ 为非负定的,其特征方程(6.7)的根均大于零,
p
变量 Y1,Y2 , ,Yp 的方差之和 k 。主成分分析的目的是 k 1
减少变量的个数,所以一般不会使用所有 p 个主成分的,
忽略一些带有较小方差的主成分将不会给总方差带来太
大的影响。这里我们称
p
k k
k
k 1
(6.23)
为第k 个主成分 Yk 的贡献率。第一主成分的贡献率最大,这表
明 Y1 T1X 综 合 原 始 变 量 X1, X 2 , , X p 的 能 力 最 强 , 而
图6.1 主成分的几何意义
如 标果 系我y1们Oy将2 ,该这坐里标y系1 是按椭逆圆时的针长方轴向方旋向转,某y2个是角椭度圆的变短成轴新方坐向。
旋转公式为
YY21
X1 cos X1 sin
X2 sin X2 cos
(6.1)
我们看到新变量 Y1 和 Y2 是原变量 X1 和 X 2 的线性组合,它的
主成分分析的基本思想
人们为了避免遗漏重要的信息而考虑尽可 能多的指标
随着考虑指标的增多增加了问题的复杂性 由于各指标均是对同一事物的反映,不可
避免地造成信息的大量重叠,这种信息的 重叠有时甚至会抹杀事物的真正特征与内 在规律。 希望在定量研究中涉及的变量较少,而得 到的信息量又较多。 主成分分析正是研究如何通过原来变量的 少数几个线性组合来解释原来变量绝大多 数信息的一种多元统计方法。
主成分分析的方法
主成分分析的方法
主成分分析(Principal Component Analysis,PCA)是一种常用的降维方法,通过线性变换将原始数据投影到一个新的空间中,使得数据在新的空间中的最大方差出现在第一个主成分上,第二大方差出现在第二个主成分上,以此类推。
这样可以保留较多的原始数据信息,同时减少数据的维度。
主成分分析的方法可以简洁地总结为以下几个步骤:
1. 标准化数据:将原始数据进行标准化处理,使得各个特征具有相同的尺度。
2. 计算协方差矩阵:计算标准化后的数据各个特征之间的协方差矩阵。
3. 计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
4. 选择主成分数量:根据特征值的大小选择主成分的数量,通常选择特征值大于某个阈值的主成分。
5. 构造变换矩阵:将特征值较大的特征向量作为基向量构造出变换矩阵,以实现数据的降维。
6. 数据投影:将原始数据通过变换矩阵进行投影,得到降维后的数据。
主成分分析的目标是选择能够最大程度保留原始数据信息的主成分,这可以通过保留最大方差或者最小重构误差来衡量。
主成分分析在数据预处理、特征提取和可视化等领域有广泛的应用。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Y1 T1X 。
第二主成分为,满足 T2T2 1 ,且 Cov(Y2 , Y1 ) Cov(T2X, T1X) 0 , 使得 D(Y2 ) T2ΣT2 达到最大的 Y2 T2 X 。
一般情形,第 k 主成分为,满足 TkTk 1,
且 Cov(Yk , Yi ) Cov(TkX, TiX) 0 ( i k ) ,使得 D(Yk ) TkΣTk 达 到最大的 Yk Tk X 。
BACK
第二节 主成分的几何意义及数 学推导
一 主成分的几何意义
二 主成分的数学推导
BACK
一、主成分的几何意义
主成分分析数学模型中的正交变换,在几何上就是作一
个坐标旋转。因此,主成分分析在二维空间中有明显的 几何意义。 假设共有n个样品,每个样品都测量了两个指标(X1, X2),它们大致分布在一个椭圆内如图6.1所示。事实 上,散点的分布总有可能沿着某一个方向略显扩张,这 个方向就把它看作椭圆的长轴方向。显然,在坐标系 x1Ox2中,单独看这n个点的分量X1和X2,它们沿着x1 方向和x2方向都具有较大的离散性,其离散的程度可以 分别用的X1方差和X2的方差测定。如果仅考虑X1或X2中 的任何一个分量,那么包含在另一分量中的信息将会损 失,因此,直接舍弃某个分量不是“降维”的有效办法。
求第一主成分,构造目标函数为:
1 (T1 , ) T1ΣT1 (T1T1 1) 对目标函数 1 (T1 , ) 求导数有: 1 2 ΣT1 2T1 0
T1
(6.5)
(6.6) (6.7) (6.8)
即
( Σ I)T1 0 Nhomakorabea由 6.7 式两边左乘 T1 得到
T2
(6.9)
(6.10)
用 T1 左乘 (6.10)式有
1 T T1 T1 Σ T2 T T10 2
由于 T1 ΣT2 0 , T1T2 0 ,那么, T1T1 0 ,即有 0 。从而 ( Σ I)T2 0 (6.11) 而且
T1 ΣT1
由于 X 的协差阵 Σ 为非负定的,其特征方程 (6.7)的根均大于零, 不妨设 1 2 p 0 。由 (6.8)知道 Y1 的方差为 。那么,
Y1 的最大方差值为 1 ,其相应的单位化特征向量为 T1 。
在 求 第 二 主 成 分 之 前 , 我 们 首 先 明 确 , 由 (6.6) 知 Cov(Y2 , Y1 ) T2ΣT1 T2T1 。那么,如果 Y2 与 Y1 相互独立,即有
,m
Cov(Yi ,Yk ) Cov(TiX,TkX) TiCov(X, X)Tk Ti ΣTk i, k 1, 2, , m 这样, 我们所要解决的问题就转化为, 在新的变量 Y1 , , Ym 相
互独立的条件下,求 Ti 使得 D(Yi ) Ti ΣTi ,i 1, 2, 最大。
TiTk 0 ( i k ) 的 条 件下 , 使得 D(Yk ) TkΣTk 达 到 最 大 的 Yk Tk X 。这样我们构造目标函数为
k (Tk , , i ) Tk ΣTk (TkTk 1) 2 i (TiTk )
i 1
k 1
我们知道,当一个变量只取一个数据时,这个变量(数
据)提供的信息量是非常有限的,当这个变量取一系列 不同数据时,我们可以从中读出最大值、最小值、平均 数等信息。变量的变异性越大,说明它对各种场景的 “遍历性”越强,提供的信息就更加充分,信息量就越 大。主成分分析中的信息,就是指标的变异性,用标准 差或方差表示它。 主成分分析的数学模型是,设p个变量构成的p维随机向 量为X = (X1,…,Xp)′。对X作正交变换,令Y = T′X,其中T为正交阵,要求Y的各分量是不相关的, 并且Y的第一个分量的方差是最大的,第二个分量的方 差次之,……,等等。为了保持信息不丢失,Y的各分 量方差和与X的各分量方差和相等。
T2ΣT2
(6.12)
这样说明, 如果 X 的协差阵 Σ 的特征根为 1 2
p 0 。
由 (6.12)知道 Y2 的最大方差值为第二大特征根 2 ,其相应的单位 化的特征向量为 T2 。 针 对 一 般 情 形 , 第 k 主 成 分 应 该 是 在 TkTk 1 且 TkTi 0 或
综上所述, 设 X ( X1 , , X p ) 的协差阵为 Σ , 其特征根为1 2
p 0 ,相应的单位化的特征向量为 T1 , T2 , , Tp 。那么,由此所确
定的主成分为 Y1 T1X , Y2 T2 X , 的特征根。 ,Ym Tm X ,其方差分别为 Σ
(6. 4)
我们希望寻找一组新的变量 Y1 , 量要求充分地反映原变量 X1 , 这里我们应该注意到,对于 Y1 ,
,这组新的变 , Ym ( m p )
, X p 的信息,而且相互独立。
, Ym 有
D(Yi ) D(TiX) Ti D(X)Ti TiΣTi
i 1, 2,
第六章 主成分分析
第一节 第二节 引言 主成分的几何意义及数学 推导
第三节
第四节 第五节
主成分的性质
主成分方法应用中应注意 的问题 实例分析与计算机实现
第一节 引言
多元统计分析处理的是多变量(多指标)问题。由
于变量较多,增加了分析问题的复杂性。但在实际 问题中,变量之间可能存在一定的相关性,因此, 多变量中可能存在信息的重叠。人们自然希望通过 克服相关性、重叠性,用较少的变量来代替原来较 多的变量,而这种代替可以反映原来多个变量的大 部分信息,这实际上是一种“降维”的思想。
另一种是椭圆扁平到了极限,变成y1轴上的一条线,第一
主成分包含有二维空间点的全部信息,仅用这一个综合 变量代替原始数据不会有任何的信息损失,此时的主成 分分析效果是非常理想的,其原因是,第二主成分不包 含任何信息,舍弃它当然没有信息损失。
BACK
二、主成分的数学推导
设 X ( X1 ,
即有 iTiTi 0 ,那么, i 0 ( i 1, 2,
(Σ I)Tk 0
k 1) 。从而
(6.15) (6.16)
而且
对于 X 的协差阵 Σ 的特征根 1 2
为 Tk 。
TkΣTk
p 0 。由(6.15)和 (6.16)
知道 Yk 的最大方差值为第 k 大特征根 k , 其相应的单位化的特征向量
, m , 达到
Lagrange 乘子法
我们下面将借助投影寻踪(Projection Pursuit)的思想来解决这 一问题。首先应该注意到,使得 D(Yi ) 达到最大的线性组合,显
然用常数乘以 Ti 后, D(Yi ) 也随之增大,为了消除这种不确定性, 不妨假设 Ti 满足 TiTi 1 或者 T 1 。那么,问题可以更加明确。 第一主成分为,满足 T1T1 1 ,使得 D(Y1 ) T1 ΣT1 达到最大的
考虑两种极端的情形: 一种是椭圆的长轴与短轴的长度相等,即椭圆变成圆, 第一主成分只含有二维空间点的约一半信息,若仅用这 一个综合变量,则将损失约50%的信息,这显然是不可 取的。造成它的原因是,原始变量X1和X2的相关程度几 乎为零,也就是说,它们所包含的信息几乎不重迭,因 此无法用一个一维的综合变量来代替。
T2T1 0 或 T1T2 0 。这时,我们可以构造求第二主成分的目标函 数,即
2 (T2 , , ) T2ΣT2 (T2T2 1) 2 (T1T2 ) 对目标函数 2 (T2 , , ) 求导数有: 2 2 ΣT2 2 T2 2 T1 0
并假定存在二阶 , X p ) 为一个 p 维随机向量, (6.3)
矩,其均值向量与协差阵分别记为: μ E ( X) , Σ D ( X ) 考虑如下的线性变换 Y t X t X t X T X 1p p 1 1 11 1 12 2 Y2 t21 X 1 t22 X 2 t2 p X p T2 X X Y t X t X t X T p p 1 1 p 2 2 pp p p 用矩阵表示为 Y TX 其中 Y (Y1 , Y2 , Yp ) , T (T1 , T2 , , Tp ) 。
sin X 1 TX cos X 2
(6.2)
1
其中, T 为旋转变换矩阵,它是正交矩阵,即有 T T 或 TT I 。
易见,n个点在新坐标系下的坐标Y1和Y2几乎不相关。
称它们为原始变量X1和X2的综合变量,n个点在y1轴上 的方差达到最大,即在此方向上包含了有关n个样品的 最大量信息. 因此,欲将二维空间的点投影到某个一维方向上,则选 择y1轴方向能使信息的损失最小。我们称Y1为第一主成 分,称Y2 为第二主成分。 第一主成分的效果与椭圆的形状有很大的关系,椭圆越 是扁平,n个点在y1轴上的方差就相对越大,在y2轴上 的方差就相对越小,用第一主成分代替所有样品所造成 的信息损失也就越小。
BACK
BACK
第三节 主成分的性质
一 主成分的一般性质
二 主成分的方差贡献率
BACK
一、主成分的一般性质
设 Y (Y , Y , 1 2
, Yp ) 是 X 的主成分,由 Σ 的所有特征根构
成的对角阵为 1 0 Λ 0 p 主成分可表示为 Y TX 性质 1 主成分的协方差矩阵是对角阵。 证明:实际上,由( 6.3)式知 E (Y) E (TX) Tμ D(Y) TD(X)T TΣT Λ
图6.1 主成分的几何意义
如果我们将该坐标系按逆时针方向旋转某个角度 变成新坐