第三章第5节主成分分析

合集下载

主成分分析法PPT课件

主成分分析法PPT课件

6
3.832E-16
2.017E-15 100.000
7
3.351E-16
1.764E-15 100.000
8
2.595E-16
1.366E-15 100.000
000
10
1.683E-16
8.860E-16 100.000
11
7.026E-17
3.698E-16 100.000
• 因子分析是要利用少数几个公共因子去解释较多个要观测 变量中存在的复杂关系,它不是对原始变量的重新组合,而 是对原始变量进行分解,分解为公共因子与特殊因子两部分. 公共因子是由所有变量共同具有的少数几个因子;特殊因 子是每个原始变量独自具有的因子.
3、应用中的优缺点比较
• 主成分分析 优点:首先它利用降维技术用少数几个综合变量来代替 原始多个变量,这些综合变量集中了原始变量的大部分信 息.其次它通过计算综合主成分函数得分,对客观经济现象 进行科学评价.再次它在应用上侧重于信息贡献影响力综 合评价. 缺点:当主成分的因子负荷的符号有正有负时,综合评价 函数意义就不明确.命名清晰性低.
12
2.750E-19
1.447E-18 100.000
13
-7.503E-17 -3.949E-16 100.000
14
-1.291E-16 -6.794E-16 100.000
15
-1.742E-16 -9.168E-16 100.000
16
-2.417E-16 -1.272E-15 100.000
四、主成分分析法的步骤
1数据归一化处理:数据标准化Z 2计算相关系数矩阵R: 3计算特征值;
特征值越大说明重要程度越大.
4计算主成分贡献率及方差的累计贡献率; 5计算主成分载荷与特征向量:

主成分分析法精华讲义及实例

主成分分析法精华讲义及实例

主成分分析类型:一种处理高维数据的方法。

降维思想:在实际问题的研究中,往往会涉及众多有关的变量。

但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。

一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。

因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。

一、总体主成分1.1 定义设 X 1,X 2,…,X p 为某实际问题所涉及的 p 个随机变量。

记 X=(X 1,X 2,…,Xp)T ,其协方差矩阵为()[(())(())],T ij p p E X E X X E X σ⨯∑==--它是一个 p 阶非负定矩阵。

设1111112212221122221122Tp p Tp pT pp p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X⎧==+++⎪==+++⎪⎨⎪⎪==+++⎩(1) 则有()(),1,2,...,,(,)(,),1,2,...,.T T i i i i TT T i j ijij Var Y Var l X l l i p Cov Y Y Cov l X l X l l j p ==∑===∑= (2)第 i 个主成分: 一般地,在约束条件1T i i l l =及(,)0,1,2,..., 1.T i k i k Cov Y Y l l k i =∑==-下,求 l i 使 Var(Y i )达到最大,由此 l i 所确定的T i i Y l X =称为 X 1,X 2,…,X p 的第 i 个主成分。

1.2 总体主成分的计算设 ∑是12(,,...,)T p X X X X =的协方差矩阵,∑的特征值及相应的正交单位化特征向量分别为120p λλλ≥≥≥≥及12,,...,,p e e e则 X 的第 i 个主成分为1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= (3)此时(),1,2,...,,(,)0,.Ti i i i Ti k i k Var Y e e i p Cov Y Y e e i k λ⎧=∑==⎪⎨=∑=≠⎪⎩ 1.3 总体主成分的性质1.3.1 主成分的协方差矩阵及总方差记 12(,,...,)T p Y Y Y Y = 为主成分向量,则 Y=P T X ,其中12(,,...,)p P e e e =,且12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ=由此得主成分的总方差为111()()()()(),p ppTTiii i i i Var Y tr P P tr PP tr Var X λ=====∑=∑=∑=∑∑∑即主成分分析是把 p 个原始变量 X 1,X 2,…,X p 的总方差1()pii Var X =∑分解成 p 个互不相关变量 Y 1,Y 2,…,Y p 的方差之和,即1()pii Var Y =∑而 ()k k Var Y λ=。

主成分分析

主成分分析

一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。

从数学角度来看,这是一种降维处理技术。

思路:一个研究对象,往往是多要素的复杂系统。

变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。

原理:假定有 n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵,x11x12 x1px21 x22 x2p Xxn 1xn2xnp记原变量指标为x1,x2,,,xp ,设它们降维处理后的综合指标,即新变量为 z1,z2,z3,,,zm(m ≤p),则z 1l11x 1 l 12x 2l1p xpz 2 l 21x1 l22x2l2p xp ............ z mlm1x 1 l m2x 2lmp xp系数lij 的确定原则:①zi 与zj (i ≠j ;i ,j=1,2,,,m )相互无关;②z 是x 1 ,x ,,,x 的一切线性组合中方差最大者,z 是与z 不相关的x ,x ,,,1 2P2 1 1 2 xP 的所有线性组合中方差最大者;zm 是与z1,z2,,,, zm -1都不相关的x1,x ,,x P ,的所有线性组合中方差最大者。

2新变量指标z1,z2,,,zm 分别称为原变量指标x1,x2,,,xP 的第1,第2,,,第m 主成分。

从以上的分析可以看出,主成分分析的实质就是确定原来变量xj (j=1,2 ,,,p )在诸主成分zi (i=1,2,,,m )上的荷载lij (i=1,2,,,m ;j=1,2,,,p )。

从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。

二、主成分分析的计算步骤1、计算相关系数矩阵r11 r12 r1 pr21 r22 r2 pRrp1 rp2 rpprij(i,j=1,2,,,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为n(x ki x i)(x kj x j)r ijk1n n(x ki2(x kj x j)2 x i)k1k12、计算特征值与特征向量解特征方程I R0,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列1 2 p0;p 分别求出对应于特征值i的特征向量e i(i1,2,L,p),要求ei=1,即e ij21j1其中e ij表示向量e i的第j 个分量。

主成分分析课件ppt课件

主成分分析课件ppt课件
主成分分析
•§1 主成分分析的基本思想与理论 •§2 主成分分析的几何意义 •§3 总体主成分及其性质 •§4 样本主成分的导出 •§5 有关问题的讨论 •§6 主成分分析步骤及框图 •§7 主成分分析的上机实现
2020/5/28
11
主成分分析
主成分分析(principal components analysis)也称主分量 分析,是由霍特林(Hotelling)于1933年首先提出的。主成 分分析是利用降维的思想,在损失很少信息的前提下把多个 指标转化为几个综合指标的多元统计方法。通常把转化生成 的综合指标称之为主成分,其中每个主成分都是原始变量的 线性组合,且各个主成分之间互不相关,这就使得主成分比 原始变量具有某些更优越的性能。这样在研究复杂问题时就 可以只考虑少数几个主成分而不至于损失太多信息,从而更 容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时 使问题得到简化,提高分析效率。本章主要介绍主成分分析 的基本理论和方法、主成分分析的计算步骤及主成分分析的 上机实现。
2020/5/28
1100
目录 上页 下页 返回 结束
§2 主成分分析的几何意义
由第一节的介绍我们知道,在处理涉及多个指标问题的时 候,为了提高分析的效率,可以不直接对 p个指标构成的 p维 随机向量X (X1, X 2 , , X p )'进行分析,而是先对向量 X 进行线
性变换,形成少数几个新的综合变量Y1,Y2, ,YP ,使得各综
2020/5/28
99
目录 上页 下页 返回 结束
§1.2 主成分分析的基本理论
基于以上三条原则决定的综合变量 Y1,Y2, ,YP 分
别称为原始变量的第一、第二、…、第p 个主成分。

主成分分析PPT

主成分分析PPT


p

1

a1 u1,u2 ,
,
up


2


p
p
ia1uiuia1 1 a1uiuia1
i 1
i 1
1a1UUa1 1a1a1 1
u1


u2

a1

p

up

下面证明,由U的第一列元素所构成的原始变量的 线性组合有最大的方差。
设有P维单位向量 a1 a11, a21,
, a p1
y1 a11 x1 a21 x2 a p1 x p a1 x
1

D(
y1 )

a1a1

a1U

2





Ua1
主成分分析通常的做法,是寻求原指标的 线性组合yi:
y1 u11 x1 u21 x2 up1 x p y2 u12 x1 u22 x2 up2 x p
y p u1 p x1 u2 p x2
满足如下的条件:
upp x p
(1) 每个主成分的系数平方和为1(否则其方差可 能为无穷大),即
标。在实际工作中,主成分个数的选取通常有两个标准 一个是按累积贡献率达到一定的程度(如 70%或 80%
以上)来确定 m;另一个先计算协方差矩阵或相关矩阵
的特征值的均值 ,取大于 的特征值的个数作为 m.
大量实践表明,当 p 20时,第一个标准容易取太 多的主成分,第二个标准容易取太少的主成分,故最好 将两者结合起来使用,并考虑m 个主成分对 xi 的贡献率。

主成分分析

主成分分析
2、主成分分析的数学模型及几何解释
(1 )、 数学模型
设有 n 个样品,每个样品观测p项指标(变量), X1,
X2,202…0/7/7,Xp,得到原始数据资料阵:
5
其中
用数据矩阵X的p个向量(即p个指标向量)X1,…,Xp作线
性组合(即综合指标向量)为:
2020/7/7
6
简写成
(注意:Xi是n维向量,所以Fi也是 n 维向量) 上述方程组要求:
主成分分析
2020/7/7
1
一、什么是主成分分析及基本思想
1 、什么是主成分分析
主成分概念首先由Karl parson在1901年引进,不 过当时只对非随机变量来讨论的。1933年Hotelling将 这个概念推广到随机向量:
在实际问题中,研究多指标(变量)问题是经常遇到的,
然而在多数情况下,不同指标之间是有一定相关性。由于
一般情况,p个变量组成p维空间,n个样本就是p维 空间的n个点,对p元正态分布变量来说,找主成分的问 题就是找p维空间中椭球体的主轴问题。
3 主成分的推导及性质
在下面推导过程中,要用到线性代数中的两个定理先 作一下复习:
定理一 若矩阵A是p阶实对称阵,则一定可以找到 正交阵
定理二 若上述矩阵A的特征根所对应的单位特征向量
X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标 轴使之通过样品变差最大的方向(或说具有最大的样品
方差)。下面以最简单的二元正态变量来说明主成分的
几何202意0/7/7义。
9
设有 n 个样本,每个样本有p个变量记为X1,…,Xp,
它们的综合变量记为F1,F2,…,Fp。当p=2时,原变
量是X1,X2,设
指标较多再加上指标之间有一定的相关性,势必增加了分

主成分分析

主成分分析

语言表达就是要求Cov(F1,F2)=0,称F2为第二主成分, 依此类推可以造出第三,四,…,第p个主成分。不难 想像这些主成分之间不仅不相关,而且它们的方差依次 递减。因此在实际工作中,就挑选前几个最大主成分, 虽然这样做会损失一部分信息,但是由于它使我们抓住 了主要矛盾,并从原始数据中进一步提取了某些新的信 息,因而在某些实际问题的研究中得益比损失大,这种 既减少了变量的数目又抓住了主要矛盾的做法有利于问 题的分析和处理。
第p个特征值所对应特征向量处达到。
这里要说明两点:一个是数学模型中为什么作线性组合? 基于两种原因:①数学上容易处理;②在实践中效果很好。 另一个要说明的是每次主成分的选取使Var(Fi)最大,如果 不加限制就可使Var(Fi) 则就无意义了,而常用的 限制是要求 (2 )主成分的几何意义 从代数学观点看主成分就是p个变量X1…,Xp的 一些特殊的线性组合,而在几何上这些线性组合正是把 X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标 轴使之通过样品变差最大的方向(或说具有最大的样品 方差 )。下面以最简单的二元正态变量来说明主成分的 9 2015/12/16 几何意义。
我们看到F1,F2是原变量 X1 和 X2 的线性组合,用矩阵表 示是
显然
且是正交矩阵,即
从上图还容易看出二维平面上的n个点的波动(可用方 差表示)大部分可以归结为在 F1 轴上的波动,而在F2轴上 的波动是较小的。如果上图的椭园是相当扁平的,那么我 们可以只考虑F1方向上的波动,忽略F2方向的波动。这样 一来,二维可以降为一维了,只取第一个综合变量 F1即可。 2015/12/16 11 而F1是椭园的长轴。
2、主成分分析的数学模型及几何解释
(1 )、 数学模型
设有 n 个样品,每个样品观测p项指标(变量), X1, X2, …,Xp,得到原始数据资料阵: 2015/12/16 5

主成分分析法

主成分分析法

4,主成分分析法主成分分析(Principal Component Analysis,PCA),是一种统计方法。

通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。

信息的大小通常用离差平方和或方差来衡量。

②主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。

因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

③当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。

4.4主成分分析法的运用叶晓枫,王志良,【2】在介绍主成分分析方法的基本思想及计算方法基础上,对水资源调配评价指标进行了降维计算. 结果显示筛选出的指标对原指标具有较好的代表性,简化了水资源评价问题的难度。

傅湘,纪昌明【3】,针对模糊综合评判法在综合评价中存在的主观随意性问题,提出采用主成分分析法进行区域水资源承载能力综合评价。

对各区域的灌溉率、水资源利用率、水资源开发程度、供水模数、需水模数、人均供水量和生态环境用水率达七个主要因索进行了分析;根据主成分分析法的原理,运用少数几个新的综合指标对原来的七个指标所包含的信息进行最佳综合与简化,研究其在各区域水资源开发利用过程中的不同贡献及综合效应。

周莨棋,徐向阳等【4】,针对传统主成分分析法用于水资源综合评价中存在一些问题,包括指标评价中的“线性”问题、无法体现评价指标主观重要性以及评价范围无法确定。

进行了改进,采用改进的极差正规方法对数据进行规格化,用规格化后的数据加入了主观重要性权进行协方差计算,对协方差特征向量采用正负理想点进行检验。

陈腊娇,冯利华等【5】,将主成分分析方法引入到水资源承载力研究中,并以浙江省为例,在现有资料的基础上,利用主成分分析的方法,定量分析影响水资源承载力变化的最主要的驱动因子。

主成分分析PPT课件

主成分分析PPT课件

a a j1 0
a a j1 0
称 Y j aj X 为原始变量 X 的第 j 个主成分。
14
按 前面 的 步骤 依 次类 推, 可 得到
p
个主成分y1 ,
y2 ,
,
y

p




不 相关 , 且 方差 依 次减少 。
15
定理3.2.1 设 的 p 个顺序特征值为
1 p 0, 1 2 p ,
***********
**
*
*
X1
方差
10
假设原始的
p 个变量为: X1, X 2 ,
,
X
,记:
p
X1
X
X2
X p
D( X ) ( ij ) p p
令:新变量 Y aX
11
第一主成分
求 p 维常数向量 a1 ,使得
Da1X max DaX max a a
aa 1
aa 1
其中
j(
j
1,2,
,
p)是对应于
的标准
j
正交特征向量,则 I , X 的第 j 个
主成分Yj 表达式的系数向量a j j ,
即Y j
j X ,且D(Yj )

j
16
主成分的几何意义
X2
Y2
Y1
*
*
***
*
* * *
*
** *
* *
* *
*
* ************* **
*
X1
***
X2

21
22
X p p1 p2
1k Y1 X1

第3章-主成份分析

第3章-主成份分析
31
得主成分方程:
y 1 0 . 1~ x 1 4 0 . 5 8 ~ x 2 7 5 0 . 5 3~ x 3 5 5 0 . 5 7~ x 4 8 7 y 2 0 . 9~ x 1 5 0 . 0 4 ~ x 2 9 4 0 . 2 8~ x 3 6 4 0 . 0 9~ x 4 8 5
第3章 主成分分析
Principal component analysis
2021/4/6
1
§3.1 主成分分析的基本模型
(一)主成分分析的基本原理
主成分分析是一种把原来多个指标化为少数几 个相互独立的综合指标(主成份)的一种统计方法。
其目的为:1.化简数据, 2.揭示变量之间的关系。
2021/4/6
u11
即Y: U X U
u 21
u12
u 22
u1p u2p
2021/4/6
u p1
u p2
u
6
pp
要求:
(1) uk21uk22 uk2p1
单位向 量
(2) Yi与Yj独立
正交变换
(3) 在所有的正交变换U中,选取这样的线性变换,
(4) 使得Y1具有最大方差,
(5)
Y2 与Y1独立,且具有最大方差。
即: y1=0.006940x1-0.03998x2-0.03270x3
-0.03566x4+8.850
y2=0.04460x1-0.00686x2-0.01580x3 -0.00505x4-7.065
第一主成分是表示“叶宽”的综合因子。
第二主成分主要由x1决定,它是表示“叶长”的综合因子。 第三、第四主成分是舍去的,可不作解释。
2021/4/6
18

主成分分析法

主成分分析法

人均GDP→ x1 第二产业增加值比重→ x3 第三产业从业人员比重→ x5 城市化水平→ x7
人均第三产业增加值→ x2 第三产业增加值比重→ x4 第三产业固定资产投资比重→ x6
2、计算各指标之间的相关系数矩阵
x1
x2
Rij
x3 x4
x5
x6
x7
x1
x2
1 0.988
0.988 1
0.339 0.241
216.39 291.52 225.25 196.37 226.51 217.09 181.38 194.04 188.09 211.55 220.91 242.16 193.46 228.44 175.23 236.29
8.128 8.135 18.352 16.861 18.279 19.793 4.005 9.11 19.409 11.102 4.383 10.706 11.419 9.521 18.106 26.724
3.5 主成分分析法
本节主要内容:
❖ 主成分分析的基本原理 ❖ 主成分分析的计算步骤 ❖ 主成分分析方法应用实例 ❖ 主成分分析方法的SPSS实现
主成分分析法
概念:把原来多个变量划为少数几个综合指标 的一种统计分析方法,是一种降维处理技术.
一个研究对象,往往是多要素的复杂系统。变量太多无疑会增 加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少 的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留 原来较多的变量所反应的信息,这样问题就简5 5.176 5.643 4.881 4.066 4.484 5.721 3.133 4.615 6.053 6.442 7.881 5.789 7.162
0.011 0.012 0.034 0.055 0.076 0.001 0.015 0.002 5.055 0.01 0.011 0.154 0.012 0.069 0.048 0.092

主成分分析方法

主成分分析方法

表3.5.2 特征值及主成分贡献率
特征值 4.661 2.089 1.043 0.507 0.315 0.193 0.114 0.0453 0.0315
贡献率(%) 51.791 23.216 11.589 5.638 3.502 2.14 1.271 0.504 0.35
累积贡献率(%) 51.791 75.007 86.596 92.234 95.736 97.876 99.147 99.65 100
六、主成分模型中各统计量的意义
i
1、主成分的方差贡献率: p
i
i1
这个值越大,表明第i主成分综合信息的
能力越强。 2、主成分的累计贡献率
i
i
表明取前几个主成分基本包含了全部测
量指标所具有信息的百分率。
七、主成分个数的选取
1.累积贡献率达到85%以上 2.根据特征根的变化来确定
1 p
4.065 4.063 2.645 5.176 5.643 4.881 4.066 4.484 5.721 3.133 4.615 6.053 6.442 7.881 5.789 7.162
0.011 0.012 0.034 0.055 0.076 0.001 0.015 0.002 5.055 0.01 0.011 0.154 0.012 0.069 0.048 0.092
e
2 ij
1,
j 1
其中 e ij表示向量 e i 的第j个分量。
③ 计算主成分贡献率及累计贡献率
▲贡献率:
i
p
k
k1
(i 1,2,, p)
▲累计贡献率:
i
k
k 1
p
k
k 1
(i 1,2,, p)

第三章第5节主成分分析PPT课件

第三章第5节主成分分析PPT课件
第5节 主成分分析
❖主成分分析的基本原理 ❖主成分分析的解法 ❖主成分分析方法应用实例
1
整体概述
概况一
点击此处输入相关文本内容 点击此处输入相关文本内容
概况二
点击此处输入相关文本内容 点击此处输入相关文本内容
概况三
点击此处输入相关文本内容 点击此处输入相关文本内容
2
问题的提出
❖ 地理系统是多要素的复杂系统。在地理学研究中,多变量 问题是经常会遇到的。变量太多,无疑会增加分析问题的 难度与复杂性,而且在许多实际问题中,多个变量之间是 具有一定的相关关系的。
❖ 那么这个椭圆有一个长轴和一个短轴。在短轴方向上, 数据变化很少;在极端的情况,短轴如果退化成一点, 那只有在长轴的方向才能够解释这些点的变化了;这样, 由二维到一维的降维就自然完成了。
6
❖ 当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就 描述了数据的主要变化,而代表短轴的变量就描述了数 据的次要变化。
y13 y23
y14 y24
y15 y25
y16 y26
c so in c sio n s x x 1 21 1x x 1 22 2x x 1 23 3x x 1 24 4x x 1 25 5x x 1 2 6 6
UX
❖ U是坐标旋转的变换矩阵,它是正交矩阵,有UT=U-1,即 UUT=I(I为单位矩阵)
❖ 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需 要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆 的长短轴平行。
❖ 如果长轴变量代表了数据包含的大部分信息,就用该变 量代替原先的两个变量(舍去次要的一维),降维就完 成了。
❖ 椭圆(球)的长短轴相差得越大,降维也越有道理。
7
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。



正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有 几个变量,就有几个主成分。 选择越少的主成分,降维就越好。什么是标准呢?那就是 这些被选的主成分所代表的主轴的长度之和占了主轴长度 总和的大部分。有些文献建议,所选的主轴总长度占所有 主轴长度之和的大约85%即可,其实,这只是一个大体的 说法;具体选几个,要看实际情况而定。
X2 10 11 6 14 15 17 7 13
10 5 0
8
9
9 9 10 11
5
8 14 7 12
17
17 18 20
13
17 19 20
1、方差—协方差的计算
25 1 1 25 2 ( xi1 ( xi1 ) 2 ) n 1 i 1 n i 1 1 1 (344673984 ) 20.28 24 25 2 x 24.06 2 2 x1




当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就 描述了数据的主要变化,而代表短轴的变量就描述了数 据的次要变化。 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需 要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆 的长短轴平行。 如果长轴变量代表了数据包含的大部分信息,就用该变 量代替原先的两个变量(舍去次要的一维),降维就完 成了。 椭圆(球)的长短轴相差得越大,降维也越有道理。
第5节 主成分分析
主成分分析的基本原理
主成分分析的解法
主成分分析方法应用实例
问题的提出



地理系统是多要素的复杂系统。在地理学研究中,多变量 问题是经常会遇到的。变量太多,无疑会增加分析问题的 难度与复杂性,而且在许多实际问题中,多个变量之间是 具有一定的相关关系的。 能否在相关分析的基础上,用较少的新变量代替原来较多 的旧变量,而且使这些较少的新变量尽可能多地保留原来 变量所反映的信息? 主成分分析方法就是综合处理这种问题的一种强有力的工 具。主成分分析是把原来多个变量划为少数几个综合指标 的一种统计分析方法。从数学角度来看,这是一种降维处 理技术。
6 6 6 2 2 y1 j y2 j cos sin x1 j x2 j cos2 x1 j x2 j j 1 j 1 j 1 j 1 =0 6

上述条件等同于
5Cov(Y1,Y2 ) y1 j y2 j 0
一、主成分分析方法的基本原理
假定有n个地理样本,每个样本共有p个变量,构成 一个n×p阶的地理数据矩阵。
x11 x 21 X xn 1
x12 x22 xn 2

x1 p x2 p xnp

当p较大时,在p维空间中考察问题比较麻烦。为了克服 这一困难,就需要进行降维处理,即用较少的几个综合 指标代替原来较多的变量指标,而且使这些较少的综合 指标既能尽量多地反映原来较多变量指标所反映的信息, 同时它们之间又是彼此独立的。

例如6个样方、2个种的多度数据是:
12 10
样方 物种X1 物种X2
1 5 11
2 6 8
3 4 7
4 6 6
5 0 2
6 3 2
种X2
8 6 4 2 0 0 1 2 3 种X1 4 5 6 7
数据的中心化
1 x1 5 6 4 6 0 3 4 6 1 x 2 11 8 7 6 2 2 6 6




例中的数据点是六维的;也就是说,每个观测值是6维 空间中的一个点。我们希望把6维空间用低维空间表示。 先假定只有二维,即只有两个变量,它们由横坐标和纵 坐标所代表;因此每个观测值都有相应于这两个坐标轴 的两个坐标值;如果这些数据形成一个椭圆形状的点阵 (这在变量的二维正态的假定下是可能的)。 那么这个椭圆有一个长轴和一个短轴。在短轴方向上, 数据变化很少;在极端的情况,短轴如果退化成一点, 那只有在长轴的方向才能够解释这些点的变化了;这样, 由二维到一维的降维就自然完成了。
二、主成分分析的解法
(一)用方差—协方差矩阵求解主成分例 例:设有一组古生物腕足动物贝壳标本的两个变量:长度和 宽度.所测量的数据列于表中.
25 20 15
X2
X1 3 4 6 6 6 7 7
0 5 10 X1 15 20 25
X2 2 10 5 8 10 2 13 9
X1 12 12 13 13 13 13 14 15
6
6
6
6

它的取值只依赖于坐标轴旋转角度一个变量,取极大值的必
要条件是对θ的导数为0。即
6 2 d y1 j 6 6 6 j 1 2 cos sin 2 2 x1 j x2 j 2 cos2 x1 j x2 j d i 1 j 1 j 1 =0
例,成绩数据

100个学生的数学、物理、化学、语文、历史、英 语的成绩如下表(部分)。
从本例可能提出的问题
目前的问题是,能不能把这个数据的6个变量用 一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信息呢? 能不能利用找到的综合变量来对学生排序呢? 这一类数据所涉及的问题可以推广到对企业, 对学校进行分析、排序、判别和分类等问题。
y1 j x1 j cos x 2 j sin y2 j

j 1,2,,6 x1 j ( sin ) x 2 j cos
cos x1 j sin x 2 j 0
j 1 j 1 6 6
y
j 1 6
6
1j
y
j 1
5 1 2 2 1 1 2 0 2 4 1 0 T XX 0 5 2 1 0 4 4 2 4 4 1 4 25 29 29 62
1 0 US U 0 U 2
-4
-2
0
2
4
-4
-2
0
2
4
对于多维变量的情况和二维类似,也有高维的 椭球,只不过无法直观地看见。 首先把高维椭球的主轴找出来,再用代表大多 数数据信息的最长的几个轴作为新变量;这样, 主成分分析就基本完成。 注意,和二维情况类似,高维椭球的主轴也是 互相垂直的。这些互相正交的新变量是原先变 量的线性组合,叫做主成分。
样方 物种X1 物种X2 1 1 5 2 2 2 3 0 1 4 2 0 5 -4 -4 6 -1 -4 总和 0 0
12 10 8
种X2
6 4 2 0 0 1 2 3 种X1 4 5 6 7
6 5 4 3 2 1 0 -5 -4 -3 -2 -1 -1 0 -2 -3 -4 -5 X1 1 2 3 4 5 6

1 和 2 是对称离差矩阵S的两个特征根 ( 1 2 ),而U的每一行是相应的特征向量。
定义:记x1,x2,…,xP为原变量指标,z1, z2,…,zm(m≤p)为新变量指标
z1 l11 x1 l12 x 2 l1 p x p z 2 l 21 x1 l 22 x 2 l 2 p x p z m l m1 x1 l m 2 x 2 l mp x p

是对角矩阵,并且
1 2
y11 Y y 21
y12 y 22
y13 y 23
y14 y 24
T
y15 y 25
y16 y 26
T T
UX

T
Y X U
T T
YY UXX U
其中XXT是已中心化数据的离差矩阵S,它是对称的。又 因U是正交矩阵UT=U-1,则上式可写为:USU-1=Λ
3
4
5
6

6个样方点在新坐标系中位置的数据为:
y11 Y y 21

y12 y 22
y13 y 23
y14 y 24
y15 y 25
y16 y 26
与中心化后的原始数据有如下关系:
y1 j x1 j cos x 2 j sin y2 j
j 1,2,,6 x1 j ( sin ) x 2 j cos

写成矩阵的形式有:
y11 y12 y13 y14 y15 y16 Y y y y y y y 22 23 24 25 26 21 cos sin x11 x12 x13 x14 sin cos x21 x 22 x23 x 24
x15 x25
UX
x16 x 26

U是坐标旋转的变换矩阵,它是正交矩阵,有UT=U-1,即 UUT=I(I为单位矩阵)
希望Y1轴就是要找的直线:6个点在该线上垂足的离差平方和最大
(即畸变最小)

x
j 1
6
1j
x2 j 0
j 1
6
中心化以后的数据, 相当于对原始数据 的离差求和
X2
中心化后的原始数据矩阵
1 2 0 2 4 1 X 5 2 1 0 4 4

把坐标轴X1、X2刚 性地旋转一个角度, 得到图中虚线表示 的新坐标轴Y1和Y2。
6
Y2
5 4 3 2 1 0
Y1
X2
-5
-4
-3
-2
-1 -1 0 -2 -3 -4 -5 X1
1
2
(一)主成分分析的几何解释

主成分分析的几何意义
主成分分析的过程就是坐标系旋转的过程,各主成分
就是新坐标与原坐标的转换关系,在新坐标系中,各 坐标轴的方向就是原始数据变差最大的方向。
相关文档
最新文档