第三章第5节主成分分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
j 1
6

因此,如果原坐标旋转后的Y1轴是我们要求的使Var(Y1)
最大的直线的话,则必然有Var(Y2)最小, 且 Cov(Y1,Y2 ) 0 。这说明6个样方点对新坐标的离差矩 阵应为
T
方差—协方差 矩阵
Cov(Y1 ,Y2 ) 1 0 Var(Y1 ) YY 5 Cov(Y ,Y ) Var(Y ) 0 1 2 2 2



正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有 几个变量,就有几个主成分。 选择越少的主成分,降维就越好。什么是标准呢?那就是 这些被选的主成分所代表的主轴的长度之和占了主轴长度 总和的大部分。有些文献建议,所选的主轴总长度占所有 主轴长度之和的大约85%即可,其实,这只是一个大体的 说法;具体选几个,要看实际情况而定。
6 6 6 2 2 y1 j y2 j cos sin x1 j x2 j cos2 x1 j x2 j j 1 j 1 j 1 j 1 =0 6

上述条件等同于
5Cov(Y1,Y2 ) y1 j y2 j 0
2j
sin x1 j cos x2 j 0
j 1 j 1
6
6

对刚性旋转后的新轴而言,坐标原点仍在形心
(Y
和就是它们在Y1轴上坐标之平方和
)。于是6个点在Y1轴上垂足的离差平方 , Y 1 2 6
2 。 y 1j j 1


2 2 2 2 2 y cos x sin x 1j 1j 2 j 2 sin cos x1 j x2 j j 1 j 1 j 1 j 1

是对角矩阵,并且
1 2
y11 Y y 21
y12 y 22
y13 y 23
y14 y 24
T
y15 y 25
y16 y 26
T T
UX

T
Y X U
T T
YY UXX U
其中XXT是已中心化数据的离差矩阵S,它是对称的。又 因U是正交矩阵UT=U-1,则上式可写为:USU-1=Λ
5 1 2 2 1 1 2 0 2 4 1 0 T XX 0 5 2 1 0 4 4 2 4 4 1 4 25 29 29 62
1 0 US U 0 U 2
3
4
5
6

6个样方点在新坐标系中位置的数据为:
y11 Y wenku.baidu.com y 21

y12 y 22
y13 y 23
y14 y 24
y15 y 25
y16 y 26
与中心化后的原始数据有如下关系:
y1 j x1 j cos x 2 j sin y2 j
j 1,2,,6 x1 j ( sin ) x 2 j cos




当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就 描述了数据的主要变化,而代表短轴的变量就描述了数 据的次要变化。 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需 要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆 的长短轴平行。 如果长轴变量代表了数据包含的大部分信息,就用该变 量代替原先的两个变量(舍去次要的一维),降维就完 成了。 椭圆(球)的长短轴相差得越大,降维也越有道理。
一、主成分分析方法的基本原理
假定有n个地理样本,每个样本共有p个变量,构成 一个n×p阶的地理数据矩阵。
x11 x 21 X xn 1
x12 x22 xn 2

x1 p x2 p xnp

当p较大时,在p维空间中考察问题比较麻烦。为了克服 这一困难,就需要进行降维处理,即用较少的几个综合 指标代替原来较多的变量指标,而且使这些较少的综合 指标既能尽量多地反映原来较多变量指标所反映的信息, 同时它们之间又是彼此独立的。
二、主成分分析的解法
(一)用方差—协方差矩阵求解主成分例 例:设有一组古生物腕足动物贝壳标本的两个变量:长度和 宽度.所测量的数据列于表中.
25 20 15
X2
X1 3 4 6 6 6 7 7
0 5 10 X1 15 20 25
X2 2 10 5 8 10 2 13 9
X1 12 12 13 13 13 13 14 15

写成矩阵的形式有:
y11 y12 y13 y14 y15 y16 Y y y y y y y 22 23 24 25 26 21 cos sin x11 x12 x13 x14 sin cos x21 x 22 x23 x 24
x15 x25
UX
x16 x 26

U是坐标旋转的变换矩阵,它是正交矩阵,有UT=U-1,即 UUT=I(I为单位矩阵)
希望Y1轴就是要找的直线:6个点在该线上垂足的离差平方和最大
(即畸变最小)

x
j 1
6
1j
x2 j 0
j 1
6
中心化以后的数据, 相当于对原始数据 的离差求和




例中的数据点是六维的;也就是说,每个观测值是6维 空间中的一个点。我们希望把6维空间用低维空间表示。 先假定只有二维,即只有两个变量,它们由横坐标和纵 坐标所代表;因此每个观测值都有相应于这两个坐标轴 的两个坐标值;如果这些数据形成一个椭圆形状的点阵 (这在变量的二维正态的假定下是可能的)。 那么这个椭圆有一个长轴和一个短轴。在短轴方向上, 数据变化很少;在极端的情况,短轴如果退化成一点, 那只有在长轴的方向才能够解释这些点的变化了;这样, 由二维到一维的降维就自然完成了。
-4
-2
0
2
4
-4
-2
0
2
4
对于多维变量的情况和二维类似,也有高维的 椭球,只不过无法直观地看见。 首先把高维椭球的主轴找出来,再用代表大多 数数据信息的最长的几个轴作为新变量;这样, 主成分分析就基本完成。 注意,和二维情况类似,高维椭球的主轴也是 互相垂直的。这些互相正交的新变量是原先变 量的线性组合,叫做主成分。
θ
X1
z1 j x1 j cos x2 j sin z2 j
j 1,2, , n x1 j ( sin ) x2 j cos
Z2
Z1
(二)特征值与特征向量与方差--协方差矩阵的联系 (主成分的数学解释)


主成分分析的实质就是要求出方差—协方差矩阵的特征向量 及其对应的特征值,即要找出方差—协方差矩阵所确定的椭 球的主轴,并确定其长度。 方差—协方差阵的特征向量表示主轴的方向,而其对应的特 征值表示主轴的长度。
例,成绩数据

100个学生的数学、物理、化学、语文、历史、英 语的成绩如下表(部分)。
从本例可能提出的问题
目前的问题是,能不能把这个数据的6个变量用 一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信息呢? 能不能利用找到的综合变量来对学生排序呢? 这一类数据所涉及的问题可以推广到对企业, 对学校进行分析、排序、判别和分类等问题。

例如6个样方、2个种的多度数据是:
12 10
样方 物种X1 物种X2
1 5 11
2 6 8
3 4 7
4 6 6
5 0 2
6 3 2
种X2
8 6 4 2 0 0 1 2 3 种X1 4 5 6 7
数据的中心化
1 x1 5 6 4 6 0 3 4 6 1 x 2 11 8 7 6 2 2 6 6
(一)主成分分析的几何解释

主成分分析的几何意义
主成分分析的过程就是坐标系旋转的过程,各主成分
就是新坐标与原坐标的转换关系,在新坐标系中,各 坐标轴的方向就是原始数据变差最大的方向。

Z2
X2
N个样品无论沿X1轴方向还是沿X2轴 方向均有较大的离散性,其离散程 Z1 度可以分别用观测变量 X1的方差和 X2的方差定量地表示,显然,若只 考虑X1和X2中的任何一个,原始数 据中的信息均会有较大的损失。
X2
中心化后的原始数据矩阵
1 2 0 2 4 1 X 5 2 1 0 4 4

把坐标轴X1、X2刚 性地旋转一个角度, 得到图中虚线表示 的新坐标轴Y1和Y2。
6
Y2
5 4 3 2 1 0
Y1
X2
-5
-4
-3
-2
-1 -1 0 -2 -3 -4 -5 X1
1
2
X2 10 11 6 14 15 17 7 13
10 5 0
8
9
9 9 10 11
5
8 14 7 12
17
17 18 20
13
17 19 20
1、方差—协方差的计算
25 1 1 25 2 ( xi1 ( xi1 ) 2 ) n 1 i 1 n i 1 1 1 (344673984 ) 20.28 24 25 2 x 24.06 2 2 x1
y1 j x1 j cos x 2 j sin y2 j

j 1,2,,6 x1 j ( sin ) x 2 j cos
cos x1 j sin x 2 j 0
j 1 j 1 6 6
y
j 1 6
6
1j
y
j 1
6
6
6
6

它的取值只依赖于坐标轴旋转角度一个变量,取极大值的必
要条件是对θ的导数为0。即
6 2 d y1 j 6 6 6 j 1 2 cos sin 2 2 x1 j x2 j 2 cos2 x1 j x2 j d i 1 j 1 j 1 =0

系数lij的确定原则

l l l 1, (i 1,2,, m)
2 i1 2 i2 2 ip
zi与zj(i≠j;i,j=1,2,…,m)相互无关。
z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关 的x1,x2,…,xP的所有线性组合中方差最大者;…… zm是与z1, z2,……,zm-1都不相关的x1,x2,…xP, 的所有线性组合中方差 最大者。则新变量指标z1,z2,…,zm分别称为原变量指标x1, x2,…,xP的第一,第二,…,第m主成分。
样方 物种X1 物种X2 1 1 5 2 2 2 3 0 1 4 2 0 5 -4 -4 6 -1 -4 总和 0 0
12 10 8
种X2
6 4 2 0 0 1 2 3 种X1 4 5 6 7
6 5 4 3 2 1 0 -5 -4 -3 -2 -1 -1 0 -2 -3 -4 -5 X1 1 2 3 4 5 6
第5节 主成分分析
主成分分析的基本原理
主成分分析的解法
主成分分析方法应用实例
问题的提出



地理系统是多要素的复杂系统。在地理学研究中,多变量 问题是经常会遇到的。变量太多,无疑会增加分析问题的 难度与复杂性,而且在许多实际问题中,多个变量之间是 具有一定的相关关系的。 能否在相关分析的基础上,用较少的新变量代替原来较多 的旧变量,而且使这些较少的新变量尽可能多地保留原来 变量所反映的信息? 主成分分析方法就是综合处理这种问题的一种强有力的工 具。主成分分析是把原来多个变量划为少数几个综合指标 的一种统计分析方法。从数学角度来看,这是一种降维处 理技术。

1 和 2 是对称离差矩阵S的两个特征根 ( 1 2 ),而U的每一行是相应的特征向量。
定义:记x1,x2,…,xP为原变量指标,z1, z2,…,zm(m≤p)为新变量指标
z1 l11 x1 l12 x 2 l1 p x p z 2 l 21 x1 l 22 x 2 l 2 p x p z m l m1 x1 l m 2 x 2 l mp x p
相关文档
最新文档