主成分分析原理介绍PPT课件
合集下载
主成分分析 ppt课件
ppt课件
19
Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩 作用之外,还具有不相关的性质,这就使得在研
究复杂的问题时避免了信息重叠所带来的虚假性。
二维平面上的个点的方差大部分都归结在Fl轴上, 而F2轴上的方差很小。Fl和F2称为原始变量x1和x2 的综合变量。F简化了系统结构,抓住了主要矛盾。
ppt课件
16
如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到 新坐标轴Fl和F2。Fl和F2是两个新变量。
ppt课件
17
根据旋转变换的公式:
y1 y1
x1 cos x2 sin x1 sin x2 cos
y1 cos sin x1 Ux y2 sin cos x2
• •
x1
解 释
•••
ppt课件
13
平移、旋转坐标轴
x2
F1
主 成 分 分 析 的 几 何 解 释
F2 •
•••
••••• ••
••••••••••
•••••••
••••••
•
x1
ppt课件
14
平移、旋转坐标轴 x2
F1
主 成 分 分 析 的 几 何 解
F2
•
• •• •
• •
•••
•••
• •• •••••••••••••••• ••••
ppt课件
11
平移、旋转坐标轴
x2
F1
主 成
F2
•• • • •
分 分 析 的 几 何
•• • •
•• •
•
• •
•••
主成分分析完整版ppt课件
差最大。
问对的题应方的的差答 单 。案 位特是征:向X的量协即方为差矩a11阵, aS21的。最并大且特征就根1是1F所1
10
同样,F2可以表示为 F2 a12 (x1 x1) a22 (x2 x2 )
寻找合适的单位向量 (a12, a22 ),使F2与F1独立,且 使F2的方差(除F1之外)最大。
,
解得 k (a1k , a2k ,..., a pk )
4. 写出主成分的表达式
Байду номын сангаасFk a1k ( x1 x1 ) a2k ( x2 x2 ) ... apk ( xp xp ) 或Fk a1k x1 a2k x2 ... a pk x p
19
主成分个数的选取原则
根据累积贡献率的大小取前面m 个(m<p)主成分
问题的答案是:X的协方差矩阵S 的第二大特征根 2
所对应的单位特征向量即为
的方差。
a12, a22。并且
就2 是F2
11
F1 a11(x1 x1) a21(x2 x2 ) F2 a12 (x1 x1) a22 (x2 x2 )
其中,aij称为因子载荷量 因子载荷量:主成分与变量间的相关系数, 即:因子载荷量的大小和它前面的正负号直接反映了 主成分与相应变量之间关系的密切程度和方向。从而可以说 明各主成分的意义
Fp a1 p X1 a2 p X 2 a pp X p
满足如下的条件:
➢每个主成分的系数平方和为1。即
a12i
a22i
a
2 pi
1
➢主成分之间相互独立,即无重叠的信息。即
Cov(Fi,F)j 0,i j,i,j 1, 2, ,p
➢主成分的方差依次递减,重要性依次递减,即 Var(F1) Var(F2 ) Var(Fp )
问对的题应方的的差答 单 。案 位特是征:向X的量协即方为差矩a11阵, aS21的。最并大且特征就根1是1F所1
10
同样,F2可以表示为 F2 a12 (x1 x1) a22 (x2 x2 )
寻找合适的单位向量 (a12, a22 ),使F2与F1独立,且 使F2的方差(除F1之外)最大。
,
解得 k (a1k , a2k ,..., a pk )
4. 写出主成分的表达式
Байду номын сангаасFk a1k ( x1 x1 ) a2k ( x2 x2 ) ... apk ( xp xp ) 或Fk a1k x1 a2k x2 ... a pk x p
19
主成分个数的选取原则
根据累积贡献率的大小取前面m 个(m<p)主成分
问题的答案是:X的协方差矩阵S 的第二大特征根 2
所对应的单位特征向量即为
的方差。
a12, a22。并且
就2 是F2
11
F1 a11(x1 x1) a21(x2 x2 ) F2 a12 (x1 x1) a22 (x2 x2 )
其中,aij称为因子载荷量 因子载荷量:主成分与变量间的相关系数, 即:因子载荷量的大小和它前面的正负号直接反映了 主成分与相应变量之间关系的密切程度和方向。从而可以说 明各主成分的意义
Fp a1 p X1 a2 p X 2 a pp X p
满足如下的条件:
➢每个主成分的系数平方和为1。即
a12i
a22i
a
2 pi
1
➢主成分之间相互独立,即无重叠的信息。即
Cov(Fi,F)j 0,i j,i,j 1, 2, ,p
➢主成分的方差依次递减,重要性依次递减,即 Var(F1) Var(F2 ) Var(Fp )
《主成分分析》幻灯片PPT
PCA的实质——简化数据
用尽可能少的变量〔主成分〕反映原始数据中尽 可能多的信息,以简化数据,突出主要矛盾。
反映原始数据特征的指标:方差-离散度 主成分:原始变量的最优加权线性组合 最优加权:
第一主成分:寻找原始数据的一个线性组合,使 之具有最大方差〔数据离散度最大的方向〕
第二主成分:寻找原始数据的一个线性组合,使 之具有次大方差,且与第一主成分无关
12.00
14.00
16.00
run100m
18.00
20.00
二、PCA的模型与算法
设:x为标准化变量, 原始数据阵 X s [x 1 ,x 2 , x p ] PCA目标:找到原始数据方差最大的线性组合
❖设:线性组合系数为p×1=[1, 2, … p]T
❖即:要找一个 使z=Xs= 1x1+ 2x2 +…+ pxp具有
What does PCA do?
Original data matrix, say n by p 正交旋转
New data matrix, say n by q, with q < p:
例:研究55个国家运发动径赛 能力,用8项径赛成绩
经PCA得到新数据阵: z55×2:选取2个主成分, 其中第一主成分表示综合
0.0
1
第一主成分-1.0包0 含的信0.0息0 量显然1.00
-21..000
售 电 量
Z2
大于第二主成分,因而忽略s 第
二主成分信息损失不大 -2.0
-2
-1
Ma Xin, North China Electric Power University
0
1
2
3
主成分分析方法PPT课件
二维状况
❖ 如令
A
a1 1 a2 1
❖
cos sin 则 Tsin cos
a1 2
a2
2
1tg1 2a12
2 a11a22
T A a 1 T c 1 2o 2 a 1 s s 0 2c in o a 2 s 2 s 2 ia 1 n s 1 2 i 2 n a 1 s 2 0 c in o a 2 c 2 s 2 o
数) P ( Z k ,x i) k l k ( i , i 1 , 2 , ,p ; k 1 , 2 , ,m )
L(lki)
1l11 1l12
1l1P
2l21 2l22
2l2P
m mllm m12
mlm P
❖ 各主成分的得分:
z1 l11x1* l12x2* l1px*p z2 l21x1* l22x2* l2px*p
6
6
6
6
y1 2j
j1
y2 2j
j1
x1 2j
j1
j1x2 2 ?j??
❖ 每个平方和都是6个点在相应坐标轴上方差的〔6-1〕
倍
S2 1 n n1i1
2
xi x
V ( Y 1 a ) V r ( Y 2 a ) V r( X a 1 ) V r( X a 2 ) r
❖由
6
X
x21
x22
x2
p
xn1
xn2
xnp
❖ 当p较大时,在p维空间中考察问题比较麻烦。 为了抑制这一困难,就需要进展降维处理.
❖ 要求:较少的几个综合指标尽量多地反映原来 较多变量指标所反映的信息,同时它们之间又是 彼此独立的
例,成绩数据
主成分分析PPT课件
u2
M
a1
p
up
p
iauiuia i1
p
i (aui )2 i1
1
p
(au
i 1
i
)2
p
1 auiuia i 1
1aUUa 1aa 1
当且仅当a1 =u1时,即 F1 u11X1 u p1X p 时, 有最大的方差1。因为Var(F1)=U’1xU1=1。
这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分析通 常的做法是,寻求原指标的线性组合Fi。
F1 u11X1 u21X 2 u p1X p F2 u12 X1 u22 X 2 u p2 X p
Fp u1p X1 u2 p X 2 u pp X p
p1 p2
1p
2
p
2 p
由于Σx为非负定的对称阵,则有利用线性代数的 知识可得,必存在正交阵U,使得
1
0
UΣXU
0
p
其中1, 2,…, p为Σx的特征根,不妨假设 1 2 … p 。而U恰好是由特征根相对应的特 征向量所组成的正交阵。
F1
F2
F3
i
i
t
F1
1
F2
0
1
F3
0
0
1
i 0.995 -0.041 0.057
l
Δi -0.056 0.948 -0.124 -0.102 l
t -0.369 -0.282 -0.836 -0.414 -0.112 1
第九章 主成分分析PPT课件
➢ 因而,人们希望对这些变量加以“改造”,用少数的互 不相关的新变量反映原始变量所提供的绝大部分信息, 通过对新变量的分析解决问题。
前言
➢ 主成分分析是把各变量之间互相关联的复 杂关系进行简化分析的方法。
➢ 在多指标的数据分析中,压缩指标个数的 讨论成为实际工作者关心的问题之一。
➢ 主成分分析就是将多个指标转化为少数几 个综合指标的一种常用的统计方法
5维空间在平面上的投影
x2 y2
x1
x3
y1 x4
x5
y1 =l11x1 +l21x2 +…+l51x5 y2 =l21x1 +l22x2 +…+l52x5
x2
y2
x1
x3 y1
x4为Z,标准化后的变量记为X。作标准化变换:
z j
1 n
n
zkj
k 1
xkj
zkj sj
➢ yl,y2除了可以对包含在xl,x2中的信息起着 浓缩作用之外,还具有不相关(图形中表 现为正交)的性质,这就使得在研究复杂 的问题时避免了信息重叠所带来的虚假性。 二维平面上的个点的方差大部分都归结在 yl 轴上,而y2轴上的方差很小。 yl 和 y2 称为 原始变量xl和x2的综合变量。 y 简化了系统 结构,抓住了主要矛盾。
➢ 主成分分析能起到既减少指标个数,又不影响所要达 到的统计分析的目的。
➢ 要注意的是,主成分分析方法往往是一种 手段,它要与其它方法结合起来使用。
➢ 常与回归分析、因子分析、聚类分析结合 在一起使用
问题的提出
设在一个问题中,有n个个体,对每一个个体测定了p个指 标,其观察值组成了一个矩阵
x11 x12 ... x1p
前言
➢ 主成分分析是把各变量之间互相关联的复 杂关系进行简化分析的方法。
➢ 在多指标的数据分析中,压缩指标个数的 讨论成为实际工作者关心的问题之一。
➢ 主成分分析就是将多个指标转化为少数几 个综合指标的一种常用的统计方法
5维空间在平面上的投影
x2 y2
x1
x3
y1 x4
x5
y1 =l11x1 +l21x2 +…+l51x5 y2 =l21x1 +l22x2 +…+l52x5
x2
y2
x1
x3 y1
x4为Z,标准化后的变量记为X。作标准化变换:
z j
1 n
n
zkj
k 1
xkj
zkj sj
➢ yl,y2除了可以对包含在xl,x2中的信息起着 浓缩作用之外,还具有不相关(图形中表 现为正交)的性质,这就使得在研究复杂 的问题时避免了信息重叠所带来的虚假性。 二维平面上的个点的方差大部分都归结在 yl 轴上,而y2轴上的方差很小。 yl 和 y2 称为 原始变量xl和x2的综合变量。 y 简化了系统 结构,抓住了主要矛盾。
➢ 主成分分析能起到既减少指标个数,又不影响所要达 到的统计分析的目的。
➢ 要注意的是,主成分分析方法往往是一种 手段,它要与其它方法结合起来使用。
➢ 常与回归分析、因子分析、聚类分析结合 在一起使用
问题的提出
设在一个问题中,有n个个体,对每一个个体测定了p个指 标,其观察值组成了一个矩阵
x11 x12 ... x1p
主成分分析完整ppt课件
的系数向量。对于多维的情况,上面的结论依然成立。
这样,我们就对主成分分析的几何意义有了一个充分的了解。 主成分分析的过程无非就是坐标系旋转的过程,各主成分表达 式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐 标轴的方向就是原始数据变差最大的方向。
2021/6/12
1199
目录 上页 下页 返回 结束
其中,U为旋转变换矩阵,由上式可知它是正交阵, 即满足
U'U1 , U'UI
2021/6/12
1144
目录 上页 下页 返回 结束
§2 主成分分析的几何意义
经过这样的旋转之后,N个样品点在 Y 1 轴上的离散程度最
大,变量 Y 1 代表了原始数据绝大部分信息,这样,有时在研
究实际问题时,即使不考虑变量 Y 2 也无损大局。因此,经过
指标转化为几个综合指标的多元统计方法。通常把转化生成
的综合指标称之为主成分,其中每个主成分都是原始变量的
线性组合,且各个主成分之间互不相关,这就使得主成分比
原始变量具有某些更优越的性能。这样在研究复杂问题时就 可以只考虑少数几个主成分而不至于损失太多信息,从而更
容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时
上述旋转变换就可以把原始数据的信息集中到
Y
轴上,对数
1
据中包含的信息起到了浓缩的作用。进行主成分分析的目的
就是找出转换矩阵 U ,而进行主成分分析的作用与几何意义
也就很明了了。下面我们用遵从正态分布的变量进行分析,
以使主成分分析的几何意义更为明显。为方便,我们以二元
正态分布为例。对于多元正态总体的情况,有类似的结论。
1.每一个主成分都是各原始变量的线性组合;
这样,我们就对主成分分析的几何意义有了一个充分的了解。 主成分分析的过程无非就是坐标系旋转的过程,各主成分表达 式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐 标轴的方向就是原始数据变差最大的方向。
2021/6/12
1199
目录 上页 下页 返回 结束
其中,U为旋转变换矩阵,由上式可知它是正交阵, 即满足
U'U1 , U'UI
2021/6/12
1144
目录 上页 下页 返回 结束
§2 主成分分析的几何意义
经过这样的旋转之后,N个样品点在 Y 1 轴上的离散程度最
大,变量 Y 1 代表了原始数据绝大部分信息,这样,有时在研
究实际问题时,即使不考虑变量 Y 2 也无损大局。因此,经过
指标转化为几个综合指标的多元统计方法。通常把转化生成
的综合指标称之为主成分,其中每个主成分都是原始变量的
线性组合,且各个主成分之间互不相关,这就使得主成分比
原始变量具有某些更优越的性能。这样在研究复杂问题时就 可以只考虑少数几个主成分而不至于损失太多信息,从而更
容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时
上述旋转变换就可以把原始数据的信息集中到
Y
轴上,对数
1
据中包含的信息起到了浓缩的作用。进行主成分分析的目的
就是找出转换矩阵 U ,而进行主成分分析的作用与几何意义
也就很明了了。下面我们用遵从正态分布的变量进行分析,
以使主成分分析的几何意义更为明显。为方便,我们以二元
正态分布为例。对于多元正态总体的情况,有类似的结论。
1.每一个主成分都是各原始变量的线性组合;
第三章第5节主成分分析PPT课件
第5节 主成分分析
❖主成分分析的基本原理 ❖主成分分析的解法 ❖主成分分析方法应用实例
1
整体概述
概况一
点击此处输入相关文本内容 点击此处输入相关文本内容
概况二
点击此处输入相关文本内容 点击此处输入相关文本内容
概况三
点击此处输入相关文本内容 点击此处输入相关文本内容
2
问题的提出
❖ 地理系统是多要素的复杂系统。在地理学研究中,多变量 问题是经常会遇到的。变量太多,无疑会增加分析问题的 难度与复杂性,而且在许多实际问题中,多个变量之间是 具有一定的相关关系的。
❖ 那么这个椭圆有一个长轴和一个短轴。在短轴方向上, 数据变化很少;在极端的情况,短轴如果退化成一点, 那只有在长轴的方向才能够解释这些点的变化了;这样, 由二维到一维的降维就自然完成了。
6
❖ 当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就 描述了数据的主要变化,而代表短轴的变量就描述了数 据的次要变化。
y13 y23
y14 y24
y15 y25
y16 y26
c so in c sio n s x x 1 21 1x x 1 22 2x x 1 23 3x x 1 24 4x x 1 25 5x x 1 2 6 6
UX
❖ U是坐标旋转的变换矩阵,它是正交矩阵,有UT=U-1,即 UUT=I(I为单位矩阵)
❖ 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需 要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆 的长短轴平行。
❖ 如果长轴变量代表了数据包含的大部分信息,就用该变 量代替原先的两个变量(舍去次要的一维),降维就完 成了。
❖ 椭圆(球)的长短轴相差得越大,降维也越有道理。
7
❖主成分分析的基本原理 ❖主成分分析的解法 ❖主成分分析方法应用实例
1
整体概述
概况一
点击此处输入相关文本内容 点击此处输入相关文本内容
概况二
点击此处输入相关文本内容 点击此处输入相关文本内容
概况三
点击此处输入相关文本内容 点击此处输入相关文本内容
2
问题的提出
❖ 地理系统是多要素的复杂系统。在地理学研究中,多变量 问题是经常会遇到的。变量太多,无疑会增加分析问题的 难度与复杂性,而且在许多实际问题中,多个变量之间是 具有一定的相关关系的。
❖ 那么这个椭圆有一个长轴和一个短轴。在短轴方向上, 数据变化很少;在极端的情况,短轴如果退化成一点, 那只有在长轴的方向才能够解释这些点的变化了;这样, 由二维到一维的降维就自然完成了。
6
❖ 当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就 描述了数据的主要变化,而代表短轴的变量就描述了数 据的次要变化。
y13 y23
y14 y24
y15 y25
y16 y26
c so in c sio n s x x 1 21 1x x 1 22 2x x 1 23 3x x 1 24 4x x 1 25 5x x 1 2 6 6
UX
❖ U是坐标旋转的变换矩阵,它是正交矩阵,有UT=U-1,即 UUT=I(I为单位矩阵)
❖ 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需 要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆 的长短轴平行。
❖ 如果长轴变量代表了数据包含的大部分信息,就用该变 量代替原先的两个变量(舍去次要的一维),降维就完 成了。
❖ 椭圆(球)的长短轴相差得越大,降维也越有道理。
7
主成分分析讲解PPT演示课件
6 .130 -.119 -.003 .002 .016 -.016
c1
c2
c3
c4
c5
c6
3 -.184 -.162 .718 -.455 .379 -.101
4 -.164 -.252 .296 .323 -.302 .217
Extraction Method: Principal Component Analysis.
a. 6 components extracted.
5 .079 .106 .121 .088 -.109 -.264
7
A1 A2 A3
B1 B2 B3
2019/9/6
Correlations
A1 1
.335 .046
A2 .335
1 .056
A3 .046 .056
1
Correlations
B1
B2
B3
1
.996
.249
.996
1
.258
.249
.258
1
8
协方差矩阵
样本的方差-协方差矩阵(variance-covariance matrix)
sik
ski
1 n 1
j
( xij xi )(xkj xk )
i k; i 1,2,, p; k 1,2,, p
2019/9/6
9
相关矩阵
如果有p个观测变量 x1, x2 ,, x p ,其相 关阵(correlation matrix)记为
1 r12 r1 p
身高 坐高 胸围 肩宽 骨盆宽 体重
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢问题的提出
有n个地理样本,每个样本共有p个变量, 构成一个n×p阶的地理数据矩阵
x11 x12 x1 p
X
x
21
x22
x2
p
x
n1
xn2
x np
当p较大时,在p维空间中考察问题比较麻烦。
1. 主成分分析的基本原理
为了克服这一困难,就需要进行降维处 理,即用较少的几个综合指标来代替原来的 指标,而且使这些综合指标能尽量多地反映 原来指标所表示的信息,同时他们之间又是 彼此独立的。
z1 l11x1 l12x2 l1p xp
z2 l21x1 l22x2 l2p xp
zm lm1x1 lm2 x2 lmpxp
z1,z2,…,zm分别称为原变量指标x1,x2,…, xP的第一,第二,…,第m主成分。
➢推广到p维空间:
由此可见,主成分分析的主要任务就是确定 原变量xj(j=1,2,…,p)在诸主成分zi(i=1, 2,...,m)上的系数lij。
必须考虑许多指标,这些指标能从不同的侧面反 映所研究的对象的特征,但指标过多,会增加分 析的复杂性,原始变量能不能减少为有代表性的 少数几个新变量,用它来代表原来的指标?
1. 主成分分析的基本原理
主成分分析就是寻找用较少的新变量代替 原来较多的旧变量,而且使新变量尽可能多 地保留原来较多信息的方法。
zz1 2csoisn cso insxx1 2Ux
U是正交矩阵,即有
UU1,UUE
zl,z2除了可以对包含在xl,x2中的信息起着 浓缩作用之外,还具有不相关的性质,这就使得 在研究复杂的问题时避免了信息重叠所带来的虚 假性。二维平面上的各点的方差大部分都归结在 zl轴上,而z2轴上的方差很小。zl和z2称为原始变 量x1和x2的综合变量。
i
p
k
k1
•累计贡献率:
(i 1,2,, p)
i
k
k 1
p
k
k 1
(i 1,2,, p)
➢计算主成分贡献率及累计贡献率
一般选取累计贡献率达80%~90%的特 征值 1,2, ,m 所对应的第一,第二,…, 第m 个主成分。
➢计算主成分载荷
p(zi,xj)ieij(i,j1,2, ,p)
z简化了系统结构,抓住了主要矛盾。
*旋转变换的目的是为了使得n个样本点在z1轴方向 上的离散程度最大,即z1的方差最大,变量z1代表 了原始数据的绝大部分信息,在研究某些问题时, 即使不考虑变量z2也损失不多的信息。
z1称为第一主成分,z2称为第二主成分。
➢推广到p维空间:
记x1,x2,…,xP为原变量指标,z1,z2,…, zm(m≤p)为新变量指标,则:
x2
•• • • •
•• • •
•• •
•
• •
•
• •
•
•
•
• •••
•
• •
•
•• •
• ••
x 1
••
可以看出这n个样本点无论是沿着xl 轴方向或 x2轴方向都具有较大的离散性,其离散的程度可以 分别用观测变量xl 的方差和x2 的方差定量地表示 。显然,如果只考虑xl和x2 中的任何一个,那么包 含在原始数据中的信息将会有较大的损失。如果我
§3.5 主成分分析方法
➢ 主成分分析的基本原理 ➢ 主成分分析的计算步骤 ➢ 主成分分析方法应用实例
一项十分著名的工作是美国的统计学家斯通 (Stone)在1947年关于国民经济的研究。他曾
利用美国1929~1938年各年的数据,得到了
17个反映国民收入与支出的变量要素,例如雇 主补贴、消费资料和生产资料、纯公共支出、 净增库存、股息、利息外贸平衡等等。
k1
k1
➢计算特征值与特征向量
① 解特征方程 ER0,求出特征值,并使其 按大小顺序排列,即 12 ,p0
② 分别求出对应于特征值 i 的特征向量
p
ei(i1,2, ,p)要求
ei
=1,即
e
2 ij
1
,其中 e ij
j 1
表示向量 e i 的第j个分量。
➢计算主成分贡献率及累计贡献率
•贡献率:
在进行主成分分析后,竟以97.4%的精度,用3 个新变量就取代了原17个变量。根据经济学知识, 斯通给这三个新变量分别命名为总收入F1、总收入 变化率F2和经济发展或衰退趋势F3。更有意思的是, 这三个变量其实都是可以直接测量的。斯通将他得 到的主成分与实际测量的总收入I、总收入变化率 I以及时间t因素做相关分析,得到下表:
们将xl 轴和x2轴先平移,再同时按逆时针方向旋转 角度,得到新坐标轴zl和z2。zl和z2是两个新变量 。
x
z1
2
Z2
•• • • •
•• • •
•• •
•
• •
••• • • •
• •••
• •• •
•• •
• ••
x 1
••
zz12
x1cosx2sin x1sinx2 cos
根据旋转变换的公式:
2、计算步骤
计算相关系数矩阵
r11 r12 r1 p
R
r21
r22
r2
p
r
p1
rp2
rppBiblioteka rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji,其计算公式为:
rij
n
(xki xi )(xkj xj )
k1
n
n
(xki xi )2 (xkj xj )2
F1
F2
F3
I
⊿I
t
F1
1
F2
0
1
F3
0
0
1
I 0.995 -0.041 0.057 1
⊿I -0.056 0.948 -0.124 -0.102 1
t -0.369 -0.282 -0.836 -0.414 -0.112 1
1. 主成分分析的基本原理
➢ 问题提出:为了全面系统的分析和研究问题,
➢综合指标的选取
在选取综合指标时,最简单的形式就是取 原来变量的线性组合,适当调整组合系数, 使新的变量之间相互独立且代表性最好。
➢主成分分析的几何解释
为了方便,我们在二维空间中讨论主成 分的几何意义。 设有n个样品,每个样品有 两个观测变量xl和x2,在由变量xl和x2 所确 定的二维平面中,n个样本点所散布的情况 如椭圆状。
➢系数lij的确定原则:
① zi与zj(i≠j;i,j=1,2,…,m)相互无关;
② z1是x1,x2,…,xP的一切线性组合中方差最 大者,z2是与z1不相关的x1,x2,…,xP的所有 线性组合中方差最大者;……;zm是与z1, z2,……,zm-1都不相关 的x1,x2,…,xP的所 有线性组合中方差最大者。