应用统计学课件第七章主成分分析-4版

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
❖ 反映原始数据特征的指标:方差-离散度
主成分:原始变量的最优加权线性组合
❖ 最优加权: ➢ 第一主成分:寻找原始数据的一个线性组合,使之具有最大方 差(数据离散度最大的方向)
➢ 第二主成分:寻找原始数据的一个线性组合,使之具有次大方 差,且与第一主成分无关
➢ ……
一个简单的两变量例
x2
2.0
1.5
var(zi )
μ
' i

i
μ
' i

i
μ i'μ i
i
第i个主成分的方差就 是相应的特征根。因为 第一个特征根最大,所
以第一主成分方差最大
其中最大的特征根1对应的主成分z1称为第一主成分,其方差 最大,其次是第二主成分z2、第三主成分z3…。有p个变量,就 有p个主成分。
注意:R是对称阵,∴两不同特征根对应的特征向量相互正交。
主成分分析:一种通过降维技术把多指标化为少数几个综合指标的 多元统计分析方法。综合指标通常表示为原指标的线性组合,且为 了使这些新指标所含的信息不重叠,要求各新指标之间互不相关
What does PCA do?
Original data matrix, say n by p 正交旋转
New data matrix, say n by q, with q < p:
What About the New Data?
Each new variable is some linear 综合了原指标 combination of all the old variables 的信息
New variables are chosen so as to capture most of the variability in the original variables.
Xs'Xs
R
对于标准化变量,样本方
var(z) μ'Rμ
差阵=样本相关阵
max μ 'Rμ s.t. μ 'μ 1
构造L μ 'Rμ (μ 'μ 1)
L 2Rμ 2μ 0
μ
Rμ μ 或(R I)μ 0
上式的解就是R的特征根1>2>…>p ,其相应的特征向量 1、2、…p就是权重向量,权重向量与Xs相乘得到的向量 z1=Xs1、z2=Xs2、… zp=Xsp,就是Xs的主成分,且有:
有最大方差(数据离散度最大的方向)
2
1
第一主成分
1.00
第二主成分

润 0.00
2.0
正交旋转,样品 间距离不变
2
s
-1.00
第一主成分-1.包00 含的信0.息00 量显然1.00 大于第二主成分,因而忽略s第 二主成分信息损失不大
售 电 量
Z2
1.0
0.0
1
-12..000
-2.0
-2
4.2681
M ea n -.00002 -.00002 -.00001
.0000 .0000 .0000 -.000027
Std. Deviation .999990 .999995
1.000012 1.43609 .83973 .48065
1.4298346
Va ri a n ce 1.000 1.000 1.000 2.062 .705 .231 2.044
设:x为标准化变量, 原始数据阵 Xs [x1, x2 ,x p ] PCA目标:找到原始数据方差最大的线性组合
❖设:线性组合系数为p×1=[1, 2, … p]T
❖即:要找一个 使z=Xs= 1x1+ 2x2 +…+ pxp具有
最大方差
var(z)
1 z'z n 1
n
1 1
μ'
Xs'
Xsμ
1 n 1
第七章 主成分分析
principle component analysis
PCA的基本思想 一般模型与算法 PCA的SPSS实现 PCA的应用
一、PCA的基本思想
Origins of PCA
Pearson (1901)
❖ 首先引入
Hotelling (1933)
❖ 发展成熟
One of the most widely used multivariate techniques.
z1
z2
z3
x1 .9279 .0798 .3641
x2 .7255 .6696 .1590
x3 .8222 .5008 .2706
三、PCA的SPSS实现
SPSS过程:
❖ 1)分析→数据降维→因子分析…(顺序点击 菜单项,打开因子对话框)。
❖ 2)在对话框中指定分析变量,如图1所示。
主成分分析用SPSS中的因子分析过程。
New variables are uncorrelated! 原指标相关性很强, 新指标互不相关
The new variables are called “scores” or “principal components”
PCA的实质——简化数据
用尽可能少的变量(主成分)反映原始数据中尽 可能多的信息,以简化数据,突出主要矛盾。
2 4 2 0,S的特征值1 3.414,2 0.586
Sμi iμi
对1 3.414:11
1 11
3
21
3.414
11 21
11 21 11 321
3.41411 3.41421
11
0.414

21
21
1,11
0.414
1 3.414的特征向量:01.414
-1
0
1
2
3
Z1
各国运动员100m和200m成绩, 计算下列变量方差:
30.00
X100m和X200m
28.00
0.707*X100m+0.707X200m
0.167*X100m+0.986X200m
26.00
24.00
run200m
Descriptiv e Statistics
22.00
run100m run200m p707 p167 Valid N (listwise)
c
j1
f ij2
变量共同度:载荷阵第i行前c个元素的平方和,反映了 前c个主成分对xi方差的解释程度
.72552+.66962=0.975:前两个主 成分揭示了x2方差的97.5%
从载荷阵可看出:z1与各x正相关,综 合评价;z2与x2正相关,与x3负相关, 反映样本在这两个指标方面的差距
principal componentloading
第一主成分解释了 最大部分的方差
68 .3% 68 .3%
24.0% 7.7% 方差贡献率 92.3% 100 % 累计贡献率
保留一个主成分可 解释68.3%的方差
保留两个主成分可 解释92.3%的方差
主成分分析:对原始数据阵进行正交旋转,使得第一主成分能 保留原始数据的最大方差,第二主成分保留次大方差……,且 主成分之间不相关,我们可以忽略方差贡献小的主成分从而达 到降维的目的。
正交阵
设:U (μ1, μ2 ,μ p ) pp , Z (z1, z2 ,z p )np
则有:Z XsU,
1
var(Z) U'RU Λ
2
p
主成分得 分矩阵
由于各主成分彼此不相关,因此,所有主成分之和的方
差等于所有特征根之和,即:var(z1 z2 z p ) 1 2 p
Conceptual Model
主成分 载荷阵
标准化的主成分Z与原始数据阵Xs的相关系 数矩阵,反映各主成分与原始变量x的相关
程度,有助于解释各主成分的含义。
F
corr(Xs , Zs )
n
1
1
Xs'Z
s
n
1
1
Xs'ZΛ
1
2
RUΛ1 2
UΛΛ1 2
Zs ZΛ1 2
F FUΛU1 Λ2 1 2 μ1 1 μ2 2 μp p
Descriptiv e Statistics
N 300 300 300 300 300 300 300 300
M in i mu m -2.738 -2.803 -2.340 -3.58 -2.32 -1.35
-3.4689
M axim u m 3.031 3.033 3.056 4.33 2.23 1.56
x3
.398
-.710
1.171
三个主成分
z1 0.646x1 0.505x2 0.572x3 z2 0.095x1 0.797x2 0.596x3 z3 0.757x1 0.331x2 0.563x3
z1s 0.450x1 0.352x2 0.398x3 z2s 0.113x1 0.949x2 0.710x3
1
0.646
2
0.095
3
0.757
0.505
0.797
0.331
0.572 0.596 0.563
1 2.063 2 0.706 3 0.231
i i
: 第i个主成分的方差贡献率
i
k
j1
j i
:前k个主成分的累计贡献率
i
1 2.063, 2 0.706 , 3 0.231
1.0
Zsc)ore(
.5
0.0
x1
-.5
利 润
-1.0
-1.5
-2.0 -1.5 -1.0 -.5
Zscore(售电量)
0.0
.5
1.0 1.5 2.0 2.5
售电量和利润:不同供电局在这两
个指标上的离散度都很大。忽略哪
个指标都会给评估带来较大偏误!
第一主成分:寻找原始数据的一个线性组合,使之具
p
i trace(U'RU) [trace( ABC) trace(BCA)]
i 1
trace(U'RU) trace(RUU' ) trace(R) p
所有主成分方差
之和解释了原始
数据全部方差
特征根和特征向量的求法
S
1 1
13,
S
I
1 1
1 3
1 0
0 1
(1 )(3 ) 1
0,
提取方法 :主成分分析法。 构成得分。
z3s 1.575x1 0.688x2 1.171x3
Descriptiv e Statistics
z1 z2 z3 REGR factor score 1 for analysis 1 REGR factor score 2 for analysis 1 REGR factor score 3 for analysis 1 Valid N (listwise)
z1 0.646x1 0.505x2 0.572x3
向 0.505 量 0.572
0.797 0.596
0.331 U z2 0.095x1 0.797x2 0.596x3
0.563
z3 0.757x1 0.331x2 0.563x3
1 2.063 2 0.706 3 0.231
例:研究55个国家运动员径赛 能力,用8项径赛成绩
-原始数据矩阵:x55×8
哪个国家运动员实力最强?
经PCA得到新数据阵: z55×2:选取2个主成分, 其中第一主成分表示综合 能力指标,第二主成分表 示短跑能力
z1s .132xs1 .059xs2 .151xs3 .158xs4 .161xs5 .158xs6 .159xs7 .149xs8 z2s .375xs1 .821xs2 .086xs3 .026xs4 .067xs5 .176xs6 .183xs7 .265xs8
例数:据 三标Cor准relat化ion M变atrix量x1、x2、x3,n=300
X1
X2
X3
注意:这里主成
Correlation X1 X2
1.000 .562
.562 1.000
.704 .304
成得分是非标准化的
X3
.704
.304
1.000
特 1
2
3
三个主成分
征 0.646 0.095 0.757
将各主成分得分 作为变量保存
注意:这里保存 的是标准化的主 成分,即Zs
显示因子(主成 分)系数矩阵
又:Zs ZΛ1 2 XsUΛ1/2
Zs
ZΛ1 2
z1
1
,
z2
,
,
zp
2
p
分析结果:
zis
成分得分系数矩阵
zi
i
成分
1
2
3
x1
.450
-.113
-1.575
x2
.352
.949
.688
பைடு நூலகம்
N 55 55 55 55 55
Std. Deviation .35143
1.37541 1.1065480 1.3835182
Va ri a n ce .124
20.00
1.892
1.224
1.914 18.00
10.00
12.00
14.00
16.00
run100m
18.00
20.00
二、PCA的模型与算法
主成分得分Z=XsU
4 3 2 1
X3 0
-1 -2
-3-2 -1 0
X2
1
2
3
4
-3
-2
-1
01
X1
2
3
4
1 2 3 3
6
4
2
zY11
0
-2
2.0 1.5 1.0 .5 0.0 -.5-1.0
Yz32
-2
-1
01
Y2
2
3
z3
x1 x2 x3 z1 z2 z3 z577 Valid N (listwise)
图1
3)在图1对话框点击”抽取…”按钮,出现图2对话框, 选择主成分提取法。
图2
因子提取方法
分析相 关阵还 是协方
差阵
直接指 定主成 分个数
默认选项:分析相关矩阵、显 示未旋转因子解,主成分选取 原则:特征根≥1
特征根变化曲线 主成分个数选取原则 按照特征根值的大小选取
4)点击score,确定主成分得分
相关文档
最新文档