ch19主成分分析和因子分析2011
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
和二维情况类似,高维椭球的主轴也是 互相垂直的。这些互相正交的新变量是 原先变量的线性组合(用原来变量以方 程的形式表示),叫做主成分。
二、主成分分析的数学模型
假设所讨论的实际问题中,有p个指标,也 就是p个随机变量,记为X1, X2, … , Xp
主成分分析就是要将这p个指标的问题,转 变为讨论p个指标的线性组合的问题
aij 称为因子载荷(factor loading)。
因子载荷的统计学意义:就是第i个变量与第j 个公共因子的相关系数,即表示变量xi依赖于Fj 的份量(比重),心理学家将它称为载荷。
x1 a11F1 a12F2 a1mFm ε 1 x 2 a 21F1 a 22F2 a 2pFP ε 2 x p a p1F1 a p2F2 a pmFm ε p
因子分析
Factor analysis
主成分分析的目的是尽可能多地提取各 变量的变异。
因子分析则需要为每一个公因子寻找适 当的生物学解释。
一、因子分析的适用
例如:考虑5项生理指标─收缩压、舒张压、心跳 间隔、呼吸间隔和舌下温度,从生理学知识知道:这 5项指标是受植物神经的交感神经和副交感神经支配 的,而这2种神经的状态也不能直接测定出来。
x 1
••
数据的信息
在统计学上数据的信息实际上是由数据的变异(如方差)
所表示。这个椭圆有一个长轴和一个短轴。在短轴方向上, 数据变化很少,在长轴的方向数据的变异明显较大;
如果沿椭圆的长短轴方向重新建立一
x
F1
2
个坐标系,新产生的两个变量和原始 变量存在数学换算关系,但彼此不再 相关;
新变量的信息分布明显不同,长轴代 表了大部分的数据信息,而短轴代表 的信息则可以忽略了;
因子分析是主成分分析 的推广和发展!
提取了两个主成分
Total Variance Explained
Initial Eigenvalues
% of Cumulative
Component Total Variance
%
1
3.120 52.004
52.004
2
1.603 26.711
78.714
3
2
1.094 27.338 70.295 1.094 27.338 70.295 1.125 28.115 70.295
3
.981 24.534 94.828
4
.207 5.172 100.00
Extraction Method: Principal Component Analysis.
主成分贡献率 累积贡献率
-0.306 -0.317
% of Cumulative
Total Variance
%
3.120 52.004
52.004
1.603 26.711
78.714
主成分载荷
Component Matrix a
Component
λ1= 3.120 λ2= 1.603
主成分系数
math phys
1 -.540 -.559
2 .680 .569
.874
179.633 10
.000
球形检验:ρ=0(各变量彼此独立),拒绝假设, 5个变量互有关系
数据越相关,降维效果就越好!!!
由相关系数矩阵R计算得到的特征值、方差贡献率
Total Variance Explained
Initial Eigห้องสมุดไป่ตู้nvalues
Extraction Sums of Squared Loadings
第19章 主成分分析 和因子分析
主成分分析
Principal component analysis, PCA
一、数据降维
我们经常会遇到有很多变量的数据。
例如,在某次儿童生长发育调查中测量了 许多指标,其中有关心脏的指标为心脏横径、 纵径、宽径、胸腔横径以及心脏面积。
这些数据的共同特点是变量很多,在如此 多的变量之中,有很多是相关的(变量的共线 性问题)。
公因子Fj的方差贡献率(Contribution):因 子载荷阵中,各列元素的平方和
m
g j2 aij2 (i 1,2,..., p) j 1
表示公因子Fj对x所提供方差的总和(其实就 是j),它是衡量公因子相对重要性的指标。方 差贡献率越大,表明公因子对X的贡献越大。
例:100个学生的数学、物理、化学、语文、 历史、英语的成绩如下表。能不能利用找到的 综合变量来对学生排序呢?student.sav
Xp的方差
由于Σx为非负定的对称阵,必存在正交
阵U,
u11 u12 u1p
U
(u1
,,
up
)
u21
u22
u2
p
u p1
up2
u pp
使得
1
0
UΣ
X
U
0
p
且1 2 … p,则1,2,…,p为
因子分析就是要找出某个问题中可直接测量的、具 有一定相关性的诸指标,如何受少数几个在专业上有 意义、但不可直接测量到且相对独立的因子支配的规 律,从而用可测量的指标来间接确定诸因子的状态。
如果想知道每个变量与公共因子的关系,则 就要进行因子分析。因子分析模型为:
x1 a11F1 a12F2 a1mFm ε 1 x 2 a 21F1 a 22F2 a 2pFP ε 2 x p a p1F1 a p2F2 a pmFm ε p
0.305
a. 2 components extracted.
y1=0.700*zx1+0.690*zx2+0.088*zx3+0.163*zx4
y2=0.095*zx1 -0.284*zx2+0.904*zx3+0.305*zx4
这些系数表示主成分和相应的原先变量的相关性。 相关系数(绝对值)越大,主成分对该变量的代表性也越大。
三、特征根(Eigenvalue)
回顾:协方差
MPx1x2
( X1 X1)( X 2 X 2 ) n 1
对于p个随机变量X = (x1,…, xp),
2 1
12
1p
设X的协方差阵为
Σx
21
2 2
2
p
p1
p2
2 p
变量Xj的共同度(Communalities):因子载荷 阵中各行元素的平方和
p
hi2 aij2 ( j 1,2,..., m) i 1
表示公因子Fj对第i个变量总方差的贡献,也 就是变量xi的信息能够被m个公因子描述的程度。
x1 a11F1 a12F2 a1mFm ε 1 x 2 a 21F1 a 22F2 a 2pFP ε 2 x p a p1F1 a p2F2 a pmFm ε p
我们希望能够找出它们的少数“代表”来 对它们进行描述(数据降维)。
数据的信息
先假定只有二维,即只有两个变
量,它们由横坐标和纵坐标所代表;
因此每个观测值都有相应于这两个坐
标轴的两个坐标值,即为2维空间的
x2
一个点;
如果两个变量相关这些数据形成 一个椭圆形状的点阵。
••••••••••
••••• •••••••••••••••••• ••
这样,由二维到一维的降维就完成了
F2
•••••••
•••
• •
•
••••••••••••••••••••••••
x 1
如果这个椭圆越扁,则降维效果越好
主成分
对于多维变量的情况和二维类似,也有高维的椭球, 不过我们无法直观地看见。
首先将高维椭球的主轴找出来,再用代 表大多数数据信息的最长的几个轴作为 新变量;这样,主成分分析就基本完成 了。
主成分的系数aij满足如下的条件:
每个主成分的系数平方和为1。即
a12i
a22i
a
2 pi
1
主成分之间相互独立,即无重叠的信息。即
Cov(yi,y j) 0,i j,i,j 1, 2, ,p
主成分的方差依次递减,重要性依次递减,即
Var(y1) Var( y2 ) Var( y p )
找到更少的指标 代替原来的指标。
4项肝功能指标.sav
主成分分析 特征根大于1的公因子被提取;
KMO统计量:接近0.9
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
Bartlett's Test of Sphericity Approx. Chi-Square df Sig.
Σx的特征根。
特征值Eigenvalue的含义
以儿童生长发育数据为例,特征根就是指5维 空间五个主轴长度。
它被看成是主成分影响力度的指标,代表引 入该主成分后可以解释原始变量信息的多少。
如果特征根小于1,说明引 入该主成分的解释力度还不如 直接引入一个原变量的平均解 释力度大。因此,特征根大于1 作为纳入一个主成分的标准。
不是某个贡献最大的指标, 而是原指标的线性组合。
一般取累计方差贡献率达到80%左右的前k个主成 分就可以了,因为它们已经代表了绝大部分的信息。
这里提取了2个主成分。
各变量的共同度:
Communalities
转氨酶 肝大指数 硫酸锌浊度 胎甲球
Initial 1.000 1.000 1.000 1.000
Component Matrixa
Component
λ1= 1.718 λ2= 1.094
1
2
主成分系数
转氨酶
.918 .099
肝大指数 .904 -.297
0.700 0.095
硫酸锌浊度 .115 .945
0.690 -0.284
胎甲球
.213 .319
0.088 0.904
Extraction Method: Principal Component Analysis0..163
Rotation Sums of Squared Loadings
Comp
% of Cumula
% of Cumula
% of Cumula
onent Total Variance tive % Total Variance tive % Total Variance tive %
1
1.718 42.956 42.956 1.718 42.956 42.956 1.687 42.179 42.179
主成分的贡献率
1)贡献率:第i个主成分的方差在全部方差中所占
比重 i ip1i,称为贡献率,反映了原来P个指 标多大的信息,有多大的综合能力 。
2)累积贡献率:前k个主成分共有多大的综合能力,
用这k个主成分的方差和在全部方差中所占比重
k
i 1
i
p
i 1
i
来描述,称为累积贡献率。
这些新的指标y1,y2,…,yk(k≤p),按 照保留主要信息量的原则充分反映原指标的信 息,并且相互独立。
用少数几个综合指标代替原来的多个原指标 完成数据的降维。主成分分析通常的做法是寻 求原指标的线性组合yi。
y1 a11x1 a12x2 a1p xp y2 a21x1 a22x2 a2 p xp ...... y p ap1x1 ap2 x2 app xp
Extraction .852 .906 .907 .147
Extraction Method: Principal Component Analysis.
表示各变量中所含信息能被提取的程度。
没有直接给出主成分系数,而是给出的主成分负荷
(载荷,loading),可将载荷系数除以相应的 i ,得到主 成分系数。
应该选择多少个主成分?
主成分分析的目的之一是希望用尽可能少的主成 分y1,y2,…,yk(k≤p)代替原来的p个指标。
在实际工作中,主成分个数的多少取决于能够反 映原来变量80%以上的信息量为依据,即当累积 贡献率 ≥ 80%时的主成分的个数就足够了。
最常见的情况是主成分为2到3个。
例:某医学院测 得20例肝病患者的4 项肝功能指标∶转氨 酶、肝大指数、硫酸 锌浊度和胎甲球。试 对数据进行降维。
.661 11.025
89.739
4
.416 6.940
96.679
5
.170 2.831
99.509
6
.029
.491 100.000
Extraction Method: Principal Component Analysis.
Extraction Sums of Squared
Loadings
二、主成分分析的数学模型
假设所讨论的实际问题中,有p个指标,也 就是p个随机变量,记为X1, X2, … , Xp
主成分分析就是要将这p个指标的问题,转 变为讨论p个指标的线性组合的问题
aij 称为因子载荷(factor loading)。
因子载荷的统计学意义:就是第i个变量与第j 个公共因子的相关系数,即表示变量xi依赖于Fj 的份量(比重),心理学家将它称为载荷。
x1 a11F1 a12F2 a1mFm ε 1 x 2 a 21F1 a 22F2 a 2pFP ε 2 x p a p1F1 a p2F2 a pmFm ε p
因子分析
Factor analysis
主成分分析的目的是尽可能多地提取各 变量的变异。
因子分析则需要为每一个公因子寻找适 当的生物学解释。
一、因子分析的适用
例如:考虑5项生理指标─收缩压、舒张压、心跳 间隔、呼吸间隔和舌下温度,从生理学知识知道:这 5项指标是受植物神经的交感神经和副交感神经支配 的,而这2种神经的状态也不能直接测定出来。
x 1
••
数据的信息
在统计学上数据的信息实际上是由数据的变异(如方差)
所表示。这个椭圆有一个长轴和一个短轴。在短轴方向上, 数据变化很少,在长轴的方向数据的变异明显较大;
如果沿椭圆的长短轴方向重新建立一
x
F1
2
个坐标系,新产生的两个变量和原始 变量存在数学换算关系,但彼此不再 相关;
新变量的信息分布明显不同,长轴代 表了大部分的数据信息,而短轴代表 的信息则可以忽略了;
因子分析是主成分分析 的推广和发展!
提取了两个主成分
Total Variance Explained
Initial Eigenvalues
% of Cumulative
Component Total Variance
%
1
3.120 52.004
52.004
2
1.603 26.711
78.714
3
2
1.094 27.338 70.295 1.094 27.338 70.295 1.125 28.115 70.295
3
.981 24.534 94.828
4
.207 5.172 100.00
Extraction Method: Principal Component Analysis.
主成分贡献率 累积贡献率
-0.306 -0.317
% of Cumulative
Total Variance
%
3.120 52.004
52.004
1.603 26.711
78.714
主成分载荷
Component Matrix a
Component
λ1= 3.120 λ2= 1.603
主成分系数
math phys
1 -.540 -.559
2 .680 .569
.874
179.633 10
.000
球形检验:ρ=0(各变量彼此独立),拒绝假设, 5个变量互有关系
数据越相关,降维效果就越好!!!
由相关系数矩阵R计算得到的特征值、方差贡献率
Total Variance Explained
Initial Eigห้องสมุดไป่ตู้nvalues
Extraction Sums of Squared Loadings
第19章 主成分分析 和因子分析
主成分分析
Principal component analysis, PCA
一、数据降维
我们经常会遇到有很多变量的数据。
例如,在某次儿童生长发育调查中测量了 许多指标,其中有关心脏的指标为心脏横径、 纵径、宽径、胸腔横径以及心脏面积。
这些数据的共同特点是变量很多,在如此 多的变量之中,有很多是相关的(变量的共线 性问题)。
公因子Fj的方差贡献率(Contribution):因 子载荷阵中,各列元素的平方和
m
g j2 aij2 (i 1,2,..., p) j 1
表示公因子Fj对x所提供方差的总和(其实就 是j),它是衡量公因子相对重要性的指标。方 差贡献率越大,表明公因子对X的贡献越大。
例:100个学生的数学、物理、化学、语文、 历史、英语的成绩如下表。能不能利用找到的 综合变量来对学生排序呢?student.sav
Xp的方差
由于Σx为非负定的对称阵,必存在正交
阵U,
u11 u12 u1p
U
(u1
,,
up
)
u21
u22
u2
p
u p1
up2
u pp
使得
1
0
UΣ
X
U
0
p
且1 2 … p,则1,2,…,p为
因子分析就是要找出某个问题中可直接测量的、具 有一定相关性的诸指标,如何受少数几个在专业上有 意义、但不可直接测量到且相对独立的因子支配的规 律,从而用可测量的指标来间接确定诸因子的状态。
如果想知道每个变量与公共因子的关系,则 就要进行因子分析。因子分析模型为:
x1 a11F1 a12F2 a1mFm ε 1 x 2 a 21F1 a 22F2 a 2pFP ε 2 x p a p1F1 a p2F2 a pmFm ε p
0.305
a. 2 components extracted.
y1=0.700*zx1+0.690*zx2+0.088*zx3+0.163*zx4
y2=0.095*zx1 -0.284*zx2+0.904*zx3+0.305*zx4
这些系数表示主成分和相应的原先变量的相关性。 相关系数(绝对值)越大,主成分对该变量的代表性也越大。
三、特征根(Eigenvalue)
回顾:协方差
MPx1x2
( X1 X1)( X 2 X 2 ) n 1
对于p个随机变量X = (x1,…, xp),
2 1
12
1p
设X的协方差阵为
Σx
21
2 2
2
p
p1
p2
2 p
变量Xj的共同度(Communalities):因子载荷 阵中各行元素的平方和
p
hi2 aij2 ( j 1,2,..., m) i 1
表示公因子Fj对第i个变量总方差的贡献,也 就是变量xi的信息能够被m个公因子描述的程度。
x1 a11F1 a12F2 a1mFm ε 1 x 2 a 21F1 a 22F2 a 2pFP ε 2 x p a p1F1 a p2F2 a pmFm ε p
我们希望能够找出它们的少数“代表”来 对它们进行描述(数据降维)。
数据的信息
先假定只有二维,即只有两个变
量,它们由横坐标和纵坐标所代表;
因此每个观测值都有相应于这两个坐
标轴的两个坐标值,即为2维空间的
x2
一个点;
如果两个变量相关这些数据形成 一个椭圆形状的点阵。
••••••••••
••••• •••••••••••••••••• ••
这样,由二维到一维的降维就完成了
F2
•••••••
•••
• •
•
••••••••••••••••••••••••
x 1
如果这个椭圆越扁,则降维效果越好
主成分
对于多维变量的情况和二维类似,也有高维的椭球, 不过我们无法直观地看见。
首先将高维椭球的主轴找出来,再用代 表大多数数据信息的最长的几个轴作为 新变量;这样,主成分分析就基本完成 了。
主成分的系数aij满足如下的条件:
每个主成分的系数平方和为1。即
a12i
a22i
a
2 pi
1
主成分之间相互独立,即无重叠的信息。即
Cov(yi,y j) 0,i j,i,j 1, 2, ,p
主成分的方差依次递减,重要性依次递减,即
Var(y1) Var( y2 ) Var( y p )
找到更少的指标 代替原来的指标。
4项肝功能指标.sav
主成分分析 特征根大于1的公因子被提取;
KMO统计量:接近0.9
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
Bartlett's Test of Sphericity Approx. Chi-Square df Sig.
Σx的特征根。
特征值Eigenvalue的含义
以儿童生长发育数据为例,特征根就是指5维 空间五个主轴长度。
它被看成是主成分影响力度的指标,代表引 入该主成分后可以解释原始变量信息的多少。
如果特征根小于1,说明引 入该主成分的解释力度还不如 直接引入一个原变量的平均解 释力度大。因此,特征根大于1 作为纳入一个主成分的标准。
不是某个贡献最大的指标, 而是原指标的线性组合。
一般取累计方差贡献率达到80%左右的前k个主成 分就可以了,因为它们已经代表了绝大部分的信息。
这里提取了2个主成分。
各变量的共同度:
Communalities
转氨酶 肝大指数 硫酸锌浊度 胎甲球
Initial 1.000 1.000 1.000 1.000
Component Matrixa
Component
λ1= 1.718 λ2= 1.094
1
2
主成分系数
转氨酶
.918 .099
肝大指数 .904 -.297
0.700 0.095
硫酸锌浊度 .115 .945
0.690 -0.284
胎甲球
.213 .319
0.088 0.904
Extraction Method: Principal Component Analysis0..163
Rotation Sums of Squared Loadings
Comp
% of Cumula
% of Cumula
% of Cumula
onent Total Variance tive % Total Variance tive % Total Variance tive %
1
1.718 42.956 42.956 1.718 42.956 42.956 1.687 42.179 42.179
主成分的贡献率
1)贡献率:第i个主成分的方差在全部方差中所占
比重 i ip1i,称为贡献率,反映了原来P个指 标多大的信息,有多大的综合能力 。
2)累积贡献率:前k个主成分共有多大的综合能力,
用这k个主成分的方差和在全部方差中所占比重
k
i 1
i
p
i 1
i
来描述,称为累积贡献率。
这些新的指标y1,y2,…,yk(k≤p),按 照保留主要信息量的原则充分反映原指标的信 息,并且相互独立。
用少数几个综合指标代替原来的多个原指标 完成数据的降维。主成分分析通常的做法是寻 求原指标的线性组合yi。
y1 a11x1 a12x2 a1p xp y2 a21x1 a22x2 a2 p xp ...... y p ap1x1 ap2 x2 app xp
Extraction .852 .906 .907 .147
Extraction Method: Principal Component Analysis.
表示各变量中所含信息能被提取的程度。
没有直接给出主成分系数,而是给出的主成分负荷
(载荷,loading),可将载荷系数除以相应的 i ,得到主 成分系数。
应该选择多少个主成分?
主成分分析的目的之一是希望用尽可能少的主成 分y1,y2,…,yk(k≤p)代替原来的p个指标。
在实际工作中,主成分个数的多少取决于能够反 映原来变量80%以上的信息量为依据,即当累积 贡献率 ≥ 80%时的主成分的个数就足够了。
最常见的情况是主成分为2到3个。
例:某医学院测 得20例肝病患者的4 项肝功能指标∶转氨 酶、肝大指数、硫酸 锌浊度和胎甲球。试 对数据进行降维。
.661 11.025
89.739
4
.416 6.940
96.679
5
.170 2.831
99.509
6
.029
.491 100.000
Extraction Method: Principal Component Analysis.
Extraction Sums of Squared
Loadings