生物统计学课件ch19主成分分析和因子分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

用少数几个综合指标代替原来的多个原指标 完成数据的降维。主成分分析通常的做法是寻 求原指标的线性组合yi。
y1 a11x1 a12 x2 a1 p x p y2 a21x1 a22 x2 a2 p x p ...... y p a p1 x1 a p 2 x2 a pp x p
x1
数据的信息
在统计学上数据的信息实际上是由数据的变异(如方差)
所表示。这个椭圆有一个长轴和一个短轴。在短轴方向上, 数据变化很少,在长轴的方向数据的变异明显较大; F1 x2 如果沿椭圆的长短轴方向重新建立一 个坐标系,新产生的两个变量和原始 • • • • F2 • 变量存在数学换算关系,但彼此不再 • •• • • • 相关; • • ••
第18章 主成分分析 和因子分析
主成分分析 Principal component analysis,
PCA
一、数据降维
我们经常会遇到有很多变量的数据。 例1,在某次儿童生长发育调查中测量了 许多指标,其中有关心脏的指标为心脏横径、 纵径、宽径、胸腔横径以及心脏面积。 这些数据的共同特点是变量很多,在如此 多的变量之中,有很多是相关的(变量的共线 性问题)。 我们希望能够找出它们的少数“代表”来 对它们进行描述(数据降维)。
新变量的信息分布明显不同,长轴代
表了大部分的数据信息,而短轴代表 的信息则可以忽略;
这样,由二维到一维的降维就完成了 如果这个椭圆越扁,则降维效果越好
•••• • • • • •• • • • • •• •• • •••
x1
主成分

对于多维变量的情况和二维类似,也有高维的椭球, 不过我们无法直观地看见。
主成分的系数aij满足如下的条件: 每个主成分的系数平方和为1。即
a a a 1
2 1i 2 2i 2 pi
主成分之间相互独立,即无重叠的信息。即
Cov(yi,y j) 0,i j,i,j 1, 2, ,p
主成分的方差依次递减,重要性依次递减,即
Var(y1) Var ( y2 ) Var ( y p )
三、特征根(Eigenvalue)
回顾:协方差 MPx x
1 2
( X 1 X 1 )( X 2 X 2 ) n 1
对于p个随机变量X = (x1,…, xp),
12 12 1 p 2 21 2 2p 设X的协方差阵为 Σ x 2 p2 p p1
wk.baidu.com
且1 2 … p,则1,2,…,p为 Σx的特征根。
特征值Eigenvalue的含义
以儿童生长发育数据为例,特征根就是指5维 空间五个主轴长度。 它被看成是主成分影响力度的指标,代表引 入该主成分后可以解释原始变量信息的多少。 如果特征根小于1,说明引 入该主成分的解释力度还不如 直接引入一个原变量的平均解 释力度大。因此,特征根大于1 作为纳入一个主成分的标准。
Xp的方差
由于Σx为非负定的对称阵,必存在正交
阵 U,
u11 u12 u1 p u u u 21 22 2p U (u1 ,, up ) u u u p2 pp p1
使得
0 1 UΣ X U p 0
数据的信息
儿童生长发育的数据点是5维的;也就是说,每个观测
x2
先假定只有二维,即只有两个变 量,它们由横坐标和纵坐标所代表; 因此每个观测值都有相应于这两个坐 标轴的两个坐标值,即为2维空间的 一个点;如果两个变量相关这些数据 形成一个椭圆形状的点阵。
• • • •• • • • • • ••
•• • • • •• • ••• • • •••• •• • • • • ••
.874 179.633 10 .000
球形检验:拒绝假设ρ=0,5个变量互有关系 数据越相关,降维效果就越好!!!
由相关系数矩阵R计算得到的特征值、方差贡献率
主成分的贡献率
1)贡献率:第i个主成分的方差在全部方差中所占 比重 i
i 1
i ,称为贡献率,反映了原来P个指
p
标多大的信息,有多大的综合能力 。 2)累积贡献率:前k个主成分共有多大的综合能力, 用这k个主成分的方差和在全部方差中所占比重
i 1
i
k
i 1
i
p
来描述,称为累积贡献率。
应该选择多少个主成分?
主成分分析的目的之一是希望用尽可能少的主成
分y1,y2,…,yk(k≤p)代替原来的p个指标。
在实际工作中,主成分个数的多少取决于能够反
映原来变量80%以上的信息量为依据,即当累积 贡献率≥80%时的主成分的个数就足够了。
最常见的情况是主成分为2到3个。
例:某医学院测 得 20 例肝病患者的4 项肝功能指标∶转氨 酶、肝大指数、硫酸 锌浊度和胎甲球。试 对数据进行降维。 找到更少的指标 代替原来的指标。
首先把高维椭球的主轴找出来,再用代表大多数数据信
和二维情况类似,高维椭球的主轴也是互相垂直的。这
二、主成分分析的数学模型
假设所讨论的实际问题中,有p个指标,也 就是p个随机变量,记为X1, X2, … , Xp 主成分分析就是要把这p个指标的问题,转 变为讨论p个指标的线性组合的问题 这些新的指标y1,y2,…,yk(k≤p),按 照保留主要信息量的原则充分反映原指标的信 息,并且相互独立。
主成分分析
非旋转的主成分 系数矩阵
画碎石图。显示各 因子的重要程度。
自己定义提取主成分的个数。 特征根大于1的公因子被提取;
KMO统计量:接近0.9
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy. Bartlett's Test of Sphericity Approx. Chi-Square df Sig.
相关文档
最新文档