第一讲 主成分分析分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据编辑窗口,利用 “主成分相应特征根的平方根与特 征向量乘积为因子负荷系数”的性质用TRANSFORM—— COMPUTE 来计算特征向量,得到主成分的线性表达式 。
因子负荷系数转换为主成分系数(特征向量)
a Component Matrix
Component 1 x1 x2 x3 x4 x5 x6 .930 .936 .910 .617 .336 .330 2 -.224 -.093 -.208 -.053 .754 .803 3 -.184 -.161 -.101 .717 -.456 .379 4 -.165 -.252 .218 .296 .322 -.301 5 .076 .109 -.265 .121 .089 -.110 6 .131 -.118 -.018 -.002 .003 .016
主成分的性质 : 主成分C1,C2,…,Cp具有如下几个性质:
(1) 主成分间互不相关,即对任意i和j,Ci 和Cj的相关 系数 Corr(Ci,Cj)=0 ij (2) 组合系数(wi1,wi2,…,wip)构成的向量为单位向 量, wi12+wi22+ … +wip2=1
(3) 各主成分的方差是依次递减的, 即 Var(C1)≥Var(C2)≥…≥Var(Cp)
• 3.求特征向量Li
• λ1=1.9547所对应的特征向量用下式解: l11+0.9547l12=1.9547l11 0.9547l11+l12=1.9547l12 l112+l122=1
得l11=0.7071, l12=0.7071, 第一主成分为: C1=0.7071X 1+0.7071X2 同样的方法,用λ2=0.0453可计算出第二主成分 ,此处略。
x1
•
如果我们将xl 轴和x2轴先平移,再同时按 逆时针方向旋转角度,得到新坐标轴Cl和C2 。Cl和C2是两个新变量。
根据旋转变换的公式:
C1 x1 cos x2 sin C 2 x1 sin x2 cos
C1 cos sin C 2 sin x1 cos x2
旋转变换的目的是为了使得n个样品点在Cl 轴方向上的离 散程度最大,即Cl的方差最大。 变量Cl代表了原始数据的绝大 部分信息,在研 究某问题时,即使不考虑变量C2也无损大局。 经过上述旋转变换原始数据的大部分信息集中 到Cl轴上,对数据中包含的信息起到了浓缩作 用。
Cl,C2除了可以对包含在Xl,X2中的信息起着 浓缩作用之外,还具有不相关的性质,这就使得
(4) 总方差不增不减, 即 Var(C1)+Var(C2)+ … +Var(Cp) =Var(x1)+Var(x2)+ … +Var(xp) =p 这一性质说明,主成分是原变量的线性组合,是对原变 量信息的一种重组,主成分不增加总信息量,也不减少总 信息量。
(5) 主成分和原变量的相关系数 Corr(Ci,xj)=wij
Extraction Method: Principal Component Analysis.
本例考虑保留3个主成分,累积贡献 率可达90%。
• 主成分Ci表达式:
• SPSS软件不能直接给出主成分系数wij,经过FACTOR 过
程产生的是因子负荷系数,但主成分分析模型需要的不是
因子载荷量而是特征向量,所以还需将因子负荷系数输入
主成分的数目的选取
如前所述,p个随机变量,便有p个主成分。由于总方差不 增不减,C1,C2等前几个综合变量的方差较大,而Cp,Cp-1等 后几个综合变量的方差较小。 一般来说,只有前几个综合变 量才称得上主(要)成份,后几个综合变量实为“次”(要)成份。 实践中总是保留前几个,忽略后几个。
• 保留多少个主成分主要考虑保留部分的累积方差在方差总 和中所占百分比(即累积贡献率),它标志着前几个主成分 概括信息之多寡。实践中,一般推荐达到80%的累积方差 即可。常用的判断方法有: • 1. 特征值准则:取特征值>1的主成分。是SPSS软件默认 的方法。 • 2. 累积方差比例原则:一般推荐累积方差比例达到80% 以上时,即可停止选择主成分。 • 3. 利用碎石图:将主成分按特征根从大到小排列,画出特 征根随主成分个数变化的散点图,根据图的形状来判断保 留主成分的个数。曲线开始变平的前一个点(拐点)认为 是提取的最大主成分数。也就是根据特征根的变化速率来 确定。
如果第一主成分不足以代表原所有p个变量,则考虑第二个 主成分: C2=w21X1+w22X2+ … +w2pXp, 要求使 Var(C2)最大; 约束条件: w212+w222+ … +w2p2=1 Cov(C1,C2)=0
Cov(C1,C2)=0即第一、第二主成分的协方差(相关系数) 为零,目的是为了使C1中已有的信息不在C2中出现。结果是 在与第一个向量垂直的所有方向中,找到一个使得所有个体在 其上的投影与在其它方向上的投影相比最为分散。
• 1.求相关系数矩阵R • r11=r22=1, r12=r21=0.9547
0.9547 1 R 1 0.9547
• 2.求R的特征根,解方程:
1 0.9547 0.9547 1 0
• 即(1-λ)*(1-λ)-0.9547*0.9547=0 • 得两个根 1.9547和0.0453,记为: • λ1=1.9547,λ2=0.0453
(7)第i个主成分对所有原变量的贡献为:
2 2 r w Ci , x j iji i j 1 j 1 p p
(8)所有主成分对原变量xj的贡献为:
2 2 h2 r w Ci , x j ij i j i 1 i 1 p p
求主成分的步骤
• 1.计算相关系数矩阵R
r11 r21 RLeabharlann Baidu ... rp1
r12 ... r1 p r22 ... r2 p ... ... ... rp 2 ... rpp
• 2.解特征方程|R-λI |=0,求出相关阵R的特征根( eigenvalue)λi,且按从大到小顺序排列: • λ 1≥ λ2≥ …≥ λp ,
xi xi Xi si
i=1,2,…p
我们作如下定义: (1) 若C1=w11X1+w12X2+ … +w1pXp, 且使 Var(C1)最大,则称C1为第一主成分; 但系数w若无限制可使Var(C1)无限大,故加约束条件: w112+w122+ … +w1p2=1 组合系数( w11, w12, … w1p)可看作一个向量,代表p维 空间中的一个方向,相当于全部n个个体在该方向上的一个 投影。要求Var(C1)最大就是要找一个最“好”的方向,使 得所有个体在该方向上的投影最为分散。
主成分分析
罗树生
x2
c1
x2
C1
x1
x2
x3
x1
• 主成分分析(Principal Component Analysis,PCA)是一种数据降维技术,将 多个具有较强相关性的实测变量综合成少 量综合变量。
• 一个度量指标的好坏除了可靠、真实之外 ,还必须能充分反映个体间的变异。如果 有一项指标,不同个体的取值都大同小异 ,那么该指标不能用来区分不同的个体。 由这一点来看,一项指标在个体间的变异 越大越好。因此我们把“变异大”作为“ 好”的标准来寻求综合指标。
特征向量:
Prin1 x1 x2 0.522386 0.525457 Prin2 -.195138 -.081135 Prin3 -.190578 -.166475 Prin4 -.254711 -.388958 Prin5 0.215943 0.312044 Prin6 0.735666 -.664032
在研究复杂的问题时避免了信息重叠所带来的虚
假性。二维平面上的个点的方差大部分都归结在
Cl轴上,而C2轴上的方差很小。Cl和C2称为原始
变量x1和x2的综合变量。C简化了系统结构。
主成分分析的数学模型
• 通常情况下,所分析的多个变量具有不同量纲或均数/ 方差相差很大,不适于用协方差矩阵做主成分分析, 而采用基于相关系数矩阵的主成分分析。 • 首先将原变量标准化。设有n个样本,x1,x2…xp为p个 原指标变量,经过标准化后得到标准化变量X1, X2…Xp:
例2:测得某地19-22岁年龄的部分城市男生 身体形态指标:身高(x1,cm)、坐高 (x2,cm)、体重(x3,kg)、胸围(x4、 cm)、肩宽(x5,cm)、骨盆宽(x6, cm)。试进行主成分分析。
特征值、方差比例和累积贡献率
Total Variance Explained Initial Eigenvalues % of Variance Cumulative % 52.874 52.874 21.952 74.825 15.604 90.429 7.001 97.430 2.041 99.471 .529 100.000 Extraction Sums of Squared Loading s Total % of Variance Cumulative % 3.172 52.874 52.874 1.317 21.952 74.825 .936 15.604 90.429 .420 7.001 97.430 .122 2.041 99.471 .032 .529 100.000 Component 1 2 3 4 5 6 Total 3.172 1.317 .936 .420 .122 .032
Extraction Method: Principal Component Analysis. a. 6 components extracted.
C1 0.930/ 3.172X 1 0.936/ 3.172X 2 0.910/ 3.172X 3 0.617/ 3.172X 4 0.336/ 3.172X 5 0.330/ 3.172X 5 0.5224X 1 0.5255X 2 0.5111X 3 0.3465X 4 0.1884X 5 0.1850X 5
• 在力求数据信息丢失最少的原则下,对高 维的变量空间降维,即研究指标体系的少 数几个线性组合,并且这几个线性组合所 构成的综合指标将尽可能多地保留原来指 标变异方面的信息。这些综合指标就称为 主成分。
平移、旋转坐标轴
x2
C1
主 成 分 分 析 的 几 何 解 释
C2
•• • • • • • • • • • • •• •• • • •• • • • •• • • • • •• • • • • • •
=wij
Var(Ci )
i
(6) 令X1,X2,…,Xp的相关矩阵为R, (wi1,wi2,…,wip) 则是相关矩阵R的第i个特征向量(eigenvector)。而且,特征 值i就是第i主成分的方差, 即 Var(Ci)= i 其中i为相关矩阵R的第i个特征值(eigenvalue) 1≥2≥…≥p≥0
• 3.求矩阵R关于λi的满足正规条件的特征向量(eigenvector): • Li=(li1, li2,…,lip)
• 特征向量即为主成分系数。
• 当变量较多时,特征根的计算较复杂,需借助计算机软件实 现。
一个简单例子
例1. 测得10名幼儿的身高,体重如下表,求主成分。
对象号 1 2 3 4 5 6 7 8 9 10 均数 标准差 x1 体重(kg) 16.3 13.0 18.3 15.0 11.9 14.4 13.5 12.1 13.3 13.5 14.13 1.965847 x2 身高(cm) 108 88 111 95 88 95 94 88 93 95 95.5 7.989577
同样的方法,可以继续寻找第三、第四…主成分,至多有p 个。
(全)主成分模型
C1 w11 X 1 w12 X 2 ... w1 p X p C2 w21 X 1 w22 X 2 ... w2 p X p ... C p wp1 X 1 wp 2 X 2 ... w pp X p
因子负荷系数转换为主成分系数(特征向量)
a Component Matrix
Component 1 x1 x2 x3 x4 x5 x6 .930 .936 .910 .617 .336 .330 2 -.224 -.093 -.208 -.053 .754 .803 3 -.184 -.161 -.101 .717 -.456 .379 4 -.165 -.252 .218 .296 .322 -.301 5 .076 .109 -.265 .121 .089 -.110 6 .131 -.118 -.018 -.002 .003 .016
主成分的性质 : 主成分C1,C2,…,Cp具有如下几个性质:
(1) 主成分间互不相关,即对任意i和j,Ci 和Cj的相关 系数 Corr(Ci,Cj)=0 ij (2) 组合系数(wi1,wi2,…,wip)构成的向量为单位向 量, wi12+wi22+ … +wip2=1
(3) 各主成分的方差是依次递减的, 即 Var(C1)≥Var(C2)≥…≥Var(Cp)
• 3.求特征向量Li
• λ1=1.9547所对应的特征向量用下式解: l11+0.9547l12=1.9547l11 0.9547l11+l12=1.9547l12 l112+l122=1
得l11=0.7071, l12=0.7071, 第一主成分为: C1=0.7071X 1+0.7071X2 同样的方法,用λ2=0.0453可计算出第二主成分 ,此处略。
x1
•
如果我们将xl 轴和x2轴先平移,再同时按 逆时针方向旋转角度,得到新坐标轴Cl和C2 。Cl和C2是两个新变量。
根据旋转变换的公式:
C1 x1 cos x2 sin C 2 x1 sin x2 cos
C1 cos sin C 2 sin x1 cos x2
旋转变换的目的是为了使得n个样品点在Cl 轴方向上的离 散程度最大,即Cl的方差最大。 变量Cl代表了原始数据的绝大 部分信息,在研 究某问题时,即使不考虑变量C2也无损大局。 经过上述旋转变换原始数据的大部分信息集中 到Cl轴上,对数据中包含的信息起到了浓缩作 用。
Cl,C2除了可以对包含在Xl,X2中的信息起着 浓缩作用之外,还具有不相关的性质,这就使得
(4) 总方差不增不减, 即 Var(C1)+Var(C2)+ … +Var(Cp) =Var(x1)+Var(x2)+ … +Var(xp) =p 这一性质说明,主成分是原变量的线性组合,是对原变 量信息的一种重组,主成分不增加总信息量,也不减少总 信息量。
(5) 主成分和原变量的相关系数 Corr(Ci,xj)=wij
Extraction Method: Principal Component Analysis.
本例考虑保留3个主成分,累积贡献 率可达90%。
• 主成分Ci表达式:
• SPSS软件不能直接给出主成分系数wij,经过FACTOR 过
程产生的是因子负荷系数,但主成分分析模型需要的不是
因子载荷量而是特征向量,所以还需将因子负荷系数输入
主成分的数目的选取
如前所述,p个随机变量,便有p个主成分。由于总方差不 增不减,C1,C2等前几个综合变量的方差较大,而Cp,Cp-1等 后几个综合变量的方差较小。 一般来说,只有前几个综合变 量才称得上主(要)成份,后几个综合变量实为“次”(要)成份。 实践中总是保留前几个,忽略后几个。
• 保留多少个主成分主要考虑保留部分的累积方差在方差总 和中所占百分比(即累积贡献率),它标志着前几个主成分 概括信息之多寡。实践中,一般推荐达到80%的累积方差 即可。常用的判断方法有: • 1. 特征值准则:取特征值>1的主成分。是SPSS软件默认 的方法。 • 2. 累积方差比例原则:一般推荐累积方差比例达到80% 以上时,即可停止选择主成分。 • 3. 利用碎石图:将主成分按特征根从大到小排列,画出特 征根随主成分个数变化的散点图,根据图的形状来判断保 留主成分的个数。曲线开始变平的前一个点(拐点)认为 是提取的最大主成分数。也就是根据特征根的变化速率来 确定。
如果第一主成分不足以代表原所有p个变量,则考虑第二个 主成分: C2=w21X1+w22X2+ … +w2pXp, 要求使 Var(C2)最大; 约束条件: w212+w222+ … +w2p2=1 Cov(C1,C2)=0
Cov(C1,C2)=0即第一、第二主成分的协方差(相关系数) 为零,目的是为了使C1中已有的信息不在C2中出现。结果是 在与第一个向量垂直的所有方向中,找到一个使得所有个体在 其上的投影与在其它方向上的投影相比最为分散。
• 1.求相关系数矩阵R • r11=r22=1, r12=r21=0.9547
0.9547 1 R 1 0.9547
• 2.求R的特征根,解方程:
1 0.9547 0.9547 1 0
• 即(1-λ)*(1-λ)-0.9547*0.9547=0 • 得两个根 1.9547和0.0453,记为: • λ1=1.9547,λ2=0.0453
(7)第i个主成分对所有原变量的贡献为:
2 2 r w Ci , x j iji i j 1 j 1 p p
(8)所有主成分对原变量xj的贡献为:
2 2 h2 r w Ci , x j ij i j i 1 i 1 p p
求主成分的步骤
• 1.计算相关系数矩阵R
r11 r21 RLeabharlann Baidu ... rp1
r12 ... r1 p r22 ... r2 p ... ... ... rp 2 ... rpp
• 2.解特征方程|R-λI |=0,求出相关阵R的特征根( eigenvalue)λi,且按从大到小顺序排列: • λ 1≥ λ2≥ …≥ λp ,
xi xi Xi si
i=1,2,…p
我们作如下定义: (1) 若C1=w11X1+w12X2+ … +w1pXp, 且使 Var(C1)最大,则称C1为第一主成分; 但系数w若无限制可使Var(C1)无限大,故加约束条件: w112+w122+ … +w1p2=1 组合系数( w11, w12, … w1p)可看作一个向量,代表p维 空间中的一个方向,相当于全部n个个体在该方向上的一个 投影。要求Var(C1)最大就是要找一个最“好”的方向,使 得所有个体在该方向上的投影最为分散。
主成分分析
罗树生
x2
c1
x2
C1
x1
x2
x3
x1
• 主成分分析(Principal Component Analysis,PCA)是一种数据降维技术,将 多个具有较强相关性的实测变量综合成少 量综合变量。
• 一个度量指标的好坏除了可靠、真实之外 ,还必须能充分反映个体间的变异。如果 有一项指标,不同个体的取值都大同小异 ,那么该指标不能用来区分不同的个体。 由这一点来看,一项指标在个体间的变异 越大越好。因此我们把“变异大”作为“ 好”的标准来寻求综合指标。
特征向量:
Prin1 x1 x2 0.522386 0.525457 Prin2 -.195138 -.081135 Prin3 -.190578 -.166475 Prin4 -.254711 -.388958 Prin5 0.215943 0.312044 Prin6 0.735666 -.664032
在研究复杂的问题时避免了信息重叠所带来的虚
假性。二维平面上的个点的方差大部分都归结在
Cl轴上,而C2轴上的方差很小。Cl和C2称为原始
变量x1和x2的综合变量。C简化了系统结构。
主成分分析的数学模型
• 通常情况下,所分析的多个变量具有不同量纲或均数/ 方差相差很大,不适于用协方差矩阵做主成分分析, 而采用基于相关系数矩阵的主成分分析。 • 首先将原变量标准化。设有n个样本,x1,x2…xp为p个 原指标变量,经过标准化后得到标准化变量X1, X2…Xp:
例2:测得某地19-22岁年龄的部分城市男生 身体形态指标:身高(x1,cm)、坐高 (x2,cm)、体重(x3,kg)、胸围(x4、 cm)、肩宽(x5,cm)、骨盆宽(x6, cm)。试进行主成分分析。
特征值、方差比例和累积贡献率
Total Variance Explained Initial Eigenvalues % of Variance Cumulative % 52.874 52.874 21.952 74.825 15.604 90.429 7.001 97.430 2.041 99.471 .529 100.000 Extraction Sums of Squared Loading s Total % of Variance Cumulative % 3.172 52.874 52.874 1.317 21.952 74.825 .936 15.604 90.429 .420 7.001 97.430 .122 2.041 99.471 .032 .529 100.000 Component 1 2 3 4 5 6 Total 3.172 1.317 .936 .420 .122 .032
Extraction Method: Principal Component Analysis. a. 6 components extracted.
C1 0.930/ 3.172X 1 0.936/ 3.172X 2 0.910/ 3.172X 3 0.617/ 3.172X 4 0.336/ 3.172X 5 0.330/ 3.172X 5 0.5224X 1 0.5255X 2 0.5111X 3 0.3465X 4 0.1884X 5 0.1850X 5
• 在力求数据信息丢失最少的原则下,对高 维的变量空间降维,即研究指标体系的少 数几个线性组合,并且这几个线性组合所 构成的综合指标将尽可能多地保留原来指 标变异方面的信息。这些综合指标就称为 主成分。
平移、旋转坐标轴
x2
C1
主 成 分 分 析 的 几 何 解 释
C2
•• • • • • • • • • • • •• •• • • •• • • • •• • • • • •• • • • • • •
=wij
Var(Ci )
i
(6) 令X1,X2,…,Xp的相关矩阵为R, (wi1,wi2,…,wip) 则是相关矩阵R的第i个特征向量(eigenvector)。而且,特征 值i就是第i主成分的方差, 即 Var(Ci)= i 其中i为相关矩阵R的第i个特征值(eigenvalue) 1≥2≥…≥p≥0
• 3.求矩阵R关于λi的满足正规条件的特征向量(eigenvector): • Li=(li1, li2,…,lip)
• 特征向量即为主成分系数。
• 当变量较多时,特征根的计算较复杂,需借助计算机软件实 现。
一个简单例子
例1. 测得10名幼儿的身高,体重如下表,求主成分。
对象号 1 2 3 4 5 6 7 8 9 10 均数 标准差 x1 体重(kg) 16.3 13.0 18.3 15.0 11.9 14.4 13.5 12.1 13.3 13.5 14.13 1.965847 x2 身高(cm) 108 88 111 95 88 95 94 88 93 95 95.5 7.989577
同样的方法,可以继续寻找第三、第四…主成分,至多有p 个。
(全)主成分模型
C1 w11 X 1 w12 X 2 ... w1 p X p C2 w21 X 1 w22 X 2 ... w2 p X p ... C p wp1 X 1 wp 2 X 2 ... w pp X p