第四章 主成分分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
主成分的表达式及其相互关系 (用Z表示主成分)
Z1=b11x1+b12x2+…+b1mxm Z2=b21x1+b22x2+…+b2mxm ……………………………… Zm=bm1x1+bm2x2+…+bmmxm 式中Xi为标准化变量,此表达式由标准化 变量的协方差矩阵(即相关矩阵)求特征值 及其对应的特征向量,SAS中直接给出的 因子负荷量与此表达式相对应。
主成分的推导
主成分其实就是原来指标的一些特殊的线性组 合,这些线性组合的系数就是原指标协方差矩 阵特征值所对应的特征向量。设相关矩阵为R 以及与之同阶的单位矩阵为I,原始变量的个数 为P,特征值为λ ,求各特征值的过程就是求 解特征方程:|R-λ I|=0,此方程的左边展开后 实际上是一个λ 的P阶多项式,其解由大到小 依次排列为λ 1≥λ 2≥…≥λ p > 0。各特征 值对应的特征向量即为线性组合的系数。
主成分分析的数学模型
设原始变量为x1, x2 ,…,x p ,考虑它们的线性 变换 yi =a1ix1+a2ix2+ … +apixp (i=1,2,…,p) 其中y1,y2,…,yp满足以下条件: (1)cov(yi,yj)=0,(i≠j); (2)D(y1)≥ D(y2)≥…≥D(yp),即y1是 x1,x2,… ,xp的一切线性组合中方差最大者, y2是方差次大者,依此类推,称y1为x1,x2,… xp的第一主成分,y2为第二主成分,…,yp为 第p个主成分。
主成分分析是考察多个定量(数值)变量间相 关性的一种多元统计方法。它是研究如何通过 少数几个主成分来解释多变量的方差—协方差 结构,其功能在于简化原有的变量群。 具体地说,就是设法将原来多个指标重新组合 成一组新的相互无关的综合指标,来代替原来 指标,同时根据实际需要从中可取几个较少的 综合指标尽可能多的反映原来指标的信息。这 些综合指标是原来指标的线性组合,我们称之 为主成分。
在几何上这些线性组合正是把原指标构 成的坐标系旋转后产生的新坐标系,新 坐标轴代表了具有最大变差的方向,同 时提供了协方差矩阵的简洁表示,主成 分分析从几何上看是寻找p维空间中椭球 体的主轴问题。
主成分的性质
1.主成分的协方差矩阵为对角阵 2.全部主成分反映原变量的总信息,信息 量的多少,用变量的方差来度量,变量 标准化后,每一变量的方差均为1,故方 差之和为P。 3.主成分与变量间的相关系数就是相关矩 阵特征值对应的特征向量与该特征值的 平方根的乘积,即表达式(3)中的cij。
主成分分析的微机实现
1 主成分分析在SPSS中的实现 在 SPSS 主 菜 单 中 选 择 Analyze→Data Reduction→Factor,可借用因子分析过 程实现主成分分析。 2 主成分分析在SAS中的实现 在 SAS 主 菜 单 中 选 择 Solutions→ASSIST→Data Analysis→Multivariate→Principal Components,可实现主成分分析。
碎石图 按照主成分被提取的顺序,画出特征值 随主成分个数变化的散点图,根据图的 形状来判断主成分的个数。图的形状由 陡变平,曲线开始变平的前一个点被认 为是提取的最大主成分数。
主成分分析的步骤
1.将原始数据标准化; 2.根据标准化变量求出协方差矩阵(标准 化后协方差矩阵与相关矩阵完全一样); 3.求出相关矩阵的特征值及其对应的特征 向量; 4.确定主成分,结合专业知识给各主成分 所蕴藏的信息以恰当的解释,并利用它们 来判断样品的特性。
主成分的应用
求出了主成分,并结合专业知识给各主 成分所蕴涵的信息以恰当的解释,还可 利用其判断样品的特性,并与聚类分析 及判别分析结合运用。
第四章 主成分分析
【教学目的】通过本章的教学应使学生 了解主成分分析的基本原理及其作用, 掌握主成分分析的方法,能够应用这一 方法分析数据,解决实际问题。 【教学重点】主成分分析的作用及其应 用,贡献率,累计贡献率的意义及其在 实际应用中的作用。
主成分的定义
在实证研究中,为了全面、系统地分析问题, 都尽可能完整地搜集信息,对每个观测往往测 量很多指标,这些指标在不同程度上反映了所 研究问题的某些信息,并且指标之间避免不了 有一定的相关性,因而所得的统计资料反映的 信息在一定程度上有重叠。在研究问题时,变 量太多会增大计算量和增加分析问题的复杂性, 为了使问题简化,人们自然希望在进行定量分 析的过程中涉及的变量较少,而得到的信息量 又较多,主成分分析是解决这一问题的理想工 具。
主成分分析常被用来寻找判断某种事物 或现象的综合指标,并给综合指标所蕴 藏的信息以恰当解释,以便更深刻的揭 示事物内在的规律。 通过这种方法可以降低数据维数,消除 原始变量之间的相关性以便进一步利用 其他方法对数据进行分析。
主成分分析的基本思想
各指标间既然有一定的相关性,就必然 存在着起支配作用的共同因素,根据这 一点,通过对原始变量相关矩阵内部结 构关系的研究,找出影响某一过程的几 个综合指标,使综合指标为原来变量的 线性组合,并使其尽可能多的反映原来 指标的信息,综合指标反映的信息量用 其方差来表达,即综合指标的方差越大, 表示其包含的信息越多。
SPSS中主成分分析部分结果解释
主成分对原变量的贡献率 即原变量与各主成分的全相关系数的平 方和,表达了某个变量被提取了多少信 息。
来自百度文库
主成分Zk的方差贡献率 即λ k在各特征值总和中所占的比重,此 值越大,表明主成分Zk综合原指标信息 的能力越强。
主成分Z1,Z2,…,Zm的累计贡献率 即前m个特征值在特征值总和中所占的比 重。累计贡献率表示m个主成分提取了原 指标的多少信息。在应用时,一般取累计 贡献率为70%-85%或以上所对应的前m个 主成分即可。在资料所含的变量个数,样 品数及累计贡献率固定的前提下,m/p的 比值越小,说明此资料用主成分分析越 合适。
Z1=c11x1+c12x2+…+c1mxm Z2=c21x1+c22x2+…+c2mxm …………………………….. Zm=cm1x1+cm2x2+…+cmmxm 式中Xi为标准化变量,此表达式的系数在上式系 数的基础上,乘以相应主成分的特征值之平方根。 在结合具体问题解释各主成分时,此表达式优 于上式,因为因子载荷量就是主成分与变量间 的相关系数,此时,因子载荷量的大小和它前 面的正负号直接反映了主成分与相应变量之间 关系的密切程度和方向。SPSS中给出的因子载 荷量与此表达式相对应。
在所有的线性组合中方差最大的称为第 一主成分,如果第一主成分不足以代表 原来P个指标的信息, 再选取第二个线性 组合作为第二主成分,第一主成分已有 的信息就不需要再出现在第二主成分中, 依次可造出P个主成分。这些主成分之间 不仅不相关,而且它们的方差依次递减。 在解决实际问题时,一般不是取P个主成 分,而是根据累计贡献率的大小取前几 个最大主成分,既保留了原指标大部分 的信息,又达到降维的目的。