主成分分析法
主成分分析法全
• 如果我们将xl 轴和x2轴先平移,再同时 按逆时针方向旋转角度,得到新坐标轴Fl和 F2。Fl和F2是两个新变量。
根据旋转变换的公式:
y y1 1 x1xc1soin sx2 xs2cio ns
y y 1 2 cs o in sc si o n s x x 1 2 U x
设有P维正交向量 a1 a11, a21,, ap1
F1 a11X1 L ap1X p aX
1
V
(F1)
a1a1
a1U
2
Ua1
p
1
a1
u1
,
u2
,L,
up
2
O
u1
u2 M
a1
p
up
p
iauiuia i1
p
i (aui )2 i1
1ip1(aui )2
1)贡献率:第i个主成分的方差在全部方差中所占
比重
i
p
i 1
i
,称为贡献率
,反映了原来P个指标多大
的信息,有多大的综合能力 。
2)累积贡献率:前k个主成分共有多大的综合能力, 用这k个主成分的方差和在全部方差中所占比重
k
p
i i
i1
i1
来描述,称为累积贡献率。
我们进行主成分分析的目的之一是希望用尽可能 少的主成分F1,F2,…,Fk(k≤p)代替原来的P个指 标。到底应该选择多少个主成分,在实际工作中,主 成分个数的多少取决于能够反映原来变量80%以上的信 息量为依据,即当累积贡献率≥80%时的主成分的个数 就足够了。最常见的情况是主成分为2到3个。
F 1
主 成
F2
•• • • •
分 分 析 的 几 何
主成分分析法
主成分分析法什么事主成分分析法:主成分分析(principal components analysis , PCA 又称:主分量分析,主成分回归分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
主成分分析的基本思想:在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
主成分分析法
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上处理降维的一种方法。 二、主成分分析的基 Nhomakorabea思想及步骤
1、基本思想
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
2、步骤
Fp=a1iZX1+a2iZX2+……+apiZXp 其中a1i, a2i, ……,api(i=1,……,m)为X的协方差阵Σ的特征值所对应的特征向量,ZX1, ZX2, ……, ZXp是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响[注:本文指的数据标准化是指Z标准化]。 A=(aij)p×m=(a1,a2,…am,),Rai=λiai,R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0 。 进行主成分分析主要步骤如下: 1. 指标数据标准化(SPSS软件自动执行); 2. 指标之间的相关性判定; 3. 确定主成分个数m; 4. 主成分Fi表达式; 5. 主成分Fi命名;
主成分分析法
主成分分析法1. 主成份分析:主成份分析是最经典的基于线性分类的分类系统。
这个分类系统的最⼤特点就是利⽤线性拟合的思路把分布在多个维度的⾼维数据投射到⼏个轴上。
如果每个样本只有两个数据变量,这种拟合就是其中和分别是样本的两个变量,⽽和则被称为loading,计算出的P值就被称为主成份。
实际上,当⼀个样本只有两个变量的时候,主成份分析本质上就是做⼀个线性回归。
公式本质上就是⼀条直线。
插⼊⼀幅图(主成份坐标旋转图,来⾃:PLS⼯具箱参考⼿册)如果⼀个样本有n个变量,那主成份就变为:其中PC1 称为第⼀主成份,⽽且,我们还可以获得⼀系列与PC这个直线正交的其它轴,如:被称为第⼆主成份以此类推,若令,此时向量A称为主成份的载荷(loading),计算出的主成份的值PC称为得分(score)。
1. 主成份分析举例作为⼀个典型的降维⽅法,主成份分析在数据降维⽅⾯⾮常有⽤,⽽且也是所有线性降维⽅法的基础。
很多时候,如果我们拿着⼀个⾮常复杂的数据不知所措的话,可以先考虑⽤主成份分析的⽅法对其进⾏分解,找出数据当中的种种趋势。
在这⾥,我们利⽤数据挖掘研究当中⾮常常见的⼀个数据集对主成份分析的使⽤举例如下:1996年,美国时代周刊(Times)发表了⼀篇关于酒类消费,⼼脏病发病率和平均预期寿命之间关系的科普⽂章,当中提到了10个国家的烈酒,葡萄酒和啤酒的⼈均消费量(升/年)与⼈均预期寿命(年)⼀级⼼脏病发病率(百万⼈/年)的数据,这些数据单位不⼀,⽽且数据与数据之间仅有间接关系。
因此直接相关分析不能获得重要且有趣的结果。
另外⼀⽅⾯,总共只有10个国家作为样本,各种常见的抽样和假设检验在这⽅⾯也没有⽤武之地,我们看看⽤何种⽅法能够从这个简单的数据表中获得重要知识作为数据挖掘的第⼀步,⾸先应该观察数据的总体分布情况。
⽆论是EXCEL软件,还是R语⾔,我们都能够很⽅便的从下表中获得表征数据分布的条形图。
从图中可以看出,总共10个国家,有5类数据,由于各类数据性质各不相同,因此数值上⼤⼩也很不相同。
主成分分析法概念及例题
主成分分析法主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法目录[显示]1 什么是主成分分析法2 主成分分析的基本思想3 主成分分析法的基本原理4 主成分分析的主要作用5 主成分分析法的计算步骤6 主成分分析法的应用分析o案例一:主成分分析法在啤酒风味评价分析中的应用[1]1 材料与方法2 主成分分析法的基本原理3 主成分分析法在啤酒质量一致性评价中的应用4 结论7 参考文献[编辑]什么是主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
[编辑]主成分分析的基本思想在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
主成分分析方法
主成分分析方法在经济问题的研究中,我们常常会遇到影响此问题的很多变量,这些变量多且又有一定的相关性,因此我们希望从中综合出一些主要的指标,这些指标所包含的信息量又很多。
这些特点,使我们在研究复杂的问题时,容易抓住主要矛盾。
那么怎样找综合指标?主成分分析是将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标的统计方法,也是数学上处理降维的一种方法. 一. 主成分分析法简介主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。
在实际问题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。
人们自然希望变量个数较少而得到的信息较多。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。
信息的大小通常用离差平方和或方差来衡量。
主成分分析的基础思想是将数据原来的p 个指标作线性组合,作为新的综合指标(P F F F ,,,21 )。
其中1F 是“信息最多”的指标,即原指标所有线性组合中使)var(1F 最大的组合对应的指标,称为第一主成分;2F 为除1F 外信息最多的指标,即0),cov(21 F F 且)var(2F 最大,称为第二主成分;依次类推。
易知P F F F ,,,21 互不相关且方差递减。
实际处理中一般只选取前几个最大的主成分(总贡献率达到85%),达到了降维的目的。
主成分的几何意义:设有n 个样品,每个样品有两个观测变量,,21X X 二维平面的散点图。
n 个样本点,无论沿着1X 轴方向还是2X 轴方向,都有较大的离散性,其离散程度可以用1X 或2X 的方差表示。
主成分分析方法
主成分分析方法主成分分析(Principal Component Analysis, PCA)是一种常用的数据降维和特征提取方法,它可以将高维数据转换为低维数据,同时保留数据的主要特征。
在实际应用中,主成分分析方法被广泛应用于数据挖掘、模式识别、图像处理、生物信息学等领域。
本文将介绍主成分分析的基本原理、算法步骤以及应用实例。
1. 基本原理。
主成分分析的基本思想是通过线性变换将原始数据映射到一个新的坐标系中,使得在新的坐标系下,数据的方差最大化。
换句话说,主成分分析就是找到一组新的基,使得数据在这组新的基下的方差最大。
这样做的目的是为了尽可能保留原始数据的信息,同时去除数据之间的相关性,从而达到降维的效果。
2. 算法步骤。
主成分分析的算法步骤可以简单概括为以下几步:(1)数据标准化,对原始数据进行标准化处理,使得各个特征具有相同的尺度。
(2)计算协方差矩阵,对标准化后的数据计算协方差矩阵。
(3)特征值分解,对协方差矩阵进行特征值分解,得到特征值和特征向量。
(4)选择主成分,按照特征值的大小,选择最大的k个特征值对应的特征向量作为主成分。
(5)数据映射,将原始数据映射到所选的主成分上,得到降维后的数据。
3. 应用实例。
主成分分析方法在实际应用中有着广泛的应用,下面以一个简单的实例来说明主成分分析的应用过程。
假设我们有一个包含多个特征的数据集,我们希望对这些特征进行降维处理,以便更好地进行数据分析。
我们可以利用主成分分析方法对这些特征进行降维处理,得到新的特征空间。
在新的特征空间中,我们可以更好地观察数据之间的关系,找到数据的主要特征,从而更好地进行数据分析和建模。
总结。
主成分分析是一种常用的数据降维和特征提取方法,它通过线性变换将原始数据映射到一个新的坐标系中,使得数据的方差最大化。
通过对协方差矩阵进行特征值分解,我们可以得到主成分,并将原始数据映射到主成分上,实现数据的降维处理。
在实际应用中,主成分分析方法有着广泛的应用,可以帮助我们更好地理解和分析数据。
主成分分析法
主成分分析法主成分分析(Principal Component Analysis,简称PCA)是一种常用的降维方法,它通过线性变换将高维数据转换为低维数据,从而提取出数据的最主要特征。
本文将详细介绍主成分分析的原理、应用以及算法流程。
一、原理主成分分析是一种基于统计学的数据降维方法。
其基本思想是将原始数据通过线性变换,得到一组新的不相关变量,即主成分,用来代替原始变量。
这些主成分在不同维度上的方差依次递减,即第一主成分包含最多的原始变量信息,第二主成分包含不重叠的信息量,以此类推。
主成分分析的目标是最大化原始数据的方差,从而保留尽可能多的信息。
首先,通过计算协方差矩阵来评估各个变量之间的相关性,然后通过特征值分解找出协方差矩阵的特征向量,即主成分。
最后,根据特征值的大小来选择保留的主成分个数。
二、应用主成分分析广泛应用于数据预处理、特征提取和数据可视化等领域。
以下是主成分分析的几个典型应用:1. 数据降维:主成分分析可以将高维数据转换为低维数据,从而减少计算量和存储空间,并提高模型的计算效率。
2. 特征提取:主成分分析可以将原始数据中高度相关的特征转换为互不相关的主成分,保留了原始数据的主要信息。
这样可以提高模型的训练速度和泛化能力。
3. 图像压缩:主成分分析可以将图像的冗余信息去除,从而实现图像的压缩和存储。
通过保留图像中的主要特征,可以在减少存储空间的同时保持图像的质量。
4. 数据可视化:主成分分析可以将高维数据映射到二维空间,从而实现数据的可视化。
通过显示主成分的分布,可以更好地理解数据之间的关系,并发现数据中的模式和异常。
三、算法流程主成分分析的算法流程如下:1. 数据标准化:将原始数据进行标准化处理,使得每个变量具有相同的尺度,从而避免变量之间的差异对主成分的影响。
2. 计算协方差矩阵:根据标准化后的数据计算协方差矩阵,该矩阵表示各个变量之间的相关性。
3. 特征值分解:对协方差矩阵进行特征值分解,得到特征值和特征向量。
主成分分析法
4,主成分分析法主成分分析(Principal Component Analysis,PCA),是一种统计方法。
通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
主成分分析首先是由K.皮尔森(Karl Pearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。
信息的大小通常用离差平方和或方差来衡量。
②主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。
因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
③当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
4.4主成分分析法的运用叶晓枫,王志良,【2】在介绍主成分分析方法的基本思想及计算方法基础上,对水资源调配评价指标进行了降维计算. 结果显示筛选出的指标对原指标具有较好的代表性,简化了水资源评价问题的难度。
傅湘,纪昌明【3】,针对模糊综合评判法在综合评价中存在的主观随意性问题,提出采用主成分分析法进行区域水资源承载能力综合评价。
对各区域的灌溉率、水资源利用率、水资源开发程度、供水模数、需水模数、人均供水量和生态环境用水率达七个主要因索进行了分析;根据主成分分析法的原理,运用少数几个新的综合指标对原来的七个指标所包含的信息进行最佳综合与简化,研究其在各区域水资源开发利用过程中的不同贡献及综合效应。
周莨棋,徐向阳等【4】,针对传统主成分分析法用于水资源综合评价中存在一些问题,包括指标评价中的“线性”问题、无法体现评价指标主观重要性以及评价范围无法确定。
进行了改进,采用改进的极差正规方法对数据进行规格化,用规格化后的数据加入了主观重要性权进行协方差计算,对协方差特征向量采用正负理想点进行检验。
陈腊娇,冯利华等【5】,将主成分分析方法引入到水资源承载力研究中,并以浙江省为例,在现有资料的基础上,利用主成分分析的方法,定量分析影响水资源承载力变化的最主要的驱动因子。
主成分分析法简介
主成份分析法(Principal Component Analysis,PCA )也称主分量分析或矩阵数据分析,是统计分析常用的一种重要的方法,在系统评价、质量管理和发展对策等许多方面都有应用。
它利用数理统计方法找出系统中的主要因素和各因素之间的相互关系,由于系统地相互关系性,当出现异常情况时或对系统进行分析时,抓住几个主要参数的状态,就能把握系统的全局,这几个参数放映了问题的综合的指标,也就是系统的主要因素。
主成分分析法是一种把系统的多个变量转化为较少的几个综合指标的统计分析方法,因而可将多变量的高维空间转化为低维的综合指标问题,能放映系统信息量最大的综合指标为第一主成分,其次为第二主成分。
主成分的个数一般按需放映的全部信息的百分比来决定,几个主成分之间是互不相关的。
主成分分析法的主要作用是:发现隐含于系统内部的结构,找出存在于原有各变量之间的内在联系,并简化变量;对变量样本进行分类,根据指标的得分值在指标轴空间进行分类处理。
主成分分析是数学上对数据降维的一种方法。
其基本思想是设法将原来众多的具有一定相关性的指标X 1,X 2,…,X P (比如p 个指标),重新组合成一组较少个数的互不相关的综合指标F m 来代替原来指标。
那么综合指标应该如何去提取,使其既能最大程度的反映原变量X P 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。
设F 1表示原变量的第一个线性组合所形成的主成分指标,即11112121...p p F a X a X a X =+++,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F 1)越大,表示F 1包含的信息越多。
常常希望第一主成分F 1所含的信息量最大,因此在所有的线性组合中选取的F 11应该是X 1,X 2,…,X P 的所有线性组合中方差最大的,故称F 1为第一主成分。
如果第一主成分不足以代表原来p 个指标的信息,再考虑选取第二个主成分指标F 2,为有效地反映原信息,F 1已有的信息就不需要再出现在F 2中,即F 2与F 1要保持独立、不相关,用数学语言表达就是其协方差Cov(F 1, F 2)=0,所以F 2是与F 1不相关的X 1,X 2,…,X P 的所有线性组合中方差最大的,故称F 2为第二主成分,依此类推构造出的F 1、F 2、……、F m 为原变量指标X 1,X 2,…,X P 第一、第二、……、第m 个主成分。
主成分分析法
主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。
在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。
依次类推,I 个变量就有I个主成分。
1.主成分分析的基本原理主成分分析:把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维处理技术。
)记原来的变量指标为x1,x2,…,xP,它们的综合指标——新变量指标为z1,z2,…,zm(m≤p),则z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m 主成分,在实际问题的分析中,常挑选前几个最大的主成分。
■ 系数lij的确定原则(单击展开显示)① zi与zj(i≠j;i,j=1,2,…,m)相互无关;② z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;……;zm是与z1,z2,……,zm-1都不相关的x1,x2,…,xP的所有线性组合中方差最大者。
■主成分分析的数学特征(单击展开显示)2. 主成分分析的计算步骤① 计算相关系数矩阵② 计算特征值与特征向量③ 计算主成分贡献率及累计贡献率④ 计算主成分载荷。
《主成分分析法》课件
主成分分析法的目的是减少数据的维 度,同时保留数据中的主要信息,以 便更好地理解和分析数据。
历史与发展
1901年
由英国统计学家Karl Pearson提出主成分的概 念。
1933年
美国统计学家Harold Hotelling将主成分分析 法应用于心理学和教育学领域。
20世纪70年代
随着计算机技术的发展,主成分分析法在各个领域得到广泛应用。
04
主成分分析法的步骤
数据标准化
总结词
消除量纲和数量级对分析的影响
详细描述
在进行主成分分析之前,需要对数据进行标准化处理,即将各指标的均值调整为0,标准差调整为1, 以消除不同量纲和数量级对分析的影响。
计算相关系数矩阵
总结词
衡量变量间的相关性
VS
详细描述
通过计算原变量之间的相关系数矩阵,可 以了解各变量之间的相关性。相关系数矩 阵中的元素表示各指标之间的相关系数, 用于衡量变量间的线性关系。
详细描述
市场细分是主成分分析法在市场营销领域中的重要应 用。通过对市场数据进行主成分分析,可以提取出影 响市场需求的共同因素,进而将市场划分为不同的子 市场。这种分析方法有助于企业识别不同子市场的需 求特点、消费行为和竞争状况,为制定针对性的营销 策略提供依据。
实例二:客户分类
要点一
总结词
利用主成分分析法对客户进行分类,有助于企业更好地了 解客户群体特征,提高客户满意度和忠诚度。
01
数学模型
主成分分析通过线性变换将原始 变量转换为彼此独立的主成分, 这种变换是线性的。
变换矩阵
02
03
特征向量
线性变换需要一个变换矩阵,该 矩阵由原始变量和主成分之间的 系数构成。
主成分分析法-EmpowerStats
主成分分析法主成分分析(Principal Component Analysis,PCA)是将多个变量通过线性变换以选出较少个数重要变量,并尽可能多地反映原来变量信息的一种多元统计分析方法,又称主分量分析。
也是数学上处理降维的一种方法。
主成分分析是设法将原来众多具有一定相关性的指标(比如P 个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。
因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
主要作用1. 主成分分析能降低所研究的数据空间的维数。
即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替高维的X空间所损失的信息很少。
即使只有一个主成分Yl(即 m =1)时,这个Yl仍是使用全部X变量(p个)得到的,例如要计算Yl的均值也得使用全部x 的均值。
在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。
2. 有时可通过因子负荷aij的结论,弄清X变量间的某些关系。
3. 多维数据的一种图形表示方法。
当维数大于3时不能画出几何图形,多元统计研究的问题大都多于3个变量。
要把研究的问题用图形表示出来是不可能的。
然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。
主成分分析法
人均GDP→ x1 第二产业增加值比重→ x3 第三产业从业人员比重→ x5 城市化水平→ x7
人均第三产业增加值→ x2 第三产业增加值比重→ x4 第三产业固定资产投资比重→ x6
2、计算各指标之间的相关系数矩阵
x1
x2
Rij
x3 x4
x5
x6
x7
x1
x2
1 0.988
0.988 1
0.339 0.241
216.39 291.52 225.25 196.37 226.51 217.09 181.38 194.04 188.09 211.55 220.91 242.16 193.46 228.44 175.23 236.29
8.128 8.135 18.352 16.861 18.279 19.793 4.005 9.11 19.409 11.102 4.383 10.706 11.419 9.521 18.106 26.724
3.5 主成分分析法
本节主要内容:
❖ 主成分分析的基本原理 ❖ 主成分分析的计算步骤 ❖ 主成分分析方法应用实例 ❖ 主成分分析方法的SPSS实现
主成分分析法
概念:把原来多个变量划为少数几个综合指标 的一种统计分析方法,是一种降维处理技术.
一个研究对象,往往是多要素的复杂系统。变量太多无疑会增 加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少 的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留 原来较多的变量所反应的信息,这样问题就简5 5.176 5.643 4.881 4.066 4.484 5.721 3.133 4.615 6.053 6.442 7.881 5.789 7.162
0.011 0.012 0.034 0.055 0.076 0.001 0.015 0.002 5.055 0.01 0.011 0.154 0.012 0.069 0.048 0.092
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、概述在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。
而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。
为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。
主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点:↓主成分个数远远少于原有变量的个数 原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。
↓主成分能够反映原有变量的绝大部分信息 因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。
↓主成分之间应该互不相关通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。
↓主成分具有命名解释性总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。
二、基本原理主成分分析是数学上对数据降维的一种方法。
其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP (比如p 个指标),重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。
那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。
设F1表示原变量的第一个线性组合所形成的主成分指标,即11112121...p pF a X a X a X =+++,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。
常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP 的所有线性组合中方差最大的,故称F1为第一主成分。
如果第一主成分不足以代表原来p 个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不相关的X1,X2,…,XP 的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2、……、Fm 为原变量指标X1、X2……XP 第一、第二、……、第m 个主成分。
11111221221122221122...............p p p pm m m mp pF a X a X a X F a X a X a X F a X a X a X =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 根据以上分析得知:(1) Fi 与Fj 互不相关,即Cov(Fi ,Fj) = 0,并有Var(Fi)=ai ’Σai ,其中Σ为X 的协方差阵(2)F1是X1,X2,…,Xp 的一切线性组合(系数满足上述要求)中方差最大的,……,即Fm 是与F1,F2,……,Fm -1都不相关的X1,X2,…,XP 的所有线性组合中方差最大者。
F1,F2,…,Fm (m ≤p )为构造的新变量指标,即原变量指标的第一、第二、……、第m 个主成分。
由以上分析可见,主成分分析法的主要任务有两点:(1)确定各主成分Fi (i=1,2,…,m )关于原变量Xj (j=1,2 ,…, p )的表达式,即系数ij a ( i=1,2,…,m ; j=1,2 ,…,p )。
从数学上可以证明,原变量协方差矩阵的特征根是主成分的方差,所以前m 个较大特征根就代表前m 个较大的主成分方差值;原变量协方差矩阵前m 个较大的特征值i λ(这样选取才能保证主成分的方差依次最大)所对应的特征向量就是相应主成分Fi 表达式的系数i a ,为了加以限制,系数i a 启用的是i λ对应的单位化的特征向量,即有'ai ai = 1。
(2)计算主成分载荷,主成分载荷是反映主成分Fi 与原变量Xj 之间的相互关联程度:(,)(,1,2,,;1,2,,)k i ki P Z x i p k m ===三、主成分分析法的计算步骤 主成分分析的具体步骤如下: (1)计算协方差矩阵计算样品数据的协方差矩阵:Σ=(s ij )p ⨯p ,其中11()()1nij ki i kj j k s x x x x n ==---∑ i ,j=1,2,…,p (2)求出Σ的特征值i λ及相应的正交化单位特征向量i aΣ的前m 个较大的特征值λ1≥λ2≥…λm>0,就是前m 个主成分对应的方差,i λ对应的单位特征向量i a 就是主成分Fi 的关于原变量的系数,则原变量的第i 个主成分Fi 为:Fi ='i a X主成分的方差(信息)贡献率用来反映信息量的大小,i α为:1/mi i i i αλλ==∑(3)选择主成分最终要选择几个主成分,即F1,F2,……,Fm 中m 的确定是通过方差(信息)累计贡献率G(m)来确定11()/pm i k i k G m λλ===∑∑当累积贡献率大于85%时,就认为能足够反映原来变量的信息了,对应的m 就是抽取的前m 个主成分。
(4)计算主成分载荷主成分载荷是反映主成分Fi 与原变量Xj 之间的相互关联程度,原来变量Xj (j=1,2 ,…, p )在诸主成分Fi (i=1,2,…,m )上的荷载 lij ( i=1,2,…,m ; j=1,2 ,…,p )。
:(,)(1,2,,;1,2,,)i j ij l Z X i m j p ===在SPSS 软件中主成分分析后的分析结果中,“成分矩阵”反应的就是主成分载荷矩阵。
(5)计算主成分得分计算样品在m 个主成分上的得分:1122...i i i pi p F a X a X a X =+++ i = 1,2,…,m实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。
消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换:*1,2,...,;1,2,...,ij jij jx x x i n j p s -===其中:11n j ij i x x n ==∑,2211()1n j ij j i s x x n ==--∑ 根据数学公式知道,①任何随机变量对其作标准化变换后,其协方差与其相关系数是一回事,即标准化后的变量协方差矩阵就是其相关系数矩阵。
②另一方面,根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数,亦即,标准化后的变量的协方差矩阵就是原变量的相关系数矩阵。
也就是说,在标准化前后变量的相关系数矩阵不变化。
根据以上论述,为消除量纲的影响,将变量标准化后再计算其协方差矩阵,就是直接计算原变量的相关系数矩阵,所以主成分分析的实际常用计算步骤是: ☆计算相关系数矩阵☆求出相关系数矩阵的特征值i λ及相应的正交化单位特征向量i a ☆选择主成分 ☆计算主成分得分总结:原指标相关系数矩阵相应的特征值λi 为主成分方差的贡献,方差的贡献率为1/pi i i i αλλ==∑,i α越大,说明相应的主成分反映综合信息的能力越强,可根据λi 的大小来提取主成分。
每一个主成分的组合系数(原变量在该主成分上的载荷)i a 就是相应特征值λi 所对应的单位特征向量。
二、主成分分析的计算步骤 1、计算相关系数矩阵r ij (i ,j =1,2,…,p )为原变量x i 与x j 的相关系数, r ij =r ji ,其计算公式为2、计算特征值与特征向量解特征方程 ,常用雅可比法(Jacobi )求出特征值,并使其按大小顺序排列 ;分别求出对应于特征值 的特征向量 ,要求 =1,即 其中表示向量 的第j 个分量。
3、计算主成分贡献率及累计贡献率贡献率:累计贡献率:一般取累计贡献率达85%-95%的特征值, 所对应的第1、第2、…、第m(m ≤p )个主成分。
4、计算主成分载荷⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=pp p p p p r r r r r r r r r R 212222111211∑∑∑===----=nk nk j kji kink j kj i kiij x xx xx x x xr 11221)()())((0=-R I λ021≥≥≥≥p λλλ i λ),,2,1(p i e i L =ie 112=∑=pj ijeij e i e ),,2,1(1p i pk kiL =∑=λλ),,2,1(11p i pk kik kL =∑∑==λλm λλλ,,,21L ),,2,1,(),(p j i e x z p l ij i j i ij L ===λ5、各主成分得分三、主成分分析法在SPSS 中的操作 1、指标数据选取、收集与录入(表1)2、Analyze →Data Reduction →Factor Analysis ,弹出Factor Analysis 对话框:3、把指标数据选入Variables 框,Descriptives: Correlation Matrix 框组中选中Coefficients,然后点击Continue, 返回Factor Analysis 对话框,单击OK 。
注意:SPSS 在调用Factor Analyze 过程进行分析时, SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后的变量都是指经过标准化处理后的变量, 但SPSS 并不直⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=nm n n m m z z z z z z z z z Z 212222111211接给出标准化后的数据, 如需要得到标准化数据, 则需调用Descriptives 过程进行计算。
从表3 可知GDP 与工业增加值, 第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系, 与海关出口总额存在着显著关系。
可见许多变量之间直接的相关性比较强, 证明他们存在信息上的重叠。
主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。
特征值在某种程度上可以被看成是表示主成分影响力度大小的指标, 如果特征值小于1, 说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大, 因此一般可以用特征值大于1作为纳入标准。