浅谈主成分分析与因子分析-基本思想-主要性质-应用举例-计算步骤-主要区别
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅谈主成分分析与因子分析
1、主成分分析
主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息.这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析,也是数学上处理降维的一种方法。主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。
1.1基本思想
主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分.这些主成分不仅不相关,而且他们的方差依次递减。
1.2计算步骤
设有n个样品,每个样品观测P个指标,将原始数据写成矩阵。
(1)将原始数据标准化,即将每个指标的原始数据减去这个指标的均值后,再除以这个指标的标准差。
(2)建立变量的相关系数阵:。
(3)求R的特征根及相应的单位特征向量。
在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前k个,称第一主成分的贡献率为,这个值越大,表明第一主成分综合信息的能力越强。前k个主成分的累计贡献率达到85%,表明取前k个主成分基本包含了全部测量指标所具有的信息。
1。3算法原理
(1)对资料阵标准化,得
其中 i=1,2……n, j=1,2,……P。
(2)求出相关矩阵
式中i为标本编号,j,k=1,2,…P。其中,。
此相关矩阵为一对称矩阵,所以在下面的计算中取上三角阵R上=
(3)求出R上的特征及特征向量。
求R上矩阵的特征值及特征向量有许多方法,特征方程法、迭代法等
(4)求出主成分.
将求出的特征值按大小依次排列,使得,根据原则确定m,并依次排列特征向量就可得出我们所需的主成分。
1.4主要性质
主成分性质主要包括以下几点:
(1)设p个n维随机向量X1,X2…。Xp协方差矩阵为∑,∑的特征值为λ1≥λ2≥…≥λp>0,相应的单位特征向量为:则x的主成分可表示为:Fi=μ'iX=μi1X1+μi2X2+…+μipXp,i=1,2,…,p
记μi=(μi1,μi2,…μip)T
(2)p个主成分均值为0,且p个主成分不相关。
(3)主成分的方差之和与原始变量的方差之和相等,也就是说,经过变化后,变量间的变异性没有改变,信息没有损失。
(4)称为第k个主成分的方差贡献率,称为前k个主成分的累积方差贡献率.
在解决实际问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前k个。如果前k个主成分的累积贡献率达到85%,明取前k个主成分基本包含了全部测量指标所具有的信息,这样即减少了变量的个数有利于对实际问题的分析和研究。
(5) 若Fi=μ’iX是数据矩阵x的主成分则(i=1,2,...p)是Yi与Xk的相关系数。
1。5主成分分析方法应用实例
实例:对流域系统的主成分分析
下表给出了某流域系统57个流域盆地的9项变量指标。其中,x1代表流域盆地总高度(m),x2代表流域盆地山口的海拔高度(m),x3代表流域盆地周长(m),x4代表河道总长度(m),x5代表河道总数,x6代表平均分叉率,x7代表河谷最大坡度(度),x8代表河源数,x9代表流域盆地面积(km2)。
分析过程:
①将表3.5.1中的原始数据作标准化处理,然后将它们代入相关系数公式计算,得到相关系数矩阵(表3.5.2)。
②由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表
3.5.3)。由表3。5。3可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一、第二、第三主成分z1,z2,z3即可。
z3上的载荷.
2、因子分析
因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.
2。1基本思想
因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。
2。2计算步骤
(1)将原始数据标准化,以消除变量间在数量级和量纲上的不同;
(2)求标准化数据的相关矩阵;
(3)求相关矩阵的特征值和特征向量;
(4)计算方差贡献率与累积方差贡献率;
(5)确定因子:设F1,F2,…,Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原指标。
2.3算法原理
因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法.它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量.
因子分析的数学模型如下:
(1)符号与假定
设有n个样本,每个样本观测p个变量,记:
原始变量矩阵为X:,公共因子变量矩阵为F: ,
特殊因子矩阵为E:
假定因子模型具有以下性质:
1。 E(x)=0,cov(x)=∑
2。 E(F)=0,cov(F)=I
3. E(E)=0,cov(e)=diag(σ12,σ22,…,σp2)
4. Cov(F,E)=0
若用矩阵形式表示,则为:X=AF+E
式中的A,称为因子载荷矩阵,并且称为第i个变量在第j个公共因子上的