统计分析主成分分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Cumulative % 36.088 69.034 82.706 90.054 94.947 97.675 99.205
100.000
Extraction Method: Principal Component Analysis.
Extraction Sums of Squared Loadings
左图Component Matrix是指 初始因子载荷矩阵,每一
个载荷量表示主成分与对
应变量的相关系数。
用主成分载荷矩阵中的数据除以主成分 相对应的特征值开平方根便得到两个主 成分中每个指标所对应的系数。
ei
i i
§8 主成分分析
主成分模型
Component Matrixa
Component
问题的提出 §8 主成分分析
地理系统是多要素的复杂系统。在地理学研究中,多 变量问题是经常会遇到的。变量太多,无疑会增加分 析问题的难度与复杂性,而且在许多实际问题中,多 个变量之间具有一定的相关关系。 解决该问题的一个办法就是筛选变量,即只挑选部分 较为重要的变量,以减少变量数,并可缓解相关性带 来的麻烦-如逐步回归分析、逐步判别分析等。 换一个角度来看,如果众多的变量间存在着的相关关 系,能否在相关分析的基础上,用较少的新变量代替 原来较多的旧变量,而且使这些较少的新变量尽可能 多地保留原来变量所反映的信息? 主成分分析和因子分析就是综合处理这种问题的一种 强有力的工具。
151.782 28
.000
如果多个变量相互独立或相关性很小,就不能进行
主成分分析。 Kaiser-Meyer-Olkin(KMO)检验:检验变量之间的
偏相关系数是否过小。 Bartlett’s 检验。该检验的原假设是相关矩阵为单位
阵(不相关),如果不能拒绝原假设,则不适合进行主 成分分析。
§8 主成分分析
对于任意常数c,有
v ar(cFi ) c2 var(Fi )
为了使方差var(Fi ) 可以比较,要求线性组合的系数满足 规范化条件
ai21 ai22 ai2p 1 要求原始变量之间存在一定的相关性
要求各个综合变量间互不相关,即协方差为0
为了消除变量量纲不同对方差的影响,通常对数据进行 标准化处理,变量之间的协方差即为相关系数。
GDP(亿 元 ) 工业 增加值 总资 产贡献 率 资产 负债率 流动 资产周 转次 数 工业 成本费 用利 润 率 ( %) 全员 劳动生 产率 产品 销售率
1 .489 .346 .879 -.455 .627
.746
.744 .217
2 .649 -.827 .018 .571 .667
-.568
主成分解释 §8 主成分分析
X1 GDP(亿元) X5 X2 工业增加值 X6 X3 总资产贡献率 X7 X4 资产负债率 X8
§8 主成分分析
问题的提出
[引例8-1] 2000年全国各地 区经济效益主要指标有以下 8个:GDP(亿元)、工业 增加值(%)、总资产贡 献率(%)、资产负债率 (%)、流动资产周转次 数(次/年)、工业成本费 用利润率(%)、全员劳动 生产率(元/人.年)、产品 销售率(%)。
§8 主成分分析
§8 主成分分析
数学模型的条件
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
.590
Bartlett's Test of Sp he ri ci ty
Approx. Chi-Square df Sig.
数学模型的推导
Fi a1i x1 a2i x2 api xp i 1, 2, p F a1X1 a2 X 2 ap X p a ' X 其中a (a1, a2 , ap ) ' X=(X1, X2, X p ) '
寻求X的线性函数a' X ,使相应的方差尽可能地大,即
Component
1 .489
2 .649
.346
-.827
.879
.018
-.455
.571
.627
.667
.746
-.568
.744 .217
.102 .654
3 -.382 .288 .386 .551 -.253
.078
-.038 .584
Extraction Method: Principal Component Analysis. a. 3 components extracted.
§8 主成分分析
基本思想
主成分分析就是设法将原来众多具有一定相关性的变量 (如p个变量),重新组合成一组新的相互无关的综合变量 来代替原来变量。怎么处理?
通常数学上的处理就是将原来p个变量作线性组合作为新 的综合变量。如何选择?
如果将选取的第一个线性组合即第一个综合变量记为F1, 自然希望F1尽可能多的反映原来变量的信息。怎样反映? 最经典的方法就是用方差来表达,即var(F1)越大,表示F1 包含的信息越多。因此在所有的线性组合中所选取的F1 应该是方差最大的,故称之为第一主成分(principal component I)。
Total % of Variance Cumulative %
2.887
36.088
36.088
2.636
32.946
69.034
1.094
13.672
82.706
根据特征根或累积方差贡献率,可以提取3个主成分
§8 主成分分析
主成分模型
(注意区别)
Component Matrixa
GDP(亿 元 ) 工业 增加值 总资 产贡献 率 资产 负债率 流动 资产周 转次 数 工业 成本费 用利 润 率 ( %) 全员 劳动生 产率 产品 销售率
问题的提出 §8 主成分分析
问题的提出 §8 主成分分析
§8 主成分分析
什么是主成分分析 主成分分析的数学模型 主成分分析的主要步骤 如何在SPSS软件中进行主成分分析
§8 主成分分析
什么是主成分分析
主成分概念首先由Kal parson在1901年提出,不过当时 只对非随机变量来讨论的。1933年Hotelling将这个概念推 广到随机向量。
F1 a11x1 a21x2

F2

a12 x1
a22 x2



Fp a1p x1 a2 p x2
ap1xp ap2xp
app xp
Fi a1i x1 a2i x2 api xp i 1, 2, p
§8 主成分分析
数学模型的条件
累计贡献率
k
i
i 1 p
i
i 1
称为前k个主成分的累计贡献率
如果前k个主成分的累计贡献率达到85%,则表明取前k 个主成分基本包含了全部测量指标所具有的信息,从而 达到了变量降维的目的。
在实际应用中,通常用样本协差阵来表征总体协差阵。另 外,为了消除指标量纲的影响,通常将原始数据进行标准 化处理,从而协差阵等同于相关系数阵。
难,就需要进行降维处理,即用较少的几个综合变量代替原来 较多的变量变量,而且使这些较少的综合变量既能尽量多地反 映原来较多变量变量所反映的信息。
§8 主成分分析
数学模型
引例8-1中,有31个样本,每个样本有8个变量。
§8 主成分分析
数学模型
要从原来的所有变量得到新的综合变量,一种较为简单 而常用的方法是作线性变换,使新的综合变量为原变量 的线性组合。
§8 主成分分析
主成分的提取
贡献率
1 p i 称为第一主成分的贡献率 i 1
Var(F1) 1
1 p
= Var(F1) p
i
Var(Fi )
i 1
i 1
因此第一主成分的贡献率越大,表明其综合 X1, X 2, X p
信息的能力就越强。
§8 主成分分析
主成分的提取
Var(a ' X ) E(a ' X E(a ' X ))(a ' X E(a ' X )) '
='E(X-E(X))(X-E(X))''=' Max
且 ’=1
§8 主成分分析
数学模型的推导
通过推导可知,X1,X2, Xp 的主成分就是以协方差阵
的特征向量为系数的线性组合,它们互不相关,其方差
主成分分析采用的主要原则是使方差最大,以期尽可 能多的保留原有变量所包含的信息,同时又能用尽可 能少的主成分替代原有变量,从而使问题变的简便。
但是,这些主成分通常并没有明确的专业意义。因子 分析是主成分分析的一种推广。它从一定的模型出发, 找出几个反映原有变量的公共因子,并力求使之有较 为合理的专业解释。
§8 主成分分析
问题的提出
主成分分析方法(principal component analysis,PCA ) 就是综合处理这种问题的一种强有力的工具。它把原 来多个变量(显式变量)转化为少数几个综合变量 (潜式变量)。综合变量即主成分(principal compontent)综合变量之间相互独立,且能反映原来多 个变量的大部分信息。
各主成分的累积方差贡献率>80%或特征根>1。
§8 主成分分析
数学模型
假定有n个地理样本,每个样本共有p个变量,构成一个 n×p阶的地理数据阵
x11 x12
X


x21

x22
xn1 xn2
x1 p
x2
p


xnp
(X1,X2 ,
Xp)
当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困
§8 主成分分析
什么是主成分分析
在实际问题中,经常遇到多变量(指标)问题,而且变量之 间有一定的相关性。变量多且变量间有一定的相关性, 势必增加了分析问题的复杂性。 主成分分析就是设法将原来变量重新组合成一组新的互 相无关的几个综合变量来代替原来变量,同时根据实际 需要从中可取几个较少的综合变量尽可能多地反映原来 变量的信息。
.102 .654
3 -.382 .288 .386 .551 -.253
.078
-.038 .584
Extraction Method: Principal Component Analysis.
a. 3 components extracted.
F1=0.288X1+0.203X2 0.518X3 0.268X4 0.369X5 0.439X6 0.438X7 0.128X8 F2 =0.4X1 0.509X2 0.011X3 0.352X4 0.411X5 0.350X6 0.063X7 0.403X8 F3 = 0.365X1 0.276X2 0.369X3 0.526X4 0.242X5 0.074X6 0.036X7 0.558X8
§8 主成分分析
主成分的提取
Total Variance Explained
Initial Eigenvalues
Component 1 2 3 4 5 6 7 8
Baidu Nhomakorabea
T o tal 2.887 2.636 1.094 .588 .391 .218 .122 .064
% of Variance 36.088 32.946 13.672 7.347 4.894 2.727 1.530 .795
为 的特征根。 由于 特征根 1 2 p 0 ,所以有
Var(F1) Var(F2 ) Var(Fp ) 0 ,因此主成分的名次是 按特征根取值大小的顺利排列的。
在解决实际问题时,一般不是取全部p个主成分,而是 取前k个。
方法之一是取特征根大于1的主成分。 方法之二是根据累计贡献率来取主成分。 何为贡献率和累计贡献率?
§8 主成分分析
基本思想
如果第一主成分不足以代表原来p个变量的信息,再考虑 选取F2即第二个线性组合。F2称为第二主成分(principal component II)。 F1和F2的关系? 为了有效地反映原来信息,F1已有的信息就不再出现在F2 中,即cov(F1,F2)=0。依此类推,可以获得p个主成分。 因此,这些主成分之间是互不相关的,而且方差依次递 减。在实际中,挑选前几个最大主成分来表征。标准?
主成分分析(Principal Components Analysis ,PCA)也 称为主分量分析,是一种通过降维来简化数据结构的方 法,即如何把多个变量(变量)转化为少数几个综合变量 (综合变量),而这几个综合变量可以反映原来多个变量 的大部分信息。
为了使这些综合变量所含的信息互不重叠,应要求它 们之间互不相关。
相关文档
最新文档