应用统计学因子分析与主成分分析案例解析_SPSS操作分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因子分析与主成分分析
一、问题概述
现希望对30个省市自治区经济发展基本情况的八项指标进行分析。具体采用的指标只有:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。这是一个综合分析问题,八项指标较多,用主成分分析法进行综合。
二、数据处理与分析
1.因子分析
打开数据后,在SPSS中进行因子分析的步骤如下:
选择“分析---降维---因子分析”,在弹出的对话框里
(1)描述---系数、KMO与Bartlett的球形度检验
(2)抽取---碎石图、未旋转的因子解
(3)旋转---最大方差法、旋转解、载荷图
(4)得分---保存为变量、显示因子得分系数矩阵
(5)选项---按大小排序
点击确定得到如下各图:
图3-1
图3-2
KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度量。.620
Bartlett 的球形度检验近似卡方231.285 df 28 Sig. .000
图3-3
公因子方差
图3-6 成份矩阵a
图3-9
(2)因子模型中各统计量的意义
A)因子载荷错误!未找到引用源。:因子载荷错误!未找到引用源。为第i个变量在第j个因子上的载荷,实际上就是错误!未找到引用源。与错误!未找到引用源。的相关系数,表示变量错误!未找到引用源。依赖因子错误!未找到引用源。的程度,反应了第i个变量错误!未找到引用源。对于第j个因子错误!未找到引用源。的重要性。
B)变量错误!未找到引用源。的变量共同度:k个公因子对第i个变量方差的贡献,也称为公因子方差比,记为错误!未找到引用源。,公式为:错误!未找到引用源。=错误!未找到引用源。(j=1,2,….,k)
表示全部公因子对变量错误!未找到引用源。的总方差所做出的贡献,也即是变量错误!未找到引用源。的信息能够被k个公因子所描述的程度。
C)公因子错误!未找到引用源。的方差贡献率:在因子载荷矩阵A中,各列元素错误!未找到引用源。的平方和记为错误!未找到引用源。,表示第j个公因子错误!未找到引用源。对于X所提供方差的总和,它是衡量公因子相对重要性的指标。方差贡献率越大,表明公因子对X的贡献越大。
(3)基本分析结果
A)KMO和球形Bartlett检验用于因子分析的适用性检验。KMO检验变量间的偏相关是否较小,Bartlett球形检验是判断相关矩阵是否是单位阵,参见图3-2。
由Bartlett检验可以看出,应拒绝个变量独立的假设,即变量间具有较强的相
关性,但是KMO的统计量为0.620,小于0.7,说明个变量间信息的重叠程度可能
不是特别的高,有可能做出的因子分析模型不是很完善,但还是值得尝试的。
B)变量共同度Communalities是表示各变量中所含原始信息能被提取的公因子所表示的程度,由图3-3所示的变量共同度可知:几乎所有变量的共同度都在80%以上,因此提取出的这几个公因子对各变量的解释能力是较强的。
C)碎石图用于显示各因子的重要程度,横轴为因子序号,纵轴表示特征根大小,从中可以非常直观的了解到哪些是最主要的因子,参见图3-5。本例中可见前三个因子的散点位于陡坡之上,而后五个因子散点成了平台,且特征根均小于1,因此至多考虑前三个公因子即可。
D)图3-4给出的是各成分的方差贡献率和累计贡献率,以及进行因子旋转后的方差贡献率和累计贡献率,前者将在主成分分析中进行说明。
E)图3-6为因子载荷矩阵,在前面已经直接按列的方向将其解释为个成分的系数,实际上严格讲因子载荷矩阵应该是各因子在各变量上的载荷,即是各因子对各变量的影响度。表示如下:
ZX1=0.884F1+0.385F2+0.120F3+错误!未找到引用源。
ZX2=0.606F1-0.596F2-0.277F3+错误!未找到引用源。
ZX8=0.822F1+0.429F2-0.210F3+错误!未找到引用源。
在表达式中各变量已经不是原始变量,而是标准化变量。错误!未找到引用
源。表示特殊因子,是除了这3个公因子之外影响该变量的其他因素。原来设计
了8个指标来表示经济发展水平,但是经过因子分析后,只需要三个因子即可描
述影响地区经济发展状况。
F)为了使因子载荷矩阵中系数更加显著,可以对初始因子载荷矩阵进行转换,使因子和原始变量间的关系进行重新分配,相关系数向0-1分化,从而更加容易解释。图3-9是进行因子旋转的空间示意图,值得注意的是旋转前后各变量散点的相对位置保持不变,即旋转并不改变因子分析的整体结果,只是影响各因子在各变量上的载荷分布,并影响各因子的贡献率。本例中采用的是方差最大正
交旋转法进行因子旋转,输出的结果参见图3-4.,由图可知,只有前三个特征根大于1,因此SPSS只提取了前三个公因子。在旋转后三个公因子的方差累计贡献率均发生了变化,但仍然会保持从大到小的顺序,而且前三个因子的方差贡献率仍为89.55%,和旋转前完全相同,因此选前三个因子已足够描述经济发展的水平。
G)进行方差最大旋转后,旋转后的因子载荷矩阵如图3-7所示,由图可以看出,第一公因子在错误!未找到引用源。、错误!未找到引用源。、错误!未找到引用源。、错误!未找到引用源。有较大的载荷,主要从GDP、固定资产投资、货物周转量和工业总产值反映经济发展状况,可以命名为总量因子。第二公因子在错误!未找到引用源。、错误!未找到引用源。上有较大载荷,从居民消费水平和职工平均工资方面反映经济发展水平,因此命名为消费因子。第三公因子在错误!未找到引用源。和错误!未找到引用源。上有较大载荷,表现为居民消费价格指数和水平价格指数方面,因此命名为价格因子。与未旋转前相比较,旋转后各公因子的意义显然更加明确合理。
H)因子得分:前面得到了因子结构表达式,可以将各变量表示为公因子的线性形式,但是更多的时候需要将公因子表达为各变量的线性形式。公因子的得分系数函数不能通过矩阵变换的方法由因子载荷阵得到,只能采用估计的方法求得,本例采用的是回归法。因子得分系数矩阵如图3-10所示,据此可以直接写出各公因子的得分表达式:
F1=0.306ZX1+0.025ZX2+0.270ZX3-0.025ZX4+0.248ZX5+0.070ZX6+0.077Z X7+0.317ZX8
F2=0.011ZX1+0.387ZX2+0.129ZX3+0.451ZX4-0.319ZX5+0.180ZX6-0.098Z X7+0.026ZX8
F3=0.047ZX1+0.040ZX2+0.075ZX3+0.096ZX4-0.139ZX5+0.653ZX6+0.462Z X7+0.123ZX8
SPSS已经给出三个公因子的得分,保存在fac_1~fac_3中,按各因子对应的方差贡献率为权数计算如下综合统计量:
F=错误!未找到引用源。F1+错误!未找到引用源。F2+错误!
未找到引用源。F3
=0.730F1+0.141F2+0.129F3
在SPSS中用程序计算综合因子得分:
Comp score=0.73* fac1_1+0.141* fac2_1+0.129* fac3_1
2.主成分分析
A)由图3-1(各变量相关系数矩阵)可以看出,许多变量之间直接的相关性比
较强,的确存在信息上的重叠。