实验四_因子分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验四 因子分析(一)
1 、实验目的
(1) 理解因子分析的基本思想。

(2) 会用spss 进行因子分析;
(3) 能够用spss 软件解决实际问题;
2 、实验要求
(1) 根据实验原理的要求理解因子分析的基本步骤;
(2) 会用spss 软件按要求进行相关数据的处理,给出处理结果和检验结果;
(3) 对处理结果进行分析和小结。

3 、实验原理
因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。

它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。

对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

因子分析的形成和早期发展,一般认为是从Charles Spearman 在1904年发表的文章开始。

他提出这种方法用来解决智力测验得分的统计分析。

目前因子分析在心理学、社会学、经济学等学科都取得成功的应用。

因子分析的基本原理
(一)因子分析的基本概念
1、因子分析模型
因子分析模型中,假定每个原始变量由两部分组成:共同因子(common factors )和唯一因子(unique factors )。

共同因子是各个原始变量所共有的因子,解释变量之间的相关关系。

唯一因子顾名思义是每个原始变量所特有的因子,表示该变量不能被共同因子解释的部分。

原始变量与因子分析时抽出的共同因子的相关关系用因子负荷(factor loadings )表示。

因子分析最常用的理论模式如下:
j m jm j j j j U F a F a F a F a Z ++⋅⋅⋅+++=332211(j=1,2,3…,n ,n 为原始变量总数) 可以用矩阵的形式表示为U AF Z +=。

其中F 称为因子,由于它们出现在每个原始变量的线性表达式中(原始变量可以用j X 表示,这里模型中实际上是以F 线性表示各个原始变量的标准化分数j Z ),因此又称为公共因子。

因子可理解为高维空间中互相垂直的m 个坐标轴,A 称为因子载荷矩阵,)...3,2,1,...3,2,1(m i n j a ji ==称为因子载荷,是第j 个原始
变量在第i 个因子上的负荷。

如果把变量j Z 看成m 维因子空间中的一个向量,则ji a 表示j Z 在坐标轴i F 上的投影,相当于多元线性回归模型中的标准化回归系数;U 称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差。

其中,
(1)j Z 为第j 个变量的标准化分数;
(2)i F (i=1,2,…,m )为共同因素;
(3)m 为所有变量共同因素的数目;
(4)j U 为变量j Z 的唯一因素;
(5)ji a 为因素负荷量。

2、因子分析数学模型中的几个相关概念
↓因子载荷(因素负荷量factor loadings )
所谓的因子载荷就是因素结构中,原始变量与因素分析时抽取出共同因素的相关。

可以证明,在因子不相关的前提下,因子载荷ji a 是变量j Z 和因子i F 的相关系数,反映了变量j Z 与因子i F 的相关程度。

因子载荷ji a 值小于等于1,绝对值越接近1,表明因子i F 与变量j Z 的相关性越强。

同时,因子载荷ji a 也反映了因子i F 对解释变量j Z 的重要作用和程度。

因子载荷作为因子分析模型中的重要统计量,表明了原始变量和共同因子之间的相关关系。

因素分析的理想情况,在于个别因素负荷量ji a 不是很大就是很小,这样每个变量才能与较少的共同因素产生密切关联,如果想要以最少的共同因素数来解释变量间的关系程度,则j U 彼此间或与共同因素间就不能有关联存在。

一般说来,负荷量为0.3或更大被认为有意义。

所以,当要判断一个因子的意义时,需要查看哪些变量的负荷达到了0.3或0.3以上。

↓变量共同度(共同性,公因子方差Communality )
变量共同度也就是变量方差,就是指每个原始变量在每个共同因子的负荷量的平方和,也就是指原始变量方差中由共同因子所决定的比率。

变量的方差由共同因子和唯一因子组成。

共同性表明了原始变量方差中能被共同因子解释的部分,共同性越大,变量能被因子说明的程度越高,即因子可解释该变量的方差越多。

共同性的意义在于说明如果用共同因子替代原始变量后,原始变量的信息被保留的程度。

因子分析通过简化相关矩阵,提取可解释相关的少数因子。

一个因子解释的是相关矩阵中的方差,而解释方差的大小称为因子的特征值。

一个因子的特征值等于所有变量在该因子上的负荷值的平方总和。

变量j Z 的共同度2h 的数学定义为:∑==m i ji a h 12
2,该式表明变量j Z 的共同度是因子载荷矩阵A 中第j 行元素的平方和。

由于变量j Z 的方差可以表示成12
2=+u h ,因此变量j Z 的方差可由两个部分解释:第一部分为共同度2h ,是全部因子对变量j Z 方差解释说明的比例,体现了因子全体对变量
j Z 的解释贡献程度。

变量共同度2h 越接近1,说明因子全体解释说明了变量j Z 的较大部分方差,如果用因子全体刻画变量j Z ,则变量j Z 的信息丢失较少;第二部分为特殊因子U 的平方,反应了变量j Z 方差中不能由因子全体解释说明的比例,2
u 越小则说明变量j Z 的
信息丢失越少。

总之,变量d 共同度刻画了因子全体对变量j Z 信息解释的程度,是评价变量j Z 信息丢失程度的重要指标。

如果大多数原有变量的变量共同度均较高(如高于0.8),则说明提取的因子能够反映原有变量的大部分信息(80%以上)信息,仅有较少的信息丢失,因子分析的效果较好。

因子,变量共同度是衡量因子分析效果的重要依据。

因子的方差贡献(特征值eigenvalue )
因子的方差贡献(特征值)的数学定义为:212∑==n j ji i a
S ,该式表明,因子i F 的方差贡献是因子载荷矩阵A 中第i 列元素的平方和。

因子i F 的方差贡献反映了因子i F 对原有变
量总方差的解释能力。

该值越高,说明相应因子的重要性越高。

因此,因子的方差贡献和方差贡献率是衡量因子重要性的关键指标。

为了便于说明,以三个变量抽取两个共同因素为例,三个变量的线性组合分别为: 12121111U F a F a Z ++=
22221212U F a F a Z ++=
32321313U F a F a Z ++=
转换成因素矩阵如下:
所谓共同性,就是每个变量在每个共同因素之负荷量的平方总和(一横列中所有因素负荷量的平方和),也就是个别变量可以被共同因素解释的变异量百分比,这个值是个别变量与共同因素间多元相关的平方。

从共同性的大小可以判断这个原始变量与共同因素之间关系程度。

而各变量的唯一因素大小就是1减掉该变量共同性的值。

(在主成分分析中,有多少个原始变量便有多少个“component ”成分,所以共同性会等于1,没有唯一因素)。

至于特征值是每个变量在某一共同因素之因素负荷量的平方总和(一直行所有因素负荷量的平方和)。

在因素分析之共同因素抽取中,特征值大的共同因素会最先被抽取,其次是次大者,最后抽取的共同因素之特征值最小,通常会接近0(在主成分分析中,有几个题项,便有几个成分,因而特征值的总和刚好等于变量的总数)。

将每个共同因素的特征值除以总题数,为此共同因素可以解释的变异量,因素分析的目的,即在因素结构的简单化,希望以最少的共同因素,能对总变异量作最大的解释,因而抽取的因素越少越好,但抽取因素之累积解释的变异量则越大越好。

(二)基本方法
☆ 正交因子模型
设'1(,)p X X X =…,是可观测的随机向量,()()E X D X μ==∑,,且设
'1(,,)m F F F =…(m<p )
是不可观测的随机向量,()0()m E F D F I ==,(即F 的各个分量方差为1,且互不相关)。

又设'1,,p εεε=( 与F 互不相关,且
221()0()(,)p E D diag εεσσ===Λ,…, (对角矩阵)
假定随机向量X 满足以下模型:
111111221122211222221122m m m m p p p p pm m p X a F a F a F X a F a F a F X a F a F a F μεμεμε-=++++⎧⎪-=++++⎪⎨⎪⎪-=++++⎩…… …………………………………… 则称该模型为正交因子模型。

用矩阵表示为: X AF με+=+
其中'1(,,)m F F F =…
,1,,m F F …称为X 的公共因子;'1,,p εεε=( ,1,,p εε…称为X 的特殊因子;矩阵()ij p m A a ⨯=是待估的系数矩阵,称为因子载荷矩阵。

(1,,;1,,)ij a i p j m ==……称为第i 个变量在第j 个因子上的载荷(简称为因子载荷)。

因子载荷矩阵A 中各行元素的平方和记为2i h ,221m i ij j h a ==∑ (1,,)i p =… 称为变量i X 的共同度。

由22211()()()()m m
i it t i
it t i i i i t Var X Var a F a Var F Var h εεσ===+=+=+∑∑表明i X 的方差由两部分组成,第一部分2i h 是全部公共因子对变量i X 的总方差所作出的贡献,称为公因子方
差;第二部分2i σ是由特定因子i ε产生的方差,它仅与变量i X 有关,也称为剩余方差。

☆ 参数估计方法
由p 个相关变量的观测数据计算样本协方差阵S ,作为协方差阵的估计。

为了
建立公共因子模型,首先要估计因子载荷ij a 和特殊因子方差2i σ,常用的参数估计方法有:
主成分法;主因子解;极大似然法。

☆ 方差最大的正交旋转
因子分析的目的不仅是求出公共因子,更主要的是应该知道每个公共因子的
实际意义。

而各个公共因子的典型代表变量不是很突出,因而容易使公共因子的实际意义含糊不清,不利于对因子进行解释。

为此,须对因子载荷矩阵施行旋转变换,使得各因子载荷矩阵的每一列各元素的平方按列向0或1两极转化,达到其结构简化的目的。

☆ 因子得分
有时要求把公共因子表示成变量的线性组合,或反过来对每一个样品计算公共
因子的估计值,即所谓的因子得分。

因子得分可用于模型的诊断,也可作为进一步分析的原始数据。

因子得分常用以下两种方法:a. 加权最小二乘法;b. 回归法。

4 、实验步骤
(一)因子分析的基本步骤
1.确定原有若干变量是否适合于因子分析
确定原有若干变量是否适合于做因子分析的基本依据是原有变量的相关矩阵。

如果相关矩阵中的相关系数大都小于 0.3 ,而且未达到显著性水平,则说明变量间的相关性普遍较低,它们存在潜在共同因子的可能性较小,就不再适合于做因子分析;如果相关系数都比较大,则可以进行因子分析。

在相关基础上可计算三个用于判断因子分析适合度的指标:
巴特利特球形检验(Bartlett Test of Sphericity):该检验首先假设变量相关矩阵为单位阵(对角线为1、非对角线为0),然后检验实际相关矩阵与此差异性。

如果差异性显著,则拒绝单位阵假设,即认为原变量间的相关性显著,适合于作因子分析,否则不能作因子分析。

反映像矩阵的对角线称为取样适切性量数(measures of sampling adequacy:MSA)KMO(Kaiser-Meyer-Olkin)检验:KMO检验是依据变量间的简单相关与偏相关的比较。

其计算公式为所有原变量简单相关系数的平方和除以简单相关系数平方和加偏相关系数平方和。

即:
原变量间相互作用大,变量间偏相关系数就会相对较小,简单相关系数相对较大。

从公式看出,KMO 值就大,适合于因子分析,反之则 KMO值较小而不适合于做因子分析。

Kaiser 提供的判断标准是:
0.9<KMO: 非常适合 0.8<KMO<0.9:适合 0.7<KMO<0.8:一般
0.6<KMO<0.7:适合度较低 KMO<0.6:适合度很低
2.构造因子
因子分析的一个重要环节是要确定提取的公共因子及个数。

方法是多种多样的,抽取因子的方法共有七种:主成分、未加权最小二乘法、广义最小二乘法、极大似然法、主轴因子法、alpha因素萃取法、映像因子萃取法,但最常用的是主成分分析法。

主成分分析法是对原相关变量进行线性变换,使之转换为另外一组相对独立的变量,这一组变量被称为是主成分,它与原变量具有线性回归关系,即可由原变量的线性组合得到;反之亦然。

选取公共因子的转轴方法包括:最大变异法、相等最大法、四次方最大值法、直接斜交法、Promax旋转法等。

转换得到的每一主成分可以代表或解释一部分原变量的变化,按照其解释变量的量从大到小排列。

一般选择主成分数是使解释变异量累加到80%以上,但有时又需要结合公共因子的可解释性来确定提取的公共因子数。

也可以用碎石图来直观反映主成分数与其解释原变量的累加效果以帮助确定提取公共因子数。

3.因子变量的命名解释
根据前述分析,因子分析得到的每个公共因子都对原变量中的每一变量作出一定解释,而解释程度的大小反映在因子载荷大小上。

一般我们可以得到每一列的因子载荷中有一些是比较大的,而另一些比较小,就可以知道该列对应的因子主要解释了哪些变量,以此确定该公共因子的主要特征和内涵。

但有时,因子载荷的大小差异不是非常明显,公共因子的命名和解释就比较困难。

这时可以使用因子矩阵旋转对因子矩阵作变换,增加因子载荷的差异性,提高因子的可解释性。

最常用的因子旋转是方差极大法,因为此种方法使因子载荷获得最佳分化。

4.计算因子得分
计算因子得分就是先要根据因子分析建立每个因子的回归方程,然后将具体个案的原变量分数代入就可以求出该个案的各因子分数。

一般常用的方法有回归法。

(二)因子分析的SPSS过程
1.按Analyze→Data Reduction→Factor顺序单击菜单项,打开因子分析主对话框。

2.选择分析变量送到右边的Variables栏中。

3.点击“Descriptives…”设置描述性统计要求。

这里关键的是要求输出因子分析适合度
的检验,一般要求输出:计算相关系数矩阵(选中Coefficients)、相关系数显著性水平矩阵(选中Significance levels)和巴特利特球形检验(选中 KMO and
Bartlett’s test of sphericity)。

4.在主对话框中单击Extraction按钮,相应的对话框中:
1)Method菜单中选择Principle components项,使用主成分分析方法。

2)Analyze栏中选择Correlation matrix项,分析相关矩阵。

3)Extract栏中选择Number of factors。

提取因子数(选中Number of factors 后输
入一个因子数),如果还无法确定可以不设定因子数,先以默认状态进行尝试性分
析。

4)Display栏中选择Unrotated factor solution,显示未旋转的因子结果。

同样选择Scree
plot,要求作出特征值的散点图。

5)Maximum iteration convagence 25,结束迭代的判据为到达最大迭代次数25.
5.点击“Rotation”按钮打开选择因子载荷矩阵的旋转方法。

一般使用最多的是正交旋转
(选中Varimax)或斜交旋转方法(选中Promax),其中斜交旋转速度快,大样本时多选此方法。

同时可选中“Rotated solution”和“Loading plot(s)”,以输出旋转后因子旋转矩阵、载荷散点图。

6.主对话框中单击Score按钮。

在相应的对话框中选择Save as variables,并在Method栏
中选择Rregression,要求通过回归方法计算因子得分并把因子得分作为变量保存到数据文件中。

7.点击“Options”设置因子载荷系数的显示格式:
(1) 选中“Sorted by size”,则因子载荷系数按照大小顺序排列,并构成矩阵,使
得在同一因子上具有较高载荷的变量排在一起,便于得到结论;
(2) 选中“Suppress absolute values less than:”并在其后的方格中输入一个0~
1间的一个数,则因子载荷矩阵中就不再显示那些小于这个数值的载荷系数了,而只显示那些比此数值大的载荷值,从而使因子所解释的主要变量一目了然。

8.单击Descriptives按钮,在对话框Statistics栏内选择Initial solution选项。

9.在主对话框中单击OK按钮执行运算。

6 、实验操作
计算各个变量的因子载荷值以及共同度,分析各个因子的贡献度和贡献率。

相关文档
最新文档