探索性分析和验证性分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
探索性因子分析与验证性因子分析比较研究
湖北 武汉 杨 丹
摘要:探索性因子分析与验证性因子分析是因子分析的两种不同形式。它们都是以普通因子模型为基础,但它们之间也存在着较大差异。本文通过对它们进行比较分析,找出其异同,并对实证分析提供一定的指导依据。
关键词:探索性因子分析、验证性因子分析、结构方程模型
现实生活中的事物是错综复杂的,在现实的数据中,我们经常遇到的是多元的情况,而不仅仅是单一的自变量和单一的因变量。因此要用到多元的分析方法,而因子分析就是其中一种非常重要的处理降维的方法。它是将具有错综复杂关系的变量(或样品)综合为少数几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类。它实际上就是一种用来检验潜在结构是怎样影响观测变量的方法。因子分析主要有两种基本形式:探索性因子分析(Exploratory Factor Analysis)和验证性因子分析(Confirmatory Factor Analysis)。探索性因子分析(EFA)致力于找出事物内在的本质结构;而验证性因子分析(CFA)是用来检验已知的特定结构是否按照预期的方式产生作用。两者之间是既有联系也有区别的,下面我们就从不同的方面进行分析比较。
一、 两种因子分析的相同之处
两种因子分析都是以普通因子模型为基础的。因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量相关性较低。
如图1所示,我们假定一个模型,它表明所有的观测变量(变量1到变量5)是一部分受到潜在公共因子(因子1和因子2)影响,一部分受到潜在特殊因子(E1到E5)影响的。而每个因子和每个变量之间的相关程度是不一样的,可能某给定因子对于某些变量的影响要比对其他变量的影响大一些。
我们可以把图1的因子模型表示成线性函数:
其中 表示两个因子,它对所有 是公有的因子,通常称为公共因子,它们的系数 表示第 个变量在第 个因子上的载荷。 表示第 个变量不能被前两个因子包括的部分,称为特殊因子,通常假定 。
F1
F2
V1
V2
V3
V4
V5
E1
E2
E3
E5
E4
图1
不论是探索性因子分析还是验证性因子分析都是为了考察观测变量之间的相关系数和方差协方差。高度相关的观测变量(不管是正相关还是负相关)很可能
是受同样的因子影响,而相对来说相关程度不是很高的观测变量很可能是受不同的因子影响的。而因子必须尽可能多地解释变量方差,每个变量在每个因子上都有一个因子载荷,因子的意义需由看哪些变量在哪个因子上载荷最大来决定。通过寻找潜在公共因子,并合理解释因子的意义,我们就能揭示错综复杂的事物的内部结构。
二、两种因子分析的差异
(一)、基本思想的差异
因子分析的基本思想是寻找公共因子以达到降维的目的。在寻找公共因子的过程中,是否利用先验信息,产生了探索性因子分析和确定性因子分析的区别。探索性因子分析是在事先不知道影响因素的基础上,完全依据资料数据,利用统计软件以一定的原则进行因子分析,最后得出因子的过程。而确定性因子分析充分利用了先验信息,是在已知因子的情况下检验所搜集的数据资料是否按事先预定的结构方式产生作用。因此探索性因子分析主要是为了找出影响观测变量的因子个数,以及各个因子和各个观测变量之间的相关程度;而验证性因子分析的主要目的是决定事前定义因子的模型拟合实际数据的能力。进行探索性因子分析之前,我们不必知道我们要用几个因子,各个因子和观测变量之间的联系如何;而验证性因子分析要求事先假设因子结构,我们要做的是检验它是否与观测数据一致。
探索性因子分析试图揭示一套相对比较大的变量的内在结构。研究者的假定是每个指示变量都与某个因子匹配。这是因子分析最通常的形式。没有先验理论形式。没有先验理论,只能通过因子载荷凭知觉推断数据的因子结构。
验证性因子分析试图检验观测变量的因子个数和因子载荷是否与基于预先建立的理论的预期一致。指示变量是基于先验理论选出的,而因子分析是用来看它们是否如预期的一样。研究者的先验假设是每个因子都与一个具体的指示变量子集对应。验证性因子分析至少要求预先假设模型中因子的数目,但有时也预期哪些变量依赖哪个因子(Kim and Mueller, 1978b: 55)。例如,研究者试图检验代表潜在变量的观测变量是否真属于一类。
(二)、分析方法的差异
由于两种因子分析的出发点不同而产生了不同的分析方法,我们分别从两种因子分析的分析步骤来比较它们的差异。
探索性因子分析主要有以下7个步骤:
1、收集观测变量。由于总体的复杂性和统计基本原理的保证,为了达到研究目的,我们通常采用抽样的方法收集数据。所以我们必须按照实际情况收集观测变量,并对其进行观测,获得观测值。
2、获得协方差阵(或相似系数矩阵)。我们
所有的分析都是从原始数据的协方差阵(或相似系数矩阵)出发的,这样使我们分析得到的数据具有可比性,所以首先要根据资料数据获得变量协方差阵(或相似系数矩阵)。
3、确定因子个数。有时候你有具体的假设,它决定了因子的个数;但更多的时候没有这样的假设,你仅仅希望最后的到的模型能用尽可能少的因子解释尽可能多的方差。如果你有k个变量,你最多只能提取k个因子。通过检验数据来确定最优因子个数的方法有很多。Kaiser准则要求因子个数与相关系数矩阵的特征根个数相等;而Scree检验要求把相关系数矩阵的的特征根按从小到大的顺序排列,绘制成图,然后来确定因子的个数。究竟采用哪种方法来确定因子个数,具体操作时可以视情况而定。
4、提取因子。因子的提取方法也有多种,主要有主成分方法、不加权最小平方法、极大似然法等,我们可以根据需要选择合适的因子提取方法。其中主成分方法一种比较常用的提取因子的方法,它是用变量的线性组合中,能产生最大样品方差的那些组合(称主成分)作为公共因子来进行分析的方法。
5、因子旋转。由于因子载荷阵的不唯一性,可以对因子进行旋转,而正是由于这一特征,使得因子结构可以朝我们可以合理解释的方向趋近。我们用一个正交阵右乘已经得到的因子载荷阵(由线性代数可知,一次正交变化对应坐标系的一次旋转),使旋转后的因子载荷阵结构简化。旋转的方法也有多种,如正交旋转、斜交旋转等,最常用的是方差最大化正交旋转。
6、解释因子结构。我们最后得到的简化的因子结构是使每个变量仅在一个公共因子上有较大载荷,而在其余公共因子上的载荷比较小,至多是中等大小。这样我们就能知道我们所研究的这些变量到底是由哪些潜在因素(也就是公共因子)影响的,哪些因素是起主要作用的,而哪些因素的作用较小,甚至可以不用考虑。
7、因子得分。因子分析的数学模型是将变量表示为公共因子的线性组合,由于公共因子能反映原始变量的相关关系,用公共因子代表原始变量时,有时更利于描述研究对象的特征,因而往往需要反过来将公共因子表示为变量的线性组合,即因子得分。
而验证性因子分析主要有以下6个步骤:
1、定义因子模型。包括选择因子个数和定义因子载荷。因子载荷可以事先定为0或者其它自由变化的常数。或者在一定的约束条件下变化的数(比如与另一载荷相等)。这是和探索性因子分析在分析方法上的一个重要差异,我们可以用一个直观的比喻,也就是说探索性因子分析是在一张白纸上作图
,而验证性因子分析是在一张有框架的图上完善和修改。
2、收集观测值。定义了因子模型以后,我们就可以根据研究目的收集观测值了。这一点与探索性因子分析有一定的相似之处。
3、获得相关系数矩阵。与探索性因子分析一样,我们的分析都是在原始数据的相关系数矩阵基础上进行的,所以首先就要得到相关系数矩阵。实际上方差协差阵、相似系数矩阵和相关阵之间是可以相互转化的。
4、根据数据拟合模型。我们需要选择一个方法来估计自由变化的因子载荷。在多元正态的条件下,最常用的是极大似然估计,也可采用渐进分布自由估计。
5、评价模型是否恰当。这一步可以说是验证性因子分析的核心。当因子模型能够拟合数据时,因子载荷的选择要使模型暗含的相关阵与实际观测阵之间的差异最小。最好的参数被选择以后,差异量能被用来作为衡量模型与数据一致的程度。最常用的模型适应性检验是卡方拟合优度检验。原假设是模型是适应性模型,备择假设是存在显著差异。但是,这个检验受样本量大小影响,包含大样本的检验往往会导致拒绝原假设,尽管因子模型是合适的。其他的统计方法,比如用Tucker-Lewis指数,比较建议模型和“原模型”的拟合度。这些方法受样本量大小影响不大。
6、与其他模型比较。为了得到最优模型,我们需要完成这一步。如果你想比较两个模型,其中一个是另一个的缩略形式,你就能从卡方统计量的值检查出他们的差别,大约服从卡方分布。几乎所有独立因子载荷的检验能用来作为全因子模型和简因子的模型之间的比较。为以防你不是在检查全模型和简模型,你可以比较均方根误差的近似值 (RMSEA),它是模型中每个自由度差异的一个估计值。
三、两种因子分析方法应结合使用
验证性因子分析与结构方程模型(Structure Equation Modeling)有着极强的联系,SEM是统计学领域中相对不太标准的领域,其具体原理和应用方法本人在另一篇文章中有详细介绍,这里不在赘述。验证性因子分析比探索性因子分析处理要困难多了。验证性因子分析比探索性因子分析要求更大容量的样本。主要是因为验证性因子分析要处理推论统计量。精确的样本量要随着观测值和模型的因子数变化而变化,但一个标准模型至少需要200个个体。和探索性因子分析一样,模型中每个因子至少需要3个变量;与探索性因子分析不同的是,你必须选择与每个因子在很大程度上匹配的变量,而不是可能是潜在变量的“随机样本”。
一般来说,如果你没有坚实的理论基础支撑,有关观测变量内部结构,一般用探索性因子
分析。先用探索性因子分析产生一个关于内部结构的理论,再在此基础上用验证性因子分析,这样的做法是可取的。但这必须用分开的数据集来做。如果你直接把探索性因子分析的结果放到统一数据的验证性因子分析中,你就仅仅是拟合数据,而不是检验理论结构。合理的做法是用一半数据做探索性因子分析,然后把析取的因子用在剩下的一半数据中做验证性因子分析。如果你做验证性因子分析的拟合效果非常差,你就必须用探索性因子分析来找出数据与模型之间的不一致。但是你在对新数据拟合模型时,任何改动都需要进行检验。