因子分析法的理的论基础及其应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
攻读博士、硕士学位研究生试卷(作业)封面
(2008至2009学年度第1学期)
题目因子分析法的理论基础及其应用
科目高级心理统计
姓名杨梅
专业应用心理学
入学年月2007年9月
因子分析法的理论基础及其应用
杨梅
【摘要】:因子分析是多元统计分析技术的一个分支,其主要目的是浓缩数据。
它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示基本的数据结构。因子分析就是研究如何以最少的信息丢失把众多的观测变量浓缩为少数几个因子。并通过实例了解因子分析的具体应用,熟练因子分析在SPSS 上的具体操作以及掌握数据解释。 关键词:因子分析法 理论基础 数据浓缩 SPSS 1、因子分析的起源
因子分析是由心理学家发展起来的,最初心理学家借助因子分析模型来解释人类的行为和能力,1904年Charles Spearman 在美国心理学杂志上发表了第一篇有关因子分析的文章,在以后的三四十年里,因子分析的理论和数学基础逐步得到了发展和完善。50年代以来,随着计算机的普及和各种统计软件的出现,因子分析在社会学、经济学、医学等越来越多的领域得到应用。
2、因子分析的原理
2.1因子分析模型
因子分析模型在形式上和多元回归模型相似,每个观测变量由一组因子的线性组合来表示。因子模型的一般表达式为:i m im i i i u f a f a f a x ++⋅⋅⋅++=2211
),,2,1(k i ⋅⋅⋅=
在该模型中:(1)m f f f ,,,21⋅⋅⋅叫做公因子,它们是各个观测变量所共有的因子,解释了变量之间的相关。(2)i u 称为特殊因子,它是每个观测变量所特有的因子,表示该变量不能被公因子所解释的部分。(3)ij a 称为因子负载,它是第i 个变量在第j 个公因子上的负载,相当于多元回归分析中的标准回归系数(m j k i ,,2,1;,,2,1⋅⋅⋅=⋅⋅⋅=)。 2.2因子分析的有关概念
(1)因子负载:是因子分析模型中最重要的一个统计量,它是连接观测变量和公因子之间的纽带。当分因子之间完全不相关时,很容易证明因子负载ij a 等
于第i 个变量和第j 个因子之间的相关系数。因子负载不仅表示了观测变量是如何由因子线性表示的,而且反应了因子和变量之间的相关程度,ij a 的绝对值越大,表示公因子j f 与变量i x 关系越密切。
(2)公因子方差:也叫共同度,指观测变量方差中由公因子决定的比例。变量i x 的公因子方差记做2
i h 。当公因子之间彼此正交时,公因子方差等于和该变量有关的因子负载的平方和,用公式表示为:2
2
22
12
im i i i a a a h +++=
(3)因子的贡献:每个公因子 对数据的解释能力,可以用该因子所解释的总方差来衡量,通常称为该因子的贡献,它等于和该因子有关的因子负载的平方和。
3、因子分析的具体步骤
3.1计算所有变量的相关矩阵
相关矩阵是因子分析直接要用的数据 ,根据计算出的相关矩阵还应该进一步判断应用因子分析方法是否合适。因子分析的目的是简化数据或者找出基本的数据结构,因此使用因子分析的前提条件是观测变量之间应该有较强的相关关系。如果变量之间的相关程度很小的话,它们不可能共享公因子 。所以,计算出相关矩阵之后在进行下面的步骤之前应该对相关矩阵进行检验,如果相关矩阵中的大部分相关系数都小于0.3,则不适合做因子 分析。一般用KMO 测度和巴特利特球体检验来判断观测数据 是否适合做因子分析。一般情况KMO 测度在0.6以上巴特利特球体检验显著,则观测数据适合做因子分析。
3.2提取因子
3.2.1主成分分析法
主成分分析是一种数学变换的方法,它把给定的一组相关变量通过线性变换转换成一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一个变量具有最大的方差,称为第一主成分,第二个变量的方差次大,并且和第一个变量不相关,称为第二主成分,依次类推,K 个变量就有K 个主成分,最后一个主成分具有的方差最小,并且和前面的主成分不相关。
因子个数的确定:(1)特征值准则:取特征值大于等于1的主成分作为初始因子,放弃特征值小于1的主成分。(2)碎石检验准则:按照因子被提取的顺序,画出因子的特征值随因子个数变化的散点图,根据图的形状来判断因子的个数 。该图的形状像一个山峰,从第一个因子开始,曲线迅速下降 ,然后下降变的平缓,最后变成近似一条直线,曲线变平开始的前一点认为是提取的最大因子个数。
3.2.2公因子分析法
公因子模型是从解释变量之间的相关关系出发的,假设观测变量之间的相关能完全被公因子解释,变量的方差不一定能完全被公因子解释,这样每个变量被公因子所解释的方差不再是1,而是公因子方差。所以公因子模型在求因子解时,指考虑公因子方差。
3.3进行因子旋转
初始因子解达到了数据化简的目的,在求初始因子解这一步中,确定了公因子数,确定了每个变量的公因子方差。但是根据初始因子解,往往很难解释因子的意义,大多数因子都和很多变量有关。因子是通过数学方法求解得到的,但研究人员往往很关心每个因子的实际意义是什么,否则就很难理解和把握因子分析的结果。因子旋转是寻求这一实际意义的有效工具,因子旋转的目的是通过改变坐标轴的位置,重新分配各个因子所解释的方差的比例,使因子结构更简单,更易于解释。因子旋转不改变模型对数据的拟合程度,不改变每个变量的公因子方差。
3.3.1正交旋转
正交旋转是使因子轴之间仍然保持90度角,即因子之间是不相关的。正交旋转方法主要有三种:四次方最大法、方差最大法和等量最大法。最常用的是方差最大法,它从简化因子负载矩阵的每一列出发,使和每个因子有关的负载平方的方差最大。当只有少数几个变量在某个因子上有较高的负载时,对因子的解释是最简单的,和某个因子有关负载平方的方差最大时,因子具有最大的可解释性。
3.3.2斜交旋转方法
斜交旋转中,因子之间的夹角可以是任意的,即因子之间不一定是正交的,所以用斜交因子描述变量会使因子结构更为简洁。在斜交旋转中,因子负载不再等于因子和变量之间的相关系数,因子结构和因子模型之间是有区别的。
3.4计算因子值
如果我们要使用所提取的因子做其它研究,比如把得到的因子作为自变量来做回归分析对样本进行分类或评价,这些都需要对因子进行测度,给出因子对应每个样本案例上的值,这些值称为因子值。因子分析模型中,是用因子的线性组合来表示一个观测变量,因子负载实际是该线性组合的权数。求因子值的过程是通过观测变量的线性组合来表示因子,因子是观测变量的加权平均。因为各个变量在因子上的负载不同,所以不能把变量简单的相加,权数是我大小表示了变量