探索性因子分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

因子分析的4个基本步骤 因子分析有两个核心问题:一是如何构造 因子变量;二是如何对因子变量进行命名解释 。 (1)确定待分析的原有若干变量是否适合于 因子分析。 (2)求解初始因子解 (3)利用旋转使得因子变量更具有可解释性。 (4)计算因子变量的得分。
因子分析前的准备工作
因子分析是从众多的原始变量中构造出少 数几个具有代表意义的因子变量,这里面有一 个潜在的要求,即原有变量之间要具有比较强 的相关性。如果原有变量之间不存在较强的相 关关系,那么就无法从中综合出能反映某些变 量共同特性的少数公共因子变量来。 因此,在因子分析时,需要对原有变量作 相关分析。
样本数据适当性考察
• Bartlett球度检验(Bartlett’s test of sphericity):近似 χ 2检验,Ho:“相关矩阵是单位阵”,显然,其显著性 水平要至少小于0.05,才能拒绝Ho,说明各个变量间存在 相关,适宜进行因素分析。
• 反映像相关矩阵(Anti-image correlation matrix):其 元素等于偏相关系数的负数。公因子存在时,偏相关系数 实际上是特殊因子间的相关系数估计,应当接近于零。 • KMO取样适当性度量(Kaiser-Meyer-Olkin measure of sampling adequacy):是变量间相关系数平方和占这两种 系数平方和的比率。显然,KMO值越接近1越好。一般规 定:0.9以上,极好;0.8以上,较好;0.7以上,一般。同 时,每个变量的KMO值恰好为反映像相关矩阵的对角线元 素,记为MSA(Measures of Sampling Adequacy)。
因子的解释和命名——因子旋转
因子的解释和命名——正交旋转结果
典型的简单结构:可以看到变量col1、 col2、col3和因子1有较大相关,变量 col4、col5、col6和因子2有较大相关, 变量对因子的归属一目了然。 根据这些因子所解释的变量的含义,我 们将因子1、2分别命名
旋转图解:良好的旋转应当使得变量向量尽可能落在坐标轴 附近,且各坐标轴附近积聚的变量数或者各因素的累计贡献 应大致平均。二维坐标系中,正交旋转只需把坐标轴旋转到 尽可能接近变量处即可。多维坐标系将因子空间分解成多个 二Leabharlann Baidu平面,分别进行简单结构的旋转,直到得出稳定、一致 的结果。
输出各个变量的基本描述统计量
输出因子分析的初始解
相关系数矩阵
变量相关系数矩 阵的行列式值
反映像相关矩阵
求解初始因子解
因子分析中有多种确定因子变量的方法, 如基于主成分模型的主成分分析法和基于因子 分析模型的主轴因子法、极大似然法、最小二 乘法等。 其中基于主成分模型的主成分分析法是使 用最多的因子分析方法之一。下面以该方法为 对象进行分析。
因子的解释和命名——因子旋转
• 因素分析的目的不仅是求公因子,更要是要知道每个因子 的意义。根据主成分法计算的因素模式解释很麻烦,因为大 多数因子都和许多变量相关。 • 因子旋转的目的:通过改变因子轴的位置,重新分配各因 子所解释的方差比例,为了获得结构因子模式的“简单结构” (simple structure): — 在各因子上只有少数变量有较高的负荷,其它变量上 的负荷(绝对值)很低; — 每个变量只在少数因子上有很高的负荷; — 任取两因子,每个变量只能在一个因子上有较高负荷。 • 简言之,就是调整因素负荷矩阵式中的行、列值向0和±1 极化,使某些变量的负荷尽可能往某个因子上集中,而另一 些变量的负荷尽可能往另一个因子上集中,使得每个因子上 仅“负载”几个变量。
旋转的评价
• 对正交旋转的批评: 实际研究中,因素间的关系往往很难满足因素正交要求, 应考虑使用斜交旋转。斜交旋转因子间的夹角随意,因此理 论上说,它对于解释因子更有利。
• 斜交旋转的“高风险性”: 结果受分析者对斜交参数的定义影响,很大程度上取决 于分析者的主观经验;同时也不利于研究结果的交流。
表9-2
合作性 16 18 17 17 16 20 18 16 18 17 17 16 20 18 16 18 17 17 16 20
20名大学生的9项测验结果
分 配 16 19 17 17 15 17 16 16 19 17 17 15 17 16 16 19 17 17 15 17 出发点 13 15 17 17 16 16 16 13 15 17 17 16 16 16 13 15 17 17 16 16 工作投入 18 16 14 16 16 17 20 18 16 14 16 16 17 20 18 16 14 16 16 17 发展机会 16 18 17 19 18 18 15 16 18 17 19 18 18 15 16 18 17 19 18 18 社会地位 17 18 18 18 18 18 16 17 18 18 18 18 18 16 17 18 18 18 18 18 权力距离 15 18 16 19 15 17 19 15 18 16 19 15 17 19 15 18 16 19 15 17 职位升迁 16 17 16 20 16 19 14 16 17 16 20 16 19 14 16 17 16 20 16 19 领导风格 16 19 16 19 16 18 17 16 19 16 19 16 18 17 16 19 16 19 16 18
将标准化因子值作为新变量保存在当前数据 文件中,计算出的因子值均值为0,默认的 变量名为FAC1_1、FAC2_1、FAC3_1 (分别对应因子1、2、3)等,其中第二个 数字表示第一次分析过程。
SPSS中实现过程(课后作业) SPSS中实现步骤
研究问题 表所示为20名大学生关于价值观的9项测 验结果,包括合作性、对分配的看法、行为出 发点、工作投入程度、对发展机会的看法、社 会地位的看法、权力距离、对职位升迁的态度、 以及领导风格的偏好。
因子相关时的旋转——斜交旋转法
• 斜交旋转中的因素模式和因素结构 因素负荷是向坐标轴平行投影;因素结构是向坐标轴的垂 直投影;正交模型中,因素模式等于因素结构。 • 简单模式结构和简单因素结构 两种旋转标准,通常前者更方便。 • 阅读斜交旋转结果的注意点: — 区分模式矩阵(pattern matrix )和结构矩阵 (structure matrix); — 斜角解的因素负荷可能会超过1,计算因子贡献不能再 使用负荷平方和办法(通常不给出); — 不给因素变换矩阵而代之以因素间相关矩阵。
因子值意义及应用
SPSS提供的三种因 回归法求解使真因子得 分和因子得分估计值的误 子值或因子值系数的 差平方和达到最小的因子 估计方法: 值系数,这样得出的因子 都基于最小二乘原理, 得分可能相关,是 SPSS 只是定义误差的方式 中默认的方法。 不同。 Bartlett法的误差是独特 因素得分估计值; Anderson-Rubin法在其 基础上增加因素间相互正 交的条件。
因子值意义及应用
• 某些情况下还要获得对因子的度量,如根据各因子得分 对某个自变量或样本进行分类、评价。 • 因子得分不能简单地将变量值相加,因为各变量在因子 上的负荷不同,所以应当赋予变量不同的权值,称为因子 值(factor score)。 求因子值的过程就是求因素分析模型的逆过程,目的是 用观测变量的线性组合来表达因子。计算案例i在因子p上的 因子值是用该案例每个变量的标准化分数xji乘以相应的因子 值系数(component’s score coefficients)wpj之和。 • 对于主成分法未经旋转求得的因子解可以直接得到因子 值系数。通常是相应的因素负荷比上该因素的特征值。因 此若不计较因素值单位,此时因素负荷就是因素值的估计。 其它解法需要估计。
因子相关时的旋转——斜交旋转法
SPSS斜交旋转法: • 直接斜交极小法(Direct Oblimin): 由参数δ(Delta)控制倾斜程度,该参数控制因子轴的倾 斜程度,其中δ≤0.8。一般δ取大负值时表示因子间倾斜程度 越低,越不相关。 • Promax法: Procrustes变换的一种特例,通过扩大初始简单结构中元素 的大小差距(2次方或4次方)来取得简单结构。其参数κ (Kappa)即乘方数,κ>1。此法比直接斜交旋转法的计算 速度快,因此常用于大数据集。
探索性因素分析及SPSS应用
因子分析的定义 SPSS中实现过程
因素分析的的作用
因子分析是将现实生活中众多相关、重叠 的信息进行合并和综合,将原始的多个变量和 指标变成较少的几个综合变量和综合指标,以 利于分析判定。 因子分析的核心作用:探索结构、简化数据
因子分析的一个降维例子 英国统计学家Moser Scott在1961年对英 国157个城镇发展水平进行调查时,原始测量 的变量有57个,而通过因子分析发现,只需要 用5个新的综合变量(它们是原始变量的线性 组合),就可以解释95%的原始信息。对问题 的研究从57维度降低到5个维度,因此可以进 行更容易的分析。
各公因子方差贡献 初始解主成分数等 可以用因素负荷平方 于变量数,三列依次 和(Sums of squared 是特征值(解释变异 loadings),因为它可 量)、因子贡献率、 以由因素负荷矩阵中 累计贡献率。应当抽 碎石图陡 列元素的平方和求得。 取2个因子 阶检验也显
示抽取2因子
2.因子解特征值及因子贡献率: 因子贡献反映的则是单个因子解释的数据总方差。所有公 因子的累计贡献等于所有变量的共同度之和;如果公因子数 等于变量数(主成分分析)则也等于原观测变量的总方差。 公因子j 的贡献记为Vj,等于所有模型/因素负荷矩阵中每列 因子负荷的平方和;更常用“贡献率” 指标(相等);主 成分特征值等于其因子贡献。
最简单的方法就是计算变量之间的相关系 数矩阵。 如果相关系数矩阵在进行统计检验中,大 部分相关系数都小于0.3,并且未通过统计检 验,那么这些变量就不适合于进行因子分析。
1.巴特利特球形检验(Bartlett Test of Sphericity)(单位矩阵的零假设) 2.反映像相关矩阵检验(Anti-image correlation matrix)(偏相关系数) 3.KMO(Kaiser-Meyer-Olkin)检验 (0.6)是变量间相关系数的平方和除以变量 间相关系数与偏相关系数平方和
确定公因子数
公因子数确定牵涉到很多问题,如变量数、模型拟合度、 因子贡献等。 (2n 1) 8n 1 • 因子数边界 m 2 • 特征值准则: — Kaiser准则,特征值≥1; — Joliffe准则,特征值≥0.7; • Cattell陡阶检验,也称碎石图(Scree Plot) 检验,因子 特征值中大的陡急坡度与缓慢坡度间的明显转折点; • 累计贡献率(建议>80%,实际中40% ~ 60%也可做); • 在极大似然估计法中,使拟合度显著性水平不再减小; • 理论构想及公因子的可解释性也可作为参考
• 替代办法: 碰到因子间高度相关的情况,往往代之以减少因子数目 或者做高阶因素分析,导致斜交旋转在实际应用中的功用被 削弱。
在实际分析工作中,主要是通过对载荷矩 阵A的值进行分析,得到因子变量和原变量的 关系,从而对新的因子变量进行命名。
计算因子得分
计算因子得分是因子分析的最后一步。因 子变量确定以后,对每一样本数据,希望得到 它们在不同因子上的具体数据值,这些数值就 是因子得分,它和原变量的得分相对应。有了 因子得分,在以后的研究中,就可以针对维数 少的因子得分来进行。
因子的解释和命名——因子旋转
正交旋转:因子轴之间保持90度角(因子不相关) SPSS提供三种基于“正交极大准则”的正交旋转法: • 方差最大法(Varimax):使各因子(列)上与该因子有关 的负荷平方的方差最大,即拉开列上各变量的负荷差异,最常 用; • 四次方最大法(Quartimax):使各变量(行)上因子负荷 平方的方差达到最大,即拉开行上的负荷差异,易产生综合因 子,大部分变量在该因子上都有较高负荷; • 平均正交法(Equamax):上两种方法综合。 在Rotation对话框选择Varimax旋转,选中复选框因素负荷 图(Loading plot),在Options对话框选中将负荷较低(<0.3) 的值隐藏并按负荷大小排列(负荷量为0.3表示因素只解释了 该变量方差的10%,忽略 )。
相关文档
最新文档