第14讲因素分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
KMO测度:该测度从比较观测变量之间 的简单相关系数和偏相关系数的相对大小 出发,是变量间相关系数平方和占这两种 系数平方和的比率,其值的变化范围从0 到1。KMO值越接近1越好。至少>0.6
2、提取因子
要确定因子的个数和求因子解的方法
要按某种规则确定所需要的因子数,用某种 计算方法计算因子负荷矩阵
请解释:为什么RC和VOCAB之间的相关、 FR 和EF之间的相关是高的,而所有其他的 相关是低的
当因素分析被运用到表1所表示的相关时, 结果与我们通过对这些相关进行日常分析 的结果是非常相似的
表2 对表1中的相关进行一个因素分析的结果
变量
阅读理解 词汇
图形旋转 分解图形
因素负荷
因素1
因素2
一般因素分析得到的结果往往是很难加以解释 的 ,当某些变量同时在几个因子上都有相当程 度的负荷量时,因子的解释工作就更加困难
因子旋转的目的是通过改变坐标轴的位置, 重新分配各个因子所解释的方差的比例, 使因子结构更简单,更易于解释
在各因子上只有少数变量有较高的负荷,其它变 量上的负荷(绝对值)很低
公因子方差反映的是单个变量被所有公因 子解释的部分比例,因子贡献反映的则是 单个因子解释的数据总方差
四、因素分析的步骤
首先,计算所有变量的相关矩阵 第二步是提取因子 第三步是进行因子旋转 第四步是计算因子值 第五步是解释因子
1、计算相关矩阵
计算所有变量之间的相关系数,得到相关矩阵 R
因素分析可以:通过减少变量的数量使对 数据的解释简单化
研究焦点从具体的测验移向更一般性的因 素,因素用来对大量个体测验传达的潜在 信息进行概括和组织
二、因素分析数学模型
因素分析是通过研究多个变量间相关系数矩阵(协 方差矩阵)的内部依赖关系,找出能综合所有变量 的少数几个随机变量,这几个随机变量是不可测量 的,通常称为因子,或因素,然后根据相关性的大 小把变量分组,使得同组内的变量之间相关性较高, 但不同组的变量相关性较低。
表示全部公因子对变量xi的总方差所做出的贡 献
变量 f1
x1
a11
x2
ቤተ መጻሕፍቲ ባይዱ
a21
x3
a31
x4
a41
x5
a51
表3
f2 a12 a22 a32 a42 a52
共同度(h2)
a112+a122 a212+a222 a312+a322 a412+a422 a512+a522
唯一因素(d2)
1-h12 1-h22 1-h32 1-h42 1-h52
(3) aij称为因子负荷(factor loadings),它是 第i个变量xi在第j个公因子fj上的负荷。因素 负荷或因素载荷,实质就是公因子fj和变量 xi的相关系数。矩阵A=(aij)称为因子载荷 矩阵。
A=
a11 a12 … a1m a21 a22 … a2m … … ……
ak1 ak2 … akm
各个因子间互不相关,所有变量都可以表示成 公因子的线性组合,因素分析的目的就是减少 变量的数目,用少数因子代替所有变量去分析 整个问题
f1
a11
a12
f2
a1m
x1
u1
x2
u2
… … …
Fm
xk
uk
图1 因素分析模型
因素分析模型,是每个观测变量由一组因素的 线性组合来表示,设有k个观测变量(此为标 准化变量),分别为x1,x2,…,xk,其中xi 为具有零均值、单位方差的标准化变量
心理测量学
第十四讲 因素分析
一、概述
心理测验通常显示出从中度到高度的正相 关
假设:设计的两个测验是测量阅读理解和 词汇的,两者之间的相关是0.53
请问:为什么这些测验是相关的
也许:它们相关是因为它们都测量了非常多 的相同东西——言语能力
归纳推理:通过注意到两个测验似乎拥有共 同的特征,鉴别出言语能力这个更一般的、 抽象的、普通的变量
对旋转的理解
降维的过程就通过旋转坐标,把方差最大方 向做为坐标,而淘汰方差较小的纬度,这样 就可以将N维空间的问题转化为一维空间的 距离问题。
y y’
x’
z’ x
z
一般来说,转轴的方法有两大类:正交转 轴法和斜交转轴法
正交旋转是使因子轴之间仍然保持90度角, 即因子之间是不相关的
斜交旋转中,因子之间的夹角可以是任意 的,即因子之间不一定是正交的
0.88
0.09
0.76
0.15
0.04
0.72
0.20
0.78
这个分析表明,这里有两个不同的因素
因素负荷,或最初的四个测验和这两个因素之 间的相关标示在表2中
阅读理解和词汇与第一个因素显示出高相关, 与第二个因素显示出低相关
FR和EF都与第二个因素显示出高相关,但 是与第一个因素显示出低相关
有两个问题要注意:一是因子提取方法 ,二 是因子个数的确定
①因子提取方法
主成分分析法
公因子分析法:包括主轴因子法、极大似然法、 最小二乘法、alpha法等
大多数情况下,这两种方法得到的解很接近, 一般常用主成分分析法和主轴因子法。
②因子个数的确定
有两个方法:一个是特征值准则,即取特征 值大于等于1的主成分或公因子作为初始因 子,放弃特征值小于1的
(fa1c) tfo1,rs)f,2,它…们,是fm各叫个做观公测因变子量(c所om共m有on的因 子,解释了变量之间的相关。公共因子都 是均值为0,方差为1的变量。
(2) ui称为特殊因子(unique factor),它是每 个观测变量所特有的因子,只和xi有关,相 当于残差,表示该变量不能被公因子所解释 的部分。代表公因子以外的影响因素,实际 分析时忽略不计。特殊因子的均值为0。
正交旋转(orthogonal rotation)方法主要包 括:方差最大法(varimax)、四次方最大法 (quartimax)、等量最大法(equimax)
方差最大法(Varimax):使各因子(列) 上与该因子有关的负荷平方的方差最大, 即拉开列上各变量的负荷差异,最常用
斜交旋转(oblique rotation)方法,比正交旋转 更具有一般性,它没有因子之间是不相关的这 个限制,主要是直接斜交旋转(Direct Oblimin)、 快速斜交旋转法(Promax)
进行因素分析是达到相同结果的一个统计方 法
请看表1
表1 两个深度知觉、一个阅读理解测验和一个词汇测验之间的关系
RC VOCAB FR
EF
阅读理解(RC) 1.0
词汇(VOCAB) 0.62 1.0
图形旋转(FR) 0.12 0.09 1.0 分解图形(EF) 0.04 0.11 0.76 1.0
特征值 解释量
a112+a212+a312 +a412+a512
(a112+a212+a312 +a412+a512) ÷5
a122+a222+a322+ a422+a522
(a122+a222+a322 +a422+a522) ÷5
因素模型:
x1=a11f1+a12f2 +u1 x2=a21f1+a22f2 +u2 x3=a31f1+a32f2 +u3 x4=a41f1+a42f2 +u4 x5=a51f1+a52f2 +u5
奇怪:根据常识或者直觉就能够精确解释 结果,心理学为什么把自己陷入复杂的方 法中去
在很多情况下,心理测验之间的相关模 式比直觉方法更复杂,直觉方法不能产 生可靠和有效的结果
两个心理学家观察相同的相关矩阵时,在 主观评估基础因素的数量和同一性上可能 也会产生分歧
因素分析为判定因素的数量和这些因素的 统计特征提供了一个分析方法
因素负荷或因素载荷aij,第i个变量在第j个 因子上的载荷,实质就是公因子fj和变量xi的 相关系数(也就是原始变量与因素分析时抽 取出来的共同因素之间的相关)
因素分析的一个重要内容就是由p个变量中 抽出m个公共因子,并确定每一变量在各个 因子上的因子负荷系数
2、公因子方差或共同度
共同度(communality)又叫公共方差,变量xi的 公因子方差记做hi2
当公因子之间彼此正交时,公因子方差等于和 该变量有关的因子负荷的平方和,用公式表示 为:hi2=ai12+ai22+…+aim2
如何理解公因子方差呢? 请回忆一下测定系数或决定系数 负荷系数的平方就是变量xi与因子fj的共同变
异
m个公因子对第i个变量方差的贡献称为第i个 变量的共同度
3、特征值和因子的贡献(解释量)
每个公因子对数据的解释能力,可以用该 因子所解释的总方差来衡量,通常称为该 因子的贡献(contributions) ,记为Vp
它等于和该因子有关的因子负荷的平方和, 即Vp=∑a2ip
实际中更常用相对指标,即因子贡献率, 用每个因子所解释的方差占所有变量总方 差的比例来表示
5、对因子做出解释
以上的步骤,大部分可由软件都可替你做好。 但最主要的步骤5,却是要使用者自行依照自 己的专业判断来执行
五、SPSS软件中的因素分析
从菜单上选择<Analyze>的<Data Reduction>下的<Factor> 命令,即打开了因 素分析的主对话框,在主对话框中,有指定 参与因素分析的变量,还有五个子对话框可 供选择。
因素模型的一般表达形式为: xi=ai1f1+ai2f2+…+aimfm+ui (i=1,2,…,k)
x1 =a11f1+a12f2+…+a1mfm+u1 x2=a21f1+a22f2+…+a2mfm+u2 …
xk=ak1f1+ak2f2+…+akmfm+uk
这个模型,称为因子模型,在该模型中:
在实际应用中,由于斜交旋转的结果太容易受 研究者主观意愿的左右,所以建议尽量采用默 认的正交旋转
4、计算因子值
因子值是各个因子在每个案例上的得分值,有 了因子值可以在其他的分析中使用这些因子
求解因子值的方法主要有:回归法、Bartlett法 和Anderson-Rubin法 ,一般使用回归法
根据计算出的相关矩阵还应该进一步判断应用 因子分析方法是否合适
检验的方法主要有: 巴特莱特球形检验(Bartlett test of sphericity) KMO测度(Kaiser-Meyer-Olkin Measure of
Sampling Adequacy)
巴特莱特球形检验:该统计量从检验整 个相关矩阵出发,其零假设为相关矩阵 是单位矩阵。所以要拒绝该假设,才能 进行因素分析。
任取两因子,每个变量只能在一个因子上有较高 负荷
简言之,就是调整因素负荷矩阵式中的 行、列值向0和1极化,使某些变量的负 荷尽可能往某个因子上集中,而另一些 变量的负荷尽可能往另一个因子上集中
• 旋转图解:良好的旋转应当使得变量向量尽可能落在坐标轴 附近,且各坐标轴附近积聚的变量数或者各因素的累计贡献 应大致平均。二维坐标系中,正交旋转只需把坐标轴旋转到 尽可能接近变量处即可。多维坐标系将因子空间分解成多个 二维平面,分别进行简单结构的旋转,直到得出稳定、一致 的结果。
设k表示观测变量数,那k个变量其方差总 和就是k,用某一个因子的特征值占总方差 的比例来表示,即Vp/k,表示了第p个因子 所解释的方差的比例
请看表3
特征值: 可以证明,各主成分特征值等于其因子贡献
也就是每个变量在某一共同因素之因素负荷 量的平方总和
总结:公因子方差是所有因子对某一个变 量的解释力;特征值是某一个因子对所有 变量的解释力
二是碎石检验准则(scree test criterion) ,这种图的形状 像一个山峰,从第一个因子开始,曲线迅速下降,然 后下降变得平缓,最后变成近似一条直线,曲线变平
开始的前一个点认为是提取的最大因子个数
3、因子旋转
因素分析的目的不仅是求出公因子,更主要的 是要知道每个因子的意义。通过坐标变换使因 子解的实际意义更容易解释
三、基本概念
因素(factor)和因素负荷
公因子方差或共同度
特征值(eigenvalues)和因子的贡献(解 释量)
1、因素(factor)和因素负荷
潜在变量、假想变量
在因素分析中,通过研究众多变量之间的内部 依赖关系,然后用少数几个假想变量来表示基 本的数据结构,这些假想变量能够反映原来众 多的观测变量所代表的主要信息,并解释这些 观测变量之间的相互依存关系,我们把这些假 想变量称之为因素。
2、提取因子
要确定因子的个数和求因子解的方法
要按某种规则确定所需要的因子数,用某种 计算方法计算因子负荷矩阵
请解释:为什么RC和VOCAB之间的相关、 FR 和EF之间的相关是高的,而所有其他的 相关是低的
当因素分析被运用到表1所表示的相关时, 结果与我们通过对这些相关进行日常分析 的结果是非常相似的
表2 对表1中的相关进行一个因素分析的结果
变量
阅读理解 词汇
图形旋转 分解图形
因素负荷
因素1
因素2
一般因素分析得到的结果往往是很难加以解释 的 ,当某些变量同时在几个因子上都有相当程 度的负荷量时,因子的解释工作就更加困难
因子旋转的目的是通过改变坐标轴的位置, 重新分配各个因子所解释的方差的比例, 使因子结构更简单,更易于解释
在各因子上只有少数变量有较高的负荷,其它变 量上的负荷(绝对值)很低
公因子方差反映的是单个变量被所有公因 子解释的部分比例,因子贡献反映的则是 单个因子解释的数据总方差
四、因素分析的步骤
首先,计算所有变量的相关矩阵 第二步是提取因子 第三步是进行因子旋转 第四步是计算因子值 第五步是解释因子
1、计算相关矩阵
计算所有变量之间的相关系数,得到相关矩阵 R
因素分析可以:通过减少变量的数量使对 数据的解释简单化
研究焦点从具体的测验移向更一般性的因 素,因素用来对大量个体测验传达的潜在 信息进行概括和组织
二、因素分析数学模型
因素分析是通过研究多个变量间相关系数矩阵(协 方差矩阵)的内部依赖关系,找出能综合所有变量 的少数几个随机变量,这几个随机变量是不可测量 的,通常称为因子,或因素,然后根据相关性的大 小把变量分组,使得同组内的变量之间相关性较高, 但不同组的变量相关性较低。
表示全部公因子对变量xi的总方差所做出的贡 献
变量 f1
x1
a11
x2
ቤተ መጻሕፍቲ ባይዱ
a21
x3
a31
x4
a41
x5
a51
表3
f2 a12 a22 a32 a42 a52
共同度(h2)
a112+a122 a212+a222 a312+a322 a412+a422 a512+a522
唯一因素(d2)
1-h12 1-h22 1-h32 1-h42 1-h52
(3) aij称为因子负荷(factor loadings),它是 第i个变量xi在第j个公因子fj上的负荷。因素 负荷或因素载荷,实质就是公因子fj和变量 xi的相关系数。矩阵A=(aij)称为因子载荷 矩阵。
A=
a11 a12 … a1m a21 a22 … a2m … … ……
ak1 ak2 … akm
各个因子间互不相关,所有变量都可以表示成 公因子的线性组合,因素分析的目的就是减少 变量的数目,用少数因子代替所有变量去分析 整个问题
f1
a11
a12
f2
a1m
x1
u1
x2
u2
… … …
Fm
xk
uk
图1 因素分析模型
因素分析模型,是每个观测变量由一组因素的 线性组合来表示,设有k个观测变量(此为标 准化变量),分别为x1,x2,…,xk,其中xi 为具有零均值、单位方差的标准化变量
心理测量学
第十四讲 因素分析
一、概述
心理测验通常显示出从中度到高度的正相 关
假设:设计的两个测验是测量阅读理解和 词汇的,两者之间的相关是0.53
请问:为什么这些测验是相关的
也许:它们相关是因为它们都测量了非常多 的相同东西——言语能力
归纳推理:通过注意到两个测验似乎拥有共 同的特征,鉴别出言语能力这个更一般的、 抽象的、普通的变量
对旋转的理解
降维的过程就通过旋转坐标,把方差最大方 向做为坐标,而淘汰方差较小的纬度,这样 就可以将N维空间的问题转化为一维空间的 距离问题。
y y’
x’
z’ x
z
一般来说,转轴的方法有两大类:正交转 轴法和斜交转轴法
正交旋转是使因子轴之间仍然保持90度角, 即因子之间是不相关的
斜交旋转中,因子之间的夹角可以是任意 的,即因子之间不一定是正交的
0.88
0.09
0.76
0.15
0.04
0.72
0.20
0.78
这个分析表明,这里有两个不同的因素
因素负荷,或最初的四个测验和这两个因素之 间的相关标示在表2中
阅读理解和词汇与第一个因素显示出高相关, 与第二个因素显示出低相关
FR和EF都与第二个因素显示出高相关,但 是与第一个因素显示出低相关
有两个问题要注意:一是因子提取方法 ,二 是因子个数的确定
①因子提取方法
主成分分析法
公因子分析法:包括主轴因子法、极大似然法、 最小二乘法、alpha法等
大多数情况下,这两种方法得到的解很接近, 一般常用主成分分析法和主轴因子法。
②因子个数的确定
有两个方法:一个是特征值准则,即取特征 值大于等于1的主成分或公因子作为初始因 子,放弃特征值小于1的
(fa1c) tfo1,rs)f,2,它…们,是fm各叫个做观公测因变子量(c所om共m有on的因 子,解释了变量之间的相关。公共因子都 是均值为0,方差为1的变量。
(2) ui称为特殊因子(unique factor),它是每 个观测变量所特有的因子,只和xi有关,相 当于残差,表示该变量不能被公因子所解释 的部分。代表公因子以外的影响因素,实际 分析时忽略不计。特殊因子的均值为0。
正交旋转(orthogonal rotation)方法主要包 括:方差最大法(varimax)、四次方最大法 (quartimax)、等量最大法(equimax)
方差最大法(Varimax):使各因子(列) 上与该因子有关的负荷平方的方差最大, 即拉开列上各变量的负荷差异,最常用
斜交旋转(oblique rotation)方法,比正交旋转 更具有一般性,它没有因子之间是不相关的这 个限制,主要是直接斜交旋转(Direct Oblimin)、 快速斜交旋转法(Promax)
进行因素分析是达到相同结果的一个统计方 法
请看表1
表1 两个深度知觉、一个阅读理解测验和一个词汇测验之间的关系
RC VOCAB FR
EF
阅读理解(RC) 1.0
词汇(VOCAB) 0.62 1.0
图形旋转(FR) 0.12 0.09 1.0 分解图形(EF) 0.04 0.11 0.76 1.0
特征值 解释量
a112+a212+a312 +a412+a512
(a112+a212+a312 +a412+a512) ÷5
a122+a222+a322+ a422+a522
(a122+a222+a322 +a422+a522) ÷5
因素模型:
x1=a11f1+a12f2 +u1 x2=a21f1+a22f2 +u2 x3=a31f1+a32f2 +u3 x4=a41f1+a42f2 +u4 x5=a51f1+a52f2 +u5
奇怪:根据常识或者直觉就能够精确解释 结果,心理学为什么把自己陷入复杂的方 法中去
在很多情况下,心理测验之间的相关模 式比直觉方法更复杂,直觉方法不能产 生可靠和有效的结果
两个心理学家观察相同的相关矩阵时,在 主观评估基础因素的数量和同一性上可能 也会产生分歧
因素分析为判定因素的数量和这些因素的 统计特征提供了一个分析方法
因素负荷或因素载荷aij,第i个变量在第j个 因子上的载荷,实质就是公因子fj和变量xi的 相关系数(也就是原始变量与因素分析时抽 取出来的共同因素之间的相关)
因素分析的一个重要内容就是由p个变量中 抽出m个公共因子,并确定每一变量在各个 因子上的因子负荷系数
2、公因子方差或共同度
共同度(communality)又叫公共方差,变量xi的 公因子方差记做hi2
当公因子之间彼此正交时,公因子方差等于和 该变量有关的因子负荷的平方和,用公式表示 为:hi2=ai12+ai22+…+aim2
如何理解公因子方差呢? 请回忆一下测定系数或决定系数 负荷系数的平方就是变量xi与因子fj的共同变
异
m个公因子对第i个变量方差的贡献称为第i个 变量的共同度
3、特征值和因子的贡献(解释量)
每个公因子对数据的解释能力,可以用该 因子所解释的总方差来衡量,通常称为该 因子的贡献(contributions) ,记为Vp
它等于和该因子有关的因子负荷的平方和, 即Vp=∑a2ip
实际中更常用相对指标,即因子贡献率, 用每个因子所解释的方差占所有变量总方 差的比例来表示
5、对因子做出解释
以上的步骤,大部分可由软件都可替你做好。 但最主要的步骤5,却是要使用者自行依照自 己的专业判断来执行
五、SPSS软件中的因素分析
从菜单上选择<Analyze>的<Data Reduction>下的<Factor> 命令,即打开了因 素分析的主对话框,在主对话框中,有指定 参与因素分析的变量,还有五个子对话框可 供选择。
因素模型的一般表达形式为: xi=ai1f1+ai2f2+…+aimfm+ui (i=1,2,…,k)
x1 =a11f1+a12f2+…+a1mfm+u1 x2=a21f1+a22f2+…+a2mfm+u2 …
xk=ak1f1+ak2f2+…+akmfm+uk
这个模型,称为因子模型,在该模型中:
在实际应用中,由于斜交旋转的结果太容易受 研究者主观意愿的左右,所以建议尽量采用默 认的正交旋转
4、计算因子值
因子值是各个因子在每个案例上的得分值,有 了因子值可以在其他的分析中使用这些因子
求解因子值的方法主要有:回归法、Bartlett法 和Anderson-Rubin法 ,一般使用回归法
根据计算出的相关矩阵还应该进一步判断应用 因子分析方法是否合适
检验的方法主要有: 巴特莱特球形检验(Bartlett test of sphericity) KMO测度(Kaiser-Meyer-Olkin Measure of
Sampling Adequacy)
巴特莱特球形检验:该统计量从检验整 个相关矩阵出发,其零假设为相关矩阵 是单位矩阵。所以要拒绝该假设,才能 进行因素分析。
任取两因子,每个变量只能在一个因子上有较高 负荷
简言之,就是调整因素负荷矩阵式中的 行、列值向0和1极化,使某些变量的负 荷尽可能往某个因子上集中,而另一些 变量的负荷尽可能往另一个因子上集中
• 旋转图解:良好的旋转应当使得变量向量尽可能落在坐标轴 附近,且各坐标轴附近积聚的变量数或者各因素的累计贡献 应大致平均。二维坐标系中,正交旋转只需把坐标轴旋转到 尽可能接近变量处即可。多维坐标系将因子空间分解成多个 二维平面,分别进行简单结构的旋转,直到得出稳定、一致 的结果。
设k表示观测变量数,那k个变量其方差总 和就是k,用某一个因子的特征值占总方差 的比例来表示,即Vp/k,表示了第p个因子 所解释的方差的比例
请看表3
特征值: 可以证明,各主成分特征值等于其因子贡献
也就是每个变量在某一共同因素之因素负荷 量的平方总和
总结:公因子方差是所有因子对某一个变 量的解释力;特征值是某一个因子对所有 变量的解释力
二是碎石检验准则(scree test criterion) ,这种图的形状 像一个山峰,从第一个因子开始,曲线迅速下降,然 后下降变得平缓,最后变成近似一条直线,曲线变平
开始的前一个点认为是提取的最大因子个数
3、因子旋转
因素分析的目的不仅是求出公因子,更主要的 是要知道每个因子的意义。通过坐标变换使因 子解的实际意义更容易解释
三、基本概念
因素(factor)和因素负荷
公因子方差或共同度
特征值(eigenvalues)和因子的贡献(解 释量)
1、因素(factor)和因素负荷
潜在变量、假想变量
在因素分析中,通过研究众多变量之间的内部 依赖关系,然后用少数几个假想变量来表示基 本的数据结构,这些假想变量能够反映原来众 多的观测变量所代表的主要信息,并解释这些 观测变量之间的相互依存关系,我们把这些假 想变量称之为因素。