因子分析模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 2 以后, 计算出 A 以后,可由用 Σ − AA′ 的对角元作为各特殊因子方差 σ 12 , σ 2 ,L , σ p 的
(
)
估计。 估计 。 估计出因子负荷后, 估计出因子负荷后,对 F j 作出解释的依据是因子负荷矩阵 A 中第
j 列元素的大
小与符号, 之间的相关性强弱。 小与符号,因为它们分别度量了 F j 与可观测变量 X 1 , X 2 ,L , X p 之间的相关性强弱。 相关性最强的若干个可观测变量,对它们的含义和共性加以提炼, 找出与 F j 相关性最强的若干个可观测变量,对它们的含义和共性加以提炼,并与 其它变量的含义进行对比、衬托 ,就有可能归纳、 其它变量的含义进行对比、衬托,就有可能归纳、提炼出潜在因子 F j 的合理解释与命 名。 难于给出合理的解释( 如果基于所得到的因子负荷矩阵 A 难于给出合理的解释( 表现为 A 中第 j 列元素 在量值上较为均衡) ,则需要对负荷矩阵 施以正交变换。 在量值上较为均衡 ) 则需要对负荷矩阵 A 施以正交变换。变换的目的是使 , 两极分化。 从而利于对公共因子的解释, 元素都能呈现向 0 和 1 两极分化 。 从而利于对公共因子的解释 ,
i1
, xi 2 ,L , xip ) ,希望
(称因子得分 ) 能测算出该样品在各公共因子上的水平高低 称因子得分) 。
公共因子的个数 m 通常由公共因子的相对重要性确定,第 j 个公共 通常由公共因子的相对重要性确定, 因子 j 的重要度正好是Σ 的第 j 大特征根的值λ j 。 因此当λ j 小到一定程度 就可以忽略相应的公共因子。 而将它们的影响归入特殊因子。 就可以忽略相应的公共因子 。 而将它们的影响归入特殊因子 。 经过一系列理论分析, 经过一系列理论分析,可以得到 m 个公共因子对应的因子负荷矩阵A 的一种估计
这意味着我们试图通过 这意味着我们 试图通过 m 个潜在的公共因子 ( F1 , F2 ,L , Fm ) 来对第 i 小题的测试分 线性地加以解释。 数 X i 线性地加以解释 。 称因子负荷, 其中系数 ai1 , ai 2 ,L , aim 称因子负荷 ,用来表达第 i 小题的测试分数 X i 反映出的各 公共因子方面的能力 ; 公共因子方面 的能力; 的能力
ε i 表达了第 i 小题的测试分数 X i 不能被 m 个公共因子线性解释的部分,称为特殊 个公共因子线性解释的部分,
因子。 特殊因子也不可观测。 通常假定 ε i 因子。 特殊因子也不可观测。 可理解为特殊因子的强度的度量。 可理解为特殊因子的强度的度量 。
~ N 0, σ i2
(
) ,这里的 σ
p 个可观测变量 ( X , X
1
2
所表达的信息, ,L , X p ) 所表达的信息 ,不能表达的部分
是通过特殊因子来承载, 是通过特殊因子来承载, 为此需推断不能被解释部分的强 度 , 即估计 {σ
2 i
, i = 1, 2,L , p} ;
1 2 m
都是潜在的, ( 3) m 个公共因子 ( F , F ,L, F ) 都是潜在的 ,如果推测出它们的存 就希望能对它们的实际含义作出适当的解释; 在 , 就希望能对它们的实际含义作出适当的解释 ; 依据样品(应聘者) ( 4) 依据样品 (应聘者)的 p 项可观测指标值 ( x
因子分析模型
p) 因子分析与主成分分析不同的是它试图将 p 个可观测变量 ( 1 2 通过数量较 来加以解释。从形式上看, 少的 m 个潜在且不可观测的公共因子 ( F1 , F2 ,L , Fm ) 来加以解释。从形式上看,它也是多元
X , X ,L , X
分析中降维的一种方法。 分析中降维的一种方法 。 例如, 道题组成的一套综合素质测试卷,题目涉及:语言表达能力、 例如,由 50 道题组成的一套综合素质测试卷 ,题目涉及:语言表达能力 、逻辑 思维能力、 对事物的敏锐程度、 思想修养、 兴趣爱好、 生活常识等方面。 思维能力 、 对事物的敏锐程度 、 思想修养 、 兴趣爱好 、 生活常识等方面 。 位应试者在各题上的得分 是可观测的, 第 i 位应 试者在各题上的得分 ( xi1 , xi 2 ,L, xi50 ) 是可观测的 , 可看作一个 50 维变量
−1
对于 n 个 p 维样品 x( i ) = xi1
(
xi 2 L xip ) , i = 1, 2,L , n , 记
x11 x21 样品矩阵 X = L x n1
x12 L x1 p x22 L x2 p , L L L xn 2 L xnp F12 L F1m F22 L F2 m L L L Fn 2 L Fnm
(
)
A 的各列
在 各 公共 因子 的含 义明 确 以后 ,进 一步 希望 知 道每 个样品
′ x (i ) = (xi1 , xi 2 , L , xip ) , 在各 方面的能力或水平如何 , 这就是所谓因子得分 。 在各方面的能力或水平如何 这就是所谓因子得分。 方面的能力或水平如何,
上的得分, 它们应满足方程: 用 Fij 表示第 i 个样品 x( i ) 在 公共因子 F j 上的得分 , 它们应满足方程 :
{
}
xi1 Fi1 Fi 2 −1 xi 2 = ( A′A) A′ M M F x im ip
或等价地
( Fi1
Fi 2 L Fim ) = ( xi1
xi 2 L xip ) A ( A′A)
2 i
作为特殊因子的方差, 作为特殊因子的方差,
根据前述的思路, 给出因子分析的数学模型: 根据前述的思路 , 给出因子分析的数学模型 :
X 1 = a11 F1 + a12 F2 + L + a1m Fm + ε1 X = a F + a F +L + a F + ε 2 21 1 22 2 2m m 2 LL X p = a p1 F1 + a p 2 F2 + L + a pm Fm + ε p
这里, 项可观测指标; 这里 , xi1 ,L , xip 是第 i 个样品 x( i ) 的 p 项可观测指标 ; 是已经估计出的因子负荷 估计出的因子负荷; {a , i = 1,L , p; j = 1,L , m} 是已经估计出的因子负荷; ε
ij i1
,L , ε ip 是第i 个样品x( i )
X = AF + ε
其中矩阵称因子负荷矩阵。 其中矩阵称因子负荷矩阵 。
因子分析的任务是: 因子分析的任务是 : ( 1) 估计因子负荷 a 的存在; 的存在 ; ( 2) 通过较少的 m 个潜在的公共因子 ( F , F ,L, F ) 不可能完全解释
1 2 m
i1
, ai 2 ,L , aim , 并由此推测潜在公共因子 ( F1 , F2 ,L , Fm )
p 次试验观测中随机波动项的取值, 可观测指 次试验观测中随机波动项的取值, 将
视为响应变量的取值, 视为解释 标 xi1 ,L , xip 视为响应变量的取值, 将因子负荷 aij , j = 1,L , m; i = 1,L , p 视为解释 变量的取值 , 视为回归系数, 变量的取值,而将因子得分 Fi1 ,L , Fim 视为回归系数 ,按最小二乘法使残差平方和达 的取值 到最小的估计思路, 因子得分估计式: 到最小的估计思路 , 可得第 i 个样品 x( i ) 的 因子得分估计式 :
的特殊因子分量。 未知且不可观测, 的特殊因子分量。由于 ε i1 ,L , ε ip 未知且不可观测 ,所以第 i 个样品 x( i ) 的 因子得分
Fi1 ,L , Fim 不能从方程组解出 。 只能进行估计 。 不能从方程组解出。 只能进行估计。
因子得分的估计方法有多种, 一种较为直接的处理方法如下。 因子得分的估计方法有多种 , 一种较为直接的处理方法如下 。 将特殊因子分量 ε i1 ,L , ε ip 视为
( X1 , X 2 ,L, X 50 ) 的取值 。 的取值。
每道题上的得分是表面现象,应试者在语言表达能力、 逻辑思维能力、 每道题上的得分是表面现象 ,应试者在语言表达能力、 逻辑思维能力、对事物的 敏锐程度、 思想修养、 兴趣爱好、 生活常识等方面(称公共因子) 敏锐程度、 思想修养、 兴趣爱好、 生活常识等方面 (称公共因子) 的能力大小才是本 质的, 但是这每个公共因子都比较抽象, 是潜在的, 难以直接加以观测或度量。 质的 , 但是这每个公共因子都比较抽象 , 是潜在的 , 难以直接加以观测或度量 。 信息, 我们希望充分利用应试者在各题上的得分 ( xi1 , xi 2 ,L , xi50 ) 信息 , 分析计算出应聘者在 每个公共因子方面的水平高低 。 这就是因子分析要解决的问题。 每个公共因子方面的水 平高低。 这就是因子分析要解决的问题 。 平高低
−1
F11 F21 因子得分矩阵 F = L F n1
则有简洁表达式
F = XA ( A′A )
Spss软件实现
1.心血管疾病的因子分析:spss 数据 :13-02 .心血管疾病的因子分析: 关注:数据格式、结果解读 关注:数据格式、 2.抑郁症测试的因子分析:spss 数据 :抑郁症资料 .抑郁症测试的因子分析:
引入矩阵记号 :
X1 a11 X2 a21 X= , A= M L Xp a p1
则 , 模型可表达为
百度文库
a12 a22 L ap2
L a1m ε1 F1 1m L a2 m F2 ε2 ,F = ,ε = M L L L F ε p L a pm m
个公共因子, 由于它们是潜在且不可观测的, 设有 m 个公共因子, 由于它们是潜在且不可观测的 ,形式上记为 ( F1 , F2 ,L , Fm ) 。 假设第 i ( i = 1, 2,L ,50 ) 小题的测试分数 X i 可表示为
X i = ai1 F1 + ai 2 F2 + L + aim Fm + ε i , ( i = 1, 2,L , p )
xi1 = a11 Fi1 + a12 Fi 2 + L + a1m Fim + ε i1 x = a F + a F +L + a F + ε i2 21 i1 22 i 2 2 m im i2 LL xip = a p1 Fi1 + a p 2 Fi 2 + L + a pm Fim + ε ip
F
A=
(
λ1 e1 ,K , λm em
列元素
)
λj ej 是
Σ 的第 j 大特征
A 作为一个 p 行 m 列的矩阵, 列的矩阵, 其第 j
根 λ j 所对应的单位长度特征向量e j 的 λ j 倍,也正好是主成分分析中第
j 主成分的系数向量的 λ j 倍,因此这种给出因子负荷矩阵 A 初步估计的
方法也称为主成分方法。 方法也称为主成分方法 。