第2章因子分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

, m* tm* )
1*
0
(t1* t2*, , tm* )
0
m*
这样在模型上就解决了从约相关阵R*出发求载荷矩阵A
越大,密切程度越高;另一方面也反映了变量 X i 对公共因子Fj
的相对重要性。了解这一点对我们理解抽象的因子含义有非常
重要的作用。
2.变量共同度 hi2 的统计意义
设因子载荷矩阵为 A ,称第 i 行元素的平方和,即
m
hi2 ai2j j 1
i 1, 2, , p
( 7.7)
为变量 X i 的共同度。
1.因子载荷 aij 的统计意义
对于因子模型
X i ai1F1 ai2F2 aij Fj aim Fm i
i 1, 2, , p
我们可以得到, X i 与 Fj 的协方差为:
m
Cov( X i , Fj ) Cov( aik Fk i , Fj ) k 1 m = Cov( aik Fk , Fj ) Cov(i , Fj ) k 1
估计载荷矩阵 A 。对 A 的估计方法有很多,下面介绍“主
轴因子法”,该方法是常用的一 种估计方法。
这里我们假定原始向量 X ( X1, X 2 , , X p ) 已作了标准
化变换。如果随机向量 X 满足因子模型(7.2)式,已知 X 的 相关阵为 R ,由(7.5)式知
R AA D

R* R Dε AA
A1A1 1*t1*t1* 1* g12 。这样就得到 A 阵中的第一列 A1。
为了求得载荷矩阵 A 中其余 m 1列,应该注意到约相关阵 R*
的谱分解式为
p
p
R* i*ti*ti* A1 A1 i*ti*ti*
i 1
i2
(7.14)
并注意到,约相关阵 R* 还可以分解为
R* AA A1,
2 2
g
2 m

现在求 A 1 (a11, a21, ap1) 向量,在条件
m
p
rij* aik a jk , i, j 1, 2, , p 下,使得 g12 ai21 达到
k 1
i 1
最大值。这是一个条件极值问题,在此我们构造目标函数为:
(a11, a21,
a p1 )
1 2
g12
特征向量。
如果记约相关阵 R* 的最大特征根为 1* ,相应的单位特征向
p
量为 t1* 。考虑到约束条件 g12 ai21 A1A1 1* ,且 i 1
t1*t1* 1,则 A1 应取为 :
A1 1* t1*
显 然 , A1 仍 然 是 相 应 于 1* 的 一 个 特 征 向 量 , 且 满 足
A1
,
Am
m
At At
Am t1
因此,求出 A1后,将 R* 减去 A1A1 ,就得
m
R* A1A1 At At t 1
对于 R* A1A1 重复上面的讨论,从(7.14)可以看出,要求

g
2 2
2* ,
A2
2*
t2*
,即
g
2 2

征根 2* ,
A2

R AA D
(7.5)
第二,因子载荷是不唯一的。这是因为对于 m m 的正交矩
阵 T ,令 A* AT , F* TF ,则模型可以表示为
由于
X A*F* ε
D(F *) T D(F )T T T Imm Cov(F *, ε) E(F*ε) T E(Fε) 0
所以仍然满足模型的条件。同样 Σ 也可以分解为
= aij
如果对 X i 作了标准化处理, X i 的标准差为 1,且 Fj 的标准差
为 1,因此
r Xi ,Fj
C o vX( i F,j D( Xi ) D F( j
)
)
C
o
vX(
i
F,j
)aij
( 7.6)
那么,从上面的分析,我们知道对于标准化后的 X i ,aij 是 X i
与 Fj 的相关系数,它一方面表示 X i 对 Fj 的依赖程度,绝对值
第一,变量 X 的协差阵 Σ 的分解式为
D(X) D(AF ε) E[(AF ε)(AF ε)] AE(FF)A AE(Fε) E(εF)A E(εε) AD(F)A D(ε)
由模型(7.2)式所满足的条件知 Σ AA D
(7.4)
如果 X 为标准化了随机向量,则 Σ 就是相关矩阵 R (ij ) ,
ai2j
i 1
j 1, 2, , m
为公共因子
Fj

X
的贡献,即
g
2 j
表示同一公共因子
Fj

各变量所提供的方差贡献之总和,它是衡量每一个公共因子
相对重要性的一个尺度。
第三节 因子载荷矩阵求解
一 因子载荷矩阵的求解 二 约相关阵的估计
一、因子载荷矩阵的求解
实际应用中建立因子分析的具体模型,关键是根据样本数据
2 p
模型中的 aij 称为因子“载荷”,是第 i 个变量在第 j 个因子上 的负荷,如果把变量 X i 看成 m 维空间中的一个点,则 aij 表 示它在坐标轴 Fj 上的投影,因此矩阵 A 称为因子载荷矩阵。
(二)Q 型因子分析 类似地,Q 型因子分析的数学模型可表示为:
X i ai1F1 ai2F2 aimFm i , (i 1, 2, , n )
j 1
i 1, 2, , p ; t 1, 2, , m
( 7. 12)
其中
1t
1 0
t 1 t 1
用 ai1 乘(7.12)式,并对 i 求和,得
pp
p
( ijai1)a jt 1t ai21 0 ,
j 1 i1
i
t 1, 2,
这里我们应该注意到,
p
p
p
g12 ai21 , ijai1 jiai1 a j1 ,
第二章因子分析第一节引言第二节因子分析模型第三节因子载荷矩阵求解第四节公因子重要性的分析第五节实例分析与计算机实现第一节引言一般认为因子分析是从charlesspearman在1904年发表的文章对智力测验得分进行统计分析开始他提出这种方法用来解决智力测验得分的统计方法
第2章因子分析
第一节 引言
一般认为因子分析是从Charles Spearman在1904年发表的文 章《对智力测验得分进行统计分析》开始,他提出这种方法 用来解决智力测验得分的统计方法。目前因子分析在心理学、 社会学、经济学等学科中都取得了成功的应用,是多元统计 分析中典型方法之一。
则称 R* 为 X 的约相关阵。 R* 中的主对角线的元素是 hi2 , 而不是 1,非对角线的元素和 R 中的完全一样,并且 R* 是 一个非负定矩阵。这里记 R* (rij*) pp ,
那么
rij*
m
aik a jk
k 1
rriiji
2 i
i j i j
i, j 1, 2, , p
(7.10)
是相应于 2* 且满足
g
2 2
ai22 A2 A2 1* 的
i 1
特征向量。依此类推,可以求得
gt2 t* , At t* tt* , t 1, 2, , m
其中, t* 约相关阵 R* 的第 t 大特征根, tt* 为相应的单位特
征向量。这样我们就求得载荷矩阵为:
A ( 1* t1* 2* t2*,
因子分析(factor analysis)也是一种降维、简化数据的技术。 它通过研究众多变量之间的内部依赖关系,探求观测数据中 的基本结构,并用少数几个“抽象”的变量来表示其基本的 数据结构。这几个抽象的变量被称作“因子”,能反映原来 众多变量的主要信息。原始的变量是可观测的显在变量,而 因子一般是不可观测的潜在变量。
我们知道 A 的解是不唯一的,可以有许多。这种方法要求得
p
到的解使得第一公共因子 F1 对 X 的贡献 g12 ai21 达到最 i 1
p
大,第二共因子 F2 对 X 的贡献 g22 ai22 达到次之, , i 1
第 m 个公共因子 Fm 对 X 的贡献最小。即相应的“贡献”依
次为
g12
g
因子分析与主成分分析有许多相似之处,但这两种模型又存 在明显的不同。主成分分析的数学模型本质上是一种线性变 换,是将原始坐标变换到变异程度大的方向上去,相当于从 空间上转换观看数据的角度,突出数据变异的方向,归纳重 要信息。而因子分析从本质上看是从显在变量去“提练”潜 在因子的过程。正因为因子分析是一个提练潜在因子的过程, 因子的个数m取多大是要通过一定规则确定的,并且因子的 形式也不是唯一确定的。一般说来,作为“自变量”的因子 F1,F2,…,Fm是不可直接观测的。这里我们应该注意几 个问题。
因子分析的内容非常丰富,常用的因子分析类型是R型因子 分析和Q型因子分析。R型的因子分析是对变量作因子分析, Q型因子分析是对样品作因子分析。本章侧重讨论R型因子 分析。
这里
a11 a12
A
a21
a22
a
p1
ap2
a1m
a2m
( A1,
A2
,
a
pm
, Am )
X1
X
X
2
1 2
p i 1
p
m
ij ( aik a jk
j 1
k 1
r*)
(7.11)
其中 ij 是拉氏系数,由于 R* 是对称阵,所以 ij ji 。于
是有:
ai1
ai1
p
ija j1
j 1
0,
ait
p
ija jt
j 1
0,
两式合并,得到
i 1, 2, , p t 1
p
ija jt 1t ai1 0 ,
Σ A* A* D
因此,因子载荷矩阵 A 不是唯一的,在实际的应用中常常利
用这一点,通过因子的变换,使得新的因子有更好的实际意 义。
二、因子载荷阵的统计意义
前面的因子分析模型中出现了一个概念叫因子载荷矩阵,实 际上因子载荷矩阵存在明显的统计意义。为了对因子分析过 程和计算结果做详细的解释,我们对因子载荷矩阵的统计意 义加以说明。
(7.3) Q 型因子分析与 R 型因子分析模型的差异体现在,
X1, X 2 ,, X n 表示的是 n 个样品。
无论是R型或Q型因子分析,都用公共因子F代替X,一般要 求m<p,m<n,因此,因子分析与主成分分析一样,也是一 种降低变量维数的方法。我们下面将看到,因子分析的求解 过程同主成分分析类似,也是从一个协方差阵出发的。
i 1
i 1
j 1
即有
p
a j1a jt 1t g12 0 ,
j 1
t 1, 2, , m
,m
( 7.13)
用 ait 乘(7.13)式,并对 t 求和,得
p
m
m
a j1( a jt ait ) 1t ait g12 0 ,
j 1
t 1
t 1
m
由于 rij* ait a jt ,那么 t 1
例如,在商业企业的形象评价中,消费者可以通过一系列指 标构成的一个评价指标体系,评价百货商场的各个方面的优 劣。但消费者真正关心的只是三个方面:商店的环境、商店 的服务和商品的价格。这三个方面除了价格外,商店的环境 和服务质量,都是客观存在的、抽象的影响因素,都不便于 直接测量,只能通过其它具体指标进行间接反映。因子分析 就是一种通过显在变量测评潜在变量,通过具体指标测评抽 象因子的统计分析方法。又比如,在研究区域社会经济发展 中,描述社会与经济现象的指标很多,过多的指标容易导致 分析过程复杂化。一个合适的做法就是从这些关系错综复杂 的社会经济指标中提取少数几个主要因子,每一个主要因子 都能反映相互依赖的社会经济指标间共同作用,抓住这些主 要因素就可以帮助我们对复杂的社会经济发展问题进行深入 分析、合理解释和正确评价。
的总方差所作的贡献,反映了公共因子对变量 X i 的影响
程度。第二部分为特殊因子 i 对变量 X i 的方差的贡献,
通常称为个性方差。如果对 X i 作了标准化处理,有
1
hi2
2 i
( 7.9)
3、公因子
F
j
的方差贡献
g
2 j
的统计意义
设因子载荷矩阵为 A ,称第 j 列元素的平方和,即
p
g
2 j
p
rij*a j1 ai1g12 , i 1, 2, , p
j 1
用向量表示为
i 1, 2, , p
(ri1*, ri*2 ,
,
rip*
)
a11
ai1 g12

i 1, 2,
,p
ap1
则有
(R* Ig12 ) A1 0
因此, g12 是约相关阵 R* 的最大特征根, A1 是相应于 g12 的

X
p
F1
F
F2

Fm
1
ε
2
p
且满足: (1) m p ; (2) Cov(F, ε) 0 ,即公共因子与特殊因子是不相关的;
1
( 3)
DF
D(F )
1
0
关且方差为 1;
12
(4)D
D(ε)
2 2
0
方差不要求相等。
0
Im

即各个
公共因子
不相
1
0
,即各个特殊因子不相关,
由因子模型,知
D( X i ) ai21D(F1) ai22D(F2 ) ai2mD(Fm ) D(i )
ai21
ai
2 2
aim2 D(i )
hi2
2 i
( 7.8)
这里应该注意,(7.8)式说明变量 X i 的方差由两部分组成:
第一部分为共同度 hi2 ,它描述了全部公共因子对变量 X i
相关文档
最新文档