很好的因子分析法讲议和实例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 12 章 因子分析
12.1 因子分析的理论与方法
12.1.1 因子分析的基本思想
多元统计分析处理的是多变量问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性,因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。
因子分析(factor analysis)就是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。例如,在商业企业的形象评价中,消费者可以通过一系列指标构成的一个评价指标体系,评价百货商场的各个方面的优劣。但消费者真正关心的只是三个方面:商店的环境、商店的服务和商品的价格。这三个方面除了价格外,商店的环境和服务质量,都是客观存在的、抽象的影响因素,都不便于直接测量,只能通过其它具体指标进行间接反映。
因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。又比如,在研究区域社会经济发展中,描述社会与经济现象的指标很多,过多的指标容易导致分析过程复杂化。一个合适的做法就是从这些关系错综复杂的社会经济指标中提取少数几个主要因子,每一个主要因子都能反映相互依赖的社会经济指标间共同作用,抓住这些主要因素就可以帮助我们对复杂的社会经济发展问题进行深入分析、合理解释和正确评价。
12.1.2 因子分析的数学模型
因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即
1122i i i im m X a F a F a F i ε=++++L ,
(1,2,,i p =L ) 式中的,,称为公共因子,1F L ,2F m F i ε称为的特殊因子。该模型可用矩阵表示为:
i X X AF ε=+
这里
12p X X X X ⎡⎤
⎢⎥
⎢⎥=⎢⎥
⎢⎥
⎢⎥⎣⎦
M ,,1112
121
22212
m m p p pm a a a a a a A a a a ⎡⎤⎢⎥⎢
⎥=⎢⎥⎢⎥⎢⎥⎣⎦L L L L L L L 12m F F F F ⎡⎤
⎢⎥⎢⎥=⎢⎥
⎢⎥
⎣⎦M ,12p εεεε⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦
M 且满足:
(1);
m p ≤(2)(,)0Cov F ε=,即公共因子与特殊因子是不相关的;
(3)1
01()0
1F m D D F I ⎡⎤⎢⎥
⎢
===⎢⎥⎢⎥
⎣⎦O ⎥,即各个公共因子不相关且方差为1; (4)212
220()0p D D εσσεσ⎡⎤
⎢⎥⎢==⎢⎥⎢⎥⎢⎥⎣⎦
O ⎥,即各个特殊因子不相关,方差不要求相等。 模型中的矩阵A 称为因子载荷矩阵,称为因子“载荷”,是第i 个变量在第ij a j 个因子上的负荷,如果把变量i X 看成维空间中的一个点,则表示它在坐标轴上的投影。
m ij a j F 12.1.3 因子载荷阵的求解
因子载荷阵的求解方法有很多,这里仅介绍最为常用的主成分分析法。为了节省篇幅,
不加证明地给出使用主成分分析法求解因子载荷阵的一般步骤:
1. 计算原始数据的协差阵Σ。
2. 计算协差阵Σ的特征根为,相应的单位特征向量为。 10p λλ≥≥≥L 12,,,p T T T L
3. 利用Σ的特征根和特征向量计算因子载荷阵:
12,,,p A =L )
由于因子分析的目的是减少变量个数,因此,因子数目m 应小于原始变量个数p 。所以在实际应用中,仅提取前个特征根和对应的特征向量,构成仅包含个因子的因子载荷阵:
m
m 12,,,m A =L )i
12.1.4 因子载荷阵的统计意义
1. 因子载荷 对于因子模型
1122i i i ij j im m X a F a F a F a F ε=++++++L L 1,2,,i p =L
我们可以得到,i X 与的协方差为:
j F
11
(,)(,)
(,)(,m
i j ik k i j k m
ik k j i j k ij
Cov X F Cov a F F Cov a F F Cov F a εε===+=+=∑∑)
如果对i X 作了标准化处理,i X 的标准差为1,且的标准差为1,因此
j
F ,(,)(,)i j X F i j ij Cov X F r Cov =
=X F a =
那么,从上面的分析,我们知道对于标准化后的i X ,是ij a i X 与的相关系数,它一方面表示j F i X 对的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量j F i X 对公共因子的相对重要性。了解这一点对我们理解抽象的因子含义,即因子命名,有非常重要的作用。
j F 2. 变量共同度
设因子载荷矩阵为A ,称第i 行元素的平方和
22
11,2,,m
i
ij j h a i ===∑L p
为变量i X 的共同度。
由因子模型,知
222
1122222
1222
()()()()()
()
i i i im m i i i im i i i D X a D F a D F a D F D a a a Var h εεσ=++++=++++=+L L
上式说明,变量i X 的方差由两部分组成:第一部分为共同度,它描述了全部公共因子对变量2
i h i X 的总方差所作的贡献,反映了变量i X 的方差中能够被全体因子解释的部分。第二部分为特殊因子i ε对变量i X 的方差的贡献,也就是变量i X 的方差中没有被全体因子解释的部分。变量共同度越高,说明该因子分析模型的解释能力越高。
3. 因子的方差贡献
设因子载荷矩阵为A ,称第j 列元素的平方和
22
11,2,,p
j
ij i g a j ===∑L m
为因子对j F X 的贡献,即表示同一因子对各变量所提供的方差贡献之总和,它是衡
2
j g j F