第六讲 因子分析
因子分析 PPT课件
同时假定随机向量 X 满足以下模型: X 1 a11F1 a12 F2 a1m Fm 1 X a F a F a F 2 12 1 22 2 2m m 2 X p a p1 F1 a p 2 F2 a pm Fm P 则称模型(3.1)为正交因子模型。
设 X ( X1 , X 2 ,
E( F ) 0 , Cov( F ) I m (即 F 的各分量方差为 1,且互不相关) 。又设 (1, 2 , , p ) 与 F 互不相关,且
2 E ( ) 0 , Cov( ) diag(12 ,2 , 2 , p )。
之因子分析
SPSS软件
• 因子分析(Factor Analysis)是多元统计 分析中处理降维问题的一种重要方法。变 量的共线性很多是都对分析结果具有显著 的影响。所谓降维,就是独钓共线性,剩 下的,或者合并的都是线性无关的,或者 正交的,或者垂直的。
一、什么是主成分分析和因子分析?
• 主成分分析(Principal Components Analysis)也是多元统计分析中简化数据 结构(降维问题)的一种重要方法。简化 数据结构是指将某些较复杂的数据结构通 过变量变换等方法使相互依赖的变量变成 互不相关的;或把高维空间的数据投影到 低维空间,使问题得到简化而损失的信息 市的实证 设施建设情况。
案例1
• 中国统计年鉴,2005,各地区城市市政设施数据。 变量有: • City—城市名称; • X1—年末实有道路长度(公里); • X2—年末实有道路面积(万平方公里); • X3—城市桥梁(座); • X4—城市排水管道长度(公里); • X5—城市污水日处理能力(万立方米); • X6—城市路灯(盏);
(优选)第六讲因子分析
因子 分析 的统 计意
义
假定因子模型中,准化处理
因子载荷矩阵的统计意义
变量共同度的统计意义
公因子方差贡献的统计意义
因子 载荷 矩阵 的估 计方
法
方法一:主成分方法 方法二:根据定义进行
因子 旋转
含义:
因子旋转是根据因子载荷矩阵的 不唯一性,用一个正交矩阵右乘 因子载荷矩阵,实行旋转(由线 性代数,一次正交变换,对应坐 标系的一次旋转),使旋转后的 因子载荷矩阵结构简化,以便对 公共因子进行合理的解释。
(优选)第六讲因子分析
什么 叫因 子分
析
定义解释
因子分析是主成分分析的推广和发展, 它是把具有复杂关系的多个变量(或样 品)综合为少数几个因子,并给出原始 变量与综合因子之间的相关关系的多元 统计分析方法
种类
R型因子分析(对变量进行因子分析) Q型因子分析(对样品进行因子分析)
应用意义
应用范围 应用类型
基本思想 数学模型
因子 分析 的模
型
主成 分分 析与 因子 分析 的区
别
主成分分析是一种数学变换 (正交变换)不能称为一种数 学模型;而因子分析需要构造 数学模型。
主成分的个数与原始数据个数 相等,是把原始变量变换成为 相互独立的新的变量;而因子 个数一般要求小于原始数据个 数,目的在于得到一个结构简 单的因子模型。
所谓结构简化就是使得每个变量 仅在一个公共因子上有较大的载 荷,而在其他的公共因子上的载 荷比较小。
常用的方法有:
正交旋转、斜交旋转等。最常用 的是方差最大正交旋转。
方差 最大 正交 旋转
方差最大正交旋转:
是使因子载荷矩阵中,各因子 载荷值的总方差达到最大作为 因子载荷矩阵结构简化的准则。 其中。总方差最大,而不是某 个因子方差极大。即如果第个 变量在第个公共因子上的载荷 经过“方差极大”旋转后,其 值增大或减少,意味着这个变 量在另一些公共因子上的载荷 要缩小或增大。所以“方差极 大”旋转是使载荷值按照列向0, 1两极分化,同时也包含着按行 向两极分化。
6-因子分析
上式是假定了因子模型中特殊因子是不重要的,因而 从∑的分解中忽略掉特殊因子的方差 如果考虑了特殊因子以后,协差阵为:
当∑未知,可用样本协差阵S去代替,要经过标准化 处理,则S与相关阵R相同,仍然可作上面类似的表示。 一般设 则因子载荷阵的估计 即 为样本相关阵尺的特征根, 设 m < p, 相应的标准正交化特征向量为;
所以
也是公共因子,
ቤተ መጻሕፍቲ ባይዱ
也是因子载荷阵。
因子载荷这个不唯一性,从表面上看是不利的,但后面将 会看到当因子载荷阵A的结构不够简化时,可对A实行变 换以达到简化目的,使新的因子更具有鲜明的实际意义。 从因子分析的数学模型上看,它与多变量回归分析也有类 似之处,但本质的区别是因子分析模型作为“自变量”的 F是不可观测的。 2 因子模型中公共因子、因子载荷和变量共同度的 统计意义 为了便于对因子分析计算结果做解释,将因子分析数 学模型中各个量的统计意义加以说明是十分必要的, 假定因子模型中,各个变量以及公共因子、特殊因子 都已经是标准化(均值为0,方差为1)的变量。 (1)因子载荷的统计意义 已知模型:
为了说明它的统计意义,将下式两边求方差,即
由于
已标准化了,所以有
此式说明变量 的方差由两部分组成:第一部分为共 度 它刻划全部公共因子对变量 的总方差所作的贡 献, 越接近1,说明该变量的几乎全部原始信息都被 所选取的公共因子说明了,如 则说明 的 97%的信息被m个公共因子说明了,也就是说由原始变量 空间转为因子空间转化的性质越好, 保留原来信息量
A经过Tk j ,旋转(变换)后,矩阵A=A T k j ,其元素为
其中旋转角度
仍按下面公式求得:
m个因子,每次取两个全部配对进行旋转,共需旋转
第六章 因子分析
2
4
6
8
10 t
12
14
16
18
20
主因子的概念
如果对m个原变量(x1, x2,…, xm)进行n次观测,则各主成分的时间序列可表示为:
x11 x Y LT X LT 21 xm1 x12 ... x1n y11 y x22 ... x2 n = 21 xm 2 ... xmn ym1 y12 ... y1n y22 ... y2 n ym 2 ... ymn
第1主成分y1 第2主成分y2 第m主成分ym
主成分的方差,即X的协方差阵的特征值,按照y1、y2、…、ym的顺序从大到小进 行排列。 为了分析各主成分对原变量的作用、研究原变量与各主成分的关系:
对各主成分进行标准化,使它们的方差都等于1,这时的主成分称为“主因子”。
第i个主因子就是第i个主成分yi的标准化,记为fi, 有:
为了提高因子的利用率,需要将公共信息与独立信息尽可能地分离开来,以
便采取公共信息作为新的因子变量(少于原变量的个数m)建立预报方程,从而 达到减少误差,提高预报准确率的效果。 简言之,从数量较多的因子变量中分离出数量较少的新因子,并分析原变量 与各个新因子之间的关系,这称为“因子分析”。
例: x1和x2两个变量,存在相关性,寻找它们的共同信息和独立信息,并分离。 对x1和x2做了20次观测, 如右图所示20个散点,两样本的相关系 数为0.92。 可见,第一主成分y1可以表征x1和x2的共同的成分; 所以因子分析与主成分分析(或经验正交函数分解)有密切联系。
因子分析ppt课件
(3)因子旋转
通过正交旋转或斜交旋转使提取出的因子具有可解 释性。
(4)计算因子得分
通过各种方法求解各样本在各因子上的得分,为进 一步分析奠定基础。
❖ 2、因子分析前提条件——相关性分析:
分析方法主要有:
(1)计算相关系数矩阵(correlation coefficients matrix)
1 2 为p的特0 征根,
标准化特征向量,则
为u对1 , 应u2 的,, up
1
Σ = U
2
U AA + D
p
u1 u2
up
1
0
1u1u1 2u2u2
0
u1 u2
p
up
mumum m1um1um1
1u1
2u2
pu p
1u1
2
u2
p
因子分析的基本理论 ❖ 3、因子分析的目的:
因子分析的目的之一,简化变量维数。即要使因素结 构简单化,希望以最少的共同因素(公共因子),能 对总变异量作最大的解释,因而抽取得因子愈少愈好, 但抽取因子的累积解释的变异量愈大愈好。
在因子分析的公共因子抽取中,应最先抽取特征值最 大的公共因子,其次是次大者,最后抽取公共因子的 特征值最小,通常会接近0。
(3)因子分析中因子载荷的不唯一性有利于对公因子进行有效解释; 而主成分分析对提取的主成分的解释能力有限。
因子分析的基本理论
❖ 5、因子分析模型: 设 Xi (i 1,2,个,变p)量p,如果表示为
X i i ai1F1 aimFm i (m p)
X1 1 11 12
或
X
2
第六章因子分析
第六章因子分析第六章因子分析§6.1因子分析的基本原理与模型一、因子分析的基本思想基本思想:根据相关性的大小将变量分组,使得同组内变量间的相关性较高,不同组间的相关性较低。
每组变量代表一个基本结构,并用一个不可观测的综合变量形式表示,这个基本结构成为公共因子。
此时的原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。
目的:从一些有错综复杂的问题中找出几个主要因子,每个主要因子代表原始变量间相互依赖的一种作用。
二、因子分析的基本模型常用的因子分析模型:R型因子分析和Q 型因子分析(一)R型因子分析模型R型因子分析是对变量作因子分析。
R型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即:其中:称为公共因子,称为的特殊因子矩阵表达式:且满足:(1)(2),即公共因子与特殊因子是不相关的(3),即各公共因子不相关且方差为1(4),即各个特殊因子不相关,方差不要求相等模型中称为因子载荷,是第个变量在第个因子上的负荷,如果把变量看成维空间中的一个点,则表示它在坐标轴上的投影,因此矩阵称为因子载荷矩阵。
(二)Q型因子分析Q型因子分析是对样品作因子分析。
模型同上注:主成分分析与因子分析的区别主成分分析的数学模型本质上是一种线性变换,是将原始坐标变换到变异程度大的方向上去,相当于从空间上转换观看数据的的角度,突出数据变异的方向,归纳重要信息。
因子分析与主成分分析一样都属降低变量维数的方法。
但因子分析的本质是从显在变量去“提炼”潜在因子的过程。
模型中应注意的问题:(1)变量的协方差阵的分解式为即(2)因子载荷不是唯一的。
三、因子载荷阵的统计意义(一)因子载荷的统计意义对于因子模型可知的协方差若对作标准化处理,的标准差为1,且的标准差为1则(相关系数)综上可知:对于标准化后的,是的相关系数,一方面表示的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量对公共因子的相对重要性。
7.因子分析
1 0.32 1 0.33 0.24 1 0.18 0.34 0.24 1 0.01 0.02 0.17 0.02 1
38
变量
F1
0.691 0.789 0.702 0.674 0.62 0.687 0.621 0.538 0.434 0.147
的含义不清,则不便于进行实际背景的解释。由于因
子载荷阵是不惟一的,所以应该对因子载荷阵进行旋 转。目的是使因子载荷阵的结构简化,使载荷矩阵每 列或行的元素平方值向0和1两极分化。 有三种主要的正交旋转法:四次方最大法、方差
最大法和等量最大法。
36
例:奥运会十项全能运动项目得分数据的因子分析
百米跑成绩 X 1 跳远成绩 X 2 铅球成绩 X 3 跳高成绩 X 4 400米跑成绩 X 5 百米跨栏 X 6 铁饼成绩 X 7 撑杆跳远成绩 X 8 标枪成绩 X9 1500米跑成绩 X
1 u1
2 u 2
1 u1 2 u2 ˆ ˆ ˆ ˆ m u m D AA D p um 因子载 荷矩阵
注:残差矩阵
17
主成分法中,原变量可用公因子表示为:
上式有一个假定,模型中的特殊因子是不重要的, 因而从的分解中忽略了特殊因子的方差。
第六章 因子分析
1
主要内容
§1 §2 §3 §4 §5 §6 什么是因子分析 因子分析模型 因子载荷矩阵的估计方法 因子旋转(正交变换) 因子得分 因子分析的步骤、展望和建议
2
§1 什么是因子分析
因子分析(factor analysis)是一种数据简化的技 术。它通过研究众多变量之间的内部依赖关系,探求 观测数据中的基本结构,并用少数几个假想变量来表 示其基本的数据结构。这几个假想变量能够反映原来 众多变量的主要信息。原始的变量是可观测的显在变 量,而假想变量是不可观测的潜在变量,称为因子。
因子分析(研究生课程)
⑤ Reproduced 再生相关阵,选择此项给出因子分析后的相关阵,还 给出残差,即原软关与再生相关之间的差值。 ⑥ Anti-image 反映像相关阵。包括偏相关系数的负数;反映像协方差 阵,包括偏协方差的负数;在一个好的因子模型中除对角线上的系 数较大外,远离对角线的元素应该比较小。 ⑦ KMO and Bartlett's test of sphericity KMO和球形 Bartlett检验。选 择此项给出对采样充足度的Kaisex-Meyer-Olkin测度。检验变量间 的偏相关是否很小。Bartlett球形检验,检验的书相关阵是否是单 位阵。它表明因子模型是否是不合适宜的。
因子分析
暨南大学管理学院企业管理系
陈晓曦
历史
1947年,美国统计学家Stone关于国民经济的 研究。
1927-1938年的数据,得到了17个反映国民收入与 支出的变量, 后来通过因子分析发现,只需要用3个新的综合变 量,就可以解释95%的原始信息。
总收入 总收入率 积极发展或衰退趋势
案例
在企业形象或品牌形象的研究中,消费者可以 通过一个有24个指标构成的评价体系,评价百 货商场的24个方面的优劣。
但消费者主要关心的是三个方面,即商店的 环境、商店的服务和商品的价格。因子分析方法可 以通过24个变量,找出反映商店环境、商店服务水 平和商品价格的三个潜在的因子,对商店进行综合 评价。而这三个公共因子可以表示为:
F3
-0.58 -0.193 0.047 0.139 -0.084 -0.161 0.109 0.411 0.372 0.658
F4
-0.206 0.092 -0.175 0.396 -0.419 0.345 -0.234 0.44 -0.235 -0.279
第六讲 因子分析
第五讲 因子分析在许多实际问题中,涉及的变量众多,各变量间还存在错综复杂的相关关系,这时最好能从中提取少数综合变量,这些综合变量彼此不相关,而且包含原变量提供的大部分信息。
因子分析就是为解决这一问题提供的统计分析方法。
以后,如无特别说明,都假定总体是一个p 维变量:),...,,(21'=p X X X x它的均值向量μ=)(x E ,协方差矩阵V =(σij )p ⨯p 都存在。
第一节 正交因子模型1.1 公共因子与特殊因子从总体中提取的综合变量:F 1, F 2, … , F m (m <p )称为(总体的)公共因子。
一般来说,公共因子不可能包含总体的所有信息,每个变量X i 除了可以由公共因子解释的那部分外,总还有一些公共因子解释不了的部分,称这部分为变量X i 的特殊因子,记为:εi 。
于是,我们有:变量X i 的信息=公共因子可以表达部分+公共因子不可表达部分这就是所谓因子模型。
目前,公共因子可以表达的部分由公共因子的线性组合表示。
即上面的因子模型可以写成以下的形式:p i F a F a F a X i m im i i i i ,...,2,1,2211=++++=-εμ1.2 正交因子模型设总体),...,,(21'=pX X X x ,均值向量μ=)(x E ,协方差矩阵p p V x Va r ⨯=)( 。
因子模型有形式:其中m<p ,F 1,F 2,…,F m 称为所有变量的公共因子;εi 称为变量X i 的特殊因子。
如果引入以下向量与矩阵:),...,,(,),...,,(2121'='=p m F F F F εεεε⎪⎪⎪⎪⎪⎭⎫⎝⎛=pm p p m m a a a a a a a a a A212222111211则因子模型的矩阵形式为:εμ+=-F A x 对于正交的因子模型,还要进一步要求:z 1. m m I F Var F E ⨯==)(,0)(。
第6章因子分析m
m
hi2 ui2j j 1
i 1,2,, n 24
• Q型因子分析模型与R型因子分析模型的差 异体现在X1,…,Xn表示的是n个样品。
• 因子分析的目的就是通过模型X=UF+ε,以 F代替X,由于一般都要求m<p,m<n,从而 达到简化变量维数的目的。
25
• 注:在因子分析中,因子载荷阵是不唯一的。 • 证明:
若T为任意一个m m阶正交矩阵,令U * UT,F * T F,
34
可看出,公因子F1与变量X1,X2,X5关系密 切,它主要代表了这些变量的信息;公因子F2与变 量X3,X4关系密切,它主要代表了这两个变量的 信息。
35
4、变量共同度hi2 ——U的行元素平方和
变量共同度也称为公共方差(公因子方差),指观
测变量方差中由公因子决定的比例,也即原始变量Xi对
公因子依赖的程度。
• 例:五个观测变量,两个公因子的模型: X1 0.9562F1 0.2012F2 1 X 2 0.8735F1 0.2896F2 2 X 3 0.1744F1 0.8972F2 3 X 4 0.5675F1 0.7586F2 4 X 5 0.8562F1 0.3315F2 5
的公共因素,每个公因子Fj (j=1, …,m)假定至少对
两个原始变量有作用(有贡献),否则它将归入特殊 因子。
29
公因子是相互独立的不可观测的理论变 量(之所以称其为因子,是因为它是不可观 测的,即不是具体的变量,与前面的聚类分 析不同)。公共因子的含义,必须结合具体 问题的实际意义而定。
30
06-第六章因子分析
第六章 因子分析一.基本原理因子分析(Factor anslysis )是用来分析隐藏在表象背后的因子作用的一类统计模型与方法。
起源于心理度量学(Phsycholometrics ),在方法上与主成分分析有密切联系。
因子分析一般有两个用途,一是通过寻求变量的基本结构,对变量进行简化;二是通过因子得分,在因子轴构成的空间中将变量或者样品进行分类。
1.正交因子模型设x 为一个p 维可观测随机向量,假定x 受到m 个不可观测的随机因子的控制,称这m 个影响x 的因子为公共因子,若m 维随机向量f 对x 的影响是线性的,则x 与f 之间的关系可用下述模型来表述:x Lf με=++其中μ为P 维常向量,表示X 的均值;L 为p m ⨯维常数阵,L 的第I 行表示公共因子f 对X 第I 个分量i x 的影响系数;ε为P 维随机变量,表示X 中与f 无关的那一部分,称为特殊因子。
其中f 和ε都是不可观测的,假定它们满足下列条件 (1)f 和ε相互独立 (2)()0,()m E f V f I ==(3)()0,()E V εε==ψ,其中ψ(psai)为对角阵。
由于()m V f I =,即各因子之间不相关,这样的模型便称为正交因子模型。
在正交因子模型中,公共因子f 对X 的各分量都起作用,而特殊因子ε的第I 个分量只对X 的第I 个分量起作用。
L 称为载荷阵(Loading Matrix )。
如果对X 进行标准化处理,则μ为0,原式化为x Af ε=+。
A 为载荷阵。
X 的方差是由载荷阵和特殊因子的方差构成的。
即()Var X AA '=+ψ。
2.因子分析与其他多元分析方法的区别与多元回归的区别:因子分析中,各个公共因子是虚拟的,本身是未知量。
与主成分分析的区别:主成分分析本质上是一种变量变换,而因子分析则是构造出一组新的因子来对原变量进行解释。
二.计算模型1.因子载荷的含义假定在因子分析模型中,对各变量及公共因子、特殊因子均进行了标准化处理。
因子分析PPT课件
3. 公共因子的方差贡献:是某公共因子对所有原变量载荷的平方和, 它
反映该公共因子对所有原始总变异的解释能力,等于因子载荷矩阵中某 一列载荷的平方和。一个因子的方差贡献越大,说明该因子就越重要。
2024/6/2
15
★ 确定公因子数目的准则
1)因素的特征值(Eigenvalues)大于或等于1;
2)因素必须符合陡阶检验(Screen Test),陡阶检
仅仅是为了化简、浓缩数据,则采用正交旋转(保持
直角90度,不允许公因子相关)。如果研究的目的是
为了得到理论上有意义的研究结果,则采用斜交旋转。
(不呈90度,允许公因子相关;有证据表明公因子之
间是相关的才用)
旋转之后,特征值发生变化,但共同度不变
2024/6/2
18
第六步:单击Scores按纽,弹出对话框
输出旋转后的 因子载荷矩阵
2024/6/2
输出载荷散点图17
★ 因子旋转
为了更好地解释因子分析解的结果,常常需要将
因子载荷转换为比较容易解释的形式(相当于相机的
调焦,使看得更清楚;一般会使各因子对应的载荷尽
可能地向0和1两极分化)。
常用的方法有正交旋转(varimax procedure)
和斜交旋转(oblique rotation),如果研究的目的
2024/6/2
1
二、因子分析思想与方法的由来
● 英国统计学家Scott 1961年对英国157个 城镇发展水平进行调查时,原始测量的变量有57 个,而通过因子分析发现,只需要用5个新的综 合变量(它们是原始变量的线性组合),就可以 解释95%的原始信息。
● 美国统计学家Stone在1947年研究国民经
因子分析的原理与方法
因子分析的原理与方法因子分析是一种多变量分析方法,它用于揭示一组观测变量之间潜在的共同因素或维度。
在因子分析中,我们希望通过分析观测变量之间的相关性,找到更少的潜在因子来解释数据的结构。
本文将介绍因子分析的原理和方法。
一、因子分析的原理因子分析的核心原理是将一组观测变量解释为潜在因子的线性组合。
假设我们有n个观测变量和m个潜在因子,那么可以用下面的数学模型表示:X = AF + E其中,X是一个n×1的观测变量向量,A是n×m的因子载荷矩阵,F是一个m×1的因子向量,E是一个n×1的误差向量。
因子载荷矩阵A 表示了每个观测变量与每个因子之间的关系程度。
因子向量F表示每个样本在每个因子上的得分。
误差向量E表示了不能被因子解释的观测变量的部分。
基于以上数学模型,因子分析的目标是找到一个合适的因子载荷矩阵A和因子向量F,使得误差向量E最小。
换句话说,我们希望通过降低数据的维度,找到能够最大程度解释观测变量之间关系的因子。
这样一来,我们可以简化数据的分析和解释,并且更好地理解观测变量背后的潜在结构和因素。
二、因子分析的方法因子分析方法可以大致分为两种类型:探索性因子分析和确认性因子分析。
下面将分别介绍这两种方法。
1. 探索性因子分析(Exploratory Factor Analysis,EFA)探索性因子分析是一种无先验假设的因子分析方法,它旨在通过自动化算法发现数据中存在的潜在因子结构。
具体步骤如下:(1)选择合适的因子提取方法,常用的包括主成分分析法和最大似然法。
(2)确定因子数目,可以依据一些统计指标(如特征值大于1、解释方差比例)或人的经验判断。
(3)估计因子载荷矩阵,可以使用方法如最小二乘法、主成分法或最大似然法。
(4)旋转因子载荷矩阵,常用的旋转方法包括方差最大旋转法和斜交旋转法。
(5)解释因子载荷矩阵,通过解释载荷矩阵的模式和大小,识别出观测变量与潜在因子的关系。
第六讲 因子分析
第五讲因子分析在许多实际问题中,涉及的变量众多,各变量间还存在错综复杂的相关关系,这时最好能从中提取少数综合变量,这些综合变量彼此不相关,而且包含原变量提供的大部分信息。
因子分析就是为解决这一问题提供的统计分析方法。
以后,如无特别说明,都假定总体是一个p维变量:它的均值向量,协方差矩阵V=(ij)pp都存在。
第一节正交因子模型1.1 公共因子与特殊因子从总体中提取的综合变量:F1, F2, … , F m(m<p)称为(总体的)公共因子。
一般来说,公共因子不可能包含总体的所有信息,每个变量X i 除了可以由公共因子解释的那部分外,总还有一些公共因子解释不了的部分,称这部分为变量X i的特殊因子,记为:i。
于是,我们有:变量X i的信息=公共因子可以表达部分公共因子不可表达部分这就是所谓因子模型。
目前,公共因子可以表达的部分由公共因子的线性组合表示。
即上面的因子模型可以写成以下的形式:1.2 正交因子模型设总体,均值向量,协方差矩阵。
因子模型有形式:其中m<p,F1,F2,…,F m称为所有变量的公共因子;i称为变量X i的特殊因子。
如果引入以下向量与矩阵:则因子模型的矩阵形式为:对于正交的因子模型,还要进一步要求:z1. 。
即有:公共因子是互相不相关的。
z2. 。
即:特殊因子和公共因子不相关。
1.3 因子载荷矩阵1.矩阵A称为因子载荷矩阵(component matrix),系数a ij称为变量X i在因子F j上的载荷(loading)。
由于特别,如果总体是标准化的,则有Var(X i)=1,从而有:于是:即变量X i在公共因子F j上的载荷a ij就是X i与F j的相关系数。
2.载荷矩阵的估计:主成分法。
主成分法是估计载荷矩阵的一种方法,由于其估计结果和变量的主成分仅相差一个常数倍,因此就冠以主成分法的名称。
在学到这里的时候,不要和主成分分析混为一谈。
主成分法是SPSS系统默认的方法,在一般情况下,这是比较好的方法。
第六章因子分析
§6.1.1 因子分析的基本思想
因子分析还可用于对变量或样品的分类处理,我们在得出 因子的表达式之后,就可以把原始变量的数据代入表达式 得出因子得分值,根据因子得分在因子所构成的空间中把 变量或样品点画出来,形象直观地达到分类的目的。
因子分析不仅仅可以用来研究变量之间的相关关系, 还可以用来研究样品之间的相关关系,通常将前者称之 为R 型因子分析,后者称之为Q 型因子分析。我们下面 着重介绍R型因子分析。
第六章 因子分分析
•§6.1 因子分析的基本理论 •§6.2 因子载荷的求解 •§6.3 因子分析的步骤与逻辑框图 •§6.4 因子分析的上机实现
第六章 因子分分析
因子分析(factor analysis)模型是主成分分析的 推广。它也是利用降维的思想,由研究原始变量相关 矩阵内部的依赖关系出发,把一些具有错综复杂关系 的变量归结为少数几个综合因子的一种多变量统计分 析方法。相对于主成分分析,因子分析更倾向于描述 原始变量之间的相关关系;因此,因子分析的出发点 是原始变量的相关矩阵。因子分析的思想始于1904年 Charles Spearman对学生考试成绩的研究。
1。F1, F2 ,, Fm 是彼此独立的公共因子,都满足均值为0,方差 为1。ei为特殊因子,与每一个公共因子均不相关且均值为0。
则ai1, ai2 ,, aim为对第 i门科目考试成绩的因子载荷。对该模型,
有: var( X i ) ai21 ai22 ai2m var(ei ) 1 (6.5)
121
cov(ε)
Σ
2 22
0 ห้องสมุดไป่ตู้
0
2 pp
第6章--因子分析
第6章--因子分析第六章因子分析一、填空题1. 因子分析常用的两种类型为 ____________ 和 ___________ 。
2. 因子分析是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现______________ 与____________ 间的相互关系。
3•因子分析就是通过寻找众多变量的______________ 来简化变量中存在的复杂关系的一种方法。
4 •因子分析是把每个原始变量分解成两个部分即____________ 、。
5 •变量共同度是指因子载荷矩阵中__________________________ 。
6 •公共因子方差与特殊因子方差之和为________ 。
7.求解因子载荷矩阵常用的方法有______________________ 和________________ &常用的因子旋转方法有 ____________________ 和__________________ 。
9. Spss中因子分析采用__________________ 命令过程。
10•变量X i的方差由两部分组成,一部分为 ___________ ,另一部分为__________二、判断题1. 在因子分析中,因子载荷阵不是唯一的。
()2. 因子载荷阵经过正交旋转后,各变量的共性方差和各个因子的贡献都发生了变化。
()3. 因子分析和主成分分析的核心思想都是降维。
()4.因子分析有两大类,R型因子分析和Q型因子分析;其中R型因子分析是从变量的相似矩阵出发,而Q型因子分析是从样品的相关矩阵出发。
()5. 特殊因子与公共因子之间是相互独立的。
()6. 变量共同度是因子载荷矩阵列元素的平方和。
()7. 公共因子的方差贡献是衡量公共因子相对重要性指标。
()8. 对因子载荷阵进行旋转的目的是使结构简化。
()三、简答题1.因子分析的基本思想是什么,它与主成分分析有什么区别和联系?2 •因子模型的矩阵形式UF ,其中:F F1, ,F m 1, , P U U ij pm请解释式中F、、U的统计意义。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五讲 因子分析在许多实际问题中,涉及的变量众多,各变量间还存在错综复杂的相关关系,这时最好能从中提取少数综合变量,这些综合变量彼此不相关,而且包含原变量提供的大部分信息。
因子分析就是为解决这一问题提供的统计分析方法。
以后,如无特别说明,都假定总体是一个p 维变量:),...,,(21'=p X X X x它的均值向量μ=)(x E ,协方差矩阵V =(σij )p ⨯p 都存在。
第一节 正交因子模型1.1 公共因子与特殊因子从总体中提取的综合变量:F 1, F 2, … , F m (m <p )称为(总体的)公共因子。
一般来说,公共因子不可能包含总体的所有信息,每个变量X i 除了可以由公共因子解释的那部分外,总还有一些公共因子解释不了的部分,称这部分为变量X i 的特殊因子,记为:εi 。
于是,我们有:变量X i 的信息=公共因子可以表达部分+公共因子不可表达部分这就是所谓因子模型。
目前,公共因子可以表达的部分由公共因子的线性组合表示。
即上面的因子模型可以写成以下的形式:p i F a F a F a X i m im i i i i ,...,2,1,2211=++++=-εμ1.2 正交因子模型设总体),...,,(21'=pX X X x ,均值向量μ=)(x E ,协方差矩阵p p V x Va r⨯=)(。
因子模型有形式:其中m<p ,F 1,F 2,…,F m 称为所有变量的公共因子;εi 称为变量X i 的特殊因子。
如果引入以下向量与矩阵:),...,,(,),...,,(2121'='=p m F F F F εεεε⎪⎪⎪⎪⎪⎭⎫⎝⎛=pm p p m m a a a a a a a a a A212222111211则因子模型的矩阵形式为:εμ+=-F A x 对于正交的因子模型,还要进一步要求:z 1. m m I F Var F E ⨯==)(,0)(。
即有:j i F F Cov F Var F E j i i i ≠===0),(,1)(,0)(公共因子是互相不相关的。
z 2. 0),(,],...,[)(,0)(221===F Cov diag Var E pεοσεε。
即:mj p i F Cov Var E j i i i i ,...,2,1;,...,2,10),(,)(,0)(2=====,εοεε特殊因子和公共因子不相关。
1.3 因子载荷矩阵1.矩阵A 称为因子载荷矩阵(component matrix),系数a ij 称为变量X i 在因子F j 上的载荷(loading)。
由于∑=+=mk j i k ik j i F F a Cov F X Cov 1),(),(ε⎪⎪⎩⎪⎪⎨⎧++++=-++++=-++++=-pm pm p p p p m m m m F a F a F a X F a F a F a X F a F a F a X εμεμεμ 221122222121221121211111ij mk j i j k ik a F Cov F F Cov a =+=∑=1),(),(ε特别,如果总体是标准化的,则有Var (X i )=1,从而有:),()()(),(),(j i j i j i j i F X Cov F Var X Var F X Cov F X ==ρ于是:),(j i ij F X a ρ=即变量X i 在公共因子F j 上的载荷a ij 就是X i 与F j 的相关系数。
2.载荷矩阵的估计:主成分法。
主成分法是估计载荷矩阵的一种方法,由于其估计结果和变量的主成分仅相差一个常数倍,因此就冠以主成分法的名称。
在学到这里的时候,不要和主成分分析混为一谈。
主成分法是SPSS 系统默认的方法,在一般情况下,这是比较好的方法。
以数据“应征人员”为例,按特征值大于1提取公共因子。
在用不同方法获得因子载荷时,公共因子对总体方差的贡献率以主成分法为最高:关于主成分法的内容可参看任何一本多元统计分析书,例如:《应用多元统计分析》,高惠璇著,北京大学出版社,p301。
1.4 因子模型的不唯一性设T 是一个正交矩阵,由I T T =',因子模型εμ+=-F A x与模型 εμ+'=-))((F T AT x 等价。
后者载荷矩阵为AT ,新的公共因子为F T G'=。
第二节 变量的共同度与因子的方差贡献率3.1 变量的共同度定义 载荷矩阵A 的第i 行元素的平方和:p i a h mj ij i,...,2,1,122==∑=称为变量X i 的共同度(communality)。
共同度表示公共因子F能在多大的程度上解释变量X i 。
关于这一点,可从分析变量X i 的方差入手:)()()()(121i mk k ik mk i k ik i Var F Var a F a Var X Var εε+=+=∑∑==注意到正交因子模型的假设:Var (F k )=1,k =1,…,m ;另外,记Var (εi )=σi 2。
于是得:22212)(i i i mk ik i h a X Var σσ+=+=∑=这就是把变量X i 的方差分解为两部分:一部分是2i h ,它是由公共因子产生的;另一部分是2i σ,是由特殊因子产生的。
所以共同度被理解为公共因子能够解释原有变量的程度。
对于标准化的变量,Var (X i )=1,因此有:122=+i i h σ2.2 公共因子的方差贡献率定义 载荷矩阵A 第j 列的平方和:m j a q pi ij j ,...,2,1,122==∑=称为因子F j 对总体x的贡献(initial eigenvalues)。
第三节 方差最大正交旋转3.1 因子旋转的意义1.正交因子模型只是一个数学模型,所得的因子在专业上不一定能反映问题的实质,或者说:因子作为一个综合变量,其专业意义在许多情况下不容易解释。
因子旋转就是针对这一问题,提出的一种改进的方法。
2.因子旋转的依据:因子模型的不唯一性。
正是由于因子模型的不唯一性,如果模型ε+=F A x不适合专业解释,那么作一个正交变换T ,模型改变为:εε+=+'=G B TF T A x ))(( 在新模型中再去寻找因子的专业解释。
3.2 方差最大正交旋转 *1.因子载荷的离散程度因子F j 在总体),...,,(21'=p X X X x上载荷的分散程度可以通过以下一组“标准化”的载荷平方值表示:m j ha ha ha ppj jj,...,2,1,,,,2222222121=令m j d pd ha d p i ijj iijij ,...,2,1,1,1222===∑=于是因子F j 的载荷离散平方和:m j d d D pi j ij j ,...,2,1,)(12=-=∑=全部公共因子载荷的离散总平方和:∑==m j j D D 12.方差最大化正交旋转(Varimax)选择正交变换(矩阵)T ,使得经变换后的因子模型:εε+=+'=G B F T AT x ))(( 的公共因子G具有最大的载荷离散总平方和D 。
由此确定的因子载荷矩阵B ,对每个公共因子来说,载荷最为分散,因此比较容易对因子的专业意义作出解释。
第四节 因子得分4.1 因子得分函数因子模型将总体中的原有变量分解为公共因子与特殊因子的线性组合:p i F a F a F a X i m im i i i ,...,2,1,2211=++++=ε按照这个思路,也可以把每个公共因子表示成原变量的线性组合:m j X b X b X b F p jp j j j ,...,2,1,2211=+++=称这个线性表达式为因子得分函数。
用它可以计算出每个观察值在各公共因子上的取值,从而在一定程度上解决了公共因子不可观察的问题。
获得因子得分函数的关键问题是怎样估计参数b j1,b j2,…,b jp 。
*4.2 因子得分函数的估计(Thompson 方法)根据回归分析中最小二乘估计的方法,应有:j j F X X X b ''=-1)(ˆ其中:),...,,(,)ˆ,...,ˆ,ˆ(ˆ2121'='=jn j j j jpj j j F F F F b b b b⎪⎪⎪⎪⎪⎭⎫⎝⎛=np n n p p X X X X X X X X X X212222111211但是,j F是不可观察的。
因此上述公式尚不能给出因子得分函数的系数估计。
在总体变量标准化的条件下,根据正交因子模型的假设j F X'是总体x与因子j F 的样本相关系数,所以可以用因子载荷矩阵A 的第j 列),...,,(21'=pj j j j a a a a代替。
同样道理,在标准化的条件下,矩阵X X '是总体x的相关矩阵,即:X X R '=所以有:j j a R b 1ˆ-=从而得到:m j x R a x b F j j j ,...,2,1,ˆ1='='=-第五节 KMO 检验与Bartlett 球形检验5.1 因子分析对样本的要求和任何统计分析问题一样,因子分析也要求样本具有一定的容量。
这从两个方面来说:从变量个数p 考量,则样本容量n应有n>5p;即使这样,样本容量也不能太少,一般应在100以上。
以上要求在实际问题中往往都达不到。
这时可以适当放宽要求,结合检验来判断结果的可靠性。
5.2 因子分析可行性与效果检验1.Bartlett球形检验检验各变量是否独立,通过相关阵是否单位阵来判断。
只有在原假设:各变量相互独立被拒绝,因子分析才能进行。
2.KMO检验检查各变量间的偏相关性,用来判断因子分析效果:0≤KMO≤1。
通常使用的标准是:当KMO>0.7,因子分析效果较好,越大越好;当KMO<0.5,此时不适合用因子分析法。
5.3 关于因子的解释因子分析得到的公共因子应该可以解释,即有实际意义。
否则,就应该重新设计原始变量集合。
第六节因子分析应用举例例数据data09,此文件收录了15个企业的7个主要经济指标。
试对这7个指标提取2个公共因子,作因子分析。
选择命令菜单:Data Reduction \ Factor,在Factor Analysis 对话框中,将变量固定资产率、固定资产利率、资金利率、资金利税率、流动资金周转天数、销售收入利税率和全员劳动生产率输入Variables,打开Number of factors中键入2(因子个数)。
返回,打开Varimax。
返回,打开选择Save as variables中的Regression和Dis-play factor score coefficient matrix这是一张方差解释表,Initial Eigenvalues一栏中的Total便是每个公共因子的方差贡献值,系统计算出全部7个因子的方差贡献值,并按降序排列。