《多元统计分析》课件 因子分析

合集下载

多元统计分析之因子分析

多元统计分析之因子分析

多元统计分析之因子分析因子分析是一种常用的多元统计分析方法,旨在从大量观测指标中发现其背后的基本因素或维度,以简化数据分析的复杂性,并提供关于样本之间的隐含结构的信息。

本文将对因子分析的概念、原理、步骤以及其在研究中的应用进行详细介绍。

一、概念和原理因子分析是一种研究多个变量之间关系的统计技术,它通过寻找多个变量之间的共同特征,将它们归纳为较少的无关因素或构念。

这些无关因素或构念称为因子,它们是通过将原始变量进行数学转换而得到的。

因子分析通过发现这样的因子,帮助研究者识别数据中潜在的结构和模式。

因子分析的基本原理是假设多个变量之间存在共同的潜在因素,并试图将这些变量映射到较少的综合因素上。

这些潜在因素无法被直接观察到,因此需要通过数学上的推导和计算才能确定它们的存在。

因子分析的目标是找到能够解释原始变量之间的相关性的最小数目的因子。

二、步骤因子分析通常包括以下步骤:1.收集数据:收集包含多个观测指标的数据,这些指标应当反映被研究对象的多个方面。

2.确定分析的类型:根据研究目的和数据特点,确定主成分分析还是常规因子分析。

3.确定因子数目:使用合适的统计方法(如特征值、解释方差等)确定需要提取的因子数目。

4.提取因子:通过数学计算,将原始变量转换为较少的无关因子。

5.因子旋转:为了使因子更易于解释,通常进行因子旋转,以最大化因子之间的独立性并减少因子与原始变量之间的关联性。

6.解释因子:解释提取的因子,确定它们的意义和作用。

7.评估结果:评估因子分析的效果,并根据需要进行调整和修正。

三、应用因子分析广泛应用于社会科学、市场调研、心理学等领域。

以下列举一些常见的应用场景:1.人格特征研究:通过对多个问卷调查指标进行因子分析,识别人格特征的维度和结构。

2.战略管理:通过对市场指标、经济指标等进行因子分析,发现不同因素对企业发展的影响程度,从而制定合理的战略决策。

3.客户满意度调查:通过对客户满意度调查指标进行因子分析,发现影响客户满意度的各因素,并为改善客户满意度提供指导。

多元统计分析之因子分析

多元统计分析之因子分析

第八章 因子分析§8.1 什么是因子分析及基本思想1904年Charles Spearman 发表一篇著名论文《对智力测验得分进行统计分析》视为因子分析的起点。

因子分析的形成和发展有相当长的历史,最早用以研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长时间。

后来由于电子计算机的出现,才使因子分析的理论研究和计算问题,有了很大的进展。

目前这一方法的应用范围已十分广泛,在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域都取得了显著的成绩。

1 什么是因子分析因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。

例如,某公司对100名招聘人员的知识和能力进行测试,出了50道题的试卷,其内容包括的面较广,但总的来讲可归纳为六个方面:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子,显然这里所说的因子不同于回归分析中因素,因为前者是比较抽象的一种概念,而后者有着极为明确的实际意义,如人口密度、工业总产值、产量等。

假设100人测试的分数{}100,,1, =i X i 可以用上述六个因子表示成线性函数:,1001,i 662211 =++++=i i i i i F a F a F a X ε其中61,,F F 表示六个因子,它对所有X i 是共有的因子,通常称为公共因子,它们的系数61,i i a a 称为因子载荷,它表示第i 个应试人员在六个因子方面的能力。

i ε是第i 个应试人的能力和知识不能被前六个因子包括的部分,称为特殊因子,通常假定),0(~2i i N σε,仔细观察这个模型与回归模型在形式上有些相似,实质很不同。

多元统计分析 第8章(因子分析)

多元统计分析 第8章(因子分析)

.
.
.
.. .
X5
0.63 0.49 0.19 0.29 1.00
.
.
.. .
X6
0.40 0.52 0.36 0.46 0.34 1.00
.
.. .
X7
0.28 0.31 0.73 0.27 0.17 0.32 1.00
.. .
X8
0.20 0.36 0.24 0.39 0.23 0.33 0.24 1.00 . .
用这m个不可观测的相互独立的公因 子 F1, F2, ,Fm (也称潜因子)和一
个特殊 i来描述原始可测的相关变量
(科目成绩) x1 , x2 , , x p , 并解释分析学 生的学习能力.
11
教育测量中的项目反应理论模型:
Pj ( ) exp aj ( bj ) 1 exp aj ( bj )
2 1
,
,
2 p
)
(特 殊 因 子 间 不 相 关)
cov(F , ) 0(公 共 因 子 与 特 殊 因 子 间不 相 关)
19
其中:
x x1 x2 x p 是 可 观 测 的 随 机 向 量 ,
F (F1 F2 Fm )(m p)是 不 可 观 测 的 随 机 向 量 ,F1 F2 Fm 一 般 对x 每 一 个 分 量xi 都 有 作 用 , 所 以 称 为x 的公 共 因 子, 而
24
二、正交因子模型中各个量的统计意义 1. 因子载荷的统计意义 2. 变量共同度的统计意义 3. 公因子Fi的方差贡献的统计意义
25
1. 因子载荷的统计意义

var(
x
i
)
1,
则x

多元统计分析第六章 因子分析

多元统计分析第六章 因子分析

第6章因子分析6.1 因子分析数学模型因子分析是很有用的统计分析工具,因子分析的实质就是找出少量不可观测的随机变量,用它们表示众多的可观测随机变量。

以下例子能说明因子分析的意义。

例6.1对一个班的学生,进行五门课程(力学、物理、代数、分析、统计)考试,其中力学和物理闭卷考试,代数、分析、统计开卷。

这5门功课的成绩是可观测的随机向量。

每个学生的成绩可以看成5维随机向量的一个观测,见表6-1。

表6-1 五门课程考试成绩经过一定计算(因子分析)后发现存在不可观测的随机变量:1f 、2f ,它们和51,...x x 间有关系 521542143213221212116377.1091469.9750.678264.162258.5364.721559.013358.6909.720269.564838.7523.721220.864570.8409.62v f f x v f f x v f f x v f f x v f f x +-+=+-+=+-+=+++=+++= (6.1) 其中1f 、2f 是不可观测的随机变量。

我们认为它们分别表示学生的学习能力和适应开闭卷能力,所以可分别称为学习因子和适应开闭卷因子。

(6.1)揭示了这两个因子如何影响5门功课的成绩,也揭示5门课成绩的实质:每门课的成绩由学习因子和适应开闭卷因子的线性组合,加上常数,再加上随机变量而得。

这是是很有意义的。

象例6.1那样,找出少量不可观测因子(例如1f 、2f ),并给出它们影响可观测随机变量(例如51,...x x )方式的统计分析,就是因子分析。

因子分析与主成分分析不同:主成分分析是寻求若干个可观测随机变量的少量线性组合,说明其含义;因子分析主要的目的是找出不一定可观测的潜在变量作为公共因子,并解释公共因子的意义,及如何用不可观测随机变量,计算可观测随机变量。

因子分析方法在心理学,经济,医学,生物学,教育学等方面有重要用途。

多元统计分析(数学建模)ppt课件

多元统计分析(数学建模)ppt课件
60
体现了正相关趋
50

年龄
40
30 800
性别
女职工
男职工
900
1000
1100
基本工资
8
绘制散点图
(二)基本操作步骤 (1)菜单选项:graphs->scatter (2)选择散点图类型:
simple:简单散点图(显示一对变量的散点图) overlay:重叠散点图(显示多对变量的散点图)
(3)选择x轴和y轴的变量 (4)选择分组变量(set markers by):分别以不同颜色
2020/6/4
2266
目录 上页 下页 返回 结束
图10-1是一个简单的路径路,A是父亲智商,B是母亲智商, C1、C2是两个成年子女的智商,e1, e2是与A,B不相关的另外原因变 量。一般来说,父母亲的智商之间不存在关系;父母亲的智商对 子女的智商存在因果关系,用单箭头表示,子女的之间,存在相关 关关系,用双箭头表示。箭头上的字母表示路径系数,路径系数反 应原因变量对结果变量的相对影响大小。在路径分析中一般采用
2020/6/4
3300
目录 上页 下页 返回 结束
其他变量(A)对内生变量(B)的影响有两种情况 :若A直接通过单向箭头对B具有因果影响,称A 对B有 直接作用(direct effect);若A 对B的作用是间接地通 过其他变量(C)起作用,称A 对B有间接作用( indirect effect),称C为中间变量(mediator variable) 。变量间的间接作用常常由多种路径最终总合而成。图 10-2中,四个外生变量耐用性、操作的简单性、通话效 果和价格既对忠诚度有直接作用,同时通过感知价值对 忠诚度具有间接作用。
tow-tailed:输出双尾概率P. one-tailed:输出单尾概率P

多元统计分析教学课件-第五讲因子分析

多元统计分析教学课件-第五讲因子分析
• 主成分分析中主成分个数与变量个数相同(实际中取 前面若干个),因子分析中公因子个数少于变量个 数。因子分析的目的是找到因子载荷阵Q和特殊因子 方差Ψ ,两者的估计计算由公式(5.7)的协方差阵结构 推得。
5.1 正交因子模型
因子的解释 设有k个公共因子的因子模型是合理的,即这k个不可 观测的潜因子能够解释随机变量X p次测量的变异性,那 么,接下来,我们很自然地想到,该如何解释这些因子所 代表的意义。 为了解释Fl, l = 1, ..., k ,则首先需要计算原始变 量Xj, j = 1, ..., p之间的相关性,得相关系数矩阵PXF 。这 一点和主成分分析中解释主成分的思想是一样的。
• 一般有如下假设:
EF = 0
V ar(F ) = Ik EU = 0
Cov(Ui, Uj) = 0, i ̸= j Cov(F, U ) = 0
(5.5)
• 定义
V ar(U ) = Ψ = diag(ψ11, ..., ψpp)
广义因子模型(5.4)和公式(5.5)的假设,构成了如下的 正交因子模型:
智力水平,而第二个因子只和某些Xj 正相关,只和某 些Xi 负相关,Xj 是抽象思考能力的相关测验得分,Xi 是实 践能力的相关测验得分。
就是说,第二个因子强调的是个人理论基础和实践能
力的差别。如果模型是正确的,那么这两个公共因子能够
慨括p次得分X1, ..., Xp的绝大部分信息。
5.1 正交因子模型
X = QF + µ
(5.2)
其中,F 是k个因子的k 维向量。当使用模型(5.2)时,我们
通常假定因子F 是中心化的、不相关的、标准化的,
有E(F ) = 0, V ar(F ) = Ik。下面就来介绍如果满足协方差 阵Σ的最后p − k个特征值为0的条件,则很容易将X表示成 因子模型(5.2)。

多元统计分析——基于R 语言 PPT课件-因子分析

多元统计分析——基于R 语言 PPT课件-因子分析

6.2 因子载荷的求解
6.2.3 极大似然法
假定公共因子F和特殊因子ε服从正态分布,则能够得到因子载荷和特殊
因子方差的极大似然估计。设, , … , 为来自正态总体(, )的随





机样本,其中Σ=AA'+Σε。 从似然函数的理论知:
(, )=

()/ ||/
6.2.1 主成分法
由主成分法很容易得出由Y到X的转换Hale Waihona Puke 系为:主成分

1 = 11 1 + 12 2 + ⋯ + 1
2 = 21 1 + 22 2 + ⋯ + 2

3 = 1 1 + 2 2 + ⋯ +
对上面每一等式只保留前m个主成分而把后面的部分用代替,
式中,为标准化后的第i门科目的考试成绩,均值为0,方差为1;, , … , 是彼此独立的
公共因子,都满足均值为0,方差为1;为特殊因子,与每一个公共因子均不相关且均值为
0; ,,…,为对第i门科目考试成绩的因子载荷。对该模型,有
() = + + ⋯ + + () =
独立这个限制,因而可能达到更为简洁的形式,其实际意义也更容易解释。
6.2 因子载荷的求解
6.2.5 因子得分
在因子模型中,公共因子的个数少于原始变量的个数,且公共因子是不可观测的隐变量,
载荷矩阵A不可逆,因而不能直接求得公共因子用原始变量表示的精确线性组合。解
决该问题的一种方法是建立如下以公共因子为因变量、原始变量为自变量的回归方
6.2 因子载荷的求解

多元统计分析课件 (6)

多元统计分析课件 (6)

2*u*2
m* u*m


1

hˆ12
D

0



0
1

hˆp2

在实际的应用中,个性方差矩阵一般都是未知的, 可以通过一组样本来估计。估计的方法有如下几种:
首先,求hi2 的初始估计值,构造出 R* 1)取hi2 1 ,在这个情况下主因子解与主成分解等 价;
2)取 hi2 Ri2 ,Ri2为xi与其他所有的原始变量xj的复 相关系数的平方,即xi对其余的p-1个xj的回归方程的 判定系数,这是因为xi 与公共因子的关系是通过其余 的p-1个xj 的线性组合联系起来的;

1u1 2u2




p
up

上式给出的表达式是精确的,然而,它实际上是毫
无价值的,因为我们的目的是寻求用少数几个公共因子
解释,故略去后面的p-m项的贡献,有
Σ Aˆ Aˆ + Dˆ 1u1u1 2u2u2 mu mum Dˆ
当特殊因子i 的方差不为0且已知的,问题非常好解决。
12
R=R



2 2




2 p



1* u1*
2*u*2

1*
u1*


u* *
pp


2*

u2*



* p
up*

A


1*u1*
1
a m

j 1
2 ij

第7章 多元统计分析之因子分析

第7章  多元统计分析之因子分析

•我们有时也用方差贡献率来衡量公共 因子的相对重要性
g j Fj的方差贡献率 p
2
j 1,2,, m
也是衡量公共因子相对重要性的另一指标。 另外,任意两个变量Xk与Xl的协方差等于 因子载荷阵中第k行与第l列对应元素乘积之和。
r ( X k , X l ) ak1al1 ak 2 al 2 ... akmalm akiali
第七章 因子分析
• • • • • • • 第一节 因子分析的概念 第二节 因子分析的数学模型 第三节 因子载荷矩阵的求解 第四节 因子旋转 第五节 因子得分 第六节 实例分析 推荐阅读
第一节 因子分析的概念
• 因子分析是主成分分析的推广和发展,它是多 元统计分析中降维的一种方法。因子分析是研究 相关阵或协方差阵的内部依赖关系,它将多个变 量综合为少数几个因子,以再现原始变量与因子 之间的相关关系,同时根据不同因子还可以对变 量进行分类。 • 因子分析概念起源于20世纪初Karl Pearson 和 Charles Spearmen等学者为定义和测验智力所作 的统计分析。目前因子分析在心理学、社会学、 教育学、经济学等学科都取得了成功的应用。
2、因子载荷阵的统计意义与性质
• 为了便于对因子分析计算结果进行解释,将 因子分析模型中各个量的统计意义加以说明 是十分必要的。假设模型中各个变量以及公 共因子、特殊因子都已经是标准化(均值为0, 方差为1)的变量。
1)因子载荷aij的统计意义 已知模型
X i ai1F1 ai 2 F2 aimFm i , i 1,2,, p
第二节 因子分析的数学模型
• 1、正交因子模型 • 1)R型因子分析模型 • R型因子分析中的公共因子是不可直接观 测但又客观存在的共同影响因素,每一 个变量都可以表示成公共因子的线性函 数和特殊因子之和。即 X i ai1F1 ai 2 F2 aimFm i , i 1,2,, p

多元统计分析课件 第八章 因子分析

多元统计分析课件 第八章 因子分析
这些问题可以综合归纳为如下的几个方面: 申请者外露的能力,讨人喜欢的程度,申请 者的经验,专业能力。其中,每一方面都是 因子模型中的一个因子。
9
因子分析与主成分分析是多元分析中两种 重要的降维方法,但两者有很大的不同
主成分分析不能作为一个模型来描述,它只 能作为一般的变量变换,主成分可表示为 可观测的原始变量的线性组合。
1.因子分析FA:是研究众多原始变量间相关系数矩 阵或协方差矩阵的内部依赖关系,它是将众多个具有 错综复杂关系的变量归结为少数几个综合因子,以此 再现原始变量与综合(公共)因子之间的相关关系.
所以,因子分析侧重于探究多变量之间的相关性 的简化数据结构的方法。
4
例1. 为了了解学生的学习能力,观测了n个学生的p个 科目的成绩(分数),用X1,…,Xp表示p个科目(例如 代数、几何、语文、英语、政治,…),
定的。
这就是一个最简单的因子模型.
5
进一步地,可把这个简单因子模型推广到多个
因子的情况,即全体科目X所共有的因子有m
个,如数学推导因子、记忆因子、计算因子…
等.分别记为F1,…,Fm,即
Xi=ai1F1十ai2F2十…十aimFm十εi
(i=l,…,p)
用这m个不可观测的、相互独立的、公共因子 F1,…,Fm(也称为潜因子)和一个特殊因子εi 来描述原始可测变量(科目) X1,…,Xp,并 以此来解释分析学生的学习能力。
而因子分析需要构造一个因子模型,公因子 一般不能表示为原始变量的线性组合。
此外,在研究的侧重点上二者也有所差异, 在此不再赘述。
10
例5. 某公司对100名招聘人员的知识和能力进行测
试,出了50道题的试卷。其内容包括的面较广,但总 的来讲可归纳为如下六个方面:
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的相对重要性。
15
§ 3 因子载荷矩阵的估计方法 主成分分析法
设随机向量 x x1, x2,, xp 的均值为,协方差为,
1 2 p 0为的特征根,u1,u2 ,,up 为对应的
标准化特征向量,则
1
Σ = U
2
U AA + D
p
16
u1 u2
up
1
0
0
u1 u2
Var
(ε)
diag
(
2 1
,
2 2
,
,
2 p
)
E(F1 p )
E(
F2
p
)
0
E
(
Fp
p
)
8
二、因子分析模型的性质
1、原始变量X的协方差矩阵的分解
X - μ = AF + ε Var(X - μ) = AVar(F)A +Var(ε)
Σx = AA + D A是因子模型的系数
Var
(ε)
D
diag
(
2 1
,
2 2
,
,
2 p
)
D的主对角线上的元素值越小,则公共因子共享的成
分越多。
9
2、模型不受计量单位的影响
将原始变量X做变换X*=CX,这里
C=diag(c1,c2,…,cn),ci>0。
C(X - μ) = C(AF + ε) CX Cμ + CAF + Cε X* Cμ + CAF + Cε X* μ* + A*F* + ε* F* F
4
§ 2 因子分析模型
一、数学模型 设 X i (i 1,2,, p) p 个变量,如果表示为
Xi i ai1F1 aimFm i (m p)
X1 1 11 12

X
2
2
21
22
X
p
p
p1
p2
1m F1 1
2
m
F2
2
pm
10
E(F*) 0 E(ε*) 0
Var(F*) I
Var
(ε*
)
diag
(c1212
,
c22
2 2
,
,
c2p
2 p
)
cov(F*,ε*) E(F*ε*) 0
11
3、因子载荷不是惟一的 设T为一个p×p的正交矩阵,令A*=AT, F*=T’F,则模型可以表示为
X* μ + A*F* + ε 且满足条件因子模型的条件 E(TF) 0 E(ε) 0
Var(F*) Var(TF) TVar(F)T I
Var
(ε)
diag
(
2 1
,
2 2
,
,
2 p
)
cov(F*,ε) E(F*ε) 0
12
三、 因子载荷矩阵中的几个统计特征
1、因子载荷aij的统计意义
因子载荷 aij 是第i个变量与第j个公共因子的相关系数
模型为 X i ai1F1 aimFm i
3
注:
因子分析与回归分析不同,因子分析中的因 子是一个比较抽象的概念,而回归因子有非常明 确的实际意义;
主成分分析分析与因子分析也有不同,主成 分分析仅仅是变量变换,而因子分析需要构造因 子模型。
主成分分析:原始变量的线性组合表示新的 综合变量,即主成分;
因子分析:潜在的假想变量和随机影响变 量的线性组合表示原始变量。
大,相关的密切程度越高。
13
2、变量共同度的统计意义
定义:变量 Xi 的共同度是因子载荷矩阵的第i行的元 素的平方和。记为 hi2 jm1ai2j。
统计意义:
X i ai1F1 aimFm i 两边求方差
Var( Xi ) a2i1Var(F1) a2imVar(Fm ) Var(i )
2 1
D( )
2 2
2 p
即互不相关,方差不一定相等,
i
~
N
(0,
2 i
)。
7
用矩阵的表达方式
X - μ = AF + ε E(F) 0 E(ε) 0 Var(F) I
E(F11)
cov(F,
ε)
E(Fε)
E(F21)
E
(
Fp1
)
E(F12 ) E(F22 )
E(Fp2 )
在上式的左右两边乘以Fj ,再求数学期望
E( XiFj ) ai1E(F1Fj ) ijE(Fj Fj ) aimE(FmFj ) E(iFj )
根据公共因子的模型性质,有
x F ij (载荷矩阵中第i行,第j列的元素)反映了 ij
第i个变量与第j个公共因子的相关重要性。绝对值越
Fm
p
或X μ AF 5
称为 F1, F2,, Fm公共因子,是不可观测的变量,
他们的系数称为因子载荷。i 是特殊因子,是不能被
前m个公共因子包含的部分。并且满足:
cov(F, ) 0, F, 即不相关;
1
D(F)
1
I
1
即 F1, F2,, Fm 互不相关,方差为1。
6
2
但消费者主要关心的是三个方面,即商店的环境 、商店的服务和商品的价格。因子分析方法可以通过24 个变量,找出反映商店环境、商店服务水平和商品价格 的三个潜在的因子,对商店进行综合评价。而这三个公 共因子可以表示为:
xi i i1F1 i2F2 i3F3 i i 1,,24
称 F1、F2、F3 是不可观测的潜在因子。24个变量 共享这三个因子,但是每个变量又有自己的个性, 不被包含的部分 i ,称为特殊因子。
1
a 和特殊因子对变量 X i
的贡献为1。如果
m
a2 ij
非常
j 1
靠近1,
2非常小,则因子分析的效果好,从原变量空间到公共因
i
子空间的转化性质好。
14
3、公共因子Fj方差贡献的统计意义
因子载荷矩阵中各列元素的平方和
Sj
a p
2 ij
i 1
称为某一公共因子 Fj 对诸变量所提供的方差贡献和。衡量 Fj
因子分析
1
§1 引言 因子分析(factor analysis)是一种数据简化的技术。 它通过研究众多变量之间的内部依赖关系,探求观测数据 中的基本结构,并用少数几个假想变量来表示其基本的数 据结构。这几个假想变量能够反映原来众多变量的主要信 息。原始的变量是可观测的显在变量,而假想变量是不可 观测的潜在变量,称为因子。 例如,在企业形象或品牌形象的研究中,消费者可以 通过一个有24个指标构成的评价体系,评价百货商场的24 个方面的优劣。
p
up
1u1u1 2u2u2 mumum m1um1um1
pupup
1u1
2u2
1u1
pu p
2
u2
p
up
上式给出的表达式是精确的,然而,它实际上是毫
无价值的,因为我们的目的是寻求用少数几个公共因子
解释,故略去后面的p-m项的贡献,有
17
Σ Aˆ Aˆ + Dˆ 1u1u1 2u2u2 mumum Dˆ
相关文档
最新文档