因子分析最终版
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
设 X i (i 1,2,, p ) p 个变量,如果表示为
X i i ai1F1 aim Fm i
(m p)
X 1 1 11 12 1m F1 1 X 2 2 21 22 2 m F2 2 或 X p2 pm Fm p p p1 p
2 i
j 1
aij。
m
2
X i ai1F1 aim Fm i
2 1 aij i2 j 1 m
两边求方差
Var ( X i ) a 2 i1Var ( F1 ) a 2 imVar ( Fm ) Var ( i )
的贡献为1。如果 aij 非常
1、因子载荷aij的统计意义
因子载荷 aij 是第i个变量与第j个公共因子的相关系数
模型为
X i ai1F1 aim Fm i
在上式的左右两边乘以 F j ,再求数学期望
E ( X i Fj ) ai1 E ( F1 Fj ) ij E ( Fj Fj ) aim E ( Fm Fj ) E ( i Fj )
28
百度文库
ˆ2 r r h 1 12 1p 2 ˆ r r h 2 2p ˆ 21 R R - D ˆ2 rp1 rp 2 h p
直接求R*的前p个特征根和对应的正交特征向量。得如下 的矩阵: * * * A 1* u1 2* u* 2 pup * * * R 特征根:1 p 0
13
三、因子命名与因子旋转
1.因子命名
因子分析的目标之一就是要对所提取的抽象因子的实际含 义进行合理解释,即对因子进行命名。
14
2.因子旋转 为什么要进行因子旋转? 可能同一个变量在多个公共因子上都有较大的载荷,也 可能多个变量在同一个公共因子上都有较大载荷,说明该因 子对多个变量都有较明显的影响作用。这种因子模型反而很 难对因子的实际背景进行合理的解释。 这时需要通过因子旋转的方法,使每个变量仅在一个公 共因子上有较大的载荷,而在其余的公共因子上的载荷比较 小,至多达到中等大小。这时对于每个公共因子而言(即载 荷矩阵的每一列),它在部分变量上的载荷较大,在其它变 量上的载荷较小,这时就突出了每个公共因子和其载荷较大 的那些变量的联系,该公共因子的含义也就能通过这些载荷 较大的变量做出合理的说明。
l 1 m
h (B) b ( ail lj )2
2 i 2 ij j 1 j 1 l 1
m
m
m
j 1l 1
a
m m
2 2 il lj
j 1l 1t 1 j l
m
m m m
ail ait lj tj
a
2 m 2 il lj l 1 j 1
m
2 ail hi2 ( A) l 1
变换后因子的共同度没有发生变化!
17
变换后因子贡献
设正交矩阵,做正交变换 B A
B (bij ) p p ( ail lj )
l 1 q
S (B) b ( ail lj )2
2 j 2 ij i 1 i 1 l 1
据结构。这几个假想变量能够反映原来众多变量的主要信
息。原始的变量是可观测的显在变量,而假想变量是不可 观测的潜在变量,称为因子。 例如,在企业形象或品牌形象的研究中,消费者可以 通过一个有24个指标构成的评价体系,评价百货商场的24
个方面的优劣。
4
但消费者主要关心的是三个方面,即商店的环境 、商店的服务和商品的价格。因子分析方法可以通过24 个变量,找出反映商店环境、商店服务水平和商品价格 的三个潜在的因子,对商店进行综合评价。而这三个公 共因子可以表示为:
标准化特征向量,则
1 2 U AA + D Σ = U p
24
u1 u 2
u1 1 0 u 2 up 0 p p u
1u1u 1 2u2u2 mu mu m m1um1um1 pupup
1 u1 2 u2 ˆ ˆ D ˆ AA ˆ u u u D 2 2 m m 1 1 p m p um m p 2 2 2 ˆ ˆ ˆ ˆ 其中D diag ( 1 , 2 ,, p )
15
如何进行因子旋转?
因子旋转方法有正交旋转和斜交旋转两类,这 里我们重点介绍正交旋转。 对公共因子作正交旋转就是对载荷矩阵A作一 正交变换,右乘正交矩阵Γ,使得旋转后的因子载 荷阵 B A 有更鲜明的实际意义。
16
变换后因子的共同度:
设正交矩阵,做正交变换 B A
B (bij ) p p ( ail lj )
xi i i1F1 i 2 F2 i 3 F3 i
i 1,,24
称 F1、F2、F3 是不可观测的潜在因子。24个变量 共享这三个因子,但是每个变量又有自己的个性, 不被包含的部分 i ,称为特殊因子。
5
A
B
H 3
1
C
2 G D
F
E
6
主成份分析与因子分析比较
1u1 u 2 2 1u1 2 u 2 p u p u p p 上式给出的表达式是精确的,然而,它实际上是毫 无价值的,因为我们的目的是寻求用少数几个公共因子 25 解释,故略去后面的p-m项的贡献,有
ˆ ˆ +D ˆ u u u u u u D ˆ Σ AA 1 1 1 2 2 2 m m m
或X μ AF
8
称 F1 , F2 ,, Fm 为公共因子,是不可观测的变量, 他们的系数称为因子载荷。 i 是特殊因子,是不能被 前m个公共因子包含的部分。并且满足:
cov( F , ) 0, F , 即不相关;
模型中的矩阵A称为因子载荷矩阵,aij 称为因子 “载荷”,是第i个变量在第j个因子上的负荷,如果 把变量 X i 看成m维空间中的一个点,则 aij 表示它在坐 标轴 F j 上的投影。
9
1 1 I D( F ) 1
即 F1 , F2 ,, Fm 互不相关,方差为1。
12 2 2 D ( ) 2 p
即互不相关,方差不一定相等。 。
10
二、因子载荷矩阵中的几个统计特征
2 ˆ i2 sii aij j 1 m
上式有一个假定,模型中的特殊因子是不重要的,因
而从的分解中忽略了特殊因子的方差。
26
注:残差矩阵
ˆ ˆ -D ˆ S-AA
其中S为样本的协方差矩阵。
27
主因子法
主因子方法是对主成分方法的修正,假定我 们首先对变量进行标准化变换。则 R=AA’+D R*=AA’=R-D 2 * * h 称R 为约相关矩阵, R 对角线上的元素是 i , 而不是1。
主成份分析和因子分析都是基于降维的思 想 主成份分析和因子分析计算方法相似,但 因子分析在主成份分析基础上有所发展 主成份分析提取的主成份不一定具有明确 的含义,而因子分析主因子代表一定含义 主成份分析只能对样本排序,因子分析还 可以判定主要影响因素,找出问题本质
7
§ 2 因子分析模型 一、数学模型
21
假设我们经过n次采样、分析得到大量的观测数据, 共n×p个.为了研究的方便,常把P个变量从左到右排列, 而n次观测值从上到下排列.建立原始数据矩阵应遵循下 述规则: l、样品数n应远远大于变量数P; 2、样品应是随机采取的且对变量来说,数据服从正 态分布; 3、样品及变量监测的数据要准确可靠,对每一样品 来说,不得缺少任何一个所被考察的变量项,原始数据 必须完整; 4、对于定性指标可以在数量化后进入原始数据矩阵 满足上述4点要求,就可以对原始数据矩阵进行处理 了。
根据公共因子的模型性质,有
x F ij (载荷矩阵中第 i行,第j列的元素)反映了
i j
第 i 个变量与第 j 个公共因子的相关重要性。绝对值越 大,相关的密切程度越高。 11
2、变量共同度的统计意义
定义:变量 X i 的共同度是因子载荷矩阵的第i行的元素的平方
和。记为 统计意义:
h
因子分析
组员:霍志轩 毛杉 喻珊 徐双
01/ 02/ 03/
因子分析理论的 模型与基本概念 因子分析的过程 及计算方法 因子分析法案例
04/
因子分析在环境 科学中的应用
1
因子分析理论的模型与基本概念
霍志轩
3
§1
引言
因子分析 (factor analysis) 是一种数据简化的技术。 它通过研究众多变量之间的内部依赖关系,探求观测数据 中的基本结构,并用少数几个假想变量来表示其基本的数
p
p
q
i 1l 1
p
a
p q
2 2 il lj
ail ait lj tj
i 1l 1t 1 t l
2 j 2 S ( A) lj l 1 q
p q q
a
2 q 2 il lj i 1 l 1
变换后因子的贡献发生了变化!
18
22
2.数据求解
数据求解是利用某种数学方法来确定因子的数 目,进而求得因子的初始载荷阵。通常所用的数学 方法有: 主成份分析法、主因子法、最大似然法等。其 中,以主成份分析法最为常用。
23
主成分分析法 设随机向量 x x1 , x2 ,, x p 的均值为,协方差为, u1 , u2 ,, up 为对应的 1 2 p 0为的特征根,
* * 正交特征向量:u1 , u* , , u 2 p
29
当特殊因子 i 的方差不为 0且已知的,问题非常好解决。
12 2 2 R =R 2 p
19
2
因子分析的过程及计算方法
毛杉
20
因子分析通常包括如下步骤
1.数据预备 在环境系统中,我们通过采样、测量,对某种因素 (变量)进行定性及定量的描述.通常在一个样品中,并不 是只有一个变量起作用,而是有多个变量的同时作用才决 定了该样品的性质.同样,了解了某地区的一个样品,并 不等于了解了该地区的环境质量水平.我们只有独立的、 多次重复采集样品,对变量进行多次的测量,才能逐步了 解环境的情况。
四、因子得分
因子得分是因子分析的最终体现。当因子 载荷阵确定以后,便可以计算各因子在每个样 本上的具体数值,称为因子得分。得到了因子 得分之后,就可以像主成分分析那样,用因子 得分来代替原始变量,从而达到降维的效果。 估计因子得分的方法也有很多,常用的方 法包括回归法(Regression)、巴特莱特法 (Bartlett)、安德森-鲁宾法(AndersonRubin)等。
j 1 m 2
靠近1, 2非常小,则因子分析的效果好,从原变量空间到公共因
i
所有的公共因子和特殊因子对变量 X i
子空间的转化性质好。
12
3、公共因子F j 方差贡献的统计意义 因子载荷矩阵中各列元素的平方和
2 S j aij i 1 p
称为所有的 F ( j 1,, m) 对 X i 的方差贡献和。衡量 F j j 的相对重要性。
X i i ai1F1 aim Fm i
(m p)
X 1 1 11 12 1m F1 1 X 2 2 21 22 2 m F2 2 或 X p2 pm Fm p p p1 p
2 i
j 1
aij。
m
2
X i ai1F1 aim Fm i
2 1 aij i2 j 1 m
两边求方差
Var ( X i ) a 2 i1Var ( F1 ) a 2 imVar ( Fm ) Var ( i )
的贡献为1。如果 aij 非常
1、因子载荷aij的统计意义
因子载荷 aij 是第i个变量与第j个公共因子的相关系数
模型为
X i ai1F1 aim Fm i
在上式的左右两边乘以 F j ,再求数学期望
E ( X i Fj ) ai1 E ( F1 Fj ) ij E ( Fj Fj ) aim E ( Fm Fj ) E ( i Fj )
28
百度文库
ˆ2 r r h 1 12 1p 2 ˆ r r h 2 2p ˆ 21 R R - D ˆ2 rp1 rp 2 h p
直接求R*的前p个特征根和对应的正交特征向量。得如下 的矩阵: * * * A 1* u1 2* u* 2 pup * * * R 特征根:1 p 0
13
三、因子命名与因子旋转
1.因子命名
因子分析的目标之一就是要对所提取的抽象因子的实际含 义进行合理解释,即对因子进行命名。
14
2.因子旋转 为什么要进行因子旋转? 可能同一个变量在多个公共因子上都有较大的载荷,也 可能多个变量在同一个公共因子上都有较大载荷,说明该因 子对多个变量都有较明显的影响作用。这种因子模型反而很 难对因子的实际背景进行合理的解释。 这时需要通过因子旋转的方法,使每个变量仅在一个公 共因子上有较大的载荷,而在其余的公共因子上的载荷比较 小,至多达到中等大小。这时对于每个公共因子而言(即载 荷矩阵的每一列),它在部分变量上的载荷较大,在其它变 量上的载荷较小,这时就突出了每个公共因子和其载荷较大 的那些变量的联系,该公共因子的含义也就能通过这些载荷 较大的变量做出合理的说明。
l 1 m
h (B) b ( ail lj )2
2 i 2 ij j 1 j 1 l 1
m
m
m
j 1l 1
a
m m
2 2 il lj
j 1l 1t 1 j l
m
m m m
ail ait lj tj
a
2 m 2 il lj l 1 j 1
m
2 ail hi2 ( A) l 1
变换后因子的共同度没有发生变化!
17
变换后因子贡献
设正交矩阵,做正交变换 B A
B (bij ) p p ( ail lj )
l 1 q
S (B) b ( ail lj )2
2 j 2 ij i 1 i 1 l 1
据结构。这几个假想变量能够反映原来众多变量的主要信
息。原始的变量是可观测的显在变量,而假想变量是不可 观测的潜在变量,称为因子。 例如,在企业形象或品牌形象的研究中,消费者可以 通过一个有24个指标构成的评价体系,评价百货商场的24
个方面的优劣。
4
但消费者主要关心的是三个方面,即商店的环境 、商店的服务和商品的价格。因子分析方法可以通过24 个变量,找出反映商店环境、商店服务水平和商品价格 的三个潜在的因子,对商店进行综合评价。而这三个公 共因子可以表示为:
标准化特征向量,则
1 2 U AA + D Σ = U p
24
u1 u 2
u1 1 0 u 2 up 0 p p u
1u1u 1 2u2u2 mu mu m m1um1um1 pupup
1 u1 2 u2 ˆ ˆ D ˆ AA ˆ u u u D 2 2 m m 1 1 p m p um m p 2 2 2 ˆ ˆ ˆ ˆ 其中D diag ( 1 , 2 ,, p )
15
如何进行因子旋转?
因子旋转方法有正交旋转和斜交旋转两类,这 里我们重点介绍正交旋转。 对公共因子作正交旋转就是对载荷矩阵A作一 正交变换,右乘正交矩阵Γ,使得旋转后的因子载 荷阵 B A 有更鲜明的实际意义。
16
变换后因子的共同度:
设正交矩阵,做正交变换 B A
B (bij ) p p ( ail lj )
xi i i1F1 i 2 F2 i 3 F3 i
i 1,,24
称 F1、F2、F3 是不可观测的潜在因子。24个变量 共享这三个因子,但是每个变量又有自己的个性, 不被包含的部分 i ,称为特殊因子。
5
A
B
H 3
1
C
2 G D
F
E
6
主成份分析与因子分析比较
1u1 u 2 2 1u1 2 u 2 p u p u p p 上式给出的表达式是精确的,然而,它实际上是毫 无价值的,因为我们的目的是寻求用少数几个公共因子 25 解释,故略去后面的p-m项的贡献,有
ˆ ˆ +D ˆ u u u u u u D ˆ Σ AA 1 1 1 2 2 2 m m m
或X μ AF
8
称 F1 , F2 ,, Fm 为公共因子,是不可观测的变量, 他们的系数称为因子载荷。 i 是特殊因子,是不能被 前m个公共因子包含的部分。并且满足:
cov( F , ) 0, F , 即不相关;
模型中的矩阵A称为因子载荷矩阵,aij 称为因子 “载荷”,是第i个变量在第j个因子上的负荷,如果 把变量 X i 看成m维空间中的一个点,则 aij 表示它在坐 标轴 F j 上的投影。
9
1 1 I D( F ) 1
即 F1 , F2 ,, Fm 互不相关,方差为1。
12 2 2 D ( ) 2 p
即互不相关,方差不一定相等。 。
10
二、因子载荷矩阵中的几个统计特征
2 ˆ i2 sii aij j 1 m
上式有一个假定,模型中的特殊因子是不重要的,因
而从的分解中忽略了特殊因子的方差。
26
注:残差矩阵
ˆ ˆ -D ˆ S-AA
其中S为样本的协方差矩阵。
27
主因子法
主因子方法是对主成分方法的修正,假定我 们首先对变量进行标准化变换。则 R=AA’+D R*=AA’=R-D 2 * * h 称R 为约相关矩阵, R 对角线上的元素是 i , 而不是1。
主成份分析和因子分析都是基于降维的思 想 主成份分析和因子分析计算方法相似,但 因子分析在主成份分析基础上有所发展 主成份分析提取的主成份不一定具有明确 的含义,而因子分析主因子代表一定含义 主成份分析只能对样本排序,因子分析还 可以判定主要影响因素,找出问题本质
7
§ 2 因子分析模型 一、数学模型
21
假设我们经过n次采样、分析得到大量的观测数据, 共n×p个.为了研究的方便,常把P个变量从左到右排列, 而n次观测值从上到下排列.建立原始数据矩阵应遵循下 述规则: l、样品数n应远远大于变量数P; 2、样品应是随机采取的且对变量来说,数据服从正 态分布; 3、样品及变量监测的数据要准确可靠,对每一样品 来说,不得缺少任何一个所被考察的变量项,原始数据 必须完整; 4、对于定性指标可以在数量化后进入原始数据矩阵 满足上述4点要求,就可以对原始数据矩阵进行处理 了。
根据公共因子的模型性质,有
x F ij (载荷矩阵中第 i行,第j列的元素)反映了
i j
第 i 个变量与第 j 个公共因子的相关重要性。绝对值越 大,相关的密切程度越高。 11
2、变量共同度的统计意义
定义:变量 X i 的共同度是因子载荷矩阵的第i行的元素的平方
和。记为 统计意义:
h
因子分析
组员:霍志轩 毛杉 喻珊 徐双
01/ 02/ 03/
因子分析理论的 模型与基本概念 因子分析的过程 及计算方法 因子分析法案例
04/
因子分析在环境 科学中的应用
1
因子分析理论的模型与基本概念
霍志轩
3
§1
引言
因子分析 (factor analysis) 是一种数据简化的技术。 它通过研究众多变量之间的内部依赖关系,探求观测数据 中的基本结构,并用少数几个假想变量来表示其基本的数
p
p
q
i 1l 1
p
a
p q
2 2 il lj
ail ait lj tj
i 1l 1t 1 t l
2 j 2 S ( A) lj l 1 q
p q q
a
2 q 2 il lj i 1 l 1
变换后因子的贡献发生了变化!
18
22
2.数据求解
数据求解是利用某种数学方法来确定因子的数 目,进而求得因子的初始载荷阵。通常所用的数学 方法有: 主成份分析法、主因子法、最大似然法等。其 中,以主成份分析法最为常用。
23
主成分分析法 设随机向量 x x1 , x2 ,, x p 的均值为,协方差为, u1 , u2 ,, up 为对应的 1 2 p 0为的特征根,
* * 正交特征向量:u1 , u* , , u 2 p
29
当特殊因子 i 的方差不为 0且已知的,问题非常好解决。
12 2 2 R =R 2 p
19
2
因子分析的过程及计算方法
毛杉
20
因子分析通常包括如下步骤
1.数据预备 在环境系统中,我们通过采样、测量,对某种因素 (变量)进行定性及定量的描述.通常在一个样品中,并不 是只有一个变量起作用,而是有多个变量的同时作用才决 定了该样品的性质.同样,了解了某地区的一个样品,并 不等于了解了该地区的环境质量水平.我们只有独立的、 多次重复采集样品,对变量进行多次的测量,才能逐步了 解环境的情况。
四、因子得分
因子得分是因子分析的最终体现。当因子 载荷阵确定以后,便可以计算各因子在每个样 本上的具体数值,称为因子得分。得到了因子 得分之后,就可以像主成分分析那样,用因子 得分来代替原始变量,从而达到降维的效果。 估计因子得分的方法也有很多,常用的方 法包括回归法(Regression)、巴特莱特法 (Bartlett)、安德森-鲁宾法(AndersonRubin)等。
j 1 m 2
靠近1, 2非常小,则因子分析的效果好,从原变量空间到公共因
i
所有的公共因子和特殊因子对变量 X i
子空间的转化性质好。
12
3、公共因子F j 方差贡献的统计意义 因子载荷矩阵中各列元素的平方和
2 S j aij i 1 p
称为所有的 F ( j 1,, m) 对 X i 的方差贡献和。衡量 F j j 的相对重要性。