数据分析-因子分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i
子空间的转化性质好。
a
14
3、公共因子F
方差贡献的统计意义
j
因子载荷矩阵中各列元素的平方和
Sj
a p
2 ij
i1
称为所有的 F j (j1,,m )对 X i 的方差贡献和。衡量 F j
的相对重要性。
a
15
§ 3 因子载荷矩阵的估计方法 (一)主成分分析法
(二) 主因子法
(三)极大似然方法
a
16
X i i a i 1 F 1 L a i m F m i (mp)
X1 1 11 12 L 1mF1 1 或X2221 22 L 2mF22
M M M M MM M
Xp p p1 p2 L pmFm p
或 X μA F a
6
称为 F1,F2,,Fm公共因子,是不可观测的变量, 他们的系数称为因子载荷。 i 是特殊因子,是不能被
a
2
例如,在企业形象或品牌形象的研究中,消 费者可以通过一个有24个指标构成的评价体 系,评价百货商场的24个方面的优劣。
消费者主要关心的是三个方面,即商店的环 境、商店的服务和商品的价格。
因子分析方法可以通过24个变量,找出反映 商店环境、商店服务水平和商品价格的三个 潜在的因子,对商店进行综合评价。
§ 4 因子旋转(正交变换)
(一)为什么要旋转因子
建立了因子分析数学目的不仅仅要找出公共因子以
及对变量进行分组,更重要的要知道每个公共因子的
意义,以便进行进一步的分析,如果每个公共因子的
含义不清,则不便于进行实际背景的解释。由于因子
载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。
目的是使因子载荷阵的结构简化,使载荷矩阵每列或
主成分分析分析与因子分析也有不同,主成 分分析仅仅是变量变换,而因子分析需要构造因子 模型。
主成分分析:原始变量的线性组合表示新的 综合变量,即主成分;
因子分析:潜在的假想变量和随机影响变 量的线性组合表示原始变量。
a
5
§ 2 因子分析模型 一、数学模型
设 X i (i1 ,2,,p)p个变量,如果表示为
行的元素平方值向0和1两极分化。有三种主要的正交
旋转法。四次方最大法、方差最大法和等量最大法。
a
17
(二)旋转方法
变换后因子的共同度
设正交矩阵,做正交变换 BA
m
B(bij)pp(l 1ail lj)
hi2(B )j m 1bi2jj m 1(l m 1ail lj)2
a
3
而这三个公共因子可以表示为:
x i i i 1 F 1 i 2 F 2 i 3 F 3 i i1,,24
称 F1、F2、F3 是不可观测的潜在因子。24个变量 共享这三个因子,但是每个变量又有自己的个性, 不被包含的部分 i ,称为特殊因子。
a
4
注:
因子分析与回归分析不同,因子分析中的因 子是一个比较抽象的概念,而回归因子有非常明确 的实际意义;
因子分析
a
1
§1 引言 ➢因子分析(factor analysis)是一种数据简化的技术。 ➢原理:通过研究众多变量之间的内部依赖关系,探求观 测数据中的基本结构,并用少数几个假想变量来表示其基 本的数据结构。这几个假想变量能够反映原来众多变量的 主要信息。 ➢原始的变量是可观测的显在变量,而假想变量是不可观 测的潜在变量,称为因子。
cov(F *,ε)E (F *ε)a0
12
三、 因子载荷矩阵中的几个统计特征
1、因子载荷aij的统计意义
因子载荷 a ij 是第i个变量与第j个公共因子的相关系数
模型为 X i a i1 F 1 a iF m m i
在上式的左右两边乘以F j ,再求数学期望
E ( X i F j ) a i 1 E ( F 1 F j ) i E ( j F j F j ) a i E ( m F m F j ) E ( i F j ) 根据公共因子的模型性质,有
前m个公共因子包含的部分。并且满足:
cov(F,)0, F, 即不相关;
1
D(F)
1
I 1
即 F1,F2,,Fm 互不相关,方差为1。
a
7
2 1
D( )
2 2
பைடு நூலகம்
2 p
即互不相关,方差不一定相等, i ~N(0,i2)。
a
8
二、因子分析模型的性质
1、原始变量X的协 方差矩阵的分解(例8.2.1)
xiFj ij (载荷矩阵中第i行,第j列的元素)反映了
第i个变量与第j个公共因子的相关重要性。绝对值越
大,相关的密切程度越高。a
13
2、变量共同度的统计意义
定义:变量 X i 的共同度是因子载荷矩阵的第i行的元
素的平方和。记为 hi2 jm1ai2j。
统计意义:
X i a i1 F 1 a iF m m i 两边求方差
V ( X i ) a a 2 i 1 V r ( F 1 ) a a 2 r iV m ( F m ) a V ( r i ) ar
1
a m
2 ij
i2
j1
所有的公共因子和特殊因子对变量 X
i
m
的贡献为1。如果
a2 ij
j1
非常
靠近1,
2 非常小,则因子分析的效果好,从原变量空间到公共因
Q X -μ = A F + ε V a r ( X - μ ) = A V a r ( F ) A + V a r ( ε )
Σx=A A +D A 是 因 子 模 型 的 系 数
V a r ( ε ) D d ia g (1 2 ,2 2 ,L ,2 p )
D的主对角线上的元素值越小,则公共因子的作用就越大。
co v (F *,ε*)E (F * ε* )0
a
11
3、因子载荷不是惟一的
设T为一个p×p的正交矩阵,令A*=AT,F*=T’F,
则模型可以表示为
XA*F*
且: E(TF)0 E(ε)0
V a r ( F * ) V a r ( T F ) T V a r ( F ) T I
V a r (ε ) d ia g (1 2 ,2 2 ,L , 2 p )
a
9
2、模型不受计量单位的影响
将原始变量X做变换X*=CX,这里 C=diag(c1,c2,…,cn),ci>0。
C (X -μ )= C (A F + ε )
C X C μ + C A F + C ε X *C μ+ C A F + C ε
X *μ *+A *F *+ε* F* F
a
10
E(F*) 0 E(ε*) 0 Var(F*) I
子空间的转化性质好。
a
14
3、公共因子F
方差贡献的统计意义
j
因子载荷矩阵中各列元素的平方和
Sj
a p
2 ij
i1
称为所有的 F j (j1,,m )对 X i 的方差贡献和。衡量 F j
的相对重要性。
a
15
§ 3 因子载荷矩阵的估计方法 (一)主成分分析法
(二) 主因子法
(三)极大似然方法
a
16
X i i a i 1 F 1 L a i m F m i (mp)
X1 1 11 12 L 1mF1 1 或X2221 22 L 2mF22
M M M M MM M
Xp p p1 p2 L pmFm p
或 X μA F a
6
称为 F1,F2,,Fm公共因子,是不可观测的变量, 他们的系数称为因子载荷。 i 是特殊因子,是不能被
a
2
例如,在企业形象或品牌形象的研究中,消 费者可以通过一个有24个指标构成的评价体 系,评价百货商场的24个方面的优劣。
消费者主要关心的是三个方面,即商店的环 境、商店的服务和商品的价格。
因子分析方法可以通过24个变量,找出反映 商店环境、商店服务水平和商品价格的三个 潜在的因子,对商店进行综合评价。
§ 4 因子旋转(正交变换)
(一)为什么要旋转因子
建立了因子分析数学目的不仅仅要找出公共因子以
及对变量进行分组,更重要的要知道每个公共因子的
意义,以便进行进一步的分析,如果每个公共因子的
含义不清,则不便于进行实际背景的解释。由于因子
载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。
目的是使因子载荷阵的结构简化,使载荷矩阵每列或
主成分分析分析与因子分析也有不同,主成 分分析仅仅是变量变换,而因子分析需要构造因子 模型。
主成分分析:原始变量的线性组合表示新的 综合变量,即主成分;
因子分析:潜在的假想变量和随机影响变 量的线性组合表示原始变量。
a
5
§ 2 因子分析模型 一、数学模型
设 X i (i1 ,2,,p)p个变量,如果表示为
行的元素平方值向0和1两极分化。有三种主要的正交
旋转法。四次方最大法、方差最大法和等量最大法。
a
17
(二)旋转方法
变换后因子的共同度
设正交矩阵,做正交变换 BA
m
B(bij)pp(l 1ail lj)
hi2(B )j m 1bi2jj m 1(l m 1ail lj)2
a
3
而这三个公共因子可以表示为:
x i i i 1 F 1 i 2 F 2 i 3 F 3 i i1,,24
称 F1、F2、F3 是不可观测的潜在因子。24个变量 共享这三个因子,但是每个变量又有自己的个性, 不被包含的部分 i ,称为特殊因子。
a
4
注:
因子分析与回归分析不同,因子分析中的因 子是一个比较抽象的概念,而回归因子有非常明确 的实际意义;
因子分析
a
1
§1 引言 ➢因子分析(factor analysis)是一种数据简化的技术。 ➢原理:通过研究众多变量之间的内部依赖关系,探求观 测数据中的基本结构,并用少数几个假想变量来表示其基 本的数据结构。这几个假想变量能够反映原来众多变量的 主要信息。 ➢原始的变量是可观测的显在变量,而假想变量是不可观 测的潜在变量,称为因子。
cov(F *,ε)E (F *ε)a0
12
三、 因子载荷矩阵中的几个统计特征
1、因子载荷aij的统计意义
因子载荷 a ij 是第i个变量与第j个公共因子的相关系数
模型为 X i a i1 F 1 a iF m m i
在上式的左右两边乘以F j ,再求数学期望
E ( X i F j ) a i 1 E ( F 1 F j ) i E ( j F j F j ) a i E ( m F m F j ) E ( i F j ) 根据公共因子的模型性质,有
前m个公共因子包含的部分。并且满足:
cov(F,)0, F, 即不相关;
1
D(F)
1
I 1
即 F1,F2,,Fm 互不相关,方差为1。
a
7
2 1
D( )
2 2
பைடு நூலகம்
2 p
即互不相关,方差不一定相等, i ~N(0,i2)。
a
8
二、因子分析模型的性质
1、原始变量X的协 方差矩阵的分解(例8.2.1)
xiFj ij (载荷矩阵中第i行,第j列的元素)反映了
第i个变量与第j个公共因子的相关重要性。绝对值越
大,相关的密切程度越高。a
13
2、变量共同度的统计意义
定义:变量 X i 的共同度是因子载荷矩阵的第i行的元
素的平方和。记为 hi2 jm1ai2j。
统计意义:
X i a i1 F 1 a iF m m i 两边求方差
V ( X i ) a a 2 i 1 V r ( F 1 ) a a 2 r iV m ( F m ) a V ( r i ) ar
1
a m
2 ij
i2
j1
所有的公共因子和特殊因子对变量 X
i
m
的贡献为1。如果
a2 ij
j1
非常
靠近1,
2 非常小,则因子分析的效果好,从原变量空间到公共因
Q X -μ = A F + ε V a r ( X - μ ) = A V a r ( F ) A + V a r ( ε )
Σx=A A +D A 是 因 子 模 型 的 系 数
V a r ( ε ) D d ia g (1 2 ,2 2 ,L ,2 p )
D的主对角线上的元素值越小,则公共因子的作用就越大。
co v (F *,ε*)E (F * ε* )0
a
11
3、因子载荷不是惟一的
设T为一个p×p的正交矩阵,令A*=AT,F*=T’F,
则模型可以表示为
XA*F*
且: E(TF)0 E(ε)0
V a r ( F * ) V a r ( T F ) T V a r ( F ) T I
V a r (ε ) d ia g (1 2 ,2 2 ,L , 2 p )
a
9
2、模型不受计量单位的影响
将原始变量X做变换X*=CX,这里 C=diag(c1,c2,…,cn),ci>0。
C (X -μ )= C (A F + ε )
C X C μ + C A F + C ε X *C μ+ C A F + C ε
X *μ *+A *F *+ε* F* F
a
10
E(F*) 0 E(ε*) 0 Var(F*) I