因子分析例题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因子分析例题标准化管理部编码-[99968T-6889628-J68568-1689N]
因子分析
因子分析(Factor Analysis )是主成分分析的推广,它也是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合变量的一种多变量统计分析方法。
第一节 因子分析的基本思想
首先我们看下面两个实际例子:
例1. 例1. 某企业招聘人才,对每位应聘者进行外貌、申请书的形式、专业能力、讨人喜
欢的能力、自信心、洞察力、诚实、推销本领、经验、积极性、抱负、理解能力、潜在能力、实际能力、适应性等15个方面的考核。这15个方面可归结为应聘者的外露能力、讨人喜欢的能力、经验、专业能力4个方面,每一方面称之为一个公共因子。企业可根据这4个公共因子的情况来衡量应聘者的综合水平。
例2. 例2. 在企业经济效益的评价中,有经济效益的指标体系。通常这个指标体系有八项
指标:固定资产利税率、资金利税率、销售收入利税率、资金利税率、固定资产产值率、流动资金周转天数、万元产值能耗、全员劳动生产率等。这八项指标可概括为盈利能力、资金和人力利用、产值能耗三个方面。这三个方面在企业的生产经营活动中为主要因子,起着支配作用,企业要提高经济效益就要在这三个公共因子方面下功
夫。
因子分析的基本思想:是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。
因子分析分为两类,即R 型因子分析(对变量作因子分析),Q 型因子分析(对样品作因子分析)。
第二节 第二节 因子分析的数学模型
1.1. 模型(R 型)
设),,,(21p x x x X =为观察到的随机向量,),,,(21m F F F F =是不可观测的向量。
有
即
其中)',,(1p εεε =称作误差或特殊因子。
满足假设:
1)p m ≤
2)0),cov(=εF ,
3)m I F =)var(,),,()var(2
21p diag σσε =。
称i F 为第i 个公共因子,ij a 为因子载荷。
因子分析与主成分的关系:
联系:两者都可以看作逼近协方差矩阵∑。
差别:主成分分析的数学模型是一种变换,因子分析模型是描述X 的协方差∑的结构的一种
模型。其次,主成分中ij a 唯一确定,但因子分析中,每个因子的系数不是唯一的。与多变
量回归分析不同,此处的“自变量”F 是不可观测的。
2.公共因子:因子载荷和变量共同度的统计意义。
假定因子模型中,所有变量和因子都已标准化。
(1) (1) 因子载荷的统计意义
设i m in i i F a F a x ε+++= 11 p i ,,1 =
则
ij F F m K ik j k m K ik j i a r a F F E a F x E j k ===∑∑==)(11)()( 由于k F ,j F 不相关,且1)(1=F F j r 即j i F x ij r a ,= 因子载荷ij a 是第i 个变量与第j 个公共因子的相关系数。
(2)变量共同度的统计意义:
∑==m j ij i a h 122
(p i ,,1 =)称作变量i x 的共同度:2221222
1)var()var()var()var(i i i m j ij i j ij m
j i j ij i h a F a F a x σσσε+=+=+=+=∑∑∑== 即22
1i i h λ+= 即共同度是公共因子所占的i x 的方差,其共同度越大,说明公共因子包含的i x 的信息就越多。
(3)公共因子j F 的方差贡献的统计意义
因子载荷矩阵中列的平方和。
称j s 为公共因子j F 对i x 的贡献,是衡量公共因子相对重要性的指标。
第三节 第三节 因子载荷的估计方法
这是常用的主成分法,设随机向量)',(,1p x x X =的协方差为∑, ∑的特征值为
021>≥≥≥p λλλ 其相应的特征向量为,,,21p e e e (标准正交基) 则:
当公共因子i F 有P 个时,特殊因子为0,所以,AF X = A 为因子载荷阵。
因此,'')var()var()(AA A F A AF X D === 所以,'AA =∑, 因此,A 为(p
p e e λλ,,11 ),所以,),,(11p p e e A λλ = 所以第j 列因子载荷为第j 个主成分j e 与j λ的乘积。所以称为主成分法。
当最后m p -个特征根很小时,去掉
p p m m e e λλ,,11 ++ 此时,),,(11m m e e A λλ =, 方差ε∑+=∑'AA =),,(11m m e e λλ )'',,'(11m m e e λλ +diag ),,(2
21p σσ
另外,当∑未知时,用样本协方差s 代替∑,或样本相关阵R 代替。一般设
p λλˆˆ1≥≥ 为样本相关阵R 的特征根,相应的标准正交化特征向量为
p e e ˆ,,ˆ1 。设p m ≤,则因子载
荷阵的估计为)ˆ(ˆij a A =即
)ˆˆ,,ˆˆ(11m m e e A λλ = 第四节 第四节 因子旋转
建立因子分析数学模型的目的不仅是为了找出公共因子,更重要的是要知道每个公共因子的意义,以便对实际问题进行分析。如果每个公共因子的涵义不清,不便于对实际背景进行解释,这时根据因子载荷阵的不唯一性,可对因子载荷阵实行旋转,即用一个正交阵右乘使旋转后的因子载荷阵结构简化,便于对公共因子进行解释。所谓结构简化就是使每个变量仅在一个公共因子上有较大的载荷,而在其余公共因子上的载荷比较小。这种变换因子载荷的方法称为因子旋转。
因子旋转有方差最大正交旋转和斜交旋转,此处只介绍方差最大正交旋转。
先考虑两个因子的平面正交旋转,设因子载荷矩阵为:
⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=2122211211p p a a a a a a A ,
⎪⎪⎭⎫ ⎝⎛-=Γϕϕϕϕcos sin sin cos Γ 为正交矩阵。
记
⎪⎪⎪⎭⎫ ⎝
⎛=∆211211p p b b b b (*) 这样做目的是希望所得结果能使载荷矩阵的每一列元素按其平方值说或者尽可能大
或者尽可能小,即向1和0两极分化,或者说因子的贡献越分散越好。这实际上是希望将变量p x x x ,,,21 分成两部分,一部分主要与第一因子有关,另一部分主要与第二因子
有关,这也就是要求
),,(),,,(2221221211p p b b b b 这两组数据的方差要尽可能地大,考虑各列的相对方差
这里取2αi b 是为了消除符号不同的影响,除以2i h 是为了消除各个变量对公共因子依
赖程度不同的影响。现在要求总的方差达到最大,即要求使
21V V G +=达到最大值,于是考虑G 对ϕ的导数,求出最大值。
如果公共因子多于2个,我们可以逐次对每2个进行上述的旋转,当公共因子数
2>m 时,可以每次取2个,全部配对旋转,旋转时总是对A 阵中第α列、β列两列进行,此时公式(*)中只需将αj j a a −→−1, βj j a a −→−2就行了。因此共需进行次旋
转,但是旋转完毕后,并不能认为就已经达到目的,还可以重新开始,进行第二轮2m
c 次配对旋转。依次进行,可以是总的方差越来越大,直到收敛到某一极限。
例:考察我国各省市社会发展综合状况
一、 一、运用方法:多元统计—因子分析
因子分析的基本思想:通过变量的相关系数矩阵内部结构的研究,找出能够控制所有变量的少数几个随机变量的少数几个随机变量去描述多个变量之间的相关关系,但在这里,这少数.几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,只得同组内的变量之间相关性较高,但不同组的变量相关性较低。
二、 二、因子分析方法的计算步骤:
第一步:将原始数据标准化。
第二步:建立变量的相关系数R 。