毕业设计因子分析资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章 因子分析
§8.1 什么是因子分析及基本思想
1904年Charles Spearman 发表一篇著名论文《对智力测验得分进行统计分析》视为因子分析的起点。因子分析的形成和发展有相当长的历史,最早用以研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长时间。后来由于电子计算机的出现,才使因子分析的理论研究和计算问题,有了很大的进展。目前这一方法的应用范围已十分广泛,在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域都取得了显著的成绩。
1 什么是因子分析
因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。
例如,某公司对100名招聘人员的知识和能力进行测试,出了50道题的试卷,其内容包括的面较广,但总的来讲可归纳为六个方面:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子,显然这里所说的因子不同于回归分析中因素,因为前者是比较抽象的一种概念,而后者有着极为明确的实际意义,如人口密度、工业总产值、产量等。
假设100人测试的分数{}100
,,1, =i X i 可以用上述六个因子表示成线性函数:
,1001,i 662211 =++++=i i i i i F a F a F a X ε
其中61,,F F 表示六个因子,它对所有X i 是共有的因子,通常称为公共因子,它们的系数
61,i i a a 称为因子载荷,它表示第i 个应试人员在六个因子方面的能力。i ε是第i 个应试人
的能力和知识不能被前六个因子包括的部分,称为特殊因子,通常假定),0(~2i i N σε,仔细观察这个模型与回归模型在形式上有些相似,实质很不同。这里的61,,F F 的值未知的,
并且有关参数的统计意义更不一样。因子分析的任务,首先是估计出{}
ij a 和方差{}
2
i σ,然
后将这些抽象因子{}i F 赋予有实际背景和因子之间的相互关系,以达到降维和对原始变量进行分类的目的。
因子分析的内容十分丰富,本章仅介绍因子分析常用的两种类型:R 型因子分析(对变量作因子分析)和Q 型因子分析(对样品作因子分析)。
2 基本思想
因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)
内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。
从全部计算过程来看作R 型因子分析与作Q 型因子分析都是一样的,只不过出发点不同,R 型从相关系数矩阵出发,Q 型从相似系数阵出发都是对同一批观测数据,可以根据其所要求的目的决定哪一类型的因子分析。
§8.2 因子分析的数学模型
1 数学模型(正交因子模型) R 型因子分析数学模型
⎪⎪
⎩
⎪⎪
⎨
⎧++++=++++=++++=p m pm p p p m m m m F a F a F a X F a F a F a X F a F a F a X εεε 22112
22221212112121111 用矩阵表示:
⎥⎥
⎥
⎥⎥⎦⎤
⎢⎢⎢⎢⎢⎣
⎡+⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣
⎡p m pm p p m m p F F F a a a a a a a a a X X X εεε 212121222211121121
简记为
)
1()
1()()1(⨯⨯⨯⨯+=p m m p p F A
X ε
且满足:
1)p m ≤
ii )0),(=εF Cov 即F 和ε是不相关的;
iii )m
I F D =⎥
⎥⎥⎥
⎦⎤⎢⎢⎢⎢⎣
⎡=10101
)( 即F 1…F m 不相关且方差皆为1。 ⎥⎥⎥⎥⎥⎦
⎤
⎢⎢⎢⎢⎢⎣⎡=22
22100)(P D σσσε 即p
εε,,1 不相关,且方差不同。 其中),(1'=p X X X 是可实测的p 个指标所构成p 维随机向量,),,(1'=m F F F 是不可观测的向量,F 称为X 的公共因子或潜因子,即前面所说的综合变量,可以把它们理解
为在高维空间中的互相垂直的m 个坐标轴;a ij 称为因子载荷是第i 个变量在第j 个公共因子上的负荷,如果把变量X i 看成m 维因子空间中的一个向量,则ij a 表示X i 在坐标轴F j 上的
投影,矩阵A 称为因子载荷矩阵;ε称为X 的特殊因子,通常理论上要求ε的协方差阵是对角阵,ε中包括了随机误差。
由上述模型满足的条件可知:m F F F ,,,21 是不相关的。若m F F F ,,,21 相关时,则D(F)就不是对角阵,这时的模型称为斜交因子模型,本章将不讨论这种模型。
类似地,Q 型因子分析数学模型为:
⎪⎪⎩⎪⎪
⎨
⎧++++=++++=++++=n
m nm n n n m m m m F a F a F a X F a F a F a X F a F a F a X εεε 22112
22221212112121111 此时X 1, X 2, …, X n 表示n 个样品。
因子分析的目的就是通过模型ε+=AF X 代替X ,由于n m p m <<,,从而达到简化变量维数的愿望。
因子分析和主成分分析有很多相似之处,在求解过程中二者都是从一个协方差阵(或相似系数阵)出发,但这两种模型是有区别的,主成分分析的数学模型实质上是一种变换,而因子分析模型是描述原指标X 协方差阵∑结构的一种模型,当p m =时,主不能考虑ε,此时因子分析也对应于一种变量变换,但在实际应用中,m 都小于p ,且为经济起见总是越小越好。另外在主成分分析中每个主成分相应的系数ij a 是唯一确定的,即因子戴荷阵不是唯一的,若Γ为任一个m m ⨯阶正交阵,则因子模型ε+=AF X 可写成:ε+Γ'Γ=))((F A X ,仍满足约束条件,即0),(),(,)()(=Γ'=Γ'=ΓΓ'=Γ'εεF Cov F Cov I F D F D m ,所以F Γ'也是公共因子,ΓA 也是因子载荷阵。因子载荷这个不唯一性,从表面上看是不利的,但后面将会看到当因子载荷阵A 的结构不够简化时,可对A 实行变换以达到简化目的,使新的因子更具有鲜明的实际意义。从因子分析的数学模型上看,它与多变量回归分析也有类似之处,但本质的区别是因子分析模型作为“自变量”的F 是不可观测的。
2 因子模型中公共因子、因子载荷和变量共同度的统计意义 为了便于对因子分析计算结果做解释,将因子分析数学模型中各个量的统计意义加以说明是十分必要的。
假定因子模型中,各个变量以及公共因子、特殊因子都已经是标准化(均值为0,方差为1)的变量。
(1)因子戴荷的统计意义 已知模型:
i m im j ij i i i F a F a F a F a X ε++++++= 2211
两端后乘F j 得:
j i j m im j ij j i j i j i F F F a F F a F F a F F a F X ε++++++= 12211
于是
)()()()()()(2211j i j m im j j ij j i j i j i F E F F E a F F E a F F E a F F E a F X E ε++++++=
由于在标准化下有: