多元统计分析 第8章(因子分析)
多元统计分析之因子分析
多元统计分析之因子分析因子分析是一种常用的多元统计分析方法,旨在从大量观测指标中发现其背后的基本因素或维度,以简化数据分析的复杂性,并提供关于样本之间的隐含结构的信息。
本文将对因子分析的概念、原理、步骤以及其在研究中的应用进行详细介绍。
一、概念和原理因子分析是一种研究多个变量之间关系的统计技术,它通过寻找多个变量之间的共同特征,将它们归纳为较少的无关因素或构念。
这些无关因素或构念称为因子,它们是通过将原始变量进行数学转换而得到的。
因子分析通过发现这样的因子,帮助研究者识别数据中潜在的结构和模式。
因子分析的基本原理是假设多个变量之间存在共同的潜在因素,并试图将这些变量映射到较少的综合因素上。
这些潜在因素无法被直接观察到,因此需要通过数学上的推导和计算才能确定它们的存在。
因子分析的目标是找到能够解释原始变量之间的相关性的最小数目的因子。
二、步骤因子分析通常包括以下步骤:1.收集数据:收集包含多个观测指标的数据,这些指标应当反映被研究对象的多个方面。
2.确定分析的类型:根据研究目的和数据特点,确定主成分分析还是常规因子分析。
3.确定因子数目:使用合适的统计方法(如特征值、解释方差等)确定需要提取的因子数目。
4.提取因子:通过数学计算,将原始变量转换为较少的无关因子。
5.因子旋转:为了使因子更易于解释,通常进行因子旋转,以最大化因子之间的独立性并减少因子与原始变量之间的关联性。
6.解释因子:解释提取的因子,确定它们的意义和作用。
7.评估结果:评估因子分析的效果,并根据需要进行调整和修正。
三、应用因子分析广泛应用于社会科学、市场调研、心理学等领域。
以下列举一些常见的应用场景:1.人格特征研究:通过对多个问卷调查指标进行因子分析,识别人格特征的维度和结构。
2.战略管理:通过对市场指标、经济指标等进行因子分析,发现不同因素对企业发展的影响程度,从而制定合理的战略决策。
3.客户满意度调查:通过对客户满意度调查指标进行因子分析,发现影响客户满意度的各因素,并为改善客户满意度提供指导。
多元统计分析之因子分析
(2)累计贡献率:前 k个主成分的累计贡献率指按照方差 贡献率从大到小排列,前 k 个主成分累计提取了多少的原 始信息,即前面 k 个主成分累计提取了x1,x2,…,xp多少 的信息。 一般来说,如果前 k 个主成分的累计贡献率达到 85%,表明前 k 个主成分包含了全部测量指标所具有的主 要信息,这样既减少了变量的个数,又便于对实际问题的 分析和研究。
KMO检验是依据变量间的简单相关与偏相关的比较。
其计算公式为所有原变量简单相关系数的平方和除以简单 相关系数平方和加偏相关系数平方和。即:
(0≤KMO≤1)
r 其中,ij2 是变量i和j的简单相关系数,
偏相关系数。
是变p量i2j i和变量j的
如果KMO值越接近1,则越适合于做因子分析,如果 KMO越小,则越不适合于做因子分析,其判断标准如下: 0.9<KMO:非常适合 0.8<KMO<0.9 :适合 0.7<KMO<0.8:一般 0.6<KMO<0.7:不太适合 KMO<0.5:不合适
3.因子分析的目的
因子分析的目的,通俗来讲就是简化变量维数。即要使 因素结构简单化,希望以最少的共同因素(公共因子), 能对总变异量作最大的解释,因而抽取得因子越少越好, 但抽取的因子的累积解释的变异量越大越好。
例: 在企业形象或品牌形象的研究中,消费者可以通过一个
由24个指标构成的评价体系,评价百货商场的24个方面的 优劣。但消费者主要关心的是三个方面,即商店的环境、 商店的服务和商品的价格。因子分析方法可以通过24个变 量,找出反映商店环境、商店服务水平和商品价格的三个 潜在的因子,对商店进行综合评价。而这三个公共因子可 以表示为:
方法二:巴特利特(Bartlett )球形检验
多元统计分析之因子分析
第八章 因子分析§8.1 什么是因子分析及基本思想1904年Charles Spearman 发表一篇著名论文《对智力测验得分进行统计分析》视为因子分析的起点。
因子分析的形成和发展有相当长的历史,最早用以研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长时间。
后来由于电子计算机的出现,才使因子分析的理论研究和计算问题,有了很大的进展。
目前这一方法的应用范围已十分广泛,在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域都取得了显著的成绩。
1 什么是因子分析因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。
例如,某公司对100名招聘人员的知识和能力进行测试,出了50道题的试卷,其内容包括的面较广,但总的来讲可归纳为六个方面:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子,显然这里所说的因子不同于回归分析中因素,因为前者是比较抽象的一种概念,而后者有着极为明确的实际意义,如人口密度、工业总产值、产量等。
假设100人测试的分数{}100,,1, =i X i 可以用上述六个因子表示成线性函数:,1001,i 662211 =++++=i i i i i F a F a F a X ε其中61,,F F 表示六个因子,它对所有X i 是共有的因子,通常称为公共因子,它们的系数61,i i a a 称为因子载荷,它表示第i 个应试人员在六个因子方面的能力。
i ε是第i 个应试人的能力和知识不能被前六个因子包括的部分,称为特殊因子,通常假定),0(~2i i N σε,仔细观察这个模型与回归模型在形式上有些相似,实质很不同。
多元统计分析 因子分析(方法+步骤+分析 总结)
因子分析+聚类分析:一.对数据进行因子分析,实验步骤:1在SPSS窗口中选择:分析-降维-因子分析,在因子分析主界面将变量X1 移入变量框2点击“描述”,在对话框中,统计量选择:原始分析结果,相关矩阵选择:系数,以描述相关系数,点击继续3点击“抽取”,在对话框中,方法为主成份,分析选择:相关性矩阵,输出选择:未旋转的因子解和碎石图,抽取中选择基于特征值(特征值大于1)或者因子的固定数量(要提取的因子为2),点击继续4点击“旋转”,在对话框中,方法为最大方差法,在输出中选择旋转解和载荷图(当因子数=2时),点击继续5点击“得分”,在对话框中,选中“保存为变量”和“显示因子得分系数矩阵”,在方法中选择“回归”,点击继续6点击确定实验结果分析:1.特征根和累计贡献率解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的 % 累积 % 合计方差的 % 累积 % 合计方差的 % 累积 %1 2.731 45.520 45.520 2.731 45.520 45.520 2.688 44.802 44.8022 2.218 36.969 82.488 2.218 36.969 82.488 2.261 37.687 82.4883 .442 7.360 89.8484 .341 5.688 95.5365 .183 3.044 98.5806 .085 1.420 100.000提取方法:主成份分析。
由表中可以看出,因为成份1和2的特征值>1,被提取出来,而且由于第三个特征根相比下降比较快,我们也只选取两个公共因子,对1和2旋转后其累计贡献率为82.488%。
由碎石图,我们也可以看出1和2的特征值大于1,可以被提取出来,其余变量特征值过小,不予提取。
成份矩阵a成份1 2v1 .928 .253v2 -.301 .795v3 .936 .131v4 -.342 .789v5 -.869 -.351v6 -.177 .871由旋转前的成分矩阵可以写出每个原始变量关于各个成份的表达式。
多元统计分析 第8章(因子分析)
.
.
.
.. .
X5
0.63 0.49 0.19 0.29 1.00
.
.
.. .
X6
0.40 0.52 0.36 0.46 0.34 1.00
.
.. .
X7
0.28 0.31 0.73 0.27 0.17 0.32 1.00
.. .
X8
0.20 0.36 0.24 0.39 0.23 0.33 0.24 1.00 . .
用这m个不可观测的相互独立的公因 子 F1, F2, ,Fm (也称潜因子)和一
个特殊 i来描述原始可测的相关变量
(科目成绩) x1 , x2 , , x p , 并解释分析学 生的学习能力.
11
教育测量中的项目反应理论模型:
Pj ( ) exp aj ( bj ) 1 exp aj ( bj )
2 1
,
,
2 p
)
(特 殊 因 子 间 不 相 关)
cov(F , ) 0(公 共 因 子 与 特 殊 因 子 间不 相 关)
19
其中:
x x1 x2 x p 是 可 观 测 的 随 机 向 量 ,
F (F1 F2 Fm )(m p)是 不 可 观 测 的 随 机 向 量 ,F1 F2 Fm 一 般 对x 每 一 个 分 量xi 都 有 作 用 , 所 以 称 为x 的公 共 因 子, 而
24
二、正交因子模型中各个量的统计意义 1. 因子载荷的统计意义 2. 变量共同度的统计意义 3. 公因子Fi的方差贡献的统计意义
25
1. 因子载荷的统计意义
若
var(
x
i
)
1,
则x
《应用多元分析》第三版(第八章 因子分析)
因此,因子载荷矩阵A不是惟一的,在实际应用中常常利用
这一点,通过因子的旋转(见稍后的§8.4),使得新的因子
有更好的实际意义。
三、因子载荷矩阵的统计意义
❖
1.A的元素aij
m
2
2
h
a
❖ 2.A的行元素平方和 i
ij
j 1
p
2
2
g
a
❖ 3.A的列元素平方和 j
ij
i 1
❖ 二、正交因子模型的性质
❖ 三、因子载荷矩阵的统计意义
一、数学模型
❖
设有p维可观测的随机向量 x ( x1 , x2 , , x p ),其均值
为 μ ( 1 , 2 , , p ),协差阵为Σ=(σij)。因子分析的
一般模型为
x1 1 a11 f1 a12 f 2 a1m f m 1
有什么实际意义的,故实践中m也不应选得过小。
2.模型不受单位的影响
❖
将x的单位作变化,通常是作一变换x*=Cx,这里
C=diag(c1,c2,⋯,cp),ci>0,i=1,2,⋯,p,于是
x*=C μ+CAf+C ε
令μ*=C μ,A*=CA,ε*=C ε,则有
x*=μ*+A*f+ε*
这个模型能满足类似于前述因子模型的假定,即
x a f a f a f
2
2
21 1
22 2
2m m
2
x p p a p1 f1 a p 2 f 2
a pm fm p
其中f1, f2, ⋯, fm为公共因子,ε1, ε2, ⋯, εp为特殊因子,
多元统计分析因子分析(方法步骤分析总结)
因子分析+聚类分析:一.对数据进行因子分析,实验步骤:1在SPSS窗口中选择:分析-降维-因子分析,在因子分析主界面将变量X1 移入变量框2点击“描述”,在对话框中,统计量选择:原始分析结果,相关矩阵选择:系数,以描述相关系数,点击继续3点击“抽取”,在对话框中,方法为主成份,分析选择:相关性矩阵,输出选择:未旋转的因子解和碎石图,抽取中选择基于特征值(特征值大于1)或者因子的固定数量(要提取的因子为2),点击继续4点击“旋转”,在对话框中,方法为最大方差法,在输出中选择旋转解和载荷图(当因子数=2时),点击继续5点击“得分”,在对话框中,选中“保存为变量”和“显示因子得分系数矩阵”,在方法中选择“回归”,点击继续6点击确定实验结果分析:1.特征根和累计贡献率由表中可以看出,因为成份1和2的特征值>1,被提取出来,而且由于第三个特征根相比下降比较快,我们也只选取两个公共因子,对1和2旋转后其累计贡献率为82.488%。
由碎石图,我们也可以看出1和2的特征值大于1,可以被提取出来,其余变量特征值过小,不予提取。
从旋转成份矩阵可以看出,经过旋转的载荷系数产生了明显的区别,横向找到最大的一个数,如上表中黄色部分画出,第一个公因子在v1,v3,v5上占有较大载荷,说明于这三个指标有较大的相关性,命名为;第二个公因子在v2,v4,v6上有较大载荷,有较大相关性,归为一类,可命名为。
该表为成分转换矩阵,给出旋转所需的矩阵可以用成份得分系数矩阵写出各个因子关于中心标准化后的变量的表达式。
F1=0.385x1-0.001x2+…..F2=…..(分析的举例:第一个因子在外貌自信心洞察力推销能力工作魄力志向抱负理解能力潜能等变量上有较大的系数,可以抽象为应聘者主客观工作能力因子第二个因子在简历格式工作经验适应力变量上有较大的系数,可抽象为应聘者对客观环境的适应力因子第三个因子在兴趣爱好诚信度求职渴望度变量上有较大的系数,可抽象为应聘者的兴趣和诚信因子。
第8讲因子分析与对应分析
第8讲因子分析与对应分析因子分析和对应分析是多元统计分析的两个重要方法,可以用于探索和解释多个变量之间的关系。
本文将详细介绍因子分析与对应分析的原理、应用以及在研究中的注意事项。
一、因子分析1.概念与原理因子分析是一种用于降维和检验构念的统计方法,通过分析变量之间的共同变异性,将一组相关变量归纳为几个相互独立的因子。
通过因子分析,可以减少变量的数量,提取出变量集合的共同因素,并进一步应用这些因子进行研究。
2.过程与步骤因子分析的步骤主要包括:确定因子数量、提取因子、旋转因子和解释因子。
首先,需要根据研究的目的和理论基础确定因子的数量;然后,通过主成分分析、最大似然法等方法提取因子;接着,对提取的因子进行旋转,以便更好地解释因子的含义;最后,根据提取和旋转的因子来解释因子的含义和解释力,进行结果的解释。
3.应用与示例因子分析可以应用于研究心理学、社会学、经济学等多个领域。
例如,在心理学中,可以通过因子分析提取出代表不同人格特征的因子,从而研究不同因素对人格的影响。
在市场研究中,可以通过因子分析分析顾客对不同产品特征的偏好,从而为产品定位和市场推广提供参考。
二、对应分析1.概念与原理对应分析是一种描绘和解释两个或多个表格之间关系的统计方法,通过计算表格中元素之间的关联性,找出表格之间的对应关系。
对应分析基于数学原理,可以识别表格中的模式和趋势,并提供对表格元素之间关系的可视化展示。
2.过程与步骤对应分析的过程主要包括:计算对应坐标、分析对应方向和解释对应结果。
首先,通过降维技术(如主成分分析)计算表格中每个元素的对应坐标,即将高维表格转化为低维坐标。
其次,通过对应方向的分析,找出表格之间的对应关系。
最后,根据对应结果,解释表格之间的关联性和趋势。
3.应用与示例对应分析可以应用于研究多个变量之间的关系,如消费者对产品特征的偏好、不同地区的经济发展等。
例如,在市场研究中,可以通过对应分析识别消费者对不同产品特征的偏好,并据此进行市场推广策略。
应用多元分析第八章 因子分析
1.00 0.32 0.33 0.18 0.00
1.00 0.24 1.00 0.34 0.24 1.00 -0.02 0.17 -0.00 1.00
例8.1.2 为了评价即将进大学的高中生的学习能力, 抽了200名高中生进行问卷调查,共50个问题。素 有这些问题可以归结为阅读理解、数学水平和艺 术素养三个方面。 例8.1.3 公司老板对48名应聘者进行面试,并给出 他们在15个方面的得分,这15个方面是:申请书 的形式(x1)、外貌(x2)、专业能力(x3)、讨人喜欢 (x4)、自信心(x5)、精明(x6)、诚实(x7)、推销能力 (x8)、经验(x9)、积极性(x10)、抱负(x11)、理解能 力(x12)、潜力(x13)、交际能力(x14)、适应性(x15)。 通过因子分析,这15个方面可归结为应聘者的外露 能力、讨人喜欢的程度、经验、专业能 i i 1,,10.
j 1
4
十项全能运动员得分相关矩阵
X1
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 1.00 0.59 0.35 0.34 0.63 0.40 0.28 0.20 0.11 -0.77
X2
X3
X4
X5
X6
X7
i 1
i
i 1
一、主成分法:
1 n 1 n x xi , S ( xi x )( xi x ) ' n i 1 n 1 i 1
ˆ ˆ 1、求出S的特征值1 p 0, 相应的正交单位特征向量
ˆ ti , i 1, , p。
2、估计:
data examp733(type=corr); input x1-x8; cards; 1.000 . . . . . . . 0.923 1.000 . . . . . . 0.841 0.851 1.000 . . . . . 0.756 0.807 0.870 1.000 . . . . 0.700 0.775 0.835 0.918 1.000 . . . 0.619 0.695 0.779 0.864 0.928 1.000 . . 0.633 0.697 0.787 0.869 0.935 0.975 1.000 . 0.520 0.596 0.705 0.806 0.866 0.932 0.943 1.000 ; proc factor data=examp733(type=corr); var x1-x8; proc factor data=examp733(type=corr) n=2; var x1-x8; run;
第八章_因子分析
第八章_因子分析因子分析是一种常用的多元统计分析方法,它通过对观测变量之间的关系进行综合考虑,将它们归纳为较少数量的共同因子,并解释这些因子与观测变量之间的关系。
因子分析可以用来发现数据背后的隐藏结构和模式,从而提高数据的解释力和预测能力。
1.因子分析的主要应用领域因子分析在许多领域中都有广泛应用。
在社会科学领域,因子分析常用于对人的主观评价和态度的研究,例如对消费者满意度、领导能力等方面的研究。
在市场研究中,因子分析可以将众多的市场指标归纳为几个关键的影响因素,从而更好地了解市场的特点和消费者的需求。
在心理学领域,因子分析可以用来研究人的智力、性格、态度等方面的因素。
在生物医学领域,因子分析可以用来研究疾病的病因,如心脏病的发病机制等。
2.因子分析的基本原理因子分析的基本原理是通过对观测变量之间的协方差矩阵进行特征值分解,找出最能解释观测变量之间关系的共同因子。
首先,将原始数据标准化,然后计算变量之间的协方差矩阵。
接下来,对协方差矩阵进行特征值分解,得到一组特征值和特征向量。
根据特征值的大小,选择前k个最大的特征值对应的特征向量,作为共同因子的估计。
最后,通过因子载荷矩阵和因子得分矩阵,将观测变量映射到共同因子上进行解释。
3.因子分析的步骤因子分析的步骤主要包括:确定研究对象和目标、准备数据、选择因子提取方法、确定因子数目、因子旋转和解释因子。
(1)确定研究对象和目标:确定要进行因子分析的变量和要研究的问题,例如对消费者满意度进行因子分析,研究消费者满意度的主要影响因素。
(2)准备数据:收集数据并进行预处理,包括缺失值处理、异常值处理和变量标准化。
(3)选择因子提取方法:根据数据的特点和研究目标选择适合的因子提取方法,常见的方法包括主成分分析、主因子分析和最大似然估计。
(4)确定因子数目:根据特征值和方差贡献率等指标,确定最优的因子数目。
(5)因子旋转:对提取的因子进行旋转,使得每个因子上的变量载荷更加清晰和有意义。
第八章 多元统计分析
a Component M atrix
1 x 1 x 2 x 3 x 4 x 5 x 6 x 7 .746 .796 .709 .911 -.234 -.177 -.886
Component 2 .489 .372 -.597 .389 .963 .972 .219
3 -.443 .460 .100 -.074 .019 .115 .016
Component 1 2 3 4 5 6 7
Total 3.395 2.806 .436 .276 .081 .004 .000
Extraction Method: Principal Component Analysis.
• 此表给出各因子得分、贡献率及累积贡献 率,并列出三个主要因子的得分、贡献率。
• 描述性统计给出各变量的平均值,标准差、 样本数等。
Correlation Matrixa Correlation x1 x2 x3 x4 x5 x6 x7 x1 x2 x3 x4 x5 x6 x7 x1 1.000 .580 .201 .909 .283 .287 -.533 .001 .168 .000 .085 .082 .003 x2 .580 1.000 .364 .837 .166 .261 -.608 .001 .037 .000 .214 .104 .001 x3 .201 .364 1.000 .436 -.704 -.681 -.649 .168 .037 .015 .000 .000 .000 x4 .909 .837 .436 1.000 .163 .203 -.678 .000 .000 .015 .218 .165 .000 x5 .283 .166 -.704 .163 1.000 .990 .427 .085 .214 .000 .218 .000 .017 x6 .287 .261 -.681 .203 .990 1.000 .357 .082 .104 .000 .165 .000 .040 x7 -.533 -.608 -.649 -.678 .427 .357 1.000 .003 .001 .000 .000 .017 .040
统计学8因子分析
进一步分析
• 加入第二个公因子。
• 旋转。
• 例:中国11名优秀男子跳高运动员专
项成绩与几项基本运动素质的数据如 tiaogao.sav,试对各项成绩进行因子
分析。(原地纵跳和助跑摸高)
分析步骤
• 根据具体问题,判断是否需要进行因 子分析。 • 进行分析,按一定标准确定提取的因 子数目。 • 考察因子的可解释性,并在必要时进 行因子旋转。 • 如有必要,可计算出因子得分等中间 指标供进一步分析使用。
例 题
• 在某次儿童生长发育调查中测 量了许多指标,其中有关心脏 的指标为心脏横径、纵径、宽 径 、胸腔横径以及心脏面积。 因这五个指标存在较强的相关 性,请从中提取适当数量的主 成分,以替代原变量用来进行 以后的分析。数据见heart.sav。
适用条件
• 各变量间必须有相关性: • KMO统计量:取值范围0~1,一 般认为大于0.9时效果最佳,0.7以 上效果尚可,0.6时效果很差,0.5 以下时不适宜做因子分析。 • Bartlett’s球形检验:用于检验各 变量是否各自独立。
适用条件
• 样本量与变量数的比例应在5:1 以上,实际一理想的样本量应为 变量数的10-25倍,但这很难做到。 5-10倍之间虽略显不足,但一般 都能得到较好的结果。总样本量 不得少于100,而且原则上越大越 好。
相关性检验
• KMO统计量时效果很差, 0.5以下时不宜做因子分析。 • Bartlett’s球形检验:如果不拒绝H0, 则说明这些变量可能各自独立提供 一些信息。
主成分数量的确定
• 主成分的累积贡献率:一般来说,提取主 成分的累积贡献率达到80-85%以上应比 较满意了。 • 特征根:在某种程度上可以被看成是表示 主成分影响力度大小的指标,如果特征根 小于1,说明该主成分的力度还不如直接 引入一个原变量的平均解释力度大。因此 可以用特征根大于1作为纳入标准。 • 综合判断。
应用多元统计分析章节后习题答案详解北大高惠璇八章节习题解答
第八章 因子分析
m1 lm 1 0 m 1 BB ( m1 lm1 ,, p l p ) p l 0 p p
故
j m 1
因
p
2 j
tr(BB BB ) tr(BB BB) tr[(E D)( E D)] tr[E E E D DE DD] Q(m) 0 0 ( i2 ) 2
(
i 1 2 2 2 2
p
2 2 i
)
2 2 3
Q(1) ( ) [( ) ( ) ( ) ] 2 2 0.6795 0.3672 [0.2331 0.3091 0.4943 ] 0.5966 0.3943 0.2023 2 2 2 2 2 Q(2) 3 [( 12 ) 2 ( 2 ) ( 3 ) ] 2 2 2 2 0.3672 [0.2007 0.1452 0.01131 ] 0.1348 0.06149 0.07331
18
(2) ( AA D) 1 D 1 D 1 A( I AD 1 A) 1 A1 D 1 ; (3) A( AA D) 1 ( I m AD 1 A) 1 AD 1. 解:利用分块矩阵求逆公式求以下分块矩阵的逆:
记B221 I m AD A,
1 1 1 21 A B112 B221 A D B
I m AB
A B
1 221
B
22
把B22· 1和B11· 2式代入以上各式,可得:
( D AA) 1 D 1 D 1 A( I m AD 1 A) 1 AD 1 A( D AA) 1 ( I m AD 1 A) 1 AD 1 I m A( D AA) 1 A ( I m AD 1 A) 1 (3) ( 2)
多元统计分析课件 第八章 因子分析
9
因子分析与主成分分析是多元分析中两种 重要的降维方法,但两者有很大的不同
主成分分析不能作为一个模型来描述,它只 能作为一般的变量变换,主成分可表示为 可观测的原始变量的线性组合。
1.因子分析FA:是研究众多原始变量间相关系数矩 阵或协方差矩阵的内部依赖关系,它是将众多个具有 错综复杂关系的变量归结为少数几个综合因子,以此 再现原始变量与综合(公共)因子之间的相关关系.
所以,因子分析侧重于探究多变量之间的相关性 的简化数据结构的方法。
4
例1. 为了了解学生的学习能力,观测了n个学生的p个 科目的成绩(分数),用X1,…,Xp表示p个科目(例如 代数、几何、语文、英语、政治,…),
定的。
这就是一个最简单的因子模型.
5
进一步地,可把这个简单因子模型推广到多个
因子的情况,即全体科目X所共有的因子有m
个,如数学推导因子、记忆因子、计算因子…
等.分别记为F1,…,Fm,即
Xi=ai1F1十ai2F2十…十aimFm十εi
(i=l,…,p)
用这m个不可观测的、相互独立的、公共因子 F1,…,Fm(也称为潜因子)和一个特殊因子εi 来描述原始可测变量(科目) X1,…,Xp,并 以此来解释分析学生的学习能力。
而因子分析需要构造一个因子模型,公因子 一般不能表示为原始变量的线性组合。
此外,在研究的侧重点上二者也有所差异, 在此不再赘述。
10
例5. 某公司对100名招聘人员的知识和能力进行测
试,出了50道题的试卷。其内容包括的面较广,但总 的来讲可归纳为如下六个方面:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因子分析的思想:一种降维的方法. 因子 分析是研究相关阵或协差阵的内部依赖关 系,它将多个变量综合为少数几个因子, 以再现原始变量与因子之间的相关关系.
因子分析是主成分分析的推广和发展.
探索性因子分析(Exploratory Factor Analysis,EFA) 验证性因子分析(confirmatory factor analysis,CFA)
6
案例1 已知某学校33个学生6门功课的相 关矩阵,研究这6门课的成绩由哪些因子 决定.
x1:文学,x2:法语,x3:英语, x4:数学,x5:美术,x6:音乐.
xi aiF i
7
相关矩阵
x1 x2 x3 x4 x5 x6 x1 1 x2 0.83 1 x3 0.78 0.67 1 x4 0.70 0.67 0.64 1 x5 0.66 0.65 0.54 0.54 1 x6 0.63 0.57 0.51 0.51 0.40 1
x2:跳远 x4:跳高 x6:100米跨栏 x8:撑杆跳高 x10:1500米
13
相关矩阵
_NA ME_
X1
X2
X3
X4 X5 X6
x7
x8 x9 x10
X1
1.00
.
.
.
.
.
.
.. .
X2
0.59 1.00
.
.
.
.
.
.. .
X3
0.35 0.42 1.00
.
.
.
.
.. .
X4
0.34 0.51 0.38 1.00
1
验证性因子分析模型的示意图
2
1
x1
?
2
x2
3
x3
4
x4
F1
因
子
个
数
F2
?
5
x5
探索性因子分析模型的示意图
3
注意:
(1)如果原始变量之间不相关,不需要进 行因子分析;
(2)因子分析方法的分析结果不是唯一的, 有主观因素的影响,比如因子个数是主观确 定的,旋转的方法可以选择,所以受到一些 人的怀疑,他们认为分析者想得到什么结果 就可以得到什么结果,事实并不是如此.
9
多个因子的模型:
x1 a11F1 a12 F2 a1m Fm 1
x2
a 21 F1
a22 F2
a2m Fm
Байду номын сангаас
2
x
p
a p1 F1
a p2 F2
a pm Fm
p
比如数学推导因子、记忆因子、计算因子 等,分别记为 F1 , F2 ,, Fm .
10
用这m个不可观测的相互独立的公因 子 F1, F2, ,Fm (也称潜因子)和一
个特殊 i来描述原始可测的相关变量
(科目成绩) x1 , x2 , , x p , 并解释分析学 生的学习能力.
11
教育测量中的项目反应理论模型:
Pj ( ) exp aj ( bj ) 1 exp aj ( bj )
X9
0.11 0.21 0.44 0.17 0.13 0.18 0.34 0.24 1 .
X10 -0.07 0.09 -0.08 0.18 0.39 0.00 -0.02 0.17 0 1
14
案例3 Harman(1976)给出的美国12个城市 的数据,共有五个社会经济变量,分别为 人口总数(POP),居民的教育程度或中等教 育的年数(SCHOOL),总工作人数(EMPLOY), 各种服务行业的人数(SERVICES)和中等的房 价(HOUSE). 分析这五个变量可以由几个因素 确定.
➢ 主分量分析不能作为一个模型来描述,它只是 通常的变量变换,而因子分析需要构造因子模 型;
➢ 主分量分析中主分量的个数和变量个数p相同, 它是将一组具有相关性的变量变换为一组不相 关的变量,而因子分析的目的是要用尽可能少 的公因子,以便构造一个结构简单的因子模型;
➢ 主分量分析是将主分量表示为原变量的线性组 合,而因子分析是将原变量表示为公因子和特 殊因子的线性组合.
数据见教材305页例9.6.1
15
因子分析的主要应用有: ➢寻求基本结构,简化观测系统,将具有
错综复杂关系的对象(变量或样本)综合为 少数几个因子(不可观测的,相互独立的 随机变量),以再现因子与原变量之间的 内在联系;
➢用于分类,对p个变量或n个样品进行分 类.
16
因子分析与主分量分析的区别:
17
因子分析
R型因子分析 (变 量 )
Q型因子分析 (样 品 )
变量的相关阵
变量的协差阵 样品的相似矩阵
18
一、正交因子模型
x AF
E(
x
)
(已
知),
D( x) (已 知)
E(F ) 0, D(F ) I m (公 共 因 子 间 不 相 关)
E( ) 0,
8
1904年Charles Spearman指出,如果第i 个变量(第i门功课)上的分数由两部分组成的
xi ai F i
那么各门功课相关的“效应”就可以被说明. 其中F是对所有变量都起作用的公因子, i 是 第i个变量所特有的,即每门课程的考试成绩 可以看作由一个公因子(智力因子)和一个 特殊因子之和组成. 这是最早的最简单的因 子模型.
.
.
.
.. .
X5
0.63 0.49 0.19 0.29 1.00
.
.
.. .
X6
0.40 0.52 0.36 0.46 0.34 1.00
.
.. .
X7
0.28 0.31 0.73 0.27 0.17 0.32 1.00
.. .
X8
0.20 0.36 0.24 0.39 0.23 0.33 0.24 1.00 . .
其中Pj()是答对项目j的概率,aj和bj是项 目参数,是被试的能力参数,类似因子
分析的公因子,但不再是线性关系,而
是非线性的关系,Pj()也不再是随机变
量,而是随机变量的期望.
12
案例2 对男子十项全能运动得分作因子分 析研究,然后作方差最大旋转,由旋转后 的因子载荷阵解释公因子的含义.
x1:100米 x3:投铅球 x5:400米 x7:铁饼 x9:标枪
(3)用因子分析方法能成功解决实际问题 就用,否则就不用.
4
§8.1 因子分析模型 §8.2 参数估计方法 §8.3 方差最大的正交旋转 §8.4 因子得分 §8.5 应用案例
5
§8.1 因子分析模型
因子分析的形成和早期发展一般认 为是从Charles Spearman在1904年发表 的文章开始. 他提出这种方法用来解决 智力测验得分的统计分析. 因子分析在 心理学、社会学、经济学等学科都取得 成功的应用.