最新多元统计分析之因子分析

合集下载

多元统计分析中的因子分析和聚类分析

多元统计分析中的因子分析和聚类分析

在多元统计分析中,因子分析和聚类分析是两种常用的数据分析方法。

它们可以帮助我们理解数据中的潜在结构和相似性,从而揭示数据背后的规律和关系。

首先,让我们来了解一下因子分析。

因子分析是一种主成分分析方法,用于研究多个变量之间的相关性。

通过对原始数据进行因子提取,可以将一组相关的变量转换为少数几个无关的维度,这些维度被称为因子。

因子分析的核心思想是将一组相关的变量解释为共同的因素或维度,从而减少数据的复杂性。

因子分析可以帮助我们理解变量之间的内在结构,并找到隐藏在数据背后的影响因素。

聚类分析是一种无监督学习方法,用于将数据集中的对象划分为不同的群组。

聚类分析的目标是找到数据中的相似性并将其归类到同一组中。

聚类分析可以帮助我们识别数据中的模式和群组,并进行数据的分类和分析。

聚类分析可以基于数据的相似性进行聚类,也可以基于数据的距离进行聚类。

通过聚类分析,我们可以发现数据中的群组结构,并推断这些群组之间的关系。

因子分析和聚类分析在多元统计分析中扮演着不同的角色。

因子分析更侧重于变量之间的相关性和潜在结构,可以帮助我们理解变量之间的共同特征和因素。

聚类分析则更侧重于数据的相似性和群组结构,可以帮助我们找到数据中的模式和群组。

由于它们的不同特点和应用场景,因子分析和聚类分析常常被结合使用,以获得更全面的数据分析结果。

在实际应用中,因子分析和聚类分析可以用于许多领域。

在社会科学中,因子分析可以用于分析调查问卷数据,找到共同的问题维度和影响因素。

聚类分析可以用于市场细分和受众分析,帮助企业发现潜在的目标市场并制定相应的营销策略。

在医学研究中,因子分析可以用于分析疾病的症状和因素,聚类分析可以用于发现疾病的亚型和患者的分类。

综上所述,因子分析和聚类分析在多元统计分析中发挥着重要作用。

它们可以帮助我们理解数据中的潜在结构和相似性,并用于数据分类、模式识别和关联分析。

因子分析和聚类分析是数据分析中常用的工具,研究人员可以根据具体问题和数据特点选择合适的方法。

多元统计分析之因子分析

多元统计分析之因子分析

多元统计分析之因子分析因子分析是一种常用的多元统计分析方法,旨在从大量观测指标中发现其背后的基本因素或维度,以简化数据分析的复杂性,并提供关于样本之间的隐含结构的信息。

本文将对因子分析的概念、原理、步骤以及其在研究中的应用进行详细介绍。

一、概念和原理因子分析是一种研究多个变量之间关系的统计技术,它通过寻找多个变量之间的共同特征,将它们归纳为较少的无关因素或构念。

这些无关因素或构念称为因子,它们是通过将原始变量进行数学转换而得到的。

因子分析通过发现这样的因子,帮助研究者识别数据中潜在的结构和模式。

因子分析的基本原理是假设多个变量之间存在共同的潜在因素,并试图将这些变量映射到较少的综合因素上。

这些潜在因素无法被直接观察到,因此需要通过数学上的推导和计算才能确定它们的存在。

因子分析的目标是找到能够解释原始变量之间的相关性的最小数目的因子。

二、步骤因子分析通常包括以下步骤:1.收集数据:收集包含多个观测指标的数据,这些指标应当反映被研究对象的多个方面。

2.确定分析的类型:根据研究目的和数据特点,确定主成分分析还是常规因子分析。

3.确定因子数目:使用合适的统计方法(如特征值、解释方差等)确定需要提取的因子数目。

4.提取因子:通过数学计算,将原始变量转换为较少的无关因子。

5.因子旋转:为了使因子更易于解释,通常进行因子旋转,以最大化因子之间的独立性并减少因子与原始变量之间的关联性。

6.解释因子:解释提取的因子,确定它们的意义和作用。

7.评估结果:评估因子分析的效果,并根据需要进行调整和修正。

三、应用因子分析广泛应用于社会科学、市场调研、心理学等领域。

以下列举一些常见的应用场景:1.人格特征研究:通过对多个问卷调查指标进行因子分析,识别人格特征的维度和结构。

2.战略管理:通过对市场指标、经济指标等进行因子分析,发现不同因素对企业发展的影响程度,从而制定合理的战略决策。

3.客户满意度调查:通过对客户满意度调查指标进行因子分析,发现影响客户满意度的各因素,并为改善客户满意度提供指导。

多元统计分析因子分析

多元统计分析因子分析

多元统计分析因子分析多元统计分析是一种综合应用统计学和数学的方法,旨在分析多个变量之间的关系以及它们对其中一或多个隐含变量的影响。

其中,因子分析是多元统计分析中的一种方法,用于识别和解释观测数据中潜在的因子结构。

本文将介绍多元统计分析和因子分析的基本概念、原理和应用。

多元统计分析的基本概念主要包括变量、变量间的关系以及隐含变量。

变量是观测数据中的各个测量指标,可以是定量变量或定性变量。

变量间的关系描述了不同变量之间可能存在的相关性、相互作用关系或影响关系。

隐含变量是观测数据中未直接测量到但对所研究现象具有重要影响的一种潜在因素。

因子分析是一种常用的多元统计分析方法,其原理基于变量内部存在共同的变异性。

该方法尝试将观测数据中的变量通过线性组合转化为较少数量的潜在因子,以解释变量间的共同变异性。

因子分析可以分为探索性因子分析和确认性因子分析两种类型。

探索性因子分析旨在发现潜在因子的结构,确定因子的数目和变量的载荷;而确认性因子分析则是根据先前的理论和假设,验证数据是否符合所设定的因子结构。

因子分析的应用十分广泛。

在社会科学研究中,因子分析可以用于构建问卷调查中的量表,进一步检验其信度和效度。

在经济学领域,因子分析可以用于分析股票市场的主要因子,帮助投资者理解市场波动并制定投资策略。

在教育评价中,因子分析可以用于确定考试的难度、区分度和信度。

此外,因子分析还可以在医学研究中用于测量疾病的风险因素和干预效果。

在进行因子分析时,需要进行一系列的数据预处理步骤。

首先,需要检查数据的完整性,并根据需要进行数据清洗。

然后,可以进行因素提取,即确定因子的数目和每个变量在因子上的载荷。

最后,可以进行因子旋转,以使得因子的解释更为直观。

常用的因子旋转方法有正交旋转和斜交旋转两种类型。

正交旋转方法(如Varimax旋转)试图使得因子之间相互独立;而斜交旋转方法(如Oblimin旋转)允许因子之间存在一定的相关性。

总之,多元统计分析和因子分析提供了一种强大的工具,用于探索和解释多个变量之间的关系。

多元统计分析之因子分析

多元统计分析之因子分析

第八章 因子分析§8.1 什么是因子分析及基本思想1904年Charles Spearman 发表一篇著名论文《对智力测验得分进行统计分析》视为因子分析的起点。

因子分析的形成和发展有相当长的历史,最早用以研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长时间。

后来由于电子计算机的出现,才使因子分析的理论研究和计算问题,有了很大的进展。

目前这一方法的应用范围已十分广泛,在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域都取得了显著的成绩。

1 什么是因子分析因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。

例如,某公司对100名招聘人员的知识和能力进行测试,出了50道题的试卷,其内容包括的面较广,但总的来讲可归纳为六个方面:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子,显然这里所说的因子不同于回归分析中因素,因为前者是比较抽象的一种概念,而后者有着极为明确的实际意义,如人口密度、工业总产值、产量等。

假设100人测试的分数{}100,,1, =i X i 可以用上述六个因子表示成线性函数:,1001,i 662211 =++++=i i i i i F a F a F a X ε其中61,,F F 表示六个因子,它对所有X i 是共有的因子,通常称为公共因子,它们的系数61,i i a a 称为因子载荷,它表示第i 个应试人员在六个因子方面的能力。

i ε是第i 个应试人的能力和知识不能被前六个因子包括的部分,称为特殊因子,通常假定),0(~2i i N σε,仔细观察这个模型与回归模型在形式上有些相似,实质很不同。

多元统计分析 因子分析(方法+步骤+分析 总结)

多元统计分析 因子分析(方法+步骤+分析 总结)

因子分析+聚类分析:一.对数据进行因子分析,实验步骤:1在SPSS窗口中选择:分析-降维-因子分析,在因子分析主界面将变量X1 移入变量框2点击“描述”,在对话框中,统计量选择:原始分析结果,相关矩阵选择:系数,以描述相关系数,点击继续3点击“抽取”,在对话框中,方法为主成份,分析选择:相关性矩阵,输出选择:未旋转的因子解和碎石图,抽取中选择基于特征值(特征值大于1)或者因子的固定数量(要提取的因子为2),点击继续4点击“旋转”,在对话框中,方法为最大方差法,在输出中选择旋转解和载荷图(当因子数=2时),点击继续5点击“得分”,在对话框中,选中“保存为变量”和“显示因子得分系数矩阵”,在方法中选择“回归”,点击继续6点击确定实验结果分析:1.特征根和累计贡献率解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的 % 累积 % 合计方差的 % 累积 % 合计方差的 % 累积 %1 2.731 45.520 45.520 2.731 45.520 45.520 2.688 44.802 44.8022 2.218 36.969 82.488 2.218 36.969 82.488 2.261 37.687 82.4883 .442 7.360 89.8484 .341 5.688 95.5365 .183 3.044 98.5806 .085 1.420 100.000提取方法:主成份分析。

由表中可以看出,因为成份1和2的特征值>1,被提取出来,而且由于第三个特征根相比下降比较快,我们也只选取两个公共因子,对1和2旋转后其累计贡献率为82.488%。

由碎石图,我们也可以看出1和2的特征值大于1,可以被提取出来,其余变量特征值过小,不予提取。

成份矩阵a成份1 2v1 .928 .253v2 -.301 .795v3 .936 .131v4 -.342 .789v5 -.869 -.351v6 -.177 .871由旋转前的成分矩阵可以写出每个原始变量关于各个成份的表达式。

多元统计分析 第8章(因子分析)

多元统计分析 第8章(因子分析)

.
.
.
.. .
X5
0.63 0.49 0.19 0.29 1.00
.
.
.. .
X6
0.40 0.52 0.36 0.46 0.34 1.00
.
.. .
X7
0.28 0.31 0.73 0.27 0.17 0.32 1.00
.. .
X8
0.20 0.36 0.24 0.39 0.23 0.33 0.24 1.00 . .
用这m个不可观测的相互独立的公因 子 F1, F2, ,Fm (也称潜因子)和一
个特殊 i来描述原始可测的相关变量
(科目成绩) x1 , x2 , , x p , 并解释分析学 生的学习能力.
11
教育测量中的项目反应理论模型:
Pj ( ) exp aj ( bj ) 1 exp aj ( bj )
2 1
,
,
2 p
)
(特 殊 因 子 间 不 相 关)
cov(F , ) 0(公 共 因 子 与 特 殊 因 子 间不 相 关)
19
其中:
x x1 x2 x p 是 可 观 测 的 随 机 向 量 ,
F (F1 F2 Fm )(m p)是 不 可 观 测 的 随 机 向 量 ,F1 F2 Fm 一 般 对x 每 一 个 分 量xi 都 有 作 用 , 所 以 称 为x 的公 共 因 子, 而
24
二、正交因子模型中各个量的统计意义 1. 因子载荷的统计意义 2. 变量共同度的统计意义 3. 公因子Fi的方差贡献的统计意义
25
1. 因子载荷的统计意义

var(
x
i
)
1,
则x

多元统计分析因子分析(方法步骤分析总结)

多元统计分析因子分析(方法步骤分析总结)

因子分析+聚类分析:一.对数据进行因子分析,实验步骤:1在SPSS窗口中选择:分析-降维-因子分析,在因子分析主界面将变量X1 移入变量框2点击“描述”,在对话框中,统计量选择:原始分析结果,相关矩阵选择:系数,以描述相关系数,点击继续3点击“抽取”,在对话框中,方法为主成份,分析选择:相关性矩阵,输出选择:未旋转的因子解和碎石图,抽取中选择基于特征值(特征值大于1)或者因子的固定数量(要提取的因子为2),点击继续4点击“旋转”,在对话框中,方法为最大方差法,在输出中选择旋转解和载荷图(当因子数=2时),点击继续5点击“得分”,在对话框中,选中“保存为变量”和“显示因子得分系数矩阵”,在方法中选择“回归”,点击继续6点击确定实验结果分析:1.特征根和累计贡献率由表中可以看出,因为成份1和2的特征值>1,被提取出来,而且由于第三个特征根相比下降比较快,我们也只选取两个公共因子,对1和2旋转后其累计贡献率为82.488%。

由碎石图,我们也可以看出1和2的特征值大于1,可以被提取出来,其余变量特征值过小,不予提取。

从旋转成份矩阵可以看出,经过旋转的载荷系数产生了明显的区别,横向找到最大的一个数,如上表中黄色部分画出,第一个公因子在v1,v3,v5上占有较大载荷,说明于这三个指标有较大的相关性,命名为;第二个公因子在v2,v4,v6上有较大载荷,有较大相关性,归为一类,可命名为。

该表为成分转换矩阵,给出旋转所需的矩阵可以用成份得分系数矩阵写出各个因子关于中心标准化后的变量的表达式。

F1=0.385x1-0.001x2+…..F2=…..(分析的举例:第一个因子在外貌自信心洞察力推销能力工作魄力志向抱负理解能力潜能等变量上有较大的系数,可以抽象为应聘者主客观工作能力因子第二个因子在简历格式工作经验适应力变量上有较大的系数,可抽象为应聘者对客观环境的适应力因子第三个因子在兴趣爱好诚信度求职渴望度变量上有较大的系数,可抽象为应聘者的兴趣和诚信因子。

多元统计分析中的因子分析法的应用

多元统计分析中的因子分析法的应用

多元统计分析中的因子分析法的应用多元统计分析是一种研究多个变量在一起的统计方法,因子分析是其中的一种方法,它被广泛应用于社会科学、心理学、市场研究和生物医学等领域。

本文将介绍因子分析法的基本概念、应用场景、步骤、优缺点以及其未来的发展趋势。

一、基本概念因子分析法是一种通过变量间的相关关系来推导出隐藏变量的分析方法,它是一种将多个变量归类并简化数据的技术。

它可以通过避免多个变量共线性的风险,减小提取样本信息损失,使得数据集变得更加容易理解和解释。

在因子分析中,我们将多个观察变量归纳为较少数量的因子,每一个因子代表一个经验观察变量。

这些因子可以通过解析方差或者协方差矩阵,来确定它们之间的因果关系。

例如,在市场调查中,我们可能收集到了许多关于产品质量、价格、宣传等方面的数据,通过因子分析,我们可以将这些数据归为一个“产品满意度”因子。

二、应用场景因子分析法可以应用于以下领域:1.市场调查:通过因子分析法分析出消费者对产品品质、价格、服务等因素的偏好,帮助企业制定产品营销策略。

2.心理学:通过因子分析法研究情绪、人格、智力等心理特征,揭示内心因素对个人行为的影响。

3.社会科学:通过因子分析法研究社会现象,例如,通过因子分析判断城市居民对住房品质的不同需求,帮助政府进行城市规划。

三、步骤因子分析法的步骤主要包括:1.文件准备:准备数据,并对数据进行必要的清洗和预处理。

2.确定因子数:确定需要提取的潜在因子的数量。

3.提取因子:使用方差分析或最大相似函数提取因子。

4.解释因子:确定因子与每个观测变量之间的相关性,根据它们的关系将它们标识为特定的因素。

5.旋转因子:如果因子过于复杂,则需要使用因子旋转技术来简化分析结果并使其结果更加可解释。

四、优缺点优点:1.简化数据:因子分析法可以帮助研究人员发现数据中的潜在因素,从而简化数据。

2.提高解释性:因子分析法可以提高数据的解释能力。

3.可视化数据:因子分析法可以通过可视化的方法来展示数据,使分析结果更加直观。

多元统计分析数据处理中常见的方法与原理

多元统计分析数据处理中常见的方法与原理

多元统计分析数据处理中常见的方法与原理多元统计分析是一种从多个变量间关系来进行数据分析的方法。

它可以帮助我们发现变量间的关联,并揭示隐藏在数据背后的模式和规律。

在实际应用中,我们常常需要采用一些常见的方法来处理多元统计分析数据。

本文将介绍几种常见的方法及其原理,包括因子分析、聚类分析、判别分析和回归分析。

一、因子分析因子分析是一种用于降低变量维度的方法。

它基于一个假设,即多个观测变量可以由少数几个因子来解释。

因子分析的目标是找出这些因子,并确定它们与观测变量之间的关系。

因子分析的原理是通过对变量之间的协方差矩阵进行特征分解来获得因子载荷矩阵。

在这个矩阵中,每个变量与每个因子之间都有一个因子载荷系数。

这些系数表示了变量与因子之间的相关程度,值越大表示相关性越高。

通过分析因子载荷矩阵,我们可以确定哪些变量与哪些因子相关性最强,从而得出变量的潜在因子。

二、聚类分析聚类分析是一种用于将观测对象或变量进行分类的方法。

它基于一个假设,即属于同一类别的对象或变量在某些方面上相似,而不同类别之间的对象或变量则在某些方面上不同。

聚类分析可以帮助我们发现数据集中的群组,并研究不同群组之间的差异。

聚类分析的原理是通过测量对象或变量之间的相异性来确定分类。

最常用的相异性度量是欧氏距离和相关系数。

通过计算每个对象或变量之间的相异性,并基于相异性矩阵进行聚类,我们可以将数据划分为不同的类别。

三、判别分析判别分析是一种用于预测或解释分类变量的方法。

它基于一个假设,即存在一些预测变量对于解释或预测分类变量的发生概率有重要影响。

判别分析可以帮助我们确定哪些预测变量对于分类变量的发生概率有重要影响,并建立分类模型。

判别分析的原理是通过计算不同分类组之间的差异来确定预测变量的重要性。

最常用的差异度量是F统计量和卡方统计量。

通过计算这些统计量,并建立判别方程,我们可以将预测变量与分类变量之间的关系进行建模。

进而,我们可以使用该模型来对新的预测变量进行分类。

最新多元数据处理——因子分析法

最新多元数据处理——因子分析法

多元数据处理——因子分析法多元数据处理---因子分析方法多元数据处理主要包括多元随机变量,协方差分析,趋势面分析,聚类分析,判别分析,主成分分析,因子分析,典型相关分析,回归分析以及各个分析方法的相互结合等等。

本文主要针对其中的因子分析方法展开了论述,并举了一个因子分析法在我国房地产市场绩效评价中的应用实例。

第一章因子分析方法概述1.1因子分析的涵义为了更全面和准确的测量和评估对象的特征,在实际的应用中,我们往往尽可能多的选用特征指标进行系统评估,选取的指标越多,就越能全面、客观的反映评价对象的特征。

选取众多指标的同时也带来了统计分析的困难:一、不同的指标,不同重要程度需要赋予不同的权重,而靠主观的评价避免不了一些失误与错误。

二、收集到的指标之间可能存在较大的相关性,大量收集指标带来了人力、物力和财力的浪费。

而因子分析方法则较好的解决了上述问题。

因子分析[1]是一种多元统计方法,该方法起源于20世纪初 Karl Pearson 和Charles Spearman 等人关于心理测试的统计分析,它的核心是用最少的相互独立的因子反映原有变量的绝大部分信息。

[2]通过分析事物内部的因果关系来找出其主要矛盾,找出事物内在的基本规律。

因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但是,这少数几个随机变量是不可观测的,通常称为因子。

然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,使不同组内的变量相关性较低[3]。

对于所研究的问题就可试图用最少个数的所谓因子的线性函数与特殊因子之和来描述原来观测的每一变量[4]。

因子变量的特点:第一,因子变量的数量远小于原指标的数量,对因子变量的分析能够减少分析的工作量;第二,因子变量不是原有变量的简单取舍,而是对原有变量的重新组构,他们能够反映原有变量的绝大部分信息,不会产生丢失;第三,因子变量之间线性相关性较低;第四,因子变量具有命名解释性[5]。

多元统计分析--因子分析

多元统计分析--因子分析
2 2 Var (ε ) diag ( 12 , 2 ,, p )
8
二、因子分析模型的性质
1、原始变量X的协方差矩阵的分解
X - μ = AF + ε Var ( X - μ) = AVar (F) A + Var (ε)
Σ x = AA + D
A是因子模型的系数
2 2 Var (ε ) D diag ( 12 , 2 ,, p )
F* F
10
E (F ) 0
*
E (ε ) 0
*
Var (F* ) I
Var (ε* ) diag ( 12 , 2 ,, 2p ) 2
cov( F ,ε ) E( F ε ) 0
* * * *
11
3、因子载荷不是惟一的 设T为一个p×p的正交矩阵,令A*=AT,
个方面的优劣。
2
但消费者主要关心的是三个方面,即商店的环境 、商店的服务和商品的价格。因子分析方法可以通过24 个变量,找出反映商店环境、商店服务水平和商品价格 的三个潜在的因子,对商店进行综合评价。而这三个公 共因子可以表示为:
xi i i1F1 i 2 F2 i 3 F3 i
12
三、 因子载荷矩阵中的几个统计特征 1、因子载荷aij的统计意义
因子载荷 aij 是第i个变量与第j个公共因子的相关系数
模型为
X i ai1F1 aim Fm i
在上式的左右两边乘以 F j ,再求数学期望
E ( X i Fj ) ai1E ( F1Fj ) ij E ( Fj Fj ) aim E ( Fm Fj ) E ( i Fj )

多元统计分析之因子分析浅析

多元统计分析之因子分析浅析
a ayia tp fte fco n lss n ltc lse so h a tra ay i.
关 键词 : 多元统 计分析 ; 因子分析 ; 模型
Ke r s y wo d :mu t ait ttsia n l ss fco n y i; d l li raesaitc la ay i;a tra a ss mo e v l
称 为因子 分析模 型 , 由于该模型是针对 变量进 行的 , 各因子又 是 正 交 的 , 以也称 为 R 型 正 交 因子 模 型 。 所
其 矩 阵 形式 为 := F e x A +p 数据来源《 中国统计年鉴》 我 们 把 F称 为 x 的 公 共 因 子 或 潜 因子 ,矩 阵 A称 为。 = ( )a 为因子载荷。 A a i ,i i j 数学上可以证 系数阵R ③公因子方差 ④总方差解建立因子载荷阵: ⑤建立因子 ⑥对 因子载 荷阵施行方差最大旋转 , 转后得 正交因子表 旋 明 ,因子载荷 ai i就是第 i 变量与第 i 因子 的相关系数 ,反映了第 i 载荷阵 i 矩 阵 , 此 有 : 1 09 7 1 01 8 2 0 15 3 X = .4 F + . 5 2 由 X = . F 十 . F — .1 F , 2 0 0 1 01 F + 4 7 9 0 变量 在 第 i 子上 的重 要 性 。 因 2 X3= . 9 F 00 4 F 04 4 3 X4= . 3 4 1+ . 6 F F O 8 3 1— . 7 7 2+ .0 F , O0 6 F 09 7 2+ 建立因子分析模型的 目的不仅是 找出主 因子 , 更重要 的是知道 0. 61 3, 0 5 F X5: . 2 1+ . 3 F 0 3 5 3, O21 F O8 0 2+ .4 F X6= .2 F 0.9 F O2 2 1+ 4 3 2+ 每 个主 因子的意义, 以便 对实际问题进行分析。还有一个重要的作 0.94 5 3, 用是应用因子分析模型去评价每个样 品在整个模型 中的地位 , 即进 O8 6 3 ⑦输 出因子成份得分系数矩 阵。最后 , . F; 0 由上述表可见 , 每个 因 子只 有 少 数 几 个指 标 的因 子 载荷 较 大 , 因此 可 根 据 上 表 分 类 , 将 行综 合 评 价 。 列 在 上 面 的 分析 告 一 段 落 后 , 可 以 确定 因子 分析 的步 骤 。 因子 6个 指 标按 高载 荷 分 成 3类 , 于 表 2 就 分析 的核 心 问题 有 两 个 : 是如 何 构 造 因 子 变 量 : 一 二是 如何 对 因 子 表2 变量 进 行 命 名解 释 。 因此 , 因子 分 析 的 基 本 步骤 和 解 决思 路就 是 阁 绕 这两个核心问题展开的。 我们来看一个实际的例子 , 即考察我国各省市社会发展综合状

第7章 多元统计分析之因子分析

第7章  多元统计分析之因子分析

•我们有时也用方差贡献率来衡量公共 因子的相对重要性
g j Fj的方差贡献率 p
2
j 1,2,, m
也是衡量公共因子相对重要性的另一指标。 另外,任意两个变量Xk与Xl的协方差等于 因子载荷阵中第k行与第l列对应元素乘积之和。
r ( X k , X l ) ak1al1 ak 2 al 2 ... akmalm akiali
第七章 因子分析
• • • • • • • 第一节 因子分析的概念 第二节 因子分析的数学模型 第三节 因子载荷矩阵的求解 第四节 因子旋转 第五节 因子得分 第六节 实例分析 推荐阅读
第一节 因子分析的概念
• 因子分析是主成分分析的推广和发展,它是多 元统计分析中降维的一种方法。因子分析是研究 相关阵或协方差阵的内部依赖关系,它将多个变 量综合为少数几个因子,以再现原始变量与因子 之间的相关关系,同时根据不同因子还可以对变 量进行分类。 • 因子分析概念起源于20世纪初Karl Pearson 和 Charles Spearmen等学者为定义和测验智力所作 的统计分析。目前因子分析在心理学、社会学、 教育学、经济学等学科都取得了成功的应用。
2、因子载荷阵的统计意义与性质
• 为了便于对因子分析计算结果进行解释,将 因子分析模型中各个量的统计意义加以说明 是十分必要的。假设模型中各个变量以及公 共因子、特殊因子都已经是标准化(均值为0, 方差为1)的变量。
1)因子载荷aij的统计意义 已知模型
X i ai1F1 ai 2 F2 aimFm i , i 1,2,, p
第二节 因子分析的数学模型
• 1、正交因子模型 • 1)R型因子分析模型 • R型因子分析中的公共因子是不可直接观 测但又客观存在的共同影响因素,每一 个变量都可以表示成公共因子的线性函 数和特殊因子之和。即 X i ai1F1 ai 2 F2 aimFm i , i 1,2,, p

多元统计分析和因子分析在社会科学调查中的应用

多元统计分析和因子分析在社会科学调查中的应用

多元统计分析和因子分析在社会科学调查中的应用多元统计分析和因子分析是社会科学调查中常用的分析方法,它们可以帮助我们更深入地理解数据背后的规律和关系。

本文将介绍多元统计分析和因子分析的基本概念、应用场景以及如何进行分析。

一、多元统计分析多元统计分析是指使用两个或两个以上的自变量来解释一个或多个因变量之间关系的统计分析方法。

它可以帮助我们了解多个变量之间的复杂关系,从而更好地理解数据。

多元统计分析包括回归分析、方差分析、协方差分析等方法。

其中,回归分析是最常用的方法之一,它可以帮助我们确定自变量对因变量的影响程度,并进行预测。

方差分析则用于比较多组数据之间的差异,协方差分析则用于控制混杂因素的影响。

在社会科学调查中,多元统计分析可以用于研究不同变量之间的关系,例如家庭收入和教育水平之间的关系,或者人口结构和社会信任之间的关系。

通过多元统计分析,我们可以找到变量之间的相关性,从而更好地理解社会现象。

二、因子分析因子分析是一种将多个变量转化为少数几个因子的方法。

它可以帮助我们发现背后的潜在因素,并简化数据集。

例如,如果我们有很多关于人们价值观的数据,因子分析可以将这些数据转化为几个代表性的因子,如自由主义、保守主义等。

因子分析有两种类型:探索性因子分析和确认性因子分析。

探索性因子分析是一种无先验假设的方法,它试图找到最能解释数据变异的因子。

确认性因子分析则需要先制定假设,并通过数据验证这些假设。

在社会科学调查中,因子分析可以用于研究复杂的概念和现象。

例如,如果我们想了解人们对政治体制的看法,我们可以收集一些有关政治体制的数据,如政治参与度、政治信任度等。

通过因子分析,我们可以将这些数据转化为几个代表性的因子,如政治参与度、政治信任度等。

三、如何进行多元统计分析和因子分析进行多元统计分析和因子分析需要掌握一定的统计知识和技能。

以下是一些基本步骤:1. 收集数据:首先需要收集相关数据,并确保数据质量良好。

2. 数据清洗:对数据进行清洗和预处理,包括检查缺失值、异常值、离群值等。

多元统计分析之因子分析

多元统计分析之因子分析
i
释,此时可以考虑进一步做因子旋转,以求旋转后 能得到更加合理的解释。
因子分析得到的模型有两个特点:其一,模型不 受量纲的影响;其 二,因子载荷不是唯一的,通过 因 子 轴 的旋转 , 可以得到新的因子载荷阵,使意义 更加明显。
(1)特征值(Eigenwalue):它可以被看成是公因 子 响力度的指标,代表引入该 因 子 后可以解释平均 多少个原始变量的信息。 如果特征值小于1,说明 该 因 子 的解释力度还不如直接引入一个原变量的平 均解释力度大 , 因此一般可以用特征 值 大于1作为 纳入标准。
如果大部分变量的共同度都在0.8上,则说明提 取出的公因子已经基本反映了各原始变量80%以上 的信息,因子分析效果理想。
(5)公因子的方差贡献:
公因子Fj 的方差贡献定义为因子载荷矩阵中第 j 列元
素的平方和,即:
S = a j
n
i1
2 ij
(i=1,2,3,……k)
它所反映的是该因子对所有原始变量总方差的解释 能力,其值越大,说明该因子的重要性越高。
(3) 因子载荷ai j:因子载荷ai j为第 i 个变量在第 j
个因子上的载荷,实际上就是
x i
与Fj
的相关系数,
表示变量
x i
依赖因子Fj
的程度,或者说反映了第
ቤተ መጻሕፍቲ ባይዱi个
变量 xi 对于第 j 公因子Fj 的相对重要性。其绝对值
越大,则表示公因子Fj 与xi 的关系越密切。
(4)变量共同度:变量共同度也称为公共方差,记
设有N个样本,P个指标,X=(x1,x2,.....,.xp)T为随 机向量,要寻找公共因子为F=(F1,F2,.......,FM)T,则 模型:
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多元统计分析之因子分析第八章因子分析§8.1 什么是因子分析及基本思想1904年Charles Spearman发表一篇著名论文《对智力测验得分进行统计分析》视为因子分析的起点。

因子分析的形成和发展有相当长的历史,最早用以研究解决心理学和教育学方面的问题,由于计算量大,又缺少高速计算的设备使因子分析的应用和发展受到很大的限制,甚至停滞了很长时间。

后来由于电子计算机的出现,才使因子分析的理论研究和计算问题,有了很大的进展。

目前这一方法的应用范围已十分广泛,在经济学、社会学、考古学、生物学、医学、地质学以及体育科学等各个领域都取得了显著的成绩。

1 什么是因子分析因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。

例如,某公司对100名招聘人员的知识和能力进行测试,出了50道题的试卷,其内容包括的面较广,但总的来讲可归纳为六个方面:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们将每一个方面称为因子,显然这里所说的因子不同于回归分析中因素,因为前者是比较抽象的一种概念,而后者有着极为明确的实际意义,如人口密度、工业总产值、产量等。

假设100人测试的分数{}100,,1, =i X i 可以用上述六个因子表示成线性函数: ,1001,i 662211 =++++=i i i i i F a F a F a X ε其中61,,F F 表示六个因子,它对所有X i 是共有的因子,通常称为公共因子,它们的系数61,i i a a 称为因子载荷,它表示第i 个应试人员在六个因子方面的能力。

i ε是第i 个应试人的能力和知识不能被前六个因子包括的部分,称为特殊因子,通常假定),0(~2i i N σε,仔细观察这个模型与回归模型在形式上有些相似,实质很不同。

这里的61,,F F 的值未知的,并且有关参数的统计意义更不一样。

因子分析的任务,首先是估计出{}ij a 和方差{}2i σ,然后将这些抽象因子{}i F 赋予有实际背景和因子之间的相互关系,以达到降维和对原始变量进行分类的目的。

因子分析的内容十分丰富,本章仅介绍因子分析常用的两种类型:R 型因子分析(对变量作因子分析)和Q 型因子分析(对样品作因子分析)。

2 基本思想因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。

然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。

从全部计算过程来看作R 型因子分析与作Q 型因子分析都是一样的,只不过出发点不同,R 型从相关系数矩阵出发,Q 型从相似系数阵出发都是对同一批观测数据,可以根据其所要求的目的决定哪一类型的因子分析。

§8.2 因子分析的数学模型1 数学模型(正交因子模型)R 型因子分析数学模型⎪⎪⎩⎪⎪⎨⎧++++=++++=++++=p m pm p p p m m m m F a F a F a X F a F a F a X F a F a F a X εεε 2211222221212112121111 用矩阵表示:⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡+⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡p m pm p p m m p F F F a a a a a a a a a X X X εεε 212121222211121121 简记为 )1()1()()1(⨯⨯⨯⨯+=p m m p p F A X ε 且满足:1)p m ≤ii )0),(=εF Cov 即F 和ε是不相关的;iii )m I F D =⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=10101)( 即F 1…F m 不相关且方差皆为1。

⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=2222100)(P D σσσε 即p εε,,1 不相关,且方差不同。

其中),(1'=p X X X 是可实测的p 个指标所构成p 维随机向量,),,(1'=m F F F 是不可观测的向量,F 称为X 的公共因子或潜因子,即前面所说的综合变量,可以把它们理解为在高维空间中的互相垂直的m 个坐标轴;a ij 称为因子载荷是第i 个变量在第j 个公共因子上的负荷,如果把变量X i 看成m 维因子空间中的一个向量,则ij a 表示X i 在坐标轴F j 上的投影,矩阵A 称为因子载荷矩阵;ε称为X 的特殊因子,通常理论上要求ε的协方差阵是对角阵,ε中包括了随机误差。

由上述模型满足的条件可知:m F F F ,,,21 是不相关的。

若m F F F ,,,21 相关时,则D(F)就不是对角阵,这时的模型称为斜交因子模型,本章将不讨论这种模型。

类似地,Q 型因子分析数学模型为:⎪⎪⎩⎪⎪⎨⎧++++=++++=++++=nm nm n n n m m m m F a F a F a X F a F a F a X F a F a F a X εεε 2211222221212112121111 此时X 1, X 2, …, X n 表示n 个样品。

因子分析的目的就是通过模型ε+=AF X 代替X ,由于n m p m <<,,从而达到简化变量维数的愿望。

因子分析和主成分分析有很多相似之处,在求解过程中二者都是从一个协方差阵(或相似系数阵)出发,但这两种模型是有区别的,主成分分析的数学模型实质上是一种变换,而因子分析模型是描述原指标X 协方差阵∑结构的一种模型,当p m =时,若不能考虑ε,此时因子分析也对应于一种变量变换,但在实际应用中,m 都小于p ,且为经济起见总是越小越好。

另外在主成分分析中每个主成分相应的系数ij a 是唯一确定的,即因子戴荷阵不是唯一的,若Γ为任一个m m ⨯阶正交阵,则因子模型ε+=AF X 可写成:ε+Γ'Γ=))((F A X ,仍满足约束条件,即0),(),(,)()(=Γ'=Γ'=ΓΓ'=Γ'εεF Cov F Cov I F D F D m ,所以F Γ'也是公共因子,ΓA 也是因子载荷阵。

因子载荷这个不唯一性,从表面上看是不利的,但后面将会看到当因子载荷阵A 的结构不够简化时,可对A 实行变换以达到简化目的,使新的因子更具有鲜明的实际意义。

从因子分析的数学模型上看,它与多变量回归分析也有类似之处,但本质的区别是因子分析模型作为“自变量”的F 是不可观测的。

2 因子模型中公共因子、因子载荷和变量共同度的统计意义为了便于对因子分析计算结果做解释,将因子分析数学模型中各个量的统计意义加以说明是十分必要的。

假定因子模型中,各个变量以及公共因子、特殊因子都已经是标准化(均值为0,方差为1)的变量。

(1) 因子(2) 载荷的统计意义已知模型:i m im j ij i i i F a F a F a F a X ε++++++= 2211两端后乘F j 得:j i j m im j ij j i j i j i F F F a F F a F F a F F a F X ε++++++= 12211于是)()()()()()(2211j i j m im j j ij j i j i j i F E F F E a F F E a F F E a F F E a F X E ε++++++=由于在标准化下有:1,0)(,1)(,0)(,0)(=====i i i VarX X E Var E F E εε因此(),(),()i j i j i j i j X F i j F F i j F E X F r E F F r E F r εε===所以上式可写成:1212i j j j j j m j i j X F i F F i F F ij F F im F F F ij r a r a r a r a r r a ε=++++++=(因为各因子不相关,所以相关系数为0) 故因子载荷ij a 的统计意义就是第i 个变量与第j 个公共因子的相关系数即表示X i 依赖F j 的份量(比重)。

因此用统计学的术语应该叫作权,但由于历史的原因,心理学家将它叫做载荷,即表示第i 个变量在第j 个公共因子上的负荷,它反映了第i 个变量在第j 个公共因子上的相对重要性。

(2)变量共同度的统计意义所谓变量X i 的共同度定义为因子载荷阵A 中第i 行元素的平方和,即∑===m j ij i ah 122p ,1,i为了说明它的统计意义,将下式两边求方差,即i m im i i i F a F a F a X ε++++= 2211)()()()()(2222121i m im i i i Var F Var a F Var a F Var a X Var ε++++= V222221i im i i a a a σ++++=22i i h σ+=由于X i 已标准化了,所以有221i i h σ+=此式说明变量X i 的方差由两部分组成:第一部分为共同度2i h ,它刻划全部公共因子对变量X i 的总方差所作的贡献,2i h 越接近1,说明该变量的几乎全部原始信息都被所选取的公共因子说明了,如97.02=i h 则说明X i 的97%的信息被m 个公共因子说明了,也就是说由原始变量空间转为因子空间转化的性质越好,保留原来信息量多,因此2i h 是X i 方差的重要组成部分。

当02≈i h 时,说明公共因子对X i 影响很小,主要由特殊因子i ε来描述。

第二部分2i σ是特定变量所产生的方差,称为特殊因子方差仅与变量X i 本身的变化有关,它是使X i 的方差为1的补充值。

(3)公共因子F j 的方差贡献的统计意义将因子载荷矩阵中各列元素的平方和记为∑===p i ij j aS 12p ,1,j称S j 为公共因子F j 对X 的贡献,即S j 表示同一公共因子F j 对诸变量所提供的方差贡献之总和,它是衡量公共因子相对重要性指标。

§8.3 因子载荷阵的估计方法要建立某实际问题的因子模型,关键是要根据样本数据矩阵估计因子载荷矩阵A 。

对A 的估计方法有很多,这里仅介绍使用较为普遍的主成分法。

设随机向量),,(1'=p X X X 的协差阵为0,21>≥≥≥∑p λλλ 为∑的特征根,p e e ,,1 为对应的标准正交化特征向量(只要特征根不等,对应的单位特征向量一定是正交的),则根据线性代数知识∑可分解为:∑='='⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=∑p i i i i p e e U U 1100λλλ⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡''=p p p p e e e e λλλλ 1111),,( 上面的分解式恰是公共因子与变量个数一样多且特殊因子的方差为0时,因子模型中协差阵的结构。

相关文档
最新文档