SAS学习系列34.因子分析
SAS统计之第十章-因子分析
正交旋转
正交旋转是一种比较简单的方法, 它将因子矩阵进行正交变换,使 得每个因子只与一个原始变量的 相关性较高,与其他变量的相关 性较低。
斜交旋转
斜交旋转是一种更复杂的方法, 它可以使得一个因子与多个原始 变量的相关性较高,但与其他变 量的相关性较低。
因子的解释
因子的解释
因子的解释是根据实际背景和专业知 识,对每个因子的含义进行解释。解 释时需要综合考虑原始变量的含义和 因子的相关性。
03
解释性。
实例分析
01
为了更好地理解PROC Factor过程,我们将通过一个实例来演示其应 用。
02
假设我们有一个包含多个变量的数据集,并且我们想要提取两个公因 子来解释这些变量之间的相关性。
03
我们将使用PROC Factor过程进行因子分析,并选择适当的选项来提 取两个公因子。
04
分析结果将包括因子载荷表、因子图和轮廓图等输出,以帮助我们理 解公因子和变量之间的关系。
04 因子分析的注意事项
因子分析的前提假设
因子分析的前提假设是数据应具有相关 性。在进行因子分析之前,需要检查变 量之间的相关性,以确保分析的有效性。
因子分析的前提假设是变量应具有共同因子。 共同因子是指多个变量之间存在的共同因素, 这些因素反映了变量之间的共同变化趋势。
因子分析的前提假设是变量应具有 可解释性。在进行因子分析之前, 需要对变量进行解释性分析,以确 定变量之间的潜在关系和共同因素。
因子命名
根据解释结果,可以对每个因子进行 命名,使其更加符合实际背景和专业 知识。命名时需要简洁明了,能够准 确地反映因子的含义。
03 因子分析的SAS实现
Байду номын сангаас
SAS编程:主成分分析和因子分析
SAS 统计分析与应用 从入门到精通 二、因子分析
语句说明:
4、FACTOR过程
(1)PROC语句用于规定运行FACTOR过程,并指定要分析的数据 集名。选项有: OUT=数据集名——规定一个输出数据集,其中包含原始数据以及 公共因子得分。在使用选项时,要指定公共因子的个数。 METHOD=选项——规定提取公共因子的方法。 N=n——规定被提取因子的最大数目,缺省值为变量的个数。 SCORE——规定打印因子得分系数。
SAS 统计分析与应用 从入门到精通 一、主成分分析
4、PRINCOMP过程
语句说明: (1)PROC语句用于规定运行PRINCOMP过程,并指定要分析的 数据集名。选项有: OUT=数据集名——规定一个输出数据集,其中包含原始数据以及 主成分得分。 N=n——规定要计算的主成分个数。 STANDARD——规定将OUT=的数据集中的主成分得分标准化为 单位方差。如果没有规定此选项,主成分得分的方差等于相应的特征值。 (2)VAR语句用来列出要分析的数值型变量的名字。如果不使用该 语句,则没有在其它语句规定的所有数值型变量都是要分析的变量。 (3)PARTIAl语句规定了偏出变量,使得PRINCOMP过程基于偏 相关阵或偏协方差阵进行主成分分析。
SAS 统计分析与应用 从入门到精通 二、因子分析
2、基本模型
SAS 统计分析与应用 从入门到精通 二、因子分析
2、基本模型
SAS 统计分析与应用 从入门到精通 二、因子分析
3、基本步骤
(1) 参数估计:为建立因子模型,首先要估计因子载荷和特殊因 子的方差,常用的方法有主成分法,主因子法和极大似然估计法等。
SAS 统计分析与应用 从入门到精通 二、因子分析
语句说明:
【2019年整理】因子分析SAS程序
4.因子得分
Proc factor data= Score out=bb; var 变量; run; Proc print data=bb; var factor1 factor2 factor3 factor4; run;
总结
Proc factor data= simple corr msa; var 变量; run;
诊断符 合率 X8
97.51 97.94 98.48 99.41 99.71 99.03 99.69 99.48 99.48 99.76 99.10 100.00 99.77 100.00
抢救成 功率 X9
61.66 73.33 76.79 63.16 80.00 63.16 73.53 61.11 70.73 79.07 80.49 78.95 80.53 81.97
1.描述检验
(简单的描述统计量、相关阵、偏相关阵和 抽样适当的Kaiser度量)
Proc factor data= simple corr msa; var 变量; run;
2.构造因子
Proc factor data= method=prin(主成分 分析法)/ml(最大似然分析法)/ prinit (主因子分析法) N=/P=(确定因子个 数) Scree(特征值的碎石图); var 变量; run;
84
100
11
69
75
78
738997源自127271
78
68
75
96
13
64
63
75
76
73
92
14
66
77
84
55
因子分析SPSS操作
因子分析SPSS操作因子分析是一种多变量统计方法,旨在发现潜在的结构和相关性,以便简化数据集并解释变量之间的关系。
SPSS(统计软件包社会科学)是一种广泛使用的统计软件,可以帮助研究人员进行因子分析。
在SPSS中进行因子分析的步骤如下:1.数据准备:-确保数据集已经导入到SPSS中。
-检查和清洗数据,确保数据完整、准确,并且符合因子分析的前提条件。
2.因子分析模型:- 打开SPSS软件并选择“Analyze”菜单。
- 从下拉菜单中选择“Dimension Reduction”>“Factor Analysis”。
3.变量选择:- 从左侧的变量列表中选择要进行因子分析的变量,并将它们移动到右侧的“Variables”框中。
-这些变量应该是连续变量,而非分类变量。
4.因子提取:- 在“Factor Analysis”对话框的“Extraction”选项卡中选择因子提取方法。
- 确定要提取的因子数量。
可以使用Kaiser标准(主成分分析时为特征值大于1)或Scree Plot来指导因子数量的选择。
5.因子旋转:- 进入“Rotation”选项卡,选择适当的因子旋转方法。
- 常用的方法包括Varimax、Promax、Quartimax等。
-因子旋转的目标是最大化因子载荷的简单性和解释性。
6.结果解释:-在因子分析的结果中,可以查看各个变量的因子载荷矩阵,它描述了每个变量在每个因子上的影响程度。
-可以选择将因子载荷阈值设置为一定值,以便筛选出具有较高负载的变量。
-查看每个因子的解释方差,以了解它们对原始变量的解释程度。
7.结果可视化:-可以使用SPSS的图表功能来可视化因子分析结果。
-比如,可以绘制因子载荷矩阵的热图,用不同颜色表示不同的负载水平。
-还可以绘制因子解释方差的条形图,以比较每个因子的贡献程度。
需要注意的是,因子分析在使用时需要考虑以下几点:-样本量必须足够大,一般建议至少大于观测变量数的10倍。
SAS软件应用之因子分析
因子分析的应用
• 如何选择适当的方法来解决实际问题,需要对问题进行综合考 虑。对一个问题可以综合运用多种统计方法进行分析。例如一 个预报模型的建立,可先根据有关生物学、生态学原理,确定 理论模型和试验设计;根据试验结果,收集试验资料;对资料 进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归 分析、主成分分析等)研究各个变量之间的相关性,选择最佳的 变量子集合;在此基础上构造预报模型,最后对模型进行诊断 和优化处理,并应用于生产实际。
• 综合得分
•
以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标
函数。
•
F=(w1F1+w2F2+…+wmFm)/(w1+w2+…+wm)
•
此处wi为旋转前或旋转后因子的方差贡献率。
第21页/共75页
因子分析的应用
• 在采用多元统计分析技术进行数据处理、建立宏观或微观系 统模型时,需要研究以下几个方面的问题:
method选择项用于确定聚类的方法选择的方法有singlecompletecentroidaveragemedianward其中single表示最短距离法complete表示最长距离法centroid表示重心距离平均法average表示平均距离平方法median表示中间距离平均法ward表示最小离均差平方和rsquare表述输出每一种聚类的复相关系数的平方和半偏复相关系数的平方每一种聚类的复相关系数的平方等于总体变异被聚类成分所解释的比例半偏复相关系数的平方等于由合并两个类引起的复相关系数平方的减少量
第3页/共75页
因子分析基本思想
• 其基本思想是从分析多变量数据的相关关系人手,找到支配这 种相关关系的少数几个相关独立的潜在因子,并通过建立起这 些潜在因子与原变量之间的数量关系来预测潜在因子的状态, 帮助发现隐藏在原变量之间的某种客观规律性。因子分析和主 成分分析都能够起到清理多个原始变量内在结构关系的作用, 但主成分分析重在综合原始变量的信息,而因子分析重在解释 原始变量间的关系,是比主成分分析更深入的一种多元统计方 法。
《因子分析SAS程序》课件
因子分析的步骤
1
收集数据
收集包含多个变量的数据集,确保数据的
数据预处理
2
质量和完整性。
对数据进行清洗、缺失值处理、标准化等
预处理步骤,以确保子提取
使用适当的因子提取方法,识别出潜在的
共同因素。
因子旋转
4
通过旋转因子,使得因子更易于解释和理
解。
5
因子解释
对因子进行解释和命名,理解每个因子的 含义和影响。
因子分析模型的选择方法
主成分分析
主成分分析是最常见和简单 的因子提取方法,适用于无 明显理论背景的研究。
最大似然估计
最大似然估计是一种基于潜 变量模型的因子提取方法, 在理论依据明确时效果较好。
常熟因子模型
常熟因子模型是一种广义的 因子分析模型,可以考虑因 子间相关性和变量间相关性 的影响。
数据准备与清洗
在进行因子分析之前,需要对数据进行准备和清洗。这包括处理缺失值、异常值和离群值,以及进行数据标准 化和变量选择等步骤,确保数据的质量和可靠性。
SAS软件在因子分析中的应用
SAS软件为因子分析提供了强大的工具和函数。可以使用SAS进行数据导入、预处理、因子提取、因子旋转和结 果解释等操作,方便快捷地完成因子分析的各个步骤。
结果分析及解读
完成因子分析后,我们需要对结果进行分析和解读。这包括解释每个因子对 各个变量的影响程度,探究因子之间的相关性,以及理解因子对整体数据集 的解释程度。
案例分析
通过一个实际案例的分析,我们将运用因子分析的知识和工具,识别和解释 潜在的因素,探索变量之间的内在关系,并得出对问题的有力解决方案。
如何利用SPSS做因子分析等分析(仅供参考)
我就以我的数据为例来做示范,仅供参考一、信度分析(即可靠度分析)1.分析——度量——可靠度分析图 12.然后就会弹出上图1的框框。
在这里,你可以对所有的问题进行可靠度分析,如果是这样,那你只需要选中所有的问题到右边这个白色的框框,然后点击“统计量”,按照右边这个图进行打钩。
然后点“继续”。
之后就点“确定”图2 3.接着去“输出1”这个框看分析结果,你就会看到很多分析结果,其中有一个就是右图,那第一个0.808就是你所选择进行分析的数据的信度。
如果你想把每一个维度的数据进行独立的信度分析,那道理也是一样的。
二、因子分析在做因子分析之前首先要判断这些数据是否适合做因子分析,那这里就需要进行效度检验,不过总共效度检验是和因子分析的操作同步的,意思就是说你在做因子分析的时候也可以做效度检验。
具体示范如下:1.分析——降维——因子分析图 2一般来说,咱们做因子分析的时候是为了把那些具有共同属性的因子归类成一类,说的简单点就是要验证咱们所选取的每一个维度下面的题目是属于这个维度,而非其他维度的。
那一般来说,因子分析做出来的结果就是你原本有几个维度,最终分析结果就会归类成几个公因子。
2.一般来说,自变量的题目和因变量的题目是要独立分析的。
我的课题是“店面形象对顾客购买意愿的影响”那自变量就是店面形象的那些维度,因变量就是顾客购买意愿。
3.将要做分析的题目选择到右边的白框之后,就如下图打钩:“抽取”和“选项”两个不用管他。
然后就点“确定”4.按照上述步骤操作下来之后,就可以去“输出1”看分析结果。
首先看效度检验的结果:这里要看第一行和最后一行的数据,第一行数据为0.756,表明效度较高,sig为0.000,这两个结果显示这份数据完全可以做因子分析。
那就去看因子分析的结果。
5.看下面这张图,看“初始特征值”这一项下面的“合计”的数值,有几个数据是>1,那就表明此次因子分析共提取了几个公因子。
下图所示,有5个数据是>1,这表明可以提取5个公因子。
因子分析
因子分析一、实验目的与要求1.通过上机操作使学生掌握因子分析方法在SAS软件中的实现;熟悉因子分析的用途、目的,掌握如何判断因子分析的适用条件,能正确选择适当的因子;熟悉因子旋转的意义并能正确使用旋转方法;2.要求学生能正确解释软件分析处理的结果;3.要求学生阅读一定数量的文献资料,掌握因子分析方法在写作中的应用。
二、实验内容与步骤因子分析的基本目的是用少数的几个因子去描述多个变量之间的关系,以达到降维的目的。
被描述的变量一般都是可观测的随机变量,而因子是不可观测的潜在变量。
例如:“态度”,“能力”都是不可观测的潜在变量,多用“受教育水平”“工作业绩”等可观测变量来反映潜在变量水平。
因子分析就是利用这些不可观测的潜在变量作为公共因子来解释可观测变量的一种工具。
因子分析的基本思想就是把联系比较紧密的变量归为同一个类别,实现不同类型的变量之间有较低相关性。
在同一个类别内的变量,认为是收到了某个共同的影响而高度相关,这个共同因素称之为公共因子,即为潜在的不可观测变量。
因子分析的基本原理是以相关性为基础,从协方差或相关矩阵入手把大部分的变异归结为少数几个公共因子所为,把剩余的变异称为特殊因子。
每一类变量代表了一个公共因子,因子分析就是寻找和确定这些公共因子的分析方法。
因子分析反映了一种降维的思想,通过降维将相关性高的变量聚在一起,不仅便于提取容易解释的特征,而且降低了需要分析的变量数目和分析问题的复杂性。
在问题内在体系还不了解时,可利用它吧观测变量鬼碧昂为少数几个公共因子,令每个因子代表一个空间的维度,经过正交或斜交旋转,使各个维度互不相连,用这些维度刻画系统的结构。
因子分析的内容非常丰富,常用的因子分析类型是R型因子分析和Q型因子分析。
R型的因子分析是对变量作因子分析,Q型因子分析是对样品作因子分析。
因子分析与主成分分析不同:主成分分析是寻求若干个可观测随机变量的少量线性组合,说明其含义;因子分析主要的目的是找出不一定可观测的潜在变量作为公共因子,并解释公共因子的意义,及如何用不可观测随机变量,计算可观测随机变量。
(完整版)SPSS因子分析法-例子解释
因子分析的基本概念和步骤一、因子分析的意义在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。
例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。
虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在:计算量的问题由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。
虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。
变量间的相关性问题收集到的诸多变量之间通常都会存在或多或少的相关性。
例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。
而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。
例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。
类似的问题还有很多。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。
为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。
因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。
因子分析SAS程序教学材料
4.因子得分
Proc factor data= Score out=bb; var 变量; run; Proc print data=bb; var factor1 factor2 factor3 factor4; run;
总结
Proc factor data= simple corr msa; var 变量; run;
因子分析SAS程序
严共旭
因子分析的步骤:
1.确认待分析的原变量是否 适合作因子分析 2.构造因子变量 3.利用旋转方法使因子变量 更具有可解释性 4.计算因子变量得分
1.描述检验 2.构造因子 3.因子旋转 4.因子得分
例题
某医院为了合理地评价该院各月的医疗工 作质量,收集了3年有关X1门诊人次、X2出 院人数、X3病床利用率、X4病床周转次数、 X5平均住院天数、X6治愈好转率、X7病死 率、X8诊断符合率、X9抢救成功率9个指标 数据。试采用因子法,探讨其综合评价指 标体系。
84
100
11
69
75
78
73
89
97
12
72
71
78
68
75
96
13
64
63
75
76
73
92
14
66
77
84
55
65
76
15
64
51
70
60
67
88
16
72
75
58
62
52
75
17
73
40
82
50
48
61
18
SAS实验_因子分析_聚类分析
实验过程: 1.搜集数据
通过搜索相关数据库,得到 2008 年我国各地区农村人均生活消费支出的相关数据,共包括 我国 31 个省市自治区,设计 8 个方面的人均消费支出。
2.数据准备和预处理
首先建立数据集,我将数据存在 D:\mydata.txt 中。此处编写 SAS 程序来实现 INPUT 数据。
Step2:加入 cluster 节点,联结,设置相关属性。
Step3:运行 运行结果如下,这个结果本来我看起来十分诡异,31 个地区,分了 31 类,看起来没有起到 任何的聚类效果。 首先,Factor1 和 Factor2 的贡献值都为 0:
其次,画出来的散点图和最终的 stat 结果也如此显示:
注:右上角的制表时间是由于时间跳过程序修改造成的,后同。
3.描述性统计分析
①单变量分析: 首先要对数据的基本情况有一个初步的了解, 因此先进行单变量分析。 再次我们利用 means 过程计算一些描述性统计量,编写程序如下:
解释:proc 语句指定运行 means 过程,并指出分析的数据集为 expend,maxdec=2 表示计算 的描述统计量保留两位小数, 然后指定要计算的统计量为: 均值、 标准差、 最大值、 最小值、 极差、变异系数、偏度。之后指定要分析的变为量 x, x1-x8。运行结果如下:
解决思路:
为了研究上述问题, 我们应当以近年的各地区农村人均生活消费支出相关数据为数据源, 通 过描述性统计分析对整体数据进行初步了解; 并在因子分析的基础上进行聚类分析, 对各地 区依据消费水平的高低进行分类; 还可以参数检验判断不同地区的农民生活水平是否存在差 异;若引入时序数据,则可进一步进行关联分析,预测某些地区未来的消费结构变化。本人 会在数据分析的基础上,结合实际进行分析,解释数据结果的实际意义。由于精力有限,此 次实验本人计划主要进行三项数据分析: 1. 描述性分析 2. 基于主成分法的因子分析 3. 在因子分析的基础上,用 Cluster 和 Tree 过程进行聚类分析 注:部分内容为参考教材自学,理解可能不甚透彻,若有错误恳请老师指出。
因子分析的原理及步骤
因子分析的原理及步骤因子分析是一种多变量统计方法,用于探索观测数据背后的潜在结构,包括变量之间的关系和潜在因子的存在。
在因子分析中,我们希望将多个观测变量解释为较小数量的潜在因子,这有助于简化数据和理解数据背后的结构。
因子分析的基本原理是假设观测变量通过潜在因子来解释,这些潜在因子无法直接观测到,只能通过观测变量的共同方差来间接体现。
根据这个假设,因子分析通过对观测变量之间的协方差矩阵进行分解,得到潜在因子与观测变量之间的关系,以及每个观测变量对于每个潜在因子的贡献。
因子分析的步骤如下:1. 收集数据:首先,需要收集包含多个观测变量的数据集。
这些变量可以是定量的,如身高、体重等,也可以是分类变量,如性别、职业等。
数据集应该是相对完整和可靠的。
2. 确定分析目标:在进行因子分析之前,需要明确分析的目标。
例如,我们可能希望找到最能解释原始数据的因子数目,或者找到最能准确预测观测变量的因子。
3. 数据预处理:在进行因子分析之前,需要对数据进行预处理。
常见的预处理方法包括标准化、缺失值处理等。
标准化可以使得不同变量之间的量级一致,从而减少因子分析结果的偏差。
4. 估计因子载荷:因子载荷是指每个观测变量对于每个因子的贡献。
通过估计因子载荷,我们可以了解每个观测变量与每个因子之间的关系强度。
常用的估计方法包括主成分分析和最大似然估计。
5. 确定因子数目:在因子分析中,一个重要的问题是如何确定因子的数目。
常用的方法有Kaiser准则和屏蔽图。
Kaiser准则认为,仅保留特征值大于1的因子。
屏蔽图则通过观察各个因子的特征值曲线,选择特征值明显下降的截止点。
6. 解释因子:在确定了因子数目之后,我们可以解释每个因子所代表的含义。
这需要仔细研究每个因子的载荷矩阵和观测变量之间的关系。
通常,我们将大于0.4的载荷定义为显著载荷,表示该观测变量对该因子的贡献较大。
7. 旋转因子:旋转因子是为了更好地解释因子结构而进行的。
《SPSS数据分析教程》——因子分析课件
Gaelic English History Arithmetic Algebra Geometry
1.000
0.439 1.000
R
0.410
0.351 1.000
0.288 0.354 0.164 1.00
0.329 0.320 0.190 0.595 1.000
0.248 0.329 0.181 0.470 《0SP.4SS6数4 据分1析.0教0程》——因子分析
《SPSS数据分析教程》 ——因子分析
《SPSS数据分析教程》——因子分析
因子分析
《SPSS数据分析教程》——因子分析
目录
n 12.1 因子分析简介 n 12.2 因子分析法的统计理论
q 12.2.1 因子分析的模型 q 12.2.2 因子分析模型的求解方法 q 12.2.3 因子分析的应用前提 q 12.2.4 因子个数的确定 q 12.2.5 因子的解释 q 12.2.6 因子旋转 q 12.2.7 因子得分 n 12.3 因子分析案例 q 12.3.1 探索变量间的结构关系 q 12.3.2 因子分析在市场调查中的应用 n 12.4 因子分析结果的有效性 n 12.5 因子分析和主成分分析的比较
《SPSS数据分析教程》——因子分析
因子分析是一种数据降维方法
n 因子分析试图用最少个数的不可观测的互不相 关的公共因子(例如运算能力、表达能力等公 共因子)的线性组合,再加上特殊因子来描述 原来一组可观测的有相互关系的变量。其目的 是尽可能合理地解释存在于原始变量之间的相 关性,并且简化变量的维数和结构。
Bartlett 的球形度检验
近似卡方 Df Sig.
.855 2 888.038
300 .000
因子分析的基本原理与使用教程(Ⅲ)
因子分析(Factor Analysis)是一种用于研究变量之间关系的统计方法,它可以帮助我们发现隐藏在数据背后的结构和规律。
本文将介绍因子分析的基本原理和使用教程,希望能够帮助读者更好地理解和应用这一方法。
1. 基本原理因子分析的基本原理是通过对变量之间的相关性进行分析,找出隐藏在变量背后的共同因子。
在实际应用中,我们经常会遇到大量相关的变量,如果直接对这些变量进行分析,会导致信息冗余和过度复杂的模型。
因子分析可以帮助我们将这些变量归纳整合,找出它们之间的共同特点,从而简化分析过程。
在进行因子分析时,我们首先需要进行因子提取,即找出最能代表原始变量的共同因子。
通常采用主成分分析或最大方差法来进行因子提取,通过计算特征值和特征向量来确定最相关的因子。
然后进行因子旋转,以使因子之间的关系更加清晰和可解释。
2. 使用教程在使用因子分析时,首先需要明确研究的目的和需要分析的变量。
然后进行数据的准备和清洗,确保数据符合因子分析的基本假设,如变量之间的线性相关性和样本的适宜性。
接下来,选择合适的因子提取方法和旋转方法,对数据进行因子分析。
在因子分析过程中,需要关注因子的解释性和可解释性,尽量选择能够解释较大方差的因子。
同时,需要对因子载荷进行解释和解读,找出每个因子代表的具体含义。
最后,根据因子分析的结果进行结论和应用,例如可以将因子作为新的变量用于后续的研究和分析。
3. 实例分析为了更好地理解因子分析的应用,我们以某公司员工满意度调查为例进行实例分析。
该调查包括了多个关于工作环境、福利待遇、领导管理等方面的问题,我们希望通过因子分析找出影响员工满意度的关键因素。
首先,我们对调查数据进行了因子分析,发现了三个主要的因子:工作环境、福利待遇和领导管理。
通过因子载荷的分析,我们发现工作环境因子主要包括工作氛围、工作压力等变量,福利待遇因子主要包括薪酬福利、职业发展等变量,领导管理因子主要包括领导能力、沟通技巧等变量。
SPSS因子分析的基本概念和步骤
因子分析的基本概念和步骤四、因素分析的操作说明Statistics/Data Reduction/Factor…(统计分析/数据缩减/因子…)出现“Factor Analysis”(因子分析)对话框,将左边框中鉴别度达显著性的a1~a22选如右边“Variables”(变量)下的空框中。
其中五个按钮内的图标意义如下:Descriptives(描述性统计量)按钮,会出现“Factor Analysis:Descriptives”(因子分析:描述性统计量)对话窗口1.“Statistics”(统计量)选项框(1)“ Univariate descriptives”(单变量描述性统计量):显示每一题项的平均数、标准差。
(2)“ Initial solution”(未转轴之统计量):显示因素分析未转轴前之共同性(communality)、特征值(eigenvalues)、变异数百分比与累积百分比。
2.“Correlation Matric”(相关矩阵)选项框(1)“ Coefficients”(系数):显示题项的相关矩阵;(2)“ Significance levels”(显著水准):求出前述矩阵的显著水准;(3)“ Determinant”(行列式):求出前述相关矩阵的行列式值;(4)“ KMO and Bartlett’s test of sphericity”(KMO与Bartlett的球形检定):显示KMO抽样适当性参数与Bartlett的球形检定;(5)“ Inverse”(倒数模式):求出相关矩阵的反矩阵;(6)“ Reproduced”(重制的):显示重制相关矩阵,上三角形矩阵代表残差值;而主对角线与下三角形代表相关系数;(7)“ Anti-image”(反映象):求出反映象的共变量与相关矩阵;在“Factor Analysis:Descriptives”对话窗口中,选取“ Initial solution”、“ KMO and Bartlett’s test of sphericity”二项。
SPSS因子分析法
因子分析☞ 因子分析(Factor analysis ):用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。
从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析(Principal component analysis ):是因子分析一个特例,是使用最多的因子提取方法。
它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。
选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。
两者关系:主成分分析(PCA )和因子分析(FA )是两种把变量维数降低以便于描述、理解和分析的方法。
☞ 特点(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。
显然,在一个低维空间解释系统要比在高维系统容易的多。
☞ 类型根据研究对象的不同,把因子分析分为R 型和Q 型两种。
当研究对象是变量时,属于R 型因子分析;当研究对象是样品时,属于Q 型因子分析。
但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。
☞ 分析原理假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 :当p 较大时,在p 维空间中考察问题比较麻烦。
这就需要进行降维处理,即用较少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
34.因子分析(一)基本原理一、概述因子分析,是用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据,表达一组相互关联的变量。
通常情况下,这些相关因素并不能直观观测。
因子分析是从研究相关系数矩阵部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。
因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大部分的信息;原始部分变量之间多存在较显著的相关关系,重组变量(因子变量)之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
主成分分析是因子分析的特例。
主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有因素,即公共因子与特殊因子。
因子分析模型在形式上与线性回归模型相似,但两者有着本质的区别:回归模型中的自变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量,而且两个模型的参数意义也不相同。
二、原理假设样品检测p 个指标(变量)X 1, …, X p ,得到观测矩阵X ,这p 个指标变量可能受m (m<p )个共同因素f 1,…f m 的影响,再加上其它影响因素。
表示为:用矩阵表示为111p p m m p X A f e ⨯⨯⨯⨯=+其中,共同影响因素f 1,…f m 是均值为0方差为1的随机变量,称为公共因子;A p×m 称为因子载荷矩阵,a ji 是第j 变量在第i 公共因子上的负荷,即X j 在坐标轴f i 上的投影;e i 是变量X i 所特有的因子,均值为0方差为σi 2,称为特殊因子。
各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即COV(e i , e j )=0, COV(e, f )=0.因子分析就是用f 1,…f m 代替X 1, …, X p , 达到降维的目的。
主成份分析中,残差通常是彼此相关的。
因子分析中,特殊因子起到残差的作用,但被定义为彼此不相关且和公因子也不相关。
而且每个公因子假定至少对两个变量有贡献,否则它将是一个特殊因子。
在开始提取公共因子时,已假定它们彼此不相关且具有单位方差。
故向量X 的协方差矩阵Σ可以表为Σ=D(X)=D(Af+e)=AA T +D其中,D=diag(σ12, …, σp 2). 若假定X 已标准化,即每个X i 值为0方差为1. 则11222211var()i i i im mpi ij iiX a f a f a fX aσ==+++⎧⎪⎨==+⎪⎩∑L记221mi ijjh a==∑称为变量共同度,则有221, 1,...,i ih i pσ=+=.h i2反映了公共因子f对X i的影响(贡献),即X i对共同因素f的依赖程度;σi2为剩余方差,若h i2接近1,σi2很小,则表明因子分析的效果好。
公共因子f j对X i的影响,可由A中第j列元素来描述,221pi ijig a==∑称为公共因子f j对X的贡献,是衡量公共因子重要性的尺度。
a ij为第i个变量与第j个公共因子的相关系数,反映了它们的相关程度:三、求因子载荷矩阵若X的协方差矩阵∑和D已知,则根据∑-D=AA T求出A1122)m mAλξλξλξ=L其中,λ1≥λ2≥…λm>λm+1=…=λp=0为∑*=∑-D的特征值,ξi为相应的特征向量。
但在实际问题中,并不知道∑和D,就需要从n个样品,p个指标的np个样本数据,估计因子载荷a ij和特殊因子方差σi2. 常用的参数估计法有:主成分法、主因子解法、极大似然法。
(1)主成分法记样本数据的协方差矩阵为ˆ∑,其特征值λ1≥λ2≥…≥λp≥0, 相应的特征向量为ξi. 当最后p-m个特征值较小时,对ˆ∑做谱分解:111222ˆ=T T Tm m mDλξξλξξλξξ∑+++L先取111aλξ=,看11ˆTa a∑-是否接近对角矩阵,若是,说明只取一个公共因子就行了,所有指标主要受到这一个公共因子的影响;若否,再取222aλξ=,看1122ˆT Ta a a a∑--是否接近对角矩阵……象主成分分析一样,直接取前q个特征值和特征向量,使得它们的特征值之和占全部特征值之和的85%以上即可。
此时,特殊因子方差为221ˆ,1,...,qi ii kika i pσ==∑-=∑(2)主因子解法主因子解法是对主成分法的修正,记样品数据的相关矩阵为R,设R= AA T + D,则R* = R–D = AA T称为约相关矩阵。
若已知特殊因子方差的初始估计*2ˆ()iσ,则*2*2ˆ()1()i ihσ=-,故计算R*的特征值λ1*≥λ2*≥…≥λp*>0,相应的特征向量为u i*, 则有近似分解式:R* = AA T, 其中令则A和D为因子模型的一个解,称为主因子解。
在实际中特殊因子方差是未知的,以上得到的解是近似解。
为了得到近似程度更好的解,常常采用迭代主因子法。
即利用上面得到的作为特殊因子方差的初始估计,重复上述步骤,直到解稳定为止。
变量共同度h i2常用的初始估计有以下三种方法:①取第i个变量与其他所有变量的多重相关系数的平方;②取第i个变量与其他变量相关系数绝对值的最大值;③取1(等价于主成分解)。
(3)极大似然法假定公共因子f和特殊因子e服从正态分布,则可得到因子载荷阵和特殊因子方差的极大似然估计。
设p维观测向量X(1),...,X(n)为来自正态总体N p(μ,∑)的随机样品,则样品似然函数为μ,∑的函数L(μ,∑).μ=,则似然函数为A,D的函数:φ(A,D),设∑= AA T +D,取X求A,D使φ(A,D)达到最大。
为保证得到唯一解,可附加计算上方便的唯一性条件:A T D-1A = 对角阵,用迭代方法可求得极大似然估计A和D。
四、公共因子的解释得到估计的因子模型后,还必须对得到的公因子进行解释。
即对每个公共因子给出一种意义明确的名称,用来反映在预测每个可观察变量中这个公因子的重要性。
该公因子的重要程度就是在因子模型矩阵中相应于这个因子的系数,显然这个因子的系数绝对值越大越重要,而接近0则表示对可观察变量没有什么影响。
因子解释是一种主观的方法,有时侯通过旋转公因子可以减少这种主观性,也就是要使用非奇异的线性变换。
1. 因子旋转将因子载荷矩阵A右乘一个正交矩阵T后得到一个新的矩阵A*。
它并不影响变量X i的共同度h i2,却会改变因子的方差贡献g j2。
因子旋转通过改变坐标轴,能够重新分配各个因子解释原始变量方差的比例,使因子更易于理解。
设p维可观测向量X满足因子模型:X = AF +e。
T为正交矩阵,则因子模型可写为X = ATT T F + e = A*F* + e其中A* = AT,F* = T T F. 易知,∑= AA T + D = A*A*T + D其中A* = AT. 这说明,若A,D是一个因子解,任给正交阵T,A* = AT,D也是因子解。
在这个意义下,因子解是不惟一的。
由于因子载荷阵不惟一,故可对因子载荷阵进行旋转。
目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化,这样的因子便于解释和命名。
有三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法。
这些旋转方法的目标是一致的,只是策略不同。
如果两种旋转模型导出不同的解释,这两种解释不能认为是矛盾的。
倒不如说是看待相同事物的两种不同方法,是在公因子空间中的两个不同点。
在统计意义上所有旋转都是一样的,即不能说一些旋转比另一些旋转好。
因此,在不同的旋转方法之间进行的选择必须根据非统计观点,通常选择最容易解释的旋转模型。
2. 因子得分计算因子得分,是用原有变量来描述因子,第j个因子在第i个样品上的值可表示为:F ji = βj1x i1 + βj2x i2+…+ βjp x ip j = 1, …, k其中,x i1, …, x ip分别是第1, …, p个原有变量在第i个样品上的取值,βj1, …, βjp分别是第j个因子和第1, …, k个原有变量间的因子值系数。
可见,它是原有变量线性组合的结果(与因子分析的数学模型正好相反),因子得分可看作各变量值的加权(βj1, …, βjp)总和,权数的大小表示了变量对因子的重要程度。
于是有F j = βj1X1+βj2X2+…+βjp X p j = 1, …, k称为因子得分函数。
由于因子个数k小于原有变量个数p,故式中方程的个数少于变量的个数。
因此,对因子值系数通常采用最小二乘意义下的回归法进行估计。
可将上式看作是因子变量F j对p个原有变量的线性回归方程(其中常数项为0)。
可以证明,式中回归系数的最小二乘估计满足:B j = A j T R-1,其中B j = (βj1,βj2,…,βjp),A j T = (a1j,a2j,…,a pj)为第1, …,p个变量在第j个因子上的因子载荷,R-1为原有变量的相关系数矩阵的逆矩阵。
由上式计算出因子变量F j的因子值系数,再利用因子得分函数可算出第j个因子在各个样品上的因子得分。
(二)SAS实现一、PROC FACTOR过程步基本语法:PROC FACTOR DATA=数据集<可选项> ;<PRIORS 计算公因子方差的方法;>V AR变量列表;<PARTIAL 变量列表;><FREQ 变量;><WEIGHT变量;><BY变量;>说明:1. 可选项:out=数据集——存储原始数据和因子得分估计;outstat=数据集——用于存储因子分析的结果,可以用来做进一步因子分析;method=因子选择方法常用的包括:principal(主成分法),ml(极大似然法),prinit(迭代主因子法),usl(未加权最小二乘因子法),alpha(因子法或称harris法)Heywood公因子方差大于1时令其为1,并允许迭代继续执行下去。
因为公因子方差是相关系数的平方(介于0和1之间),若最终的公因子方差=1,称为Heywood状况;若大于1,称为超-Heywood状况,因子解无效。
priors=计算公因子方差的方法即给各变量的公因子方差赋初值,包括one(=1.0),max (最大绝对相关系数),smc(多元相关系数的平方),asmc (与多元相关系数的平方成比例,但要适当调整使它们的和等于最大绝对相关)。
nfactors=n——指定保留的因子个数;mineigen=p——指定保留因子的最小特征值;proportion=p使用先验公因子方差估计,对被保留的因子规定所占公共方差比例为这个p值。
converge=p当公因子方差的最大改变小于p时停止迭代,默认为0.001;maxiter=n——规定迭代的最大步数,默认为30;rotate=因子旋转方法常用的有varimax(正交的最大方差转轴法)、orthomax(由gamma=指定权数的正交方差最大转轴法)和promax(在正交最大方差转轴的基础上进行斜交旋转)。