运用spss做因子分析与主成分分析(1)讲解
SPSS统计分析 第10章 主成分分析和因子分析
累积%
合计 方差的%
累积%
1
6.049
40.325
40.325
6.049 40.325
40.325
2
5.813
38.755
79.080
5.813 38.755
79.080
3
1.142
7.616
86.696
1.142 7.616
86.696
4
.876
5.842
92.538
5
.599
3.996
96.534
y1 -2.19 -2.56 0.45 -1.69 5.28 3.30 -0.43 -1.91 -1.68 4.46 0.87 1.40 -0.61 -2.35 -1.36 -0.99
y2 0.07 -0.11 1.85 -0.46 -6.26 6.07 -0.47 -0.06 -0.68 0.98 0.46 1.34 0.10 -0.20 -0.92 -1.73
xp ap1F1 ap2F2
a1mFm a2mFm
x3 28.53 0.279 0.653 1.011 3.572 3.682 0.898 1.584 1.657 0.497 1.84 2.252 0.321 1.533 0.502
x4 0.878 0.339 10.254
1.6 27.841 6.429 8.276 2.327 2.837 26.151 9.242 9.558 8.153 1.499 5.773
x9 0.547 0.193
1.3 0.78 0.143 29.941 5.145 2.3 0.212 19.642 5.841 8.971 1.913 0.298 1.371
主成分分析和因子分析的SPSS实现比较
主成分分析和因子分析的SPSS实现比较主成分分析和因子分析是多元统计方法中关系密切的两种方法,应用范围十分广泛,可以解决经济、教育、科技、社会等领域中的综合评价问题。
主成分分析采用降维的思想,将研究对象的多个相关变量(指标)综合为少数几个不相关的变量,反映原变量提供的主要信息。
因子分析是主成分分析的推广和发展,它将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它属于多元分析中处理降维的一种统计方法。
但是,在许多论文中用SPSS进行综合分析时,出现这两种方法运用混淆的错误。
比如,主成分分析中对变量进行了因子旋转,因子分析的公因子系数错误等问题。
本文就此对主成分分析和因子分析的异同进行比较,并在SPSS和DPS软件上如何实现给予说明。
一、主成分分析与因子分析的异同点两者的相同点:1、思想一致:都是降维的思想;2、应用范围一致:都要求变量之间具有不完全的相关性;3、数据处理过程一致:数据的无量纲化,求相关系数矩阵的特征值和特征向量,通过累计贡献率确定主成分个数、因子个数;4、合成方法一致:都没有考虑原始变量之间的关系,直接用线性关系处理变量与主成分和因子之间的关系。
两者的不同点:1、方差损失上:主成分解释了原始变量的全部方差,无方差损失;因子模型中除了有公因子外还有特殊因子,公因子只解释了部分信息,有方差损失;2、唯一性:主成分分析不存在因子旋转,主成分是唯一的;因子分析进行因子旋转,解不唯一;3、实际意义:主成分没有实际意义;公因子有实际意义;4、应用:主成分侧重信息贡献、影响力综合评价;因子分析侧重成因清晰性的综合评价。
二、SPSS上的实现1、主成分分析在SPSS上的实现(1)将原始数据无量纲化。
传统主成分分析进行无量纲化处理的方法是“中心标准化”,这在SPSS中通过Analyse-DescriptiveStatistics-Descriptive中Save standardized values as variables执行。
SPSS第10章主成分分析和因子分析
5.542
5.21 8.843 4.032 0.987 1.131 0.248
28.434
28.46 32.121 22.869 7.77 15.745 23.221
58.7
54.052 63.174 43.924 12.581 33.795 47.387
66.1
29.2 36 27 1.1 13.2 19.8
118.4
120.6 132.9 104.5 58.6 94.5 110.5
0.497
1.84 2.252 0.321 1.533 0.502 0.218
26.151
9.242 9.558 8.153 1.499 5.773 7.374
12.456
4.492 6.646 3.724 0.552 0.941 0.179
3
西南财经大学出版社
SPSS16.0与统计数据分析
11.1 主成分析
(2)统计原理
第i个主成分:
yi ei ' x e1i x1 e2i x2 epi x p
设第k个主成分的方差占总方差的比例为
pk
p ,则有: k
k
i 1
p
i
主成分的计算 公式为:
y1 e11 x1 e12 x2 e1m xm y e x e x e x 2 21 1 22 2 2m m y p e p1 x1 e p 2 x2 e pm xm
1.885 169.772 319.907 15.638 10.784 3.854 0.857 2.186 34.691 4.716 18.485 24.555 67.047 10.101 37.986
应用统计学因子分析与主成分分析案例解析+SPSS操作分析[1] 001
因子分析与主成分分析摘要:通过搜集相关数据,采用因子分析法和主成份分析法,对我国各个省市自治区经济发展基本情况的八项指标进行分析。
具体采用的指标只有:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。
这是一个综合分析问题,八项指标较多,用主成分分析法进行综合评价。
关键词:由于样本数比较多,这里不再给出,可参见factor1.sav文件引言:因子分析是寻找潜在的起支配作用的因子模型的方法。
因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低。
每组变量代表一个基本结构,这个基本结构称为公共因子。
对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
通过因子分析得来的新变量是对每个原始变量进行内部剖析。
因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。
具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。
基本步骤:在SPSS中进行因子分析的步骤如下:选择“分析---降维---因子分析”,在弹出的对话框里(1)描述---系数、KMO与Bartlett的球形度检验(2)抽取---碎石图、未旋转的因子解(3)旋转---最大方差法、旋转解、载荷图(4)得分---保存为变量、显示因子得分系数矩阵(5)选项---按大小排序点击确定得到如下各图图3-1图3-2KMO 和 Bartlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。
.620Bartlett 的球形度检验近似卡方231.285 df 28 Sig. .000提取方法 :主成份。
旋转法 :具有 Kaiser 标准化的正交旋转法。
应用SPSS进行主成分分析与因子分析
主成分分析实例P316-不旋转
默认为主成分分析法:Principal 使用默认值进行最简单的主成分分析(默认为主成分分析法 默认为主成分分析法 components) 例子P316:对美国洛杉矶 个人口调查区的 个经济学变量的数据进行因 个人口调查区的5个经济学变量的数据进行因 例子 :对美国洛杉矶12个人口调查区的 子分析, 子分析,data13-01a,数据见下一张幻灯片) ,数据见下一张幻灯片) 菜单:Analyze-Data Reduction-Factor Variables :pop,School,employ,Services, house 其他使用默认值(主成分分析法Principal components,选取特征值>1, 不旋转)
12.8 10.9 8.8 13.6 12.8 8.3 11.4 11.5 12.5 13.7 9.6 11.4
2500 600 1000 1700 1600 2600 400 3300 3400 3600 3300 4000
270 10 10 140 140 60 10 60 180 390 80 100
洛衫矶对12个人口调查区的数据 洛衫矶对 个人口调查区的数据
编号 no 总人口 pop
中等学校平均 校龄School 校龄
总雇员数 专业服务 employ 项目数Services 项目数
中等房价 house
SPSS主成分与因子分析
SPSS主成分与因⼦分析实验⽬的 学会使⽤SPSS的简单操作,掌握主成分与因⼦分析。
实验要求 使⽤SPSS。
实验内容实验步骤 (1)主成分分析,分析⽰例——对30个省市⾃治区经济基本情况的⼋项指标进⾏分析,详情见factorl.sav⽂件。
SPSS操作,点击【分析】→【降维】→【因⼦】,在打开的【因⼦分析】对话框中,把x1~x8都选⼊【变量】中,点击【描述】,勾选【系数】,点击【继续】,单击【确定】。
SPSS在调⽤因⼦分析的过程中,⾸先会对原始变量进⾏标准化,因此以后的输出结果中通常情况下都是指标准化后的变量。
在结果输出中会涉及⼀些因⼦分析的内容,因此这⾥只给出与主成分分析有关的部分如下:相关性矩阵GDP 居民消费⽔平固定资产投资职⼯平均⼯资货物周转量居民消费价格指数商品价格指数⼯业总产值相关性GDP 1.000.267.951.187.617-.273-.264.874居民消费⽔平.267 1.000.426.716-.151-.235-.593.363固定资产投资.951.426 1.000.396.431-.280-.359.792职⼯平均⼯资.187.716.396 1.000-.357-.145-.543.099货物周转量.617-.151.431-.357 1.000-.253.022.659居民消费价格指数-.273-.235-.280-.145-.253 1.000.763-.125商品价格指数-.264-.593-.359-.543.022.763 1.000-.192⼯业总产值.874.363.792.099.659-.125-.192 1.000 上表为8个原始变量之间的相关系数矩阵,可见许多变量之间直接的相关性⽐较强,的确存在信息上的重叠。
总⽅差解释成分初始特征值提取载荷平⽅和总计⽅差百分⽐累积 %总计⽅差百分⽐累积 %1 3.75446.92446.924 3.75446.92446.9242 2.20327.53274.456 2.20327.53274.4563 1.20815.09689.551 1.20815.09689.5514.4035.04294.5935.214 2.67397.2666.138 1.72298.9887.066.82999.8178.015.183100.000提取⽅法:主成分分析法。
利用SPSS进行主成分分析
利用SPSS进行主成分分析【例子】以全国31个省市的8项经济指标为例,进行主成分分析。
第一步:录入或调入数据(图1)。
图1 原始数据(未经标准化)第二步:打开“因子分析”对话框。
沿着主菜单的“Analyze→Data Reduction→Factor ”的路径(图2)打开因子分析选项框(图3)。
图2 打开因子分析对话框的路径图3 因子分析选项框第三步:选项设置。
首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号,将需要的变量调入变量(Variables)栏中(图3)。
在本例中,全部8个变量都要用上,故全部调入(图4)。
因无特殊需要,故不必理会“Value ”栏。
下面逐项设置。
图4 将变量移到变量栏以后⒈设置Descriptives选项。
单击Descriptives按钮(图4),弹出Descriptives对话框(图5)。
图5 描述选项框在Statistics 栏中选中Univariate descriptives 复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initial solution 复选项,则会给出主成分载荷的公因子方差(这一栏数据分析时有用)。
在Correlation Matrix 栏中,选中Coefficients 复选项,则会给出原始变量的相关系数矩阵(分析时可参考);选中Determinant 复选项,则会给出相关系数矩阵的行列式,如果希望在Excel 中对某些计算过程进行了解,可选此项,否则用途不大。
其它复选项一般不用,但在特殊情况下可以用到(本例不选)。
设置完成以后,单击Continue 按钮完成设置(图5)。
⒉ 设置Extraction 选项。
打开Extraction 对话框(图6)。
因子提取方法主要有7种,在Method 栏中可以看到,系统默认的提取方法是主成分(∏ρινχιπαλ χομπονεντσ),因此对此栏不作变动,就是认可了主成分分析方法。
如何用SPSS软件进行主成分分析
如何用SPSS软件进行主成分分析如何用SPSS软件进行主成分分析一、引言主成分分析(Principal Component Analysis,简称PCA)是一种常用的数据降维技术,用于分析多变量之间的相互关系。
通过将原始变量转化为一组线性无关的新变量,利用这些新变量来解释原始变量的变化,从而降低数据的维度。
SPSS软件是一款广泛应用于社会科学、市场调研、数据分析等领域的统计分析工具,本文将介绍如何使用SPSS软件进行主成分分析。
二、数据准备在进行主成分分析之前,首先需要准备好待分析的数据。
SPSS 软件支持导入多种数据格式,包括Excel、CSV等。
在导入数据后,需要对数据进行清洗和预处理,确保数据的质量和一致性。
如果数据中存在缺失值,可以使用SPSS的数据清洗工具进行处理。
三、进行主成分分析1. 打开SPSS软件,并创建一个新的数据文件。
2. 在菜单栏中选择“分析(Analyze)”,然后选择“数据准备(Data Preparation)”,再选择“主成分分析(Principal Components)”。
3. 在弹出的对话框中,选择要进行主成分分析的变量。
可以通过拖拽变量到“已选择”栏中或使用“添加”按钮来选择变量。
4. 在“变量列表”中,可以对每个变量选择分析方法。
默认为主成分分析(PCA),也可以选择常量法(Constant)、特殊值法(Special Value)等分析方法。
5. 点击“统计”按钮,在弹出的对话框中选择输出的统计量。
可以选择主成分得分、特征根等信息。
6. 点击“提取”按钮,在弹出的对话框中选择提取的因子个数。
可以通过查看特征根的大小来确定提取的因子个数。
7. 点击“旋转”按钮,选择因子旋转的方法。
常用的旋转方法包括方差最大旋转(Varimax)和直角旋转(Orthogonal)等。
8. 点击“选项”按钮,可以进一步设置分析的参数,如缺失值处理、小数位数等。
9. 点击“确定”按钮开始进行主成分分析。
《SPSS数据分析教程》——主成分分析
《SPSS数据分析教程》——主成分分析主成分分析的原理是基于多元统计中的线性代数知识。
假设我们有一个包含p个变量的数据集,我们的目标是找到一组新的变量(即主成分),使得它们能够更好地解释原始数据的方差。
具体来说,主成分是原始变量的线性组合,通过计算协方差矩阵的特征值和特征向量来确定。
特征值表示方差的大小,特征向量表示主成分的方向。
主成分分析的步骤如下:1.数据准备:收集并导入数据到SPSS软件中,确保数据的格式正确,并删除缺失值。
2.变量标准化:主成分分析基于变量之间的协方差矩阵,为了消除不同变量之间的量纲差异,需要对数据进行标准化处理。
选择“数据”菜单下的“标准化”选项,在弹出的对话框中选择需要标准化的变量,并指定标准化的方法。
3.因子分析:选择“分析”菜单下的“降维”选项,再选择“主成分”。
在弹出的对话框中,将原始变量移入右侧的“因子”框中。
可以选择是否计算主成分得分和旋转主成分。
得分可以用于后续的回归分析或聚类分析,旋转可以使主成分更具解释性和可解释性。
4.结果解释:主成分分析后,SPSS会显示特征值和特征向量的汇总表。
特征值表示主成分解释的方差比例,特征向量表示主成分的权重。
通常,我们选择特征值大于1的主成分,因为它们能够解释原始数据的较大比例的方差。
通过观察特征向量,可以解释主成分的意义,比如一些主成分与一些变量之间的相关性。
5.结果可视化:为了更好地理解主成分分析的结果,可以使用散点图或其他图表进行可视化。
选择“图表”菜单下的“散点图”选项,将主成分得分画在散点图上,可以观察主成分之间的相关性和数据的集中程度。
上述是主成分分析的基本步骤和SPSS操作流程。
通过主成分分析,我们可以将复杂的高维数据转化为一组简单的主成分,方便我们对数据进行分析和解释。
同时,主成分分析也可以作为其他数据分析方法的前期处理步骤,如聚类分析、回归分析等。
(完整版)SPSS因子分析法-例子解释
因子分析的基本概念和步骤一、因子分析的意义在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。
例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。
虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在:计算量的问题由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。
虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。
变量间的相关性问题收集到的诸多变量之间通常都会存在或多或少的相关性。
例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。
而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。
例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。
类似的问题还有很多。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。
为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。
因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。
SPSS因子分析法
因子分析因子分析一、基础理论知识1 概念因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法.从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。
它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。
选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。
两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。
2 特点(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映.在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。
显然,在一个低维空间解释系统要比在高维系统容易的多.3 类型根据研究对象的不同,把因子分析分为R型和Q型两种。
当研究对象是变量时,属于R型因子分析;当研究对象是样品时,属于Q型因子分析.但有的因子分析方法兼有R型和Q型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。
4分析原理假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 :当p 较大时,在p 维空间中考察问题比较麻烦.这就需要进行降维处理,即用较少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。
运用spss做因子分析与主成分分析(1)讲解共31页
运用spss做因子分析与是在我们的前面,而不在 我们的 后面。
•
7、心急吃不了热汤圆。
•
8、你可以很有个性,但某些时候请收 敛。
•
9、只为成功找方法,不为失败找借口 (蹩脚 的工人 总是说 工具不 好)。
•
10、只要下定决心克服恐惧,便几乎 能克服 任何恐 惧。因 为,请 记住, 除了在 脑海中 ,恐惧 无处藏 身。-- 戴尔. 卡耐基 。
谢谢!
36、自己的鞋子,自己知道紧在哪里。——西班牙
37、我们唯一不会改正的缺点是软弱。——拉罗什福科
xiexie! 38、我这个人走得很慢,但是我从不后退。——亚伯拉罕·林肯
39、勿问成功的秘诀为何,且尽全力做你应该做的事吧。——美华纳
40、学而不思则罔,思而不学则殆。——孔子
SPSS因子分析法知识讲解
SPSS 因子分析法因子分析因子分析一、基础理论知识1概念因子分析(Factor analysiS :就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。
从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析(Principal component analysiS :是因子分析的一个特例,是使用最多的因子提取方法。
它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。
选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。
两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。
2特点(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。
显然,在一个低维空间解释系统要比在高维系统容易的多。
3类型根据研究对象的不同,把因子分析分为R型和Q型两种。
当研究对象是变量时,属于R型因子分析;当研究对象是样品时,属于Q型因子分析。
但有的因子分析方法兼有R型和Q型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。
4分析原理假定:有n个地理样本,每个样本共有p个变量,构成一个nxp阶的地理数据矩阵:X11 X12 X i,X21 X22 X2X ni X n2X nppX当p 较大时,在p 维空间中考察问题比较麻烦。
SPSS因子分析法
因子分析因子分析一、基础理论知识1 概念因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。
从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析(Principal component analysis):是因子分析的一个特例,是使用最多的因子提取方法。
它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。
选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。
两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。
2 特点(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。
显然,在一个低维空间解释系统要比在高维系统容易的多。
3 类型根据研究对象的不同,把因子分析分为R型和Q型两种。
当研究对象是变量时,属于R型因子分析;当研究对象是样品时,属于Q型因子分析。
但有的因子分析方法兼有R型和Q型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。
4分析原理假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 :当p 较大时,在p 维空间中考察问题比较麻烦。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-4
-2
0
2
4
-4
-2
0
2
4
主成分分析
正如二维椭圆有两个主轴,三维椭球有三 个主轴一样,有几个变量,就有几个主成 分。 选择越少的主成分,降维就越好。什么是 标准呢?那就是这些被选的主成分所代表 的主轴的长度之和占了主轴长度总和的大 部分。有些文献建议,所选的主轴总长度 占所有主轴长度之和的大约 85% 即可, 其实,这只是一个大体的说法;具体选几 个,要看实际情况而定。
因子分析概述
定义:因子分析以最少的信息丢失为前提,将 众多的原有变量综合成较少几个综合指标,名 为因子。通常,因子有以下几个特点
因子个数远远少于原有变量的个数 因子能够反映原有变量的绝大部分信息 因子之间的线性关系不显著(即独立的)
因子具有命名解释性
因子分析的数学模型和相关概念
• 这里每一列代表一个主成分作为原来变量线性组 合的系数(比例)。比如第一主成分作为数学、 物理、化学、语文、历史、英语这六个原先变量 的线性组合,系数(比例)为 -0.806, -0.674, 0.675, 0.893, 0.825, 0.836。
• 如 用 x1 ,x2 ,x3 ,x4 ,x5 ,x6 分 别 表 示 原 先 的 六 个 变 量 , 而 用 y1,y2,y3,y4,y5,y6 表示新的主成分,那么,原先六个变量 x1,x2,x3,x4,x5,x6与第一和第二主成分y1,y2的关系为: X1=-0.806y1 + 0.353y2 X2=-0.674y1 + 0.531y2 X3=-0.675y1 + 0.513y2 X4= 0.893y1 + 0.306y2 x5= 0.825y1 + 0.435y2 x6= 0.836y1 + 0.425y2 • 这些系数称为主成分载荷( loading ),它表示主成分和相 应的原先变量的相关系数。 • 比如 x1 表示式中 y1 的系数为 -0.806 ,这就是说第一主成分和 数学变量的相关系数为-0.806。 • 相关系数 ( 绝对值)越大,主成分对该变量的代表性也越大。 可以看得出,第一主成分对各个变量解释得都很充分。而最 后的几个主成分和原先的变量就不那么相关了。
因主 子成 分分 析分 析 和
案例1:成绩排名
100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
主成分分析
当坐标轴和椭圆的长短轴平行,那么代表 长轴的变量就描述了数据的主要变化,而 代表短轴的变量就描述了数据的次要变化。 但是,坐标轴通常并不和椭圆的长短轴平 行。因此,需要寻找椭圆的长短轴,并进 行变换,使得新变量和椭圆的长短轴平行。 如果长轴变量代表了数据包含的大部分信 息,就用该变量代替原先的两个变量(舍 去次要的一维),降维就完成了。 椭圆(球)的长短轴相差得越大,降维也 越有道理。
Component Plot
1.0
.5
phys chem math
history english literat
0.0
该图左面三个点是数学、物理、化学三科,右边三个点 是语文、历史、外语三科。图中的六个点由于比较挤, -.5 不易分清,但只要认识到这些点的坐标是前面的第一二 主成分载荷,坐标是前面表中第一二列中的数目,还是 可以识别的。
常用方法:主成分分析法
因子提取和因子载荷矩阵的求解
计算因子载荷矩阵
后面的是特征根乘以特征向量 根据特征根确定因子数:一般选取特征值大于1 的特征根,或者固定提取几个因子(根据因子的 累计方差贡献率)
-1.0 -1.0 -.5 0.0 .5 1.0
Component 1
因子分析
ห้องสมุดไป่ตู้
主成分分析从原理上是寻找椭球的所有主轴。因此, 原先有几个变量,就有几个主成分。 而因子分析是事先确定要找几个成分,这里叫因子 (factor)(比如两个),那就找两个。 这使得在数学模型上,因子分析和主成分分析有不少 区别。根据因子分析模型的特点,它还多一道工序: 因子旋转(factor rotation);可以使结果更好。 当然,对于计算机来说,因子分析并不比主成分分析 多费多少时间。 从输出的结果来看,因子分析也有因子载荷( factor loading)的概念,代表了因子和原先变量的相关系数。 但是在输出中的因子和原来变量相关系数的公式中的 系数不是因子载荷,也给出了二维图;该图虽然不是 载荷图,但解释和主成分分析的载荷图类似。
因子分析的前提条件
如果原有变量之间不存在较强的相关关系,那 么就无法从中综合出能够反映某些变量共同特 性的几个较少的公共因子。因此,一般在因子 分析时需首先对因子分析的条件,即原有变量 是否相关进行研究计算相关系数矩阵 常用指标:计算相关系数矩阵和利用KMO检验
因子提取和因子载荷矩阵的求解
数学模型
相关概念
因子载荷(所有系数构成矩阵即因子载荷) 变量共同度(即变量X有多少东西饭反映了他) 因子的方差贡献(第一列平方和加起来就是对第一个因子的贡 献 以此类推)
因子分析的基本内容
因子分析的基本步骤
因子分析的前提条件: 因子提取:方法是主成分法 使因子更具有命名可解释性: 计算各样本的因子得分
• 怎么解释这两个主成分。前面说过主成分 是原始六个变量的线性组合。是怎么样的 组合呢?SPSS可以输出下面的表。
a Com ponent Matr ix
Component 1 2 3 4 MATH -.806 .353 -.040 .468 PHYS -.674 .531 -.454 -.240 CHEM -.675 .513 .499 -.181 LITERAT .893 .306 -.004 -.037 HISTORY .825 .435 .002 .079 ENGLISH .836 .425 .000 .074 Extraction Method: Principal Component Analysis. a. 6 components extracted. 5 .021 -.001 .002 .077 -.342 .276 6 .068 -.006 .003 .320 -.083 -.197