第九讲SPSS主成分分析和因子分析
主成分分析和因子分析的SPSS实现比较
主成分分析和因子分析的SPSS实现比较主成分分析和因子分析是多元统计方法中关系密切的两种方法,应用范围十分广泛,可以解决经济、教育、科技、社会等领域中的综合评价问题。
主成分分析采用降维的思想,将研究对象的多个相关变量(指标)综合为少数几个不相关的变量,反映原变量提供的主要信息。
因子分析是主成分分析的推广和发展,它将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它属于多元分析中处理降维的一种统计方法。
但是,在许多论文中用SPSS进行综合分析时,出现这两种方法运用混淆的错误。
比如,主成分分析中对变量进行了因子旋转,因子分析的公因子系数错误等问题。
本文就此对主成分分析和因子分析的异同进行比较,并在SPSS和DPS软件上如何实现给予说明。
一、主成分分析与因子分析的异同点两者的相同点:1、思想一致:都是降维的思想;2、应用范围一致:都要求变量之间具有不完全的相关性;3、数据处理过程一致:数据的无量纲化,求相关系数矩阵的特征值和特征向量,通过累计贡献率确定主成分个数、因子个数;4、合成方法一致:都没有考虑原始变量之间的关系,直接用线性关系处理变量与主成分和因子之间的关系。
两者的不同点:1、方差损失上:主成分解释了原始变量的全部方差,无方差损失;因子模型中除了有公因子外还有特殊因子,公因子只解释了部分信息,有方差损失;2、唯一性:主成分分析不存在因子旋转,主成分是唯一的;因子分析进行因子旋转,解不唯一;3、实际意义:主成分没有实际意义;公因子有实际意义;4、应用:主成分侧重信息贡献、影响力综合评价;因子分析侧重成因清晰性的综合评价。
二、SPSS上的实现1、主成分分析在SPSS上的实现(1)将原始数据无量纲化。
传统主成分分析进行无量纲化处理的方法是“中心标准化”,这在SPSS中通过Analyse-DescriptiveStatistics-Descriptive中Save standardized values as variables执行。
spss课件主成分分析与因子分析
由此可得 Yi 与X j 的相关系数为
Y , X
i j
Cov(Yi , X j ) Var (Yi ) Var ( X j )
i eij i jj
i jj
eij .
注意:此公式的记忆,应根据实际含义,即第i个主成分的标准差除以第j个原变量 的标准差,然后乘以第i个特征向量的第j个分量
Yi (e ) X e
* * T i *
* i1
X 1 1
11
* i
e
p
* i2
X 2 2
22
p
e
* ip
X p p
pp
, i 1, 2, , p.
(4.6)
并且
Var (Y
i 1
p
) i* Var ( X i* ) p,
用为数较少的互不相关的新变量来反映原变量所提供 的绝大部分信息
引言
Y1 X 1 cos X 2 sin Y2 X 1 sin X 2 cos
总体主成分
X 设 1 , X 2 , , X p为某实际问题所涉及的 p 个随机变量。 X ( X 1 , X 2 , , X p )T 记 ,其协方差矩阵为
( ij ) p p E ( X E ( X ))( X E ( X ))T
它是一个 p 阶负定矩阵。设 l (l , l ,, l ) 为 p 个常数向量,考虑如下线性组合:
i i1 i2 ip
T
(i 1, 2,, p)
Y1 l1T X l11 X 1 l12 X 2 l1 p X p , T Y2 l2 X l21 X 1 l22 X 2 l2 p X p , Y l T X l X l X l X . p1 1 p2 2 pp p p p
如何利用SPSS进行因子分析(九)
SPSS(Statistical Package for the Social Sciences)是一种专业的统计软件,广泛应用于各种学术研究和商业分析中。
其中的因子分析是一种常用的数据分析方法,用于发现数据中的潜在因子结构。
本文将介绍如何利用SPSS进行因子分析,并且探讨因子分析的一些相关概念和技巧。
1. 数据准备在进行因子分析之前,首先需要进行数据准备。
这包括数据的清洗、变量的选择和数据的标准化。
清洗数据是为了去除异常值和缺失值,以保证数据的质量。
选择变量是为了确定需要进行因子分析的变量,通常选择相关性较高的变量。
标准化数据是为了使不同变量之间的数值具有可比性,通常采用z-score标准化方法。
2. 进行因子分析在SPSS中进行因子分析非常简单。
首先打开SPSS软件,导入需要进行因子分析的数据文件。
然后依次点击“分析”→“数据降维”→“因子”,在弹出的对话框中选择需要进行因子分析的变量,设置因子提取方法和旋转方法,最后点击“确定”按钮即可进行因子分析。
3. 因子提取与旋转在因子分析中,因子提取是指从原始变量中提取出潜在因子,常用的方法有主成分分析和最大方差法。
而因子旋转是为了使因子更易于理解和解释,常用的旋转方法有方差最大旋转和极大似然旋转。
在SPSS中,可以根据具体的研究目的选择不同的因子提取和旋转方法。
4. 结果解释进行因子分析后,SPSS会输出一些统计指标和结果数据,如特征值、因子载荷矩阵等。
特征值是衡量因子解释变量方差的指标,通常选择特征值大于1的因子作为潜在因子。
因子载荷矩阵则显示了每个变量对于每个因子的贡献程度,可以根据载荷大小解释因子的含义。
5. 结果验证进行因子分析后,还需要对结果进行验证。
通常可以采用内部一致性分析、重测信度分析和因子有效性分析等方法进行结果验证。
在SPSS中,可以利用内部一致性分析来检验因子的稳定性和一致性,重测信度分析可用来检验因子的可靠性,因子有效性分析可用来检验因子的有效性。
基于SPSS的主成分分析与因子分析的辨析
基于SPSS的主成分分析与因子分析的辨析一、本文概述随着统计学的快速发展和广泛应用,主成分分析(Principal Component Analysis, PCA)和因子分析(Factor Analysis, FA)作为两种重要的降维和变量整合技术,在社会科学、医学、经济学等众多领域得到了广泛应用。
SPSS作为一款强大的统计分析软件,为这两种分析方法提供了便捷的操作平台和丰富的功能支持。
然而,尽管PCA和FA在理论上具有一定的相似性,但它们的核心理念、适用场景、解释方式等方面都存在显著差异。
因此,本文旨在通过辨析基于SPSS的主成分分析与因子分析的不同点,帮助研究者更加准确地理解和运用这两种方法,以便更有效地提取信息、简化数据结构,并提升研究的科学性和准确性。
本文首先将对主成分分析和因子分析的基本概念进行简要介绍,明确它们各自的核心思想和理论基础。
随后,将重点分析这两种方法在SPSS软件中的实现过程,包括数据准备、参数设置、结果解读等关键步骤。
在此基础上,文章将详细比较PCA和FA在SPSS应用中的不同点,包括适用范围、前提条件、分析结果解释等方面。
本文还将结合实例分析,展示如何在具体研究问题中选择合适的方法,并对分析结果进行有效解读和应用。
通过本文的辨析和讨论,期望能够帮助研究者更深入地理解主成分分析和因子分析的基本原理及其在SPSS中的应用方法,从而为实证研究提供有力的统计工具和方法支持。
二、主成分分析(PCA)主成分分析(Principal Component Analysis,简称PCA)是一种广泛应用的多元统计方法,其目标是通过降维技术来揭示数据中的内部结构。
PCA通过将多个原始变量转换为少数几个主成分,这些主成分能够最大限度地保留原始数据中的变异信息,并且彼此之间互不相关。
PCA的基本原理是通过对原始变量的协方差矩阵或相关矩阵进行特征值分解,得到一系列的主成分。
每个主成分都是原始变量的线性组合,其权重由特征向量决定。
聚类分析、对应分析、因子分析、主成分分析spss操作入门
Within-group linkage:组内平均连接法
• • • •
•
Байду номын сангаас
以两类个体两两之间距离的平均数作为类间距离。 d (d1 d 2 d 3 d 9 ) 9
将两类个体合并为一类后,以合并后类中所有个体之间的 平均距离作为类间距离。 d (d1 d 2 d 3 d 4 d 5 d 6 ) 6
输出结果
当采用“特征根大于1”的 方法提取因子时,所有变 量的共同度过均较高,各 变量的丢失信息较少,效 果理想。
此操作目的在于检验原始变量之 间是否存在一定线性关系,若线性 关系不显著,则不适合做因子分析
20
输出结果
看correlation矩阵,若对角线上元素的值较接近1,其 他大多数元素的绝对值均较小,说明变量之间相关性较 强,适合做因子分析。
因子 编号 特征 根值 方差 贡献率 累积方差 贡献率
23
软件操作
Method:因子旋转的方法,Varimax—方差最大 法, Quartimax— 四次方最大法, Equamax— 等量 最大法, Display:输出与因子旋转相关的信息,Rotated solution— 旋 转 后 的 因 子 载 荷 矩 阵 , Loading plot(s)—旋转后的因子载荷散点图
聚类输出结果
初始类中心情况 中心点偏移情况
最终类中心情况
最终类成员情况
15
基本介绍: 一种数据简化的技术; 将原有变量中的信息重叠部分提取并综合成因子,实现减少变量个数的目的; 提取出来的因子能够反映原来众多变量的主要信息; 原始的变量是可观测的显在变量,而提取因子是不可观测的潜在变量;
聚类分析对应分析因子分析主成分分析spss操作入门课件
因子分析
主要步骤
前提条件
因子提取
因子命名 可解释性
计算 因子得分
观测变量间有较 强的相关性; 若变量之间无相 关性或相关性较 小的,则不会有 公共因子;
根据因子方差的大 小:只取方差大于1( 或特征值大于1)的那 些因子; 按照因子方差累积 贡献率大于80%的原 则;
坐标变换使每个 原始变量在尽可能 少的因子之间有密 切的关系; 这样因子的实际 意义更容易解释;
聚类分析
聚类主要步骤
选择变量
• 和聚类分析的目的密切相关 ;
• 反映要分类变量的特征; • 不同研究对象上的值有明显
的差异; • 变量之间不能高度相关;
结果的 解释和证实
• 结果的解释是希望对各个类 的特征进行准确的描述;
• 给每类起一个合适的名称; • 通常的做法是计算各类在各
聚类变量上的均值,对均值 进行比较;
中心点偏移情况
最终类成员情况
因子分析
基本介绍: 一种数据简化的技术; 将原有变量中的信息重叠部分提取并综合成因子,实现减少变量个数的目 的; 提取出来的因子能够反映原来众多变量的主要信息; 原始的变量是可观测的显在变量,而提取因子是不可观测的潜在变量;
基本思想: 把每个研究变量分解为几个影响因素变量; 将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数 几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子 ; 因子分析特点:
聚类分析、
对应分析、
因子分析、
主成分分析 spss操作入
门
聚类分析
基本思想:根据所研究的样本或变量在观测数据上表现的不 同亲疏程度,采用不同的聚类方法将亲疏程度较大的样本/ 变量聚合为一类,把另外一些亲疏程度较大的样本/变量聚 合为一类,直到把所有的样本/变量都聚合完毕,形成一个 由小到大的分类系统 。
SPSS主成分分析教程)
• 这里的 Initial Eigenvalues 就是这里的六个 主轴长度,又称特征值(数据相关阵的特 征值)。头两个成分特征值累积占了总方 差的81.142%。后面的特征值的贡献越来越 少。
因子分析
主成分分析从原理上是寻找椭球的所有主轴。因此, 原先有几个变量,就有几个主成分。 而因子分析是事先确定要找几个成分,这里叫因子型上,因子分析和主成分分析有不少 区别。而且因子分析的计算也复杂得多。根据因子分 析模型的特点,它还多一道工序:因子旋转( factor rotation);这个步骤可以使结果更好。 当然,对于计算机来说,因子分析并不比主成分分析 多费多少时间。 从输出的结果来看,因子分析也有因子载荷( factor loading)的概念,代表了因子和原先变量的相关系数。 但是在输出中的因子和原来变量相关系数的公式中的 系数不是因子载荷,也给出了二维图;该图虽然不是 载荷图,但解释和主成分分析的载荷图类似。
主成分分析
选择越少的主成分,降维就越好。什么是 标准呢?那就是这些被选的主成分所代表 的主轴的长度之和占了主轴长度总和的大 部分。有些文献建议,所选的主轴总长度 占所有主轴长度之和的大约 85% 即可, 其实,这只是一个大体的说法;具体选几 个,要看实际情况而定。
• 对于我们的数据,SPSS输出为
主成分分析与因子分析是将多个实测变 量转换为少数几个不相关的综合指标的 多元统计分析方法 直线综合指标往往是不能直接观测到的, 但它更能反映事物的本质。因此在医学、 心理学、经济学等科学领域以及社会化 生产中得到广泛的应用。
主成分分析与因子分析的概念(续)
由于实测的变量间存在一定的相关关系, 因此有可能用较少数的综合指标分别综 合存在于各变量中的各类信息,而综合 指标之间彼此不相关,即各指标代表的 信息不重叠。综合指标称为因子或主成 分(提取几个因子),即成为主因子
主成分分析和因子分析的spss操作
一、参考文献:主成分分析在SPSS中的操作应用张文霖理论与方法2005利用SPSS进行主成分分析佚名计量经济分析方法与建模高铁梅2009二、数据选用张文霖文中的数据GDP PGDP NYZJZ GYZJZ DSCY GDZCTZ JBJSTZ SHXF HGCK DFCZSR 5458.2 13000 14883.3 1376.2 2258.4 1315.9 529 2258.4 123.7 399.7 10550 11643 1390 3502.5 3851 2288.7 1070.7 3181.9 211.1 610.2 6076.6 9047 950.2 1406.7 2092.6 1161.6 597.1 1968.3 45.9 302.3 2022.6 22068 83.9 822.8 960 703.7 361.9 941.4 115.7 171.8 10636 14397 1122.6 3536.3 3967.2 2320 1141.3 3215.8 384.7 643.7 5408.8 40627 86.2 2196.2 2755.8 1970.2 779.3 2035.2 320.5 709 7670 16570 680 2356.5 3065 2296.6 1180.6 2877.5 294.2 566.9 4682 13510 663 1047.1 1859 964.5 397.9 1663.3 173.7 272.9 11770 15030 1023.9 4224.6 4793.6 3022.9 1275.5 5013.6 1843.7 1202 2437.2 5062 591.4 367 995.7 542.2 352.7 1025.5 15.1 186.7三、首先,在SPSS中操作3.1 操作步骤第1步选择【Analyze】下拉菜单,并选择【Data Reduction-Factor】,进入主对话框第2步在主对话框中将所有原始变量选入【Variables】第3步点击【Descriptives】,在【correlation Matrix】下选择【Coefficients】,点击【Continue】回到主对话框第4步点击【Extraction】,在【Display】下选择【ScreePlot】,点击【Continue】回到主对话框第5步点击【Rotation】,在【方法】下选择【无】,点击【Continue】回到主对话框第6步点击【得分】,在【保存为变量】前打勾,在【方法】中选择【回归】,在【显示因子得分系数矩阵】前打勾3.2 步骤结果解释第3步的结果变量之间的存在较强的相关关系,适合作主成分分析是以自变量X 作为被解释变量,对应的公共因子载荷平方之和。
主成分分析、因子分析实验报告--SPSS
主成分分析、因子分析实验报告--SPSS主成分分析、因子分析实验报告SPSS一、实验目的主成分分析(Principal Component Analysis,PCA)和因子分析(Factor Analysis,FA)是多元统计分析中常用的两种方法,旨在简化数据结构、提取主要信息和解释变量之间的关系。
本次实验的目的是通过使用 SPSS 软件对给定的数据集进行主成分分析和因子分析,深入理解这两种方法的原理和应用,并比较它们的结果和差异。
二、实验原理(一)主成分分析主成分分析是一种通过线性变换将多个相关变量转换为一组较少的不相关综合变量(即主成分)的方法。
这些主成分是原始变量的线性组合,且按照方差递减的顺序排列。
主成分分析的主要目标是在保留尽可能多的数据信息的前提下,减少变量的数量,从而简化数据分析和解释。
(二)因子分析因子分析则是一种探索潜在结构的方法,它假设观测变量是由少数几个不可观测的公共因子和特殊因子线性组合而成。
公共因子解释了变量之间的相关性,而特殊因子则代表了每个变量特有的部分。
因子分析的目的是找出这些公共因子,并估计它们对观测变量的影响程度。
三、实验数据本次实验使用了一份包含多个变量的数据集,这些变量涵盖了不同的领域和特征。
数据集中的变量包括具体变量 1、具体变量 2、具体变量 3等,共X个观测样本。
四、实验步骤(一)主成分分析1、打开 SPSS 软件,导入数据集。
2、选择“分析”>“降维”>“主成分分析”。
3、将需要分析的变量选入“变量”框。
4、在“抽取”选项中,选择主成分的提取方法,如基于特征值大于1 或指定提取的主成分个数。
5、点击“确定”,运行主成分分析。
(二)因子分析1、同样在 SPSS 中,选择“分析”>“降维”>“因子分析”。
2、选入变量。
3、在“描述”选项中,选择相关统计量,如 KMO 检验和巴特利特球形检验。
4、在“抽取”选项中,选择因子提取方法,如主成分法或主轴因子法。
主成分分析和因子分析的区别
主成分分析和因子分析的区别一、二者在SPSS中的实现(一)、因子分析在SPSS中的实现进行因子分析主要步骤如下:1. 指标数据标准化(SPSS软件自动执行);2. 指标之间的相关性判定;3. 确定因子个数;4. 综合得分表达式;5. 各因子Fi命名;例子:对沿海10个省市经济综合指标进行因子分析(一)指标选取原则本文所选取的数据来自《中国统计年鉴2003》中2002年的统计数据,在沿海10省市经济状况主要指标体系中选取了10个指标:X1——GDP X2——人均GDPX3——农业增加值X4——工业增加值X5——第三产业增加值X6——固定资产投资X7——基本建设投资X8——国内生产总值占全国比重(%)X9——海关出口总额X10——地方财政收入图1:沿海10个省市经济数据(二)因子分析在SPSS中的具体操作步骤运用SPSS统计分析软件Factor过程[2]对沿海10个省市经济综合指标进行因子分析。
具体操作步骤如下:1. Analyzeà Data Reductionà Factor Analysis,弹出Factor Analysis对话框2. 把X1~X10选入Variables框3. Descriptives: Correlation Matrix框组中选中Coefficients等选项,然后点击Continue,返回Factor Analysis对话框4. 点击“OK”图2:Factor Analyze对话框与Descriptives子对话框SPSS在调用Factor Analyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后指的变量都是指经过标准化处理后的变量,但SPSS不会直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。
我们可以通过Analyze-Descriptive Statistics- Descriptives对话框来实现:弹出Descriptives对话框后,把X1~X10选入Variables框,在Save standardized values as variables前的方框打上钩,点击“OK”,经标准化的数据会自动填入数据窗口中,并以Z开头命名。
应用SPSS进行主成分分析与因子分析
主成分分析实例P316-不旋转
默认为主成分分析法:Principal 使用默认值进行最简单的主成分分析(默认为主成分分析法 默认为主成分分析法 components) 例子P316:对美国洛杉矶 个人口调查区的 个经济学变量的数据进行因 个人口调查区的5个经济学变量的数据进行因 例子 :对美国洛杉矶12个人口调查区的 子分析, 子分析,data13-01a,数据见下一张幻灯片) ,数据见下一张幻灯片) 菜单:Analyze-Data Reduction-Factor Variables :pop,School,employ,Services, house 其他使用默认值(主成分分析法Principal components,选取特征值>1, 不旋转)
12.8 10.9 8.8 13.6 12.8 8.3 11.4 11.5 12.5 13.7 9.6 11.4
2500 600 1000 1700 1600 2600 400 3300 3400 3600 3300 4000
270 10 10 140 140 60 10 60 180 390 80 100
洛衫矶对12个人口调查区的数据 洛衫矶对 个人口调查区的数据
编号 no 总人口 pop
中等学校平均 校龄School 校龄
总雇员数 专业服务 employ 项目数Services 项目数
中等房价 house
SPSS主成分与因子分析
SPSS主成分与因⼦分析实验⽬的 学会使⽤SPSS的简单操作,掌握主成分与因⼦分析。
实验要求 使⽤SPSS。
实验内容实验步骤 (1)主成分分析,分析⽰例——对30个省市⾃治区经济基本情况的⼋项指标进⾏分析,详情见factorl.sav⽂件。
SPSS操作,点击【分析】→【降维】→【因⼦】,在打开的【因⼦分析】对话框中,把x1~x8都选⼊【变量】中,点击【描述】,勾选【系数】,点击【继续】,单击【确定】。
SPSS在调⽤因⼦分析的过程中,⾸先会对原始变量进⾏标准化,因此以后的输出结果中通常情况下都是指标准化后的变量。
在结果输出中会涉及⼀些因⼦分析的内容,因此这⾥只给出与主成分分析有关的部分如下:相关性矩阵GDP 居民消费⽔平固定资产投资职⼯平均⼯资货物周转量居民消费价格指数商品价格指数⼯业总产值相关性GDP 1.000.267.951.187.617-.273-.264.874居民消费⽔平.267 1.000.426.716-.151-.235-.593.363固定资产投资.951.426 1.000.396.431-.280-.359.792职⼯平均⼯资.187.716.396 1.000-.357-.145-.543.099货物周转量.617-.151.431-.357 1.000-.253.022.659居民消费价格指数-.273-.235-.280-.145-.253 1.000.763-.125商品价格指数-.264-.593-.359-.543.022.763 1.000-.192⼯业总产值.874.363.792.099.659-.125-.192 1.000 上表为8个原始变量之间的相关系数矩阵,可见许多变量之间直接的相关性⽐较强,的确存在信息上的重叠。
总⽅差解释成分初始特征值提取载荷平⽅和总计⽅差百分⽐累积 %总计⽅差百分⽐累积 %1 3.75446.92446.924 3.75446.92446.9242 2.20327.53274.456 2.20327.53274.4563 1.20815.09689.551 1.20815.09689.5514.4035.04294.5935.214 2.67397.2666.138 1.72298.9887.066.82999.8178.015.183100.000提取⽅法:主成分分析法。
spss的主成分与因子分析
定理:设p维随机变量 x = ( x1 x 2 L x p )' 的数学期望 设
为0,且协方差阵为 ,它的特征值为 D (x)
λ1 ≥ λ 2 ≥ L ≥ λ p ≥ 0 u1, u 2 ,L , u p 为相应的单位特征向量, 为相应的单位特征向量,则x第
i主成分为
Y i = u i' x = u
λ1 ≥ λ 2 ≥ L ≥ λ p ≥ 0
Y1 , Y 2 , L Y p
又因 Y = Ux 所以∶ D ( y ) = D (Ux ) = UD ( x )U ' 即
UD ( x )U ' = Λ 或
λ1 0 D(F ) = 相互独立,所以∶ 0
0
L L O L
λ2
0
0 0 =Λ λn 主成分(主分量)分析是将原来众多具有相 主成分(主分量)分析 关性的指标化为少数几个相互独立的综合 指标的一种统计方法。 数学处理方法:将原来的P个指标作线性组 数学处理方法 合,作为新的综合指标F。
综合指标F 综合指标F1如何尽可能多反映原 指标的信息 指标的信息 信息的含义: F1的方差,即Var( F1 )越大, 的方差, Var( 越大, 包含的信息越多, F1包含的信息越多,在所有线性组合中所选 取的F 应是方差最大的, 为第一主成分。 取的F1应是方差最大的, F1为第一主成分。 依此类推,第二F 第三F 主成分。 依此类推,第二F2 、第三F3主成分。 要求:Cov( 要求:Cov( F1, F2 )=0
Y1 , Y2 , L Y p 分别叫做 x p 的第一、第二、 、第 主分量
。
L
问题∶x的主成分是否存在? 即能够使①②成立的正交矩阵 U = ( u是否存在? ij ) p × p 问题解决思路∶假设主成分存在,看一下U应满足什么的条件, 能否按照这个条件把U求出来。
SPSS主成份因子分析
• 这里的Initial Eigenvalues就是这里的六个 主轴长度,又称特征值(数据相关阵的特 征值)。头两个成分特征值累积占了总方 差的81.142%。后面的特征值的贡献越来越 少。
• 特征值的贡献还可以从SPSS的所谓碎石图看出
Scree Plot
4
3
2
1
0 1 2 3 4 5 6
Component Number
-4
-2
0
2
4
-4
-2
0
2
4
主成分分析 • 对于多维变量的情况和二维类似,也 有高维的椭球,只不过无法直观地看 见罢了。 • 首先把高维椭球的主轴找出来,再用 代表大多数数据信息的最长的几个轴 作为新变量;这样,主成分分析就基 本完成了。 • 注意,和二维情况类似,高维椭球的 主轴也是互相垂直的。这些互相正交 的新变量是原先变量的线性组合,叫 做主成分(principal component)。
主成分分析
• 当坐标轴和椭圆的长短轴平行,那么代表长轴的 变量就描述了数据的主要变化,而代表短轴的变 量就描述了数据的次要变化。 • 但是,坐标轴通常并不和椭圆的长短轴平行。因 此,需要寻找椭圆的长短轴,并进行变换,使得 新变量和椭圆的长短轴平行。 • 如果长轴变量代表了数据包含的大部分信息,就 用该变量代替原先的两个变量(舍去次要的一 维),降维就完成了。 • 椭圆(球)的长短轴相差得越大,降维也越有道 理。
因主 子成 分分 析分 析 和
汇报什么?
• 假定你是一个公司的财务经理,掌握了公司的所 有数据,比如固定资产、流动资金、每一笔借贷 的数额和期限、各种税费、工资支出、原料消耗、 产值、利润、折旧、职工人数、职工的分工和教 育程度等等。 • 如果让你向上面介绍公司状况,你能够把这些指 标和数字都原封不动地摆出去吗? • 当然不能。 • 你必须要把各个方面作出高度概括,用一两个指 标简单明了地把情况说清楚。
主成分分析、因子分析实验报告 SPSS
一、实验目的及要求:1、目的用SPSS软件实现主成分分析、因子分析及其应用。
2、内容及要求用SPSS对2009年我国88个房地产上市公司做因子分析,并做出相关解释。
二、仪器用具:三、实验方法与步骤:准备工作:把实验所用数据从Word文档复制到Excel,并进一步导入到SPSS 数据文件中,以备后续分析。
四、实验结果与数据处理:在因子分析的SPSS操作中所用到的部分选项的设置如下面四个图所示,其余为软件默认的选项,因此不再列示,具体的分析如这些表之后所示。
图一图二图三图四分析结果:由表1可知,巴特利特球度检验统计量的观测值为398.287,相应的概率p值接近0,小于显著性水平 (取0.05),所以应拒绝原假设,认为相关系数矩阵与单位矩阵有显著差异。
同时,KMO值为0.637,根据Kaiser给出的KMO度量标准(0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合)可知原有变量不算特别适合进行因子分析。
表2为公因子方差,即因子分析的初始解,显示了所有变量的共同度数据。
第一列是因子分析初始解下的变量共同度,它表明,对原有10个变量如果采用主成分分析方法提取所有特征根(10个),那么原有变量的所有方差都可被解释,变量的共同度均为1(原有变量标准化后的方差为1)。
事实上,因子个数小于原有变量的个数才是因子分析的目标,所以不可提取全部特征根;第二列是在按指定提取条件(这里为特征根大于1)提取特征根时的共同度。
可以看到,总资产报酬率、成交量、流通市值、总市值的绝大部分信息可被因子解释,这些变量的信息丢失较少。
但毛利率这一变量的信息丢失相当严重(近70%),净资产收益率、应收应付比率两个变量的信息丢失较为严重(近40%)。
因此本次因子提取的总体效果并不理想。
表3展示了特征根及累积贡献率情况,按照特征根大于1的原则,选入了4个公共因子,其累积方差贡献率为72.343%,同时也可以看出,因子旋转后,累计方差比并没有改变,也就是没有影响原有变量的共同度,但却重新分配了各个因子解释原有变量的方差,改变了各因子的方差贡献,使各因子更易于解释。
第九讲SPSS主成分分析和因子分析.ppt
主成分分析的基本原理
严格来说,主成分分析只是一种中间手 段,其作用为简化数据。主成分分析不 能作为研究结果,应该在进行主成分分 析之后继续使用其他多元统计方法进行 分析。
主成分分析所使用的方法是通过线性变 换将原来的多个指标组合成相互独立的 少数几个能够反映出大部分信息的指标。
在数据文件中新生成的两 个变量就是提取出的公因 子的因子分
选择是否进行因子旋转的菜单 ,这里面提供了三种正交旋转 和两种斜交旋转的方法,默认 值为不进行旋转。做主成分分
因子分析中的正交旋转方法
Varimax 方差最大法 只有少数几个变量在某个因子上有较高的负载, 其他变量在这个因子上的负载尽可能低。该方 法强调对因子的解释的简是否利用先验信息,产生 了探索性因子分析和确定性因子分析的区别。探索性 因子分析是在事先不知道影响因素的基础上,完全依 据资料数据,以一定的原则进行因子分析,最后得出 因子的过程。而验证性因子分析充分利用了先验信息, 是在已知因子的情况下检验所搜集的数据资料是否按 事先预定的结构方式产生作用。因此探索性因子分析 主要是为了找出影响观测变量的因子个数,以及各个 因子和各个观测变量之间的相关程度;而验证性因子 分析的主要目的是决定事前定义因子的模型拟合实际 数据的能力。
KMO取值范围从 0到1,值越大越 适合进行因子分 析,一般>0.7
公因子方差:观测 变量能够被公因子 所解释的变异占总 变异的百分比
公因子贡献率指一个 公因子能够解释所有 观测变量总变异的百 分比
特征根的含义是公因子 能够解释的变异是一个 观测变量变异的多少倍
因子负荷 矩阵,也 就是公因 子与观测 变量的相 关矩阵
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因子分析得到的是什么?
医学:一位研究者对山东某县 2000 ~ 2002 年 3 年 的全死因调查资料中不同地区各恶性肿瘤标化死 亡率进行因子分析后发现,该县居民恶性肿瘤的 发病和死亡具有明显的地区分布。在地区分布中 ,各种恶性肿瘤的死亡具有一定程度的聚集性。 经因子分析得到的 4 个主因子可以解释 10 种恶性 肿瘤死亡率的74.54%;10种恶性肿瘤中,被解释 的比例最小也在62%以上;而胃癌、白血病、膀 胱癌、乳腺癌、结肠癌死亡率被解释的比例均在 77%以上,表明这10种恶性肿瘤之间存在中等偏 强的内在联系和地区分布特点
因子分析的基本原理
因子分析有探索性因子分析和验证性因 子分析两种。其中探索性因子分析的主 要作用是简化数据和探索数据结构;验 证性因子分析的作用是对数据结构的先 在假设进行检验。 因子分析使用的方法是分解原始变量, 通过相关找出潜在的“类别”,把每一 类变量看作一个共同因子,从此确定数 据结构。
选择最常用的方差最大 法进行正交旋转。
呈现因子负荷图
旋转前的因子载荷矩阵
旋转后的因子载荷矩阵
因子旋转的转换矩阵
因子转换矩阵就是旋转前的公因子与旋转后的公因 子之间的相关矩阵
旋转前
旋转后
因子分析的一般步骤
KMO与Bartlett`s球型检验 进行分析,按一定标准提取公因子 如果进行主成分分析则将主成分存为新 变量用于继续分析;如果进行因子分析 则考察公因子的实际意义,如有必要还 需要进行因子旋转,以寻求对因子的最 佳解释。 如有必要可以计算因子得分等中间指标 供进一步分析使用。
主成分分析的基本原理
严格来说,主成分分析只是一种中间手 段,其作用为简化数据。主成分分析不 能作为研究结果,应该在进行主成分分 析之后继续使用其他多元统计方法进行 分析。 主成分分析所使用的方法是通过线性变 换将原来的多个指标组合成相互独立的 少数几个能够反映出大部分信息的指标。
spss的实现
主成分分析和因子分析
(Principal Component Analysis & Factor Analysis) 在研究实际问题时,往往需要收集多个变量。 但这样会使多个变量间存在较强的相关关系, 即这些变量间存在较多的信息重复,直接利用 它们进行分析,不但模型复杂,还会因为变量 间存在多重共线性而引起较大的误差。 为能够充分利用数据,通常希望用较少的新变 量代替原来较多的旧变量,同时要求这些新变 量尽可能反映原变量的信息。 主成分分析和因子分子正式解决这类问题的有 效方法。它们能够提取信息,使变量简化降维 ,从而使问题更加简单直观。
验证性因子分析简介
在寻找公共因子的过程中,是否利用先验信息,产生 了探索性因子分析和确定性因子分析的区别。探索性 因子分析是在事先不知道影响因素的基础上,完全依 据资料数据,以一定的原则进行因子分析,最后得出 因子的过程。而验证性因子分析充分利用了先验信息, 是在已知因子的情况下检验所搜集的数据资料是否按 事先预定的结构方式产生作用。因此探索性因子分析 主要是为了找出影响观测变量的因子个数,以及各个 因子和各个观测变量之间的相关程度;而验证性因子 分析的主要目的是决定事前定义因子的模型拟合实际 数据的能力。
截取公因子的标准
特征根大于1
公因子累积贡献率达到一定水平
碎石图的拐点
去掉因子负荷大于0.5非常少的因子
如果想把因子分存储下 来用于进一步分析,可 以把这个选项选上
在数据文件中新生成的两 个变量就是提取出的公因 子的因子分
选择是否进行因子旋转的菜单 ,这里面提供了三种正交旋转 和两种斜交旋转的方法,默认 值为不进行旋转。做主成分分
主成分因子分析 Analyze→Dimention Reduction →Factor
KMO和 Bartlett球 形检验是分 辨数据能否 进行因子分 析的一个重 要指标
KMO取值范围从 0到1,值越大越 适合进行因子分 析,一般>0.7
P<0.05
公因子方差:观测 变量能够被公因子 所解释的变异占总 变异的百分比
因子分析中的正交旋转方法
Varimax 方差最大法 只有少数几个变量在某个因子上有较高的负载, 其他变量在这个因子上的负载尽可能低。该方 法强调对因子的解释的简洁性。 Quartimax 四次方最大法 每个变量只在某一个因子上有较高的负载,在 其他的因子上有尽可能低的负载。该方法强调 了对变量解释的简洁性。 Equamax 等量最大法 等量最大法是上面两种方法的加权平均。
公因子贡献率指一个 公因子能够解释所有 观测变量总变异的百 分比
特征根的含义是公因子 能够解释的变异是一个 观测变量变异的多少倍
因子负荷 矩阵,也 就是公因 子与观测 变量的相 关矩阵
提取公共因子的 方式
默认主成分分析
根据特征根的值提取公共 因子,一般要求特征根>1 固定公共因子的个数
碎石图可以 作为截取公 因子时的重 要参照
第七讲 因子分析与主成分分析
统计名言
模型选择是艺术,而不是科学。
——William Navidi
因子分析得到的是什么?
因子分析方法在部分领域应用的一些例子 心理学:心理学家瑟斯登对 56项测验的得分进 行因子分析,得出了7中主要智力因子:词语理 解能力,语言流畅能力、计数能力、空间能力 、记忆力、知觉速度和推理能力
选上后,因子负荷矩阵按照 负荷大小排序 低于特定值的因子负荷不 显示
排序、旋转后、不显示比较 不排序并显示所有因子负荷 小的因子负荷
删除题目的原则
1.删除在两个或两个以上的公共因子上具 有接近因子载荷的题目 2.某个公因子下只有1个题目 3.删除在公共因子上的最大载荷小于0.35, 共同度小于0.4
两种因子分析的比较Fra bibliotek 在实际求解过程中,因子分析和主成分 分析都有着一定的区别,计算上因子分 析更为复杂。 但对于计算机,因子分析并不费事。因 子分析比主成分分析多了“因子旋转 (factor rotation)”这样一个步骤。
对样本量的要求
主成分分析对于样本量没有严格的要求, 只要把需要进行分析的样本都用于进行 主成分分析即可。 因子分析理想的样本量是样本数为变量 数的10~25倍,考虑到因子分析时的变量 数通常很多,5~10倍的样本量也可以使 用。