SPSS第12章主成分分析和因子分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、主成分分析法的原理
•已知城市公共汽车平均运行时间与运行距离有关 系,运行距离(L)越远,平均运行时间(S)越 长(图12.2)。假定某城市开通了50路公共汽车,在 L-S坐标图上的50个散点几乎成一条直线。假如将 L-S坐标轴围绕原点旋转,将散点构成的直线取为 坐标轴X,另在其垂直方向取坐标轴Y,由于大多 数观察点都在X轴附近,即X方向具有最大方差, 可以用一个坐标轴X来代表所有观察点,或者说, 这50个点的差异主要表现在坐标轴X方向上,在Y 轴方向上差异很小。由此可以用一个坐标X来代替 原来的L-S两个坐标,从而达到降维的目的。当然, 坐标X、Y本身是原始变量L、S的线性组合。 •X = a11*L+a12*S •Y = a21*L+a22*S
3、个例分析
•【例12-2】某省对15个大型重点出口企业进行检验。测得出 口创汇(X1)(百万美元)、利润(X2)(百万美元)、人均创汇额 (X3)(万美元/人·年)、出口合同履约率(X4)(%)的资料如表12.1所 示,试进行主成分分析。 •其次,计算其相关系数矩阵。 •第三,对应于相关系数矩阵,求特征方程|R-λI|=0的4个非负 的特征根2.8768、0.7536、0.2546、和0.1150,及相应的特征 向量。 •第四,进行主成分分析,由于前两个主分量的累积贡献已高 达90.76%,即前两个主分量y1'和y2'基本反映了原始变量全部 信息量,可以将原来的4个变量简化为下面2个综合变量: • y1'= 0.954x1+0.926x2+0.641x3+0.836x4 • y2'=-0.009x1-0.143x2+0.753x3-0.408x4 •其中,y1'和y2'分别称为第一、第二主分量。
12.2 基本分析过程
•因子分析、主成分分析计算比较复杂,传统的手工分析计 算方法费时多、准确性差。用SPSS软件分析计算则十分方 便,由于因子分析、主成分分析选择项较多,初学者应尽 量采用系统默认值进行分析,同时需要进一步学习相关的 背景知识,逐步掌握。 •1、基本概念 •1)因子载荷:即因子分析中各因子Factor(n)的系数值, 用于反映某个因子与各个变量间的密切程度。当各个因子 间完全不相关时,因子载荷量就等于因子与变量的相关系 数。它的绝对值越大,说明该因子对当前变量的影响程度 越大。 •2)公共因子方差比(communalities):指原变量的方差中由 公共因子决定的比例,或提取公因子后,各变量中信息被 提取出的比例。公共因子方差比在0-1之间,取值越大,说 明该变量能被因子解释的程度越高,如果各个因子之间完 全独立,则公共因子方差比和因子载荷实际上是等价的。
•因此,变量xj的方差由两部分所组成,第一部分为公共因 子方差hj2,是全部公共因子对变量xj的方差所作的贡献, 亦即全部公共因子对变量xj所提供的方差之总和。第二部 分是待定变量所产生的方差,称为特殊因子方差,它仅与 变量xj本身的变化有关。因子载荷矩阵A中各元素的平方和 •称为公共因子fk的方差贡献,gk是同一公共因子fk对诸变 量所提供的方差之总和,它是衡量公共因子相对重要性的 指标。
2、主成分分析法的一般步骤
•1)对p个指标的p*n个原始数据进行标准化处理,并计算 标准化协方差矩阵为
•可看出这个矩阵是对称矩阵。 •2)求出协方差矩阵C的特征根A •由C的特征方程|C-λI|=0,求出特征根λ(i=1,2,……,p)。 当指标样本数据较多时,需要解高次方程,或使用替代法 进行运算。这些计算都要用计算机完成。
12.1 基本原理
•12.1.1 因子分析
•因子分析起源于心理学的一种多变量分析方法,在心理学 研究领域中,研究者对一些个体的心理能力(智力、能力、 伦理、传统和观念等)经常无法进行直接测量,因此用一 些外显行为进行测量,并尝试从这些可测外显行为(变量) 中,寻找共同因子来代表。1904年心理学家Chales Spearman提出因子分析的设想,其基本思路是用少数几个 潜在指标(因子)的线性组合,来表示实际存在的多个指 标。即利用变量间的相关关系,找出这些变量间潜在的某 个公共因子。假定界定某一行为的特征需要3个层面的因子, 每个层面需要若干指标予以说明,以形成初步的测验,然 后,选择合适的样本进行调查。指标总数和样本调查量的 比例大致为1:(5~10),即如果调查某行为的4个层面20个 指标,则至少需要调查200个样本。
12.1.2 主成分分析法
•主成分分析法是因子分析法中,将特殊因子ε1,ε2,……, εp置为0时的特例。主成分分析是从解释变量方差的角度出发, 假设变量的方差能完全被主成分所解释;而因子模型是从解 释变量之间的相关关系出发,假设观察变量之间的相关关系 能完全被公因子解释,变量的方差不一定能完全被公因子解 释。所以,因子模型在求因子解时,仅考虑公因子方差。
的输出结果。
3、因子的正交旋转和斜交旋转
•因子分析的主要目的是,将具有相近因子载荷的各个观察变 量置于一个公共因子之下,利用上面介绍的分析方法,选出X1、 X2、…Xp的公共因子,往往会出现公共因子对每一变量因子载 荷数值十分接近的现象。对因子载荷矩阵实行正交旋转的目的 是使其结构简化,容易对每个因子进行恰当的解释。正交旋转 方法有方差极大法、四分变异法和均等变异法等3种,比较常 用的是第一种。正交旋转后得到的因子彼此互不相关。方差极 大法的原理是在每个因子下面,把具有较大因子载荷量的变量 数目减少到最低限度,如此可以简化因子的解释。四分变异法 是最少化因子的数目,其原理是让同一变量在所有因子上的载 荷量平方的差异为最大,造成每个变量在第一个因子的载荷量 都不低的现象。均等变异法是前述两种方法的结合应用,既简 化变量数目又压缩因子个数,但较为苛刻。斜交旋转(oblique rotation)允许转轴后的因子仍是相关的,此方法的优点是, 若原来因子是正交,则斜交旋转的因子之间仍是彼此独立,其 缺点是旋转后的因子仍有相关存在,这将会造成因子解释的复 杂性。
•3)解出特征根λ,根据λ计算结果求出主成分分析的贡献率, 当前的m个主成分的累计贡献率大于85%时,则主成分特 征根个数确定为m个。 • 4)用正交轴分布图分析主成分样本。计算主成分的合成 变量y,即用各主成分,与原始指标的标准化矩阵X对应相 乘求出y在各样本中的点值,即 这样,各样本点在各主成 分项下都可列出自己的对应值。将它们标于分布图上,就 可以根据各主成分样本点集合的分布情况结合原始指标数 据,对p个指标反映出的经济现象进行综合分析。
• 1)将观测样本进行标准化处理。 • 2)计算样本相关系数矩阵。 • 3)求出样本相关系数矩阵R的特征值,用λ1,λ2,……,λp表
示矩阵R的按其大小顺序排列的P个特征值,求出满足 • (λ1+λ2+……+λm-1)/p < 85 • (λ1+λ2+……+λm)/p ≥85% • 的正整数m,那么m即为所需选取的公共因子数(有时m亦可
•主成分分析的功能大致有三:首先是维度减缩,当 处理的变量很多并且彼此间高度相关时,可以将主 成分分析作为个案分析的第一步,而后进行多维分 析、区别分析、典型相关及多变量方差分析等其他 分析。其次是检测极端值、进行资料与变量的筛选, 研究者可以绘制第一、第二个主成分散点图,由于 前二个主成分已经比较集中地解释了观测值的变异, 散点图中的极端值可能就是违反方差齐性和多变量 正态分布的奇异值。最后是进行分类处理,通过第 一个、第二个主成分散点图(由于这两个主成分相 互直交),可以清楚反映各样本间分布规律,进行 客观分类,也可进一步进行聚类分析。
学习目标
熟悉主成分分析的基本概念 了解主成分分析的基本原理 能够解释主成分分析的结果
• 12.1基本原理 • 12.1.1 因子分析 • 12.1.2 主成分分析 • 12.2 基本分析过程 • 12.2.1 分析过程的选择 • 12.2.2 个例分析过程
•在进行调查研究时,经常需要同时调查或分析许多变量,这 些变量可能归为几类,而每一类均具有相同的本质,常被称为 因子(Factor)。因此,因子分析是一种用来决定某些变量的 本质及其分类的一种统计方法,主成分分析是因子分析的重要 特例。本章将描述因子和主成分分析的数学模型、计算方法及 其基本选择。 •因子分析与主成分分析有很多共性,都是对内部具有高度相 关性的变量做资料精wk.baidu.com工作,分析时将所有变量都等权对待, 无自变量和因变量之分。但这两种方法在使用上还有些差异的 (王保进,2007),主成分分析是选择一组彼此独立的成分 (component),以简化原来的数据关系,尽可能解释变量原 来的差异;而因子分析则由变量间内部相关关系,找出并解释 共同的差异,反映变量间潜在的基本结构,以解释变量间的相 关。主成分分析主要分析各个变量的方差,因子分析则主要分 析变量之间的协方差。也有人认为,因子分析与主成分分析都 在寻找几个不可观察的因子,但是主成分分析的不可观察主成 分是所有变量的线性函数,没有误差;因子分析是将变量分成 共同因子与独特因子(含测量误差)两部分,变量是所得到不 可观察因子的线性函数。这两种方法的差异见图12.1。
•初始公共因子和初始因子载荷矩阵的确定 • 因子分析的一个基本问题是如何用变量x1、x2、…xp的 一组样本观察值(其中xjk是第K个随机变量xk的第j次观察值) 来决定公共因子的个数,并确定因子载荷矩阵。通常,先 用主成分分析求出初始公共因子和初始因子载荷矩阵,其 步骤如下。
•x11、x12、…x1m •x21、x22、…x2m •…、、…、 •xp1、xp2、…xpm
•主成分分析法是一种实用的多元统计分析方法。某一社会经 济现象的变化,往往受许多因素的影响。如考察小学生健康 状态,除了研究身高、体重、年龄以外,还要测量胸围、腕 力、肺活量、百米成绩、视力、血压、语言表达能力和数字 运算能力等。再如,干部综合能力的测评、企业经济效益的 考核、地区或国家综合实力的比较,都需要测定很多因素。 当分析这类影响因素时,若变量(指标)太多、太散、因素 过繁时,不仅会使分析复杂化,抓不住主要矛盾,而且也难 以建立起数量分析模型(或预测、决策模型)。主成分分析 法能够将大量、繁复的原始变量及其指标、数据简化为少量 的综合指标,同时使这少量指标尽可能地包含原信息。这些 综合指标能够更好地反映各样本之间的主要差别,而且在统 计学上是相互独立的。
凭经验,一般人为地选定为2-4个,或λm必须在0.6-1.0之间)。 • 4)求出矩阵R的对应特征值λ1,λ2,……,λm的特征向量。 • 5)建立初始因子载荷矩阵。 • 对于这样的初始因子载荷矩阵,其第K列元素的平方和等于
λk (k=1,2,……m)。即初始公共因子fk的方差贡献gk等于λk。 • 上述几个处理步骤均由SPSS自行完成,读者只需观察其默认
•x1=a11 f1+ a12 f2+……+ a1m fm+ε1 •x2= a21 f1+ a22 f2+……+ a2m fm+ε2 •…… •xp= ap1 f1+ ap2 f2+……+ apm fm+εp
•其中f1,f2,……fm称为公共因子,是共同出现的各 变量中的因子。ε1,ε2,……,εp是特殊因子,单个 变量特有的因子,当主成分分析时特殊因子为0。 ajk(即矩阵A中αjk)称第j个变量在第K因子载荷(或荷 载)量,或者说,第j个变量与第K个因子的相关系数。 荷载越大,则说明第j个变量与第K个因子的关系越密 切;荷载越小,则说明第j个变量与第K个因子的关系 越疏远。 •矩阵A称为因子载荷矩阵。因子载荷矩阵A中各行元 素的平方和 •称为各变量X的公因子方差(共同度),可以证明 • var(xj)= hj2+σj2 •其中σj2是εj的方差。
•因子分析有两个方面应用:一方面是寻求基本结构,简化变 量个数,即构造一个因子模型,确定模型中的参数(变量), 然后根据分类结果进行因子解释;另一方面是对变量或样本 进行分类,对公共因子进行估计,并作因子分析。因子分析 的基本目的是用少数几个变量来描述多个变量间协方差关系, 基本思想是根据相关性大小对变量分组,使组内变量间高相 关、组间变量低相关,每组变量代表一个基本结构即因子。 •正交因子模型 •设x1、x2、…xp是p个随机变量,它们不是相互独立,而是有 某些程度的相关。通常因子分析采用正交因子模型。就是说 存在m个因子f1,f2,……fm(m≤p),使得x1、x2、…xp可以 用它们的线性组合表示为: