第11章 因子分析
因子分析方法ppt课件
![因子分析方法ppt课件](https://img.taocdn.com/s3/m/3176375c27284b73f2425085.png)
10
因子分析数学模型中几个相关概念
举例说明:
11
12
因子分析的五大基本步骤
第一步:因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩,即将 原有变量中的信息重叠部分提取和综合成因子,进而最终实 现减少变量个数的目的。因此它要求原有变量之间应存在较 强的相关关系。否则,如果原有变量相互独立,相关程度很 低,不存在信息重叠,它们不可能有共同因子,那么也就无 法将其综合和浓缩,也就无需进行因子分析。本步骤正是希 望通过各种方法分析原有变量是否存在相关关系,是否适合 进行因子分析。
2
因子分析的基本模型
因子分析模型中,假定每个原始变量由两部分组成: 共同因子和唯一因子。 共同因子是各个原始变量所共有的因子,解释变 量之间的相关关系。
唯一因子顾名思义是每个原始变量所特有的因子, 表示该变量不能被共同因子解释的部分。原始变量 与因子分析时抽出的共同因子的相关关系用因子负 荷表示。
18
第四步:决定因素与命名
• 转轴后,要决定因素数目,选取较少因素 层面,获得较大的解释量。在因素命名与 结果解释上,必要时可将因素计算后之分 数存储,作为其它程序分析之输入变量。
19
第五步:计算各样本的因子得分
• 因子分析的最终目标是减少变量个数,以 便在进一步的分析中用较少的因子代替原 有变量参与数据建模。本步骤正是通过各 种方法计算各样本在各因子上的得分,为 进一步的分析奠定基础。
因子分析方法
1
因子分析的基本概念
因子分析的概念 就是在尽可能不损失信息或少损失信息的情况下,将多个变量减少为 少数几个潜在的因子。也就是用少数几个因子来描述许多指标或因素之 间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方 法 主成分分析(Principal component analysis): 是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标 变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相 关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少 变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信 息。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降 低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子 分析的一个特例
计量地理学 第十一章 因子分析地理模型
![计量地理学 第十一章 因子分析地理模型](https://img.taocdn.com/s3/m/23306508e87101f69e319580.png)
第十一章因子分析地理模型因子分析因子分析的主要应用1、寻求基本结构、简化观测系统给定一组变量或观测数据,我们要问,变量的维数是否一定需要这么多,是否存在一个子集,特别是一个加权子集,来解释整个问题。
通常采用因子分析法将为数不多的变量减少为几个新因子,以再现它们之间的内在联系。
2、用于分类,将变量或样本进行分类,根据因子得分值,在因子轴所构成的空间中进行分类处理。
因子分析与主成分分析的区别第一节因子分析法的数学模型因子分析的结果完全的因子解因子分析的基本问题是用变量之间的相关系数来决定因子载荷。
因子模型的求解过程如下:设原始数据矩阵为:X =p表示变量数,n表示样本数。
将原始数据进行标准化变换:x ij-x ix ij’=(I=1,2,…p;j=1,2,…n)经标准化变换后的数据,其均值为0,方差为1,这样相关矩阵R 和协方差矩阵S完全一样,这里相关矩阵:R=X*X’(为方便计,假定标准化处理后的矩阵仍记为X)。
求解R矩阵的特征方程|R=λI|=0,记特征值为λ1>λ2…>λp>=0,特征向量矩阵为U,这样有关系:R=U U’U为正交矩阵,并且满足U’U=UU’=I令F=U’X,则得FF’=F为主因子阵,并且Fα=U’Xα(α=1,2…n),即每一个Fα为第α个样品主因子观测值。
在因子分析中,通常只选m(m<p)其中主因子。
根据变量的相关选出第一主因子F1,使其在各变量的公共因子方差中所占的方差贡献最大。
R型的因子模型为X1=α11F1+α12F2+…+α1m F m +α1ε 1 X2=α21F1+α22F2+…+α2m F m +α2ε 2… …X P=αP1F1+αP2F2+…+αPm F m +αmεm在因子模型中2、αij叫因子载荷,它是第I个变量在第j个主因子上的负荷,或者叫第I个变量在第j个主因子上的权,它反映了第I个变量在第j个主因子上的相对重要性。
如果把x i看成m维因子空间上的一个向量,则αij表示x i在坐标轴F j上的投影。
管理统计SPASS第11章主成分分析与因子分析资料
![管理统计SPASS第11章主成分分析与因子分析资料](https://img.taocdn.com/s3/m/3d0aec02caaedd3383c4d3e8.png)
主成分的计算流程
步骤三:
按如下方法得到主成分 Yi :
Y1 b1T X ,Y2 b2T X ,,Yk bkT X
பைடு நூலகம்
式中,X ( X1, X 2 ,, X k )T 。
Yi (i 1,, k) 是相互正交的综合变量。将k个主成分放到一
起可得矩阵表达式: Y BT X
Y1 b11 b1k X1
简记为
Y AX
向量 Y 满足如下条件:
指标 Yi 之间不相关。
方差尽可能大,即对 n 个对象的分辨率尽可能强,信息损
失尽可能的少。
主成分分析小结:
(1)从相关的多个指标 X1, X 2 ,, X k 中,求出相互独立 的多个指标 Y1,Y2 ,,Yk 。
(2) Y (Y1,Y2 ,,Yk )T 的方差信息不损失,尽可能等同于 X ( X1, X 2 ,, X k )T 的方差。
Yk bk1 bkk X k
主成分的计算流程
主成分更为明晰的表达式:
Y1 b11X1 b21 X 2 bk1 X k Y2 b12 X1 b22 X 2 bk 2 X k
Yk bk1 X 1 bk 2 X 2 bkk X k
主成分的计算流程
结语:
X 与 Y 的转换关系为:
Y1 a11 a1k X 1
Yk ak1 akk X k
几何解释
在下图 X1 O X 2 的坐标中,散点大致为椭圆状。经过 线性变换可以得到新的坐标 Y1 O Y2 。Y1 在椭圆的长轴上, 反映出了散点在这个方向的最大方差。 Y2 在椭圆的短轴上,反 映出了散点在这个方向的方差。
X2
Y2
X1
Y1
主成分的计算流程
《统计分析与SPSS的应用》课后练习答案(第11章)
![《统计分析与SPSS的应用》课后练习答案(第11章)](https://img.taocdn.com/s3/m/fd94c69369eae009591bec68.png)
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第11章SPSS的因子分析1、简述因子分析的主要步骤是什么因子分析的主要步骤:一、前提条件:要求原有变量之间存在较强的相关关系。
二、因子提取。
三、使因子具有命名解释性:使提取出的因子实际含义清晰。
四、计算样本的因子得分。
2、对“基本建设投资分析.sav ”数据进行因子分析。
要求:1)利用主成分方法,以特征根大于1为原则提取因子变量,并从变量共同度角度评价因子分析的效果。
如果因子分析效果不理想,再重新指定因子个数并进行分析,对两次分析结果进行对比。
2)对比未旋转的因子载荷矩阵和利用方差极大法进行旋转的因子载荷矩阵,直观理解因子旋转对因子命名可解释性的作用。
“基本建设投资分析”因子分析步骤:分析降维因子分析导入全部变量到变量框中详细设置描述、抽取的设置如下: -相黄性舸阵[3□逆模型迥)显1F 性水平逞)□再生迟) □柠別式也)上厦映象追)V 邕M 。
和Bartiettm 形度橙验旋转、得分、选项的设置如下:./丘示圜子卷敘粗胖I 』[ai~J匚淙存n 欝童海© BarJet瞅■!圖丽药亟T 矗匸Q 脚dii*A3R 迟》0晰平即口甘描因亶除■£洞&式E 卜曲/ 牺削'■:诩|型J®J(3S1T ;■■ ■昌同子分疔信辻统计Statistics(1)表一是原有变量的相关系数矩阵。
由表可知,一些变量的相关系数都较高,呈较强的线由表二可知,巴特利特球度检验统计量的观测值为,相应的概率 性水平为,由于概率P-值小于显著性水平a,则应拒绝原假设,认为相关系数矩阵与单位P-值接近0.如果显著阵有显著差异,原有变量适合做因子分析。
同时, 量可以进行因子分析。
KMO 直为,根据KMC 度量标准可知原有变由表三可知,利用外资、自筹资金、其他投资等变量的绝大部分信息(大于 因子解释,这些变量的信息丢失较少。
但国家预算内资金这个变量的信息丢失较为严重(近80%。
4--主成分因子
![4--主成分因子](https://img.taocdn.com/s3/m/80cf015c77232f60ddcca1b1.png)
比如,第一个主成分的特征根为3.963,占总特征根的的 比例(方差贡献率)为66.052%,这表示第一个主成分解释 了原始6个变量66.052%的信息,可见第一个主成分对原 来的6个变量解释的已经很充分了
2008年8
11 - 43
根据什么选择主成分?
根据主成分贡献率
一般来说,主成分的累计方差贡献率达到 80% 以上的前 几个主成分,都可以选作最后的主成分 比如表13.3中前两个主成分的累计方差贡献率为95.57%
长度占所有主轴长度之和的大约85%即可,其实,这只
是一个大体的说法;具体选几个,要看实际情况而定。
11 - 22
不难想像这些主成分之间不仅不相关,而且 它们的方差依次递减。 因此在实际工作中,就挑选前几个最大主成 分,虽然这样做会损失一部分信息,但是 由于它使我们抓住了主要矛盾,并从原始 数据中进一步提取了某些新的信息,因而 在某些实际问题的研究中得益比损失大, 这种既减少了变量的数目又抓住了主要矛 盾的做法有利于问题的分析和处理。
11 - 24
2008年8
主成分分析的数学模型
11 - 25
主成分分析的数学模型
数学上的处理是将原始的p个变量作线性组合,作为新的 变量 ,x p ,新的变量(即主成分) 设p个原始变量为 x1,x 2, ,y p ,主成分和原始变量之间的关系表示为 为 y1,y 2,
y1 a11 x1 a12 x 2 a1 p x p y 2 a 21 x1 a 22 x 2 a 2 p x p y a x a x a x p1 1 p2 2 pp p p
11 - 27
上述方程组简写成:
Fi a1i X 2 a2i X 2 ... a pi X p
因子分析ppt课件
![因子分析ppt课件](https://img.taocdn.com/s3/m/daab4f672bf90242a8956bec0975f46527d3a7a1.png)
(3)因子旋转
通过正交旋转或斜交旋转使提取出的因子具有可解 释性。
(4)计算因子得分
通过各种方法求解各样本在各因子上的得分,为进 一步分析奠定基础。
❖ 2、因子分析前提条件——相关性分析:
分析方法主要有:
(1)计算相关系数矩阵(correlation coefficients matrix)
1 2 为p的特0 征根,
标准化特征向量,则
为u对1 , 应u2 的,, up
1
Σ = U
2
U AA + D
p
u1 u2
up
1
0
1u1u1 2u2u2
0
u1 u2
p
up
mumum m1um1um1
1u1
2u2
pu p
1u1
2
u2
p
因子分析的基本理论 ❖ 3、因子分析的目的:
因子分析的目的之一,简化变量维数。即要使因素结 构简单化,希望以最少的共同因素(公共因子),能 对总变异量作最大的解释,因而抽取得因子愈少愈好, 但抽取因子的累积解释的变异量愈大愈好。
在因子分析的公共因子抽取中,应最先抽取特征值最 大的公共因子,其次是次大者,最后抽取公共因子的 特征值最小,通常会接近0。
(3)因子分析中因子载荷的不唯一性有利于对公因子进行有效解释; 而主成分分析对提取的主成分的解释能力有限。
因子分析的基本理论
❖ 5、因子分析模型: 设 Xi (i 1,2,个,变p)量p,如果表示为
X i i ai1F1 aimFm i (m p)
X1 1 11 12
或
X
2
11效度分析与因子分析
![11效度分析与因子分析](https://img.taocdn.com/s3/m/6157f3e9b1717fd5360cba1aa8114431b90d8ea3.png)
样本数量:样 本数量要足够 大,才能保证 结果的稳定性
和可靠性。
样本随机性: 样本应该在目 标总体中随机 抽取,以确保 样本具有代表
性。
样本多样性: 样本应该涵盖 目标总体的各 种不同类型和 特征,以提高
代表性。
样本质量:样 本数据的质量 和准确性对效 度分析和因子 分析的结果有
重要影响。
因子数量确定
心理特质。
评估方法:专 家评审、统计 分析、试测反
馈等。
影响因素:测 验内容的选取、 编制和组织等 都会影响内容
效度。
效度分析中的 地位:内容效 度是效度分析 中的基础,其 他效度分析方 法都是在内容 效度的基础上
进行的。
结构效度
定义:指测验 是否真实地测 量了所要测量
的内容
评估方法:比 较测验的内容 效度和验证效
01
效度分析与因子分析的应用
心理学研究
效度分析在心理学研究中用于评估测量工具的准确性 因子分析在心理学中用于探索变量之间的关系和结构 效度分析与因子分析在心理学研究中的结合使用 心理学研究中效度分析与因子分析的应用案例
市场调研
效度分析:用于评估市场调 研工具的准确性和可靠性, 确保收集的数据真实反映目 标群体的观点和行为。
度
影响因素:测 验的长度、难
度和区分度
提高方法:不 断改进和优化
测验的设计
验证效度
内容效度:专家 评审和实际应用 评估
结构效度:因子 分析、聚类分析 等方法
校标效度:与其 他已知效度高的 测验对比
验证效度:长期 追踪和跨文化比 较
01
因子分析
因子提取
因子提取的原理:通过数学变换将原始变量转换为因子,以解释原始变量之间的相关性。
市场调查方法与技术 第5版 第十一章 定量调查资料的分析
![市场调查方法与技术 第5版 第十一章 定量调查资料的分析](https://img.taocdn.com/s3/m/fcb189d1ed3a87c24028915f804d2b160a4e8640.png)
表11-1数据类型及其适用的分析方法
4
01
单变量的 描述统计分析
描述统计分析
描述统计是市场调查分析中最常用的分析方法,关键是如何选择适当的图表或统计量使数据更易于解释。不同的 描述统计分析方法适用于不同的研究目的,适合不同的测量尺度数据。 下面我们以表11-2中的数据为例,介绍常用的描述统计方法
• 四分位差较小说明数据比较集中于中位数附近;反之 分布较分散。
• 四分位差常与中位数一起描述定距或定序变量分布。 缺点是四分位差没有充分利用所有数据信息。
10
数据的特征描述③ 离散趋势分析b
反映各数值远离其中心的程度,即数据分布的分散程度。数据的离散程度越大,则集中趋势测度值对该组数据的代 表性越差;离散程度越小,则其代表性就越好。
变异系数
全距
• 也称为离散系数,即标准差与均值的比值,主要用于 不同类别数据离散程度的比较,记为CV。公式如下:
• 也称极差,是一组数据中最大值与最小值之差, 计算公式是
• 标准差大小不仅与数据测度单位有关,也与观测值 的均值大小有关,不能直接用标准差比较离散程度, 而变异系数消除了测度单位和观测值水平不同的影 响,因而可以直接用来比较数据的离散程度。
图 11-1 显示公司员 工的年薪多在3.5万 元左右,但也有少数 员工的年薪达到10万 元以上,分布呈现一 定的右偏。
7
数据的特征描述①
• 频数分析和直方图可以清晰展示数据的取值分布情况,但有时这些信息过于详细,我们可能希望用一些统 计量对其信息进行概括性描述,例如用众数、中位数、均值描述数据的集中位置,用异众比例、四分位差、 标准差描述数据分布的变异性,同偏度与峰度描述分布的形态。
第11章 典型相关分析2
![第11章 典型相关分析2](https://img.taocdn.com/s3/m/88ecec2c58fb770bf78a55af.png)
第十一章 典型相关分析主成分分析、因子分析研究的是一组变量间或一组观测间的相互关系。
而当研究两组变量间的相互关系时,一般不采用各自的分析或两个变量一对一的直接分析。
例如,在研究一组环境因素与畜禽诸生产性能间的相关性时,通常是把各环境因素当作一个整体,把各生产性能也作一个整体来研究。
这时研究两个整体之间的相关可化为研究两个新变量之间的相关关系,而这两个新变量将分别由各自整体中变量的线性组合所构成,因此不会丢失原有诸变量的任何信息。
这样构成的两个新变量具有最大相关的性质。
类似地还可找出由两组变量构成的第二对线性组合,该组合与第一对线性组合不相关,但该对组合间有最大的相关。
如此类推,直到两组变量的相关被分解完毕。
这种逐步得到的线性组合称为典型变量,它们之间的相关系数称为典型相关系数。
这种分析方法称为典型相关分析(Canonical Correlations Analysis )。
可见,典型相关分析是研究两组变量之间相关关系的一种统计方法,它避免了孤立地对两个变量间的研究,分析结果较为全面,且各组中变量的个数不受限制,两组的内容可以不相同。
因此,应用十分广泛。
11.1 概述在实际工作中,通常接触到的多为样本资料,所以典型相关系数及典型变量多数是从样本资料中获取。
其计算方法如下。
设有两组变量X 1{x 1,x 2,…,x p }和X 2{x p+1,x p+2,…,x p+q }的n 次观察值,取自多元正态总体N p+q (μ,∑),由X[X 1,X 2]算得协差阵为∑的最大似然估计,若对X 1、,X 2进行标准化,此时协差阵为相关阵R :()()q p q p R R R R R ++⎥⎦⎤⎢⎣⎡=22211211其中R 11为第一组各变量间的相关系数阵,R 22为第二组各变量间的相关系数阵,'2112R R =各变量间的相关系数阵。
设P ≤q 解得特征方程()01222112212=--αλR R R R 或()02221211121=--βλR R R R的非零特征根22221r λλλ≥≥≥ (r ≤p )的算术平方根,即为典型相关系数。
统计分析与spss的应用(第五版)课件 SPSS第十一章
![统计分析与spss的应用(第五版)课件 SPSS第十一章](https://img.taocdn.com/s3/m/4bcb55c29a89680203d8ce2f0066f5335a816726.png)
Aa.2.1.
a22 ...
......a.2.k.u12...1
ap1 ap2 ...a..
u2p 2
1 k
2 k
... ...
p k
确定因子变量个数
• 确定k个因子变量
根据特征值λi确定:取特征值大于1的特征根 根据累计贡献率:一般累计贡献率应在70%
因子变量的特点 这些综合指标称为因子变量,是原变量的重造 个数远远少于原变量个数,但可反映原变量的绝 大部分方差 不相关性 可命名解释性
因子分析的基本步骤
• 确认待分析的原始变量是否适合作因子分析 • 构造因子变量 • 利用旋转方法使因子变量具有可解释性 • 计算每个样本的因子变量得分
因子分析的数学模型
k
hi2
a
2 ij
j 1
Xi的共同度反应了全部因子变量对Xi总方差的解释能力
因子分析的相关概念
• 因子变量Fj的方差贡献 因子变量Fj的方差贡献为因子载荷矩阵A中 第j列各元素的平方和
p
S j
ai2j
i 1
可见:因子变量Fj的方差贡献 体现了同一因子Fj对原始所有 变量总方差的解释能力 Sj/p表示了第j个因子解释原所 有变量总方差的比例
6
Component Number
因子变量的命名解释
• 发现: aij的绝对值可能在某一行的许多列上都有较大的取值, 或aij的绝对值可能在某一列的许多行上都有较大的取值。
• 表明: 某个原有变量xi可能同时与几个因子都有比较大的相关关 系,也就是说,某个原有变量xi的信息需要由若干个因子 变量来共同解释;同时,虽然一个因子变量可能能够解 释许多变量的信息,但它却只能解释某个变量的一少部 分信息,不是任何一个变量的典型代表。
第章主成分分析和因子分析习题答案
![第章主成分分析和因子分析习题答案](https://img.taocdn.com/s3/m/1bdbfe74453610661fd9f451.png)
.707
X8
-.066
.575
.090
Extraction Method: Principal Component Analysis.
Rotation Method: Varimax with Kaiser Normalization.
a Rotation converged in 5 iterations.
28
61
65
81
98
94
95
29
79
95
83
89
89
79
30
81
90
79
73
85
80
31
85
77
75
52
73
59
32
68
85
70
84
89
86
33
85
91
95
63
76
66
34
91
85
100
70
65
76
35
74
74
84
61
80
69
36
88
100
85
49
71
66
37
63
82
66
89
78
80
38
87
84
100
55.043
43.677
中国石油
33.441
19.900
0.735
0.923
28.068
1.043
42.682
45.593
广聚能源
6.790
15.650
0.441
因子分析PPT课件
![因子分析PPT课件](https://img.taocdn.com/s3/m/d0e75019e418964bcf84b9d528ea81c758f52e08.png)
3. 公共因子的方差贡献:是某公共因子对所有原变量载荷的平方和, 它
反映该公共因子对所有原始总变异的解释能力,等于因子载荷矩阵中某 一列载荷的平方和。一个因子的方差贡献越大,说明该因子就越重要。
2024/6/2
15
★ 确定公因子数目的准则
1)因素的特征值(Eigenvalues)大于或等于1;
2)因素必须符合陡阶检验(Screen Test),陡阶检
仅仅是为了化简、浓缩数据,则采用正交旋转(保持
直角90度,不允许公因子相关)。如果研究的目的是
为了得到理论上有意义的研究结果,则采用斜交旋转。
(不呈90度,允许公因子相关;有证据表明公因子之
间是相关的才用)
旋转之后,特征值发生变化,但共同度不变
2024/6/2
18
第六步:单击Scores按纽,弹出对话框
输出旋转后的 因子载荷矩阵
2024/6/2
输出载荷散点图17
★ 因子旋转
为了更好地解释因子分析解的结果,常常需要将
因子载荷转换为比较容易解释的形式(相当于相机的
调焦,使看得更清楚;一般会使各因子对应的载荷尽
可能地向0和1两极分化)。
常用的方法有正交旋转(varimax procedure)
和斜交旋转(oblique rotation),如果研究的目的
2024/6/2
1
二、因子分析思想与方法的由来
● 英国统计学家Scott 1961年对英国157个 城镇发展水平进行调查时,原始测量的变量有57 个,而通过因子分析发现,只需要用5个新的综 合变量(它们是原始变量的线性组合),就可以 解释95%的原始信息。
● 美国统计学家Stone在1947年研究国民经
第11章 多因素分析
![第11章 多因素分析](https://img.taocdn.com/s3/m/70ce051f10a6f524ccbf852e.png)
多因素分析温州医学院环境与公共卫生学院叶晓蕾概念多因素分析是同时对观察对象的两个或两个以上的变量进行分析。
常用的统计分析方法有:多元线性回归、Logistic回归、COX比例风险回归模型、因子分析、主成分分析,等。
一、多元线性回归(multiple linear regressoin)Y,X——直线回归;Y,X1,X2,…X p——多元回归(多重回归)。
例:欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。
一. 多元回归模型多元回归分析数据格式X2…X p Y 例号X11X11X12…X1p Y1 2X21X22…X2p Y2┆┆┆…┆┆n X n1X n2…X np Y nβ0为回归方程的常数项(constant),表示各自变量均为0时y 的平均值;p 为自变量的个数;β1、β2、βp 为偏回归系数(Partial regression coefficient )意义:如β1表示在X 2、X 3 …… X p 固定条件下,X 1 每增减一个单位对Y 的效应(Y 增减β个单位)。
e 为去除m 个自变量对Y 影响后的随机误差,或称残差(residual)。
eX X X Y p p +++++=ββββ 22110多元回归方程的一般形式为y 的估计值或预测值(predicted value);b 0为回归方程的常数项(constant),表示各自变量均为0时y 的估计值;pp X b X b X b b Y ++++= 22110ˆYˆ由样本估计而得的多元回归方程:b 1、b 2、b p 为偏回归系数(Partial regression coefficient )意义:如b 1表示在X 2、X 3 …… X p 固定条件下,X 1 每增减一个单位对Y 的效应(Y 增减b 个单位)。
适用条件:线性(linear)、独立性(independent)、正态性(normal)、等方差(equal variance)——―LINE‖。
第十一章 因子分析
![第十一章 因子分析](https://img.taocdn.com/s3/m/caf5a389680203d8ce2f2417.png)
第十一章因子分析11.1 主要功能11.2 实例操作11.1 主要功能多元分析处理的是多指标的问题。
由于指标太多,使得分析的复杂性增加。
观察指标的增加本来是为了使研究过程趋于完整,但反过来说,为使研究结果清晰明了而一味增加观察指标又让人陷入混乱不清。
由于在实际工作中,指标间经常具备一定的相关性,故人们希望用较少的指标代替原来较多的指标,但依然能反映原有的全部信息,于是就产生了主成分分析、对应分析、典型相关分析和因子分析等方法。
调用Data Reduction菜单的Factor过程命令项,可对多指标或多因素资料进行因子分析。
因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量,这与上一章的聚类分析不同),以较少的几个因子反映原资料的大部分信息。
返回目录返回全书目录11.2 实例操作[例11-1]下表资料为25名健康人的7项生化检验结果,7项生化检验指标依次命名为X1至X7,请对该资料进行因子分析。
11.2.1 数据准备激活数据管理窗口,定义变量名:分别为X1、X2、X3、X4、X5、X6、X7,按顺序输入相应数值,建立数据库,结果见图11.1。
图11.1 原始数据的输入11.2.2 统计分析激活Statistics 菜单选Data Reduction 的Factor...命令项,弹出Factor Analysis 对话框(图11.2)。
在对话框左侧的变量列表中选变量X1至X7,点击 钮使之进入Variables 框。
图11.2 因子分析对话框点击Descriptives...钮,弹出Factor Analysis:Descriptives对话框(图11.3),在Statistics中选Univariate descriptives项要求输出各变量的均数与标准差,在Correlation Matrix栏内选Coefficients项要求计算相关系数矩阵,并选KMO and Bartlett’s test of sphericity项,要求对相关系数矩阵进行统计学检验。
11效度分析与因子分析
![11效度分析与因子分析](https://img.taocdn.com/s3/m/1f0d424b58eef8c75fbfc77da26925c52cc59197.png)
.512
-.332
您 与孩 子 一 起出 游 时
的 最终 花 费 会比 预 期
.764
花 费高
您 孩子 的 情 绪会 被 食 宿 的好 坏 影 响
-.332
.682
您 会刻 意 挑 选食 宿 条 件 更好 的 宾 馆
-.321
.681
您 的孩 子 喜 欢购 买 新 奇 物品 或 纪 念品
.214
.299
Kaiser-Meyer-Olkin Measure of Sampling Adequac y.
Bartlett's Test of Sphericity
Approx. Chi-Square df Sig.
.601
246.962 91
.000
因子分析—— 输出——共同性
Communalities
Total Variance Explained
Initial Eigenvalues
Component 1
Total 3.579
% of Variance
25.563
Cumulative % 25.563
2
2.289
16.348
41.911
3
1.487
10.625
52.536
4
1.332
9.513
们 、 好 友曾 去 过 的景
.654
点 作为 旅 游 目的 地
您 征求 孩 子 的意 见 而 后 选择 旅 游 地
.590
.189
您 根据 孩 子 的需 求 制 定 或选 择 旅 游线 路
.521
.354
您 按照 孩 子 的休 假 时 间 安排 旅 游 时间
《统计分析与SPSS的应用(第五版)》课后练习答案(第11章)复习课程
![《统计分析与SPSS的应用(第五版)》课后练习答案(第11章)复习课程](https://img.taocdn.com/s3/m/098e2a5403d8ce2f00662358.png)
《统计分析与S P S S的应用(第五版)》课后练习答案(第11章)《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第11章SPSS的因子分析1、简述因子分析的主要步骤是什么?因子分析的主要步骤:一、前提条件:要求原有变量之间存在较强的相关关系。
二、因子提取。
三、使因子具有命名解释性:使提取出的因子实际含义清晰。
四、计算样本的因子得分。
2、对“基本建设投资分析.sav”数据进行因子分析。
要求:1)利用主成分方法,以特征根大于1为原则提取因子变量,并从变量共同度角度评价因子分析的效果。
如果因子分析效果不理想,再重新指定因子个数并进行分析,对两次分析结果进行对比。
2)对比未旋转的因子载荷矩阵和利用方差极大法进行旋转的因子载荷矩阵,直观理解因子旋转对因子命名可解释性的作用。
“基本建设投资分析”因子分析步骤:分析→降维→因子分析→导入全部变量到变量框中→详细设置……描述、抽取的设置如下:旋转、得分、选项的设置如下:(1)相关系数矩阵国家预算内资金(1995年、亿元)国内贷款利用外资自筹资金其他投资相关系数国家预算内资金(1995年、1.000 .458 .229 .331 .211亿元)国内贷款.458 1.000 .746 .744 .686利用外资.229 .746 1.000 .864 .776自筹资金.331 .744 .864 1.000 .928其他投资.211 .686 .776 .928 1.000 表一是原有变量的相关系数矩阵。
由表可知,一些变量的相关系数都较高,呈较强的线性关系,能够从中提取公共因子,适合进行因子分析。
KMO 和巴特利特检验KMO 取样适切性量数。
.706Bartlett 的球形度检验上次读取的卡方119.614自由度10显著性.000由表二可知,巴特利特球度检验统计量的观测值为119.614,相应的概率P-值接近0.如果显著性水平为0.05,由于概率P-值小于显著性水平α,则应拒绝原假设,认为相关系数矩阵与单位阵有显著差异,原有变量适合做因子分析。
【数据分析R语言实战】学习笔记第十一章对应分析
![【数据分析R语言实战】学习笔记第十一章对应分析](https://img.taocdn.com/s3/m/1ef318c281eb6294dd88d0d233d4b14e85243ea3.png)
【数据分析R语⾔实战】学习笔记第⼗⼀章对应分析11.2对应分析在很多情况下,我们所关⼼的不仅仅是⾏或列变量本⾝,⽽是⾏变量和列变量的相互关系,这就是因⼦分析等⽅法⽆法解释的了。
1970年法国统计学家J.P.Benzenci提出对应分析,也称关联分析、R-Q型因⼦分析,其是⼀种多元相依变量统计分析技术。
它通过分析由定性变量构成的交互汇总表,来揭⽰同⼀变量各类别之间的差异,以及不同变量各类别之间的对应关系,这是⼀种⾮常好的分析调查问卷的⼿段。
对应分析是⼀种视觉化的数据分析⽅法,其基⽊思想是将⼀个联列表的⾏和列中各元素的⽐例结构以点的形式在较低维的空间中表⽰出来,优点在于能够将⼏组看不出任何联系的数据,通过视觉上可以接受的定位图展现出来,使⽤起来直观、简单、⽅便,因此⼴泛应⽤于市场细分、产品定位、地质研究以及计算机⼯程等领域。
11.2.1理论基础对应分析是寻求样⽊(⾏)与指标(列)之间联系的低维图⽰法,其关键是利⽤⼀种数据变换⽅法,使含有n个样本观测值和m个变量的原始数据矩阵x变成另⼀个矩阵z, z是⼀个过渡知阵,在接下来的计算中使⽤。
通过z将样本和变量结合起来。
11.2.2 R语⾔实现R中的程序包MASS提供了两个函数,corresp()⽤于做简单⼀的对应分析,mca()⽤于计算多重对应分析,通常使⽤前者,其调⽤格式为corresp(x,nf=1,……)x是数据矩阵:nf表⽰因⼦分析中计算因⼦的个数,通常取2.【例】> ch=data.frame(A=c(47,22,10),B=c(31,32,11),C=c(2,21,25),D=c(1,10,20))> rownames(ch)=c("Pure-Chinese","Semi-Chinese","Pure-English")> library(MASS)> ch.ca=corresp(ch,nf=2)> options(digits=4)> ch.caFirst canonical correlation(s): 0.5521 0.1409Row scores:[,1] [,2]Pure-Chinese 1.2069 0.6383Semi-Chinese -0.1368 -1.3079Pure-English -1.3051 0.9010Column scores:[,1] [,2]A 0.9325 0.9196B 0.4573 -1.1655C -1.2486 -0.5417D -1.5346 1.2773分析结果给出了两个因⼦对应⾏变量、列变量的载荷系数。
SPSS之回归分析课件11因子
![SPSS之回归分析课件11因子](https://img.taocdn.com/s3/m/78e60126bb4cf7ec4bfed0bd.png)
位:百万元)储存于SPSS数据文件tssales.sav中。 在该数据文件中,除了销售额变量“sales”以外,还有三个时间变
量“year”、“month”和“date”。事实上这三个变量是我们后 期通过SPSS操作自动加上去的。
(3)采用方差最大法进行因子旋转, 输出因子载荷图,写出旋转后的因子分析模型 给因子命名.
因子得分
一、巴特莱特因子得分 二、汤姆生因子得分
因子分析的基本思路
确认待分析的原有若干变量是否适合作因子 分析
构造因子变量 利用旋转方法使因子变量更具有可解释性 计算因子变量得分
操作步骤
Analyze-Data Reduction-Factor Variables:参与因子分析的变量 Select Variable:作为条件变量的变量
因子旋转
因子旋转的方法: 1.varimax:方差最大旋转。简化对因子的解释 2.direct oblimin:直接斜交旋转。允许因子之间具有相
关性。 3.quartmax:四次最大正交旋转。简化对变量的解释 4.equamax:平均正交旋转。 5.promax:斜交旋转方法。
实例分析
例1续:各地区年平均收入数据, 进行因子分析,要求
前面讨论的模型多是和横截面数据有关。本章将讨论时间序列数据 的统计分析。
横截面数据也常称为变量的一个简单随机样本,也即假设每个数据 都是来自于总体分布的一个取值,且它们之间是相互独立的(独立同 分布)。
而时间序列的最大特点是观测值并不独立。时间序列的一个目的是 用变量过去的观测值来预测同一变量的未来值。
反映象相关矩阵 (Anti-image correction matrix)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
将这些特征根分别代入特征方程,然后求解各个相 应的线性齐次方程,就得到了3个相应的特征向量, 将这些特征向量单位化,得到相应于上述3个特征根 的3个单位特征向量分别为 a = ( 0.54 0.59 0.59)
(1) T
a(2) = ( 0.84 0.39 0.39) a(3) = ( 0 0.71 0.71)
1 2 n
T
L(, Σ) =
1 (2π)np/2 Σ
exp(1/2tr[Σ n/2
1
(xj x)(xj x)T +n(x )(x )T)] ∑
j= j=1
n
但并不能惟一确定A,为此,添加如下条件: 这里Λ是一个对角矩阵,用数值极大化的方法可以 得到极大似然估计
21
AT D 1 A = Λ
四、正交旋转
i =1 2 im i =1
p
p
令
g
2 j
=
∑
p
i =1
a i2j
p
,于是有
i 2 1
∑V(X ) = g
i =1
+ g ++ g + ∑σi2
2 2 2 m i =1
p
反映了公共因子 F 对 X , X , , X 的影响,是衡量公 共因子 F 重要性的一个尺度,可视为公共因子 F 对 的 X , X , , X 的总方差贡献。
k =1 m
即 a 是 X i 与 F 之间的协方差。若X为各分量已标准 化了的随机变量,则 a 为 X 与 F 之间的相关系数
ij
j
ij
i
j
7
二、A的行元素平方和的统计意义 的行元素平方和的统计意义
2 V ( X i ) = ai2V (F1 ) + ai22V (F2 ) + + aimV (Fm ) + V (εi ) 1 2 = ai2 + ai22 + + aim + σ i2 , i = 1,2,, p 1
17
因子分析模型为 X
1
= 0.833F1 + 0.544 F2
X 2 = 0.91F1 0.253F2 + 0.3175 F3 X 3 = 0.91F1 + 0.253F2 + 0.3175 F3
可取前两个因子 F1,F2为公共因子,第一个因子 对X的贡献为2.38, 第二个因子对X的贡献为0.42。
由上述相关矩阵,可写出其特征多项式为:
λ 1 λI R =
2 10 2 10 2 10 2 10 4 1 14 = (λ )( λ 2 λ + 1) 5 5 5
λ 1
4 5
λ 1
令此特征多项式等于0,得到特征方程,由此特征 方程可解得3个特征根分别为
λ1 =
7+2 6 = 2.38 5 72 6 λ2 = = 0.42 5 1 λ3 = = 0.20 5
T 1 2 p
(1)
( p)
X = AY
12
且
0 λ1 AT V (X ) = A 0 λ2
令
λ 1 A = A 0
0 λp
,并令
1/ λ 0 1 F = Y 0 1/ λp
则有 并且有 V (F ) = I 显然,这就形成了一个不包含 任何特殊因子的因子分析模型。
t1* , t 2* , , t m
λ * t* ,
1 1
λ2* t2* , ,
* * λm tm )
20
三、极大似然法
如果假定公共因子 F 和特殊因子 ε 服从正态分布, 则我们能够得到因子载荷和特殊因子方差的极大似然 估计。设 X , X ,, X 为来自正态总体N ( , Σ)的随机变量, Σ= 其中 AA +D ,那么似然函数为:
18
二、主因子法
主因子法是对主成分的修正,我们这里假定原始 向量X的各分量已作了标准化变化。如果随机变量X 满足因子模型(11.1.2)式,则有
R = AAT + D
其中R为X的相关矩阵,令
R* = R D = AAT
则称 R 为X的约相关矩阵(reduced correlation hi2 ,而不是1, matrix)。易见, R 的对角线元素是 非对角线元素和R中是完全一样的,并且也是一个非 负定矩阵。
即可得 如果X为各分量已标准化了的随机变量,则Σ就是 相关矩阵R,既有 R = AAT + D 因子模型具有两个重要的性质: 1. 模型不受变量量纲的影响 2. 因子载荷不是惟一的。
6
Σ = AAT + D
§11.2 模型参数的统计意义
一、A的元素 aij 的统计意义
COV ( X i , Fj ) = ∑ aik COV ( Fk , Fj ) + COV (ε i , Fj ) = aij
j
1 p p
g2 j
j
j
1
p
p
9
变量X §11.3变量 1,X2,…,Xp之间的相关性检验 变量
样 本 测 度 (Kaiser-Meyer-Olkin Measure of Sampling Adequacy)。 它是所有变量 X , X , , X 的简单相关系数的平方和 与这些变量之间偏相关系数的平方和之差。 相关系数实际上反映的是公共因子起作用的空间。 偏相关系数放映的是特殊因子起作用的空间。KMO接 近于1,越适合于作公共因子分析。KMO过小,不适合 于作因子分析。数据是否作因子分析,一般采用如下 主观判断:KMO在0.9以上,非常适合;0.8~0.9,很 适 合 ; 0.7~0.8 , 适 合 ; 0.6~0.7 , 不 太 适 合 ; 0.5~0.6,很勉强;0.5以下,不适合。
m
令
h =
2 i
∑a
j =1
σ ii = hi2 + σ i2 , i = 1, 2, , p
i
2 ij
i = 1, 2, , p
,于是
的影响,可以看成是公共 X 因子对 的方差贡献,称为共性方差(communality); 而 σ i2 是 特 殊 因 子 对 的 方 差 贡 献 , 称 为 特 殊 方 差 (specific variance)。当X为各分量已标准化了的随 σ 机向量时, = 1 ,此时有
本章内容重点: 本章内容重点:
因子分析的概念; 模型的参数估计方法;上机实现
2
§10.0 概述
因子分析最初是由英国心理学家C.Spearman提出的。 1904年他在美国心理学刊物上,发表了第一篇有关因 子分析的文章。以后逐渐扩展到社会学、气象学、政 治学、医学、地理学及管理学的领域。 因子分析和主成分分析有很大的不同,主成分分析 不能作为一个模型来描述,它只能作为一般的变量变 换,主成分分析是可观测变量的线性组合;而因子分 析需要构造一个因子模型,公共因子一般不能表示为 原始变量的线性组合。因子分析中的因子一般能够找 到实际意义,主成分分析的主成分综合性太强,一般 找不出实际意义。
X = AY = AF
V ( X ) = AA T
13
当然,假定原始观测变量完全由公共因子决定, 不存在特殊因子,可能是不合适,因此我们给定公共 因子数目m<p,只取 A 的前m列为因子载荷矩阵,而将 p-m列留给特殊因子,这时共性方差 h = ∑ (a λ ) 。一般 p m p 地取: 2 hi ∑ ∑1 aij2 λ j ∑ i =1 j = i =1 85% = p p ∑ λi ∑ λi ≥ i =1 i =1
m 2 i 2 j =1 ij j
这种解法称为因子模型的主成分分解。
14
【例11.1】 】
市场上肉类、鸡蛋、水果3种商品的月份资料的相 关矩阵为:
R= 1 2 10 2 10 2 10 1 4 5 2 10 4 5 1
试用主成分法求解因子分析模型。
15
解
Σ
其中 = ( , ,, ) 为均值,F , F , , F ε = (ε1 , ε 2 , , ε p )T 为特殊因子,它们 为公共因子, 都是不可观测的随机变量。上式可用矩阵表示为
T 1 2 p
1 2 m
X = + AF + ε
5
二、因子模型的性质
X的协方差矩Σ可以进行如下分解:
COV(X, X) = COV(AF + ε, AF + ε) = E(AF + ε)(AF + ε)T = AE(FFT )AT + AE(FεT ) + E(εFT )AT + E(εεT ) = AAT + D
A = (a(1) λ1 , a(2) λ2 , a(3) λ3 ) 0.54× 2.38 = 0.59× 2.38 0.59× 2.38 0.833 0.544 = 0.91 0.253 0.91 0.253
T
T
因子载荷矩阵为
0.39× 0.42 0.71× 0.20 0.39× 0.42 0.71× 0.20 0 0.3175 0.3175 0.84× 0.42 0
i
hi2 反映了公共因子对X
2 ii
hi2 + σ i2 = 1, i = 1, 2, , p
8
三、A的列元素平方和的统计意义 的列元素平方和的统计意义
∑V ( X ) = ∑ a V ( F ) + ∑ a
i =1 i i =1 2 i1 1 i =1 p p p 2 i2
V ( F2 ) + + ∑ a V ( Fm ) + ∑ V (ε i )
4
一、因子分析模型
因子分析的一般模型
X1 = 1 + a11F + a12 F2 +, a1m Fm + ε1 1 X = + a F + a F +, a F +ε 2 2 21 1 22 2 2m m 2 X p = p + ap1F 1+ap2 F2 +, apm Fm + ε p