g 第八章 因子分析

合集下载

因子分析-PPT

因子分析-PPT
小或增大。所以“方差极大” 旋转就是使载荷值按照列向0,1 两极分化,同时也包含着按行向 两极分化。
因子 得分
因子分析
什么 叫因 子分

定义解释
因子分析就是主成分分析得推广和发展, 她就是把具有复杂关系得多个变量(或样 品)综合为少数几个因子,并给出原始变量 与综合因子之间得相关关系得多元统计 分析方法
种类
R型因子分析(对变量进行因子分析) Q型因子分析(对样品进行因子分析)
应用意义
应用范围
表示得形式不同。
因子 分析 得统 计意

假定因子模型中,各个变量、 公共因子、特殊因子都已经进 行了标准化处理
因子载荷矩阵得统计意义
变量共同度得统计意义
公因子方差贡献得统计意义
因子 载荷 矩阵 得估 计方

方法一:流
应用类型
基本思想 数学模型
因子 分析 得模

主成 分分 析与 因子 分析 得区

主成分分析就是一种数学变换 (正交变换)不能称为一种数学 模型;而因子分析需要构造数 学模型。
主成分得个数与原始数据个数 相等,就是把原始变量变换成 为相互独立得新得变量;而因 子个数一般要求小于原始数据 个数,目得在于得到一个结构 简单得因子模型。
可以互相讨论下,但要小声点
因子 旋转
含义:
因子旋转就是根据因子载荷矩阵 得不唯一性,用一个正交矩阵右乘 因子载荷矩阵,实行旋转(由线性代 数,一次正交变换,对应坐标系得一 次旋转),使旋转后得因子载荷矩阵 结构简化,以便对公共因子进行合 理得解释。
所谓结构简化就就是使得每个变 量仅在一个公共因子上有较大得 载荷,而在其她得公共因子上得载 荷比较小。
常用得方法有:

因子分析 PPT课件

因子分析  PPT课件

同时假定随机向量 X 满足以下模型: X 1 a11F1 a12 F2 a1m Fm 1 X a F a F a F 2 12 1 22 2 2m m 2 X p a p1 F1 a p 2 F2 a pm Fm P 则称模型(3.1)为正交因子模型。
设 X ( X1 , X 2 ,
E( F ) 0 , Cov( F ) I m (即 F 的各分量方差为 1,且互不相关) 。又设 (1, 2 , , p ) 与 F 互不相关,且
2 E ( ) 0 , Cov( ) diag(12 ,2 , 2 , p )。
之因子分析
SPSS软件
• 因子分析(Factor Analysis)是多元统计 分析中处理降维问题的一种重要方法。变 量的共线性很多是都对分析结果具有显著 的影响。所谓降维,就是独钓共线性,剩 下的,或者合并的都是线性无关的,或者 正交的,或者垂直的。
一、什么是主成分分析和因子分析?
• 主成分分析(Principal Components Analysis)也是多元统计分析中简化数据 结构(降维问题)的一种重要方法。简化 数据结构是指将某些较复杂的数据结构通 过变量变换等方法使相互依赖的变量变成 互不相关的;或把高维空间的数据投影到 低维空间,使问题得到简化而损失的信息 市的实证 设施建设情况。
案例1
• 中国统计年鉴,2005,各地区城市市政设施数据。 变量有: • City—城市名称; • X1—年末实有道路长度(公里); • X2—年末实有道路面积(万平方公里); • X3—城市桥梁(座); • X4—城市排水管道长度(公里); • X5—城市污水日处理能力(万立方米); • X6—城市路灯(盏);

因子分析方法ppt课件

因子分析方法ppt课件

10
因子分析数学模型中几个相关概念
举例说明:
11
12
因子分析的五大基本步骤
第一步:因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩,即将 原有变量中的信息重叠部分提取和综合成因子,进而最终实 现减少变量个数的目的。因此它要求原有变量之间应存在较 强的相关关系。否则,如果原有变量相互独立,相关程度很 低,不存在信息重叠,它们不可能有共同因子,那么也就无 法将其综合和浓缩,也就无需进行因子分析。本步骤正是希 望通过各种方法分析原有变量是否存在相关关系,是否适合 进行因子分析。
2
因子分析的基本模型
因子分析模型中,假定每个原始变量由两部分组成: 共同因子和唯一因子。 共同因子是各个原始变量所共有的因子,解释变 量之间的相关关系。
唯一因子顾名思义是每个原始变量所特有的因子, 表示该变量不能被共同因子解释的部分。原始变量 与因子分析时抽出的共同因子的相关关系用因子负 荷表示。
18
第四步:决定因素与命名
• 转轴后,要决定因素数目,选取较少因素 层面,获得较大的解释量。在因素命名与 结果解释上,必要时可将因素计算后之分 数存储,作为其它程序分析之输入变量。
19
第五步:计算各样本的因子得分
• 因子分析的最终目标是减少变量个数,以 便在进一步的分析中用较少的因子代替原 有变量参与数据建模。本步骤正是通过各 种方法计算各样本在各因子上的得分,为 进一步的分析奠定基础。
因子分析方法
1
因子分析的基本概念
因子分析的概念 就是在尽可能不损失信息或少损失信息的情况下,将多个变量减少为 少数几个潜在的因子。也就是用少数几个因子来描述许多指标或因素之 间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方 法 主成分分析(Principal component analysis): 是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标 变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相 关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少 变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信 息。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降 低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子 分析的一个特例

8因子分析

8因子分析

因子分析,相较于主成分分析而言,通过对因子的旋转处理,使得我们可以更直观的认识到数据内部之间的关系,其目的即用有限个不可观测的因变量来解释原始变量间的相关关系。

即用几个少数的综合因子来取代错综复杂关系的变量。

因子分析函数:factanal(X,factors,scores=”none”,rotation=”varimax”)这个函数是基于极大似然方法求解X为数据,矩阵或者数据框factors为因子个数scores为因子得分的计算方法,”regression”,”Bartlett”rotation为因子旋转方法自编因子分析函数:factpc(X,m,scores=”none”,rotation=”varimax”)这个函数是基于主成分方法来求解的。

极大似然法要求数据来自多元正态分布,这一点一般是很难满足的。

而主成分法没有正态总体的要求。

对于数据d9.1 水泥行业运营因素做因子分析。

输入:> X=read.table("clipboard",header=T)> cor(X) #计算相关系数矩阵#极大似然法进行因子分析> FA0=factanal(X,3,rotation="none")> FA0Call:factanal(x = X, factors = 3, rotation = "none") Uniquenesses:x1 x2 x3 x4 x5 x60.005 0.005 0.005 0.271 0.005 0.548Loadings: #因子载荷矩阵Factor1 Factor2 Factor3x1 0.950 -0.307x2 0.948 -0.310x3 -0.340 -0.782 0.517x4 0.363 0.561 -0.531x5 0.454 0.693 0.556x6 0.383 0.163 0.527Factor1 Factor2 Factor3SS loadings 2.402 1.623 1.140Proportion Var 0.400 0.271 0.190 #方差贡献率Cumulative Var 0.400 0.671 0.861 #累计方差贡献率The degrees of freedom for the model is 0 and the fit was 1. 1422#主成分法进行因子分析> library(mvstats)> FA1=factpc(X,3)$Vars#方差方差贡献率累计方差贡献率Vars Vars.Prop Vars.CumFactor1 2.570 0.4283 42.83Factor2 1.713 0.2855 71.38Factor3 1.249 0.2082 92.19$loadings #载荷矩阵Factor1 Factor2 Factor3x1 0.7829 0.5029 -0.3624x2 0.7811 0.4964 -0.3756x3 -0.5786 0.7685 0.0802x4 0.5951 -0.6990 -0.2415x5 0.6317 -0.1457 0.6557x6 0.5084 0.3367 0.6943$scores #因子得分Factor1 Factor2 Factor3冀东水泥 1.10805 0.19287 -0.40233大同水泥 -1.07195 1.46385 -0.37413四川双马 -0.58577 -0.49848 0.24193牡丹江 -1.17442 -0.77791 0.08986西水股份 -0.05264 -0.46073 2.31615狮头股份 -1.05007 2.04151 0.25174太行股份 0.20807 0.48809 -0.23430海螺水泥 2.20745 0.32524 1.16336尖峰集团 -1.11541 -1.53235 0.39013四川金顶 0.09714 -0.60602 -1.45691祁连山 0.66096 1.03293 0.04173华新水泥 0.41359 -1.08331 0.19805福建水泥 0.86840 -0.53255 -1.82104天鹅股份 -0.51340 -0.05315 -0.40422$Rank #得分排名F Ri冀东水泥 0.48359 3大同水泥 -0.12910 8四川双马 -0.37184 11牡丹江 -0.76615 13西水股份 0.35587 4狮头股份 0.20127 5太行股份 0.19490 6海螺水泥 1.38882 1尖峰集团 -0.90457 14四川金顶 -0.47152 12祁连山 0.63632 2华新水泥 -0.09863 7福建水泥 -0.17273 9天鹅股份 -0.34622 10$commonx1 x2 x3 x4 x5 x60.9971 0.9976 0.9318 0.9011 0.8502 0.8539从上面结果来看,用极大似然法解释的方差为86%,基本可以全面反映六项财务指标的信息。

因子分析PPT课件

因子分析PPT课件

对于有些研究,还需要下一步: 4.对每个Case,计算F1 ’, F2 ’, F3 ’值,(称为
因子得分值) 用F1 ’, F2 ’, F3 ’值取代原始变量X1, X2 ,…… ,
X20 之值。实现变量精简目的。
8
三、因子分析应用举例
9
例1(变量精简)
对公司业绩评价,选取了11个指标。 (详见“因子分析”数据文件) 本例目的: 将11个指标进行简化综合
本步骤称为提取因子,也称求初始解。
5
3.进行因子旋转 上述所得出的综合变量F1, F2, F3,通常没
有直观的经济意义,因此还难于直接应 用(,坐为标此旋需转要 )将 ,变F1,成F2F, F1 3’进,一F步2 ’,进行F3变’,换 变换后的变量具有明确的经济意义,并 且本变换不存在信息损失。 F的1 层’,面F(2 将’,20F个3 ’通原常始也变反量映概出括原为始3个变大量方 面)
.131
净利 润
-.009 1.000
.239 .812 .789 .811 .563 -.061 -.062 .056 -.064
净资 产 .684 .239
1.000 .190 .173 .151 .162 .025 .025 .080 .027
营 业 收 益 率 .087 .812 .190 1.000 .978 .984 .650 -.076 -.080 -.007 -.079
率 .226 .056 .080 -.007 .009 .009 .177 .707 .710 1.000 .709
固定 资产 增长
率 .131 -.064 .027 -.079 -.058 -.061 -.111 1.000 1.000

第八章因子分析-新

第八章因子分析-新

In conjunction with his famous two-factor theory of intelligence
因子分析的目的:用少数几个不可观测的隐变 量来解释原始变量间的协方差关系
Origins of Factor Analysis

Wanted to estimate intelligence of 24 children in a village school.
短跑速度
因子得分计算公式
11x1s 12 x2 s 1, x10s 10
爆发性臂力 21x1s 22 x2 s 2, x10s 10 爆发性腿力 31x1s 32 x2 s 3, x10s 10 耐力 41x1s 42 x2 s 4, x10s 10

对10个变量标准化后的因子分析表明,十项得 分基本上可归结于他们的短跑速度、爆发性臂 力、爆发性腿力和耐力这四个方面,每一方面 都称为一个公共因子。
因子分析的类型

探索性因子分析exploratory Factor Analysis

根据变量间相关关系探索因子结构 实例2

确认性因子分析Confirmatory Factor Analysis
注意:因子分析是一种用来分析隐藏在表象背后的潜在因 子作用的统计模型,这些共同因素通常是不可直接观测的
收缩压
舒张压
心跳间隔
呼吸间隔
舌下温度
实例1

交感神经
负交感神经
考查人体的五项生理指标:收缩压、舒张压、 心跳间隔、呼吸间隔和舌下温度。
从生理学知识可知,这五项指标是受植物神经 支配的,植物神经又分为交感神经和负交感神 经,因此这五项指标至少受到两个公共因子的 影响,也可用因子模型去处理。

第八章 因子分析

第八章 因子分析

F1 0.073 X 1 0.1X 2 0.129 X 3 0.335 X 4 0.322 X 5 0.365 X 6 F 2 0.407 X 1 0.296 X 2 0.426 X 3 0.031 X 4 0.044 X 5 0.116 X 6
以各因子的方差贡献率为权重,可以计算总 的因子得分
成 分 矩 阵a 成分 数学 物理 化学 语文 历史 英语 1 -.646 -.892 -.531 .861 .798 .767 2 .680 .325 .770 .416 .422 .576
提取方法 :主 成分分析法。 a. 已提取了 2 个成分。
X 1 0.646 F1 0.68 F 2 1 X 2 0.892 F1 0.325 F 2 2 X 3 0.531F1 0.77 F 2 3 X 4 0.861F1 0.416 F 2 4 X 5 0.798 F1 0.422 F 2 5 X 6 0.767 F1 0.576 F 2 6
历史Байду номын сангаас
81 70 67 74 81 71 65 86 67 70 67
英语
79 55 57 63 74 64 57 71 50 65 63
计算主成分贡献率和累积贡献率并确定共因子
说明的总方差 初始特征值 合计 方差的 % 3.463 57.709 1.843 .368 .219 .082 .026 30.723 6.132 3.650 1.361 .425 累积 % 57.709 88.432 94.564 98.214 99.575 100.000 提取平方和载入 合计 方差的 % 累积 % 3.463 57.709 57.709 1.843 30.723 88.432

第八章因子分析

第八章因子分析
对 x i 所特有的,即每门课程的考试成绩可以
看作由一个公因子(与智力相一致)和一个特殊 因子之和组成。
例2 考虑人的五个生理指标:收缩压(x 1 ),舒 张压( x 2 ),心跳间隔( x 3 ),呼吸间隔( x 4 ),舌 下温度( x 5 )。从生理学的知识知道这五个指标
是受植物神经的交感神经和副交感神经这两个
(8.1)
神经和副交感神经,那么可以设想变量
xp ap1F1 ap2F2 apmFm p
用矩阵表示:
x1 a11 a12 a1m F1 1
x2
a21
a22
a2m
F2
2
x
p
a
p1
ap2
a
pm
Fm
p
X AF ε
高维空间中的互相垂直的m个坐标
例1
1
2
3
4
5
6
1.古典语 1
2.法语 0.83
1
3.英语 0.78 0.67
1
4.数学 0.70 0.67 0.64
1
5.判别 0.66 0.65 0.54 0.54 1
6.音乐 0.63 0.57 0.51 0.51 0.4 1
表中课程是按照相关系数从上到下递减排列的。 Spearman注意到相关矩阵中一个有趣的规律: 如果不考虑对角元素的话,任意两列的元素大致
Y1 11X1 12X2 Y2 21X1 22X2
1p X p 2pXp
Yp p1X1 p2X2 pp X p
(8.2)
其中, i j 为随机向量 X 的相关矩阵的特征值 所对应的特征向量的分量,因为特征向量之 间彼此正交,从X 到 Y 的转换关系是可逆的, 即有

第八章 因子分析1

第八章 因子分析1

(二)因子载荷阵的求法
设标准化随机向量
X X 1
* *

X
* p
的协差阵为 ∑ ,根据线性代数的知识:
0 p i
p

1 U U 0
2

所以
1 U 0
2

0 U p
2 2 2
2 2 2 2 a i1 a i 2 a 1 q i hi i 1
2 2
Xi*的方差由两部分构成,第一部分为共hi2,它刻划全部公共 因子对变量Xi*的总方差贡献, hi2越接近于1,说明该变量的 几乎全部原始信息都被所选取的公共因子说明了;越接近0, 说明公共因子对Xi*的影响很小,主要由特殊因子所描述;第 二部分σi2为特殊因子方差,仅与变量Xi*本身的变化有关。
iU iU i
i 1


1 U 1 ,
2U 2 , ,
pU
p


2U 2 A A p U p
1 U 1
这时的因子模型为:X*=AF

因子载荷矩阵A的第j列元素是除常数外第j个主成分的系数,故这 种方法称为主成分法。
2



Fi赋予有实际背景的解释。
二、因子分析的基本思想 因子分析是通过对事物可观测变量 X 1 , X 2 , X 3 , , X P 的分析,挖掘出影 响这些变量的公共因素,F1 , F2 , , Fq ,同时将各个变量剩余的属性特 征归为一类,统称为剩余因子或特殊因子,这样p个原始变量就可表述
由假设
E(X i) 0

因子分析

因子分析
因子分析的数学模型
表达式中的 xi 已经 不是原始变量,而 是标准化变量
旋转后的因子载荷图
旋转后的因 子载荷系数 更加接近于 1( 如 果 旋 转 后的因子载 荷系数向 0— 1分化越明显, 说明旋转的 效果越好 ) , 从而使因子 的意义更加 清楚了
因子得分函数
因子得分是各变量 的线性组合
因子分析的应用
(实例分析)
【例】根据我国 31 个省市自治区 2006 年的 6 项主 要经济指标数据,进行因子分析,对因子进行 命名和解释,并计算因子得分和排序
31个地区6项经济指标的因子分析


第 1步 将所
选择【Analyze】【Data Reduction-Factor】主对话框。
Bartlett球度检验
以变量的相关系数矩阵为基础,假设相关系数矩阵是 单位阵(对角线元素不为0,非对角线元素均为0)。如 果相关矩阵是单位阵,则各变量是独立的,无法进行 因子分析
KMO检验
用于检验变量间的偏相关性,KMO统计量的取值在 0~1之间
如果统计量取值越接近1,变量间的偏相关性越 强,因子分析的效果就越好
因变量和因子个数的不一致,使得不仅在数学模 型上,而且在实际求解过程中,因子分析和主成 分分析都有着一定的区别,计算上因子分析更为 复杂。 因子分析可能存在的一个优点是:在对主成分和 原始变量之间的关系进行描述时,如果主成分的 直观意义比较模糊不易解释,主成分分析没有更 好的改进方法;因子分析则额外提供了“因子旋 转(factor rotation)”这样一个步骤,可以使分析 结果尽可能达到易于解释且更为合理的目的。
因子分析
Factor analysis
因子分析

8因子分析

8因子分析
20
第八章 §8.2 因子模型
正交因子模型
然后由Σ 满足的分解式(8.2.3)求得A和D. 也就是从可以观测的变量X1,…,Xp给出的样 本资料中,求出载荷矩阵A和D. 又 COV(X,F)=E[(X-EX)(F-EF)′] =E[(X-μ)F′]=E[(AF+ε)F′] =AE(FF′)+E(εF′)= A, (8.2.4)
Σ -D = AA'
(8.2.3)
18
(8.2.3)称为正交因子模型的协方差结构.
第八章 §8.2 因子模型
正交因子模型
由(8.2.3)可知,X符合正交因子模型
意味着第j个变量和第k个变量(j≠k)的协
方差σjk由下式给出:
(Σ= AA' +D)
σjk=aj1ak1+aj2ak2+…+ajmakm (j≠k) σjj = (aj1)2+ (aj2)2+ …+ (ajm)2+ σj 2
26
第八章 §8.2 因子模型
q 2愈大,表明F 对X的贡献愈大.如果我们
把A矩阵的各列平方和都计算出来,使相应 的贡献有顺序: 2 2 2 1 2 m
j
正交因子模型中各个量的统计意义 j

q q q
我们就能够以此为依据,提炼出最有 影响的公共因子. 要解决此问题,关键是求载荷矩阵A 的估计.
27
第八章 §8.2 因子模型
因子分析的任务

1. 由样本(即观测数据)得出Σ 的估计(样 本协差阵),假定X符合正交因子模型,则有分 解式: Σ= AA' +D 2. 由样本协差阵估计A和D及公因子个数
m使之满足:

08 第八章 因子分析

08 第八章 因子分析

本章内容讲授结束
因子载荷矩阵的统计意义
假定因子模型中,各个变量、公共因子、特 殊因子都已经进行了标准化处理。为进一步理解 因子分析,下面给出因子载荷矩阵中有关因子载 荷、变量共同度、公共因子方差贡献的统计意义。
①因子载荷的统计意义
②变量共同度的统计意义 所谓变量共同度是指因子载荷矩阵中第i 所谓变量共同度是指因子载荷矩阵中第i 行元 素的平方和。即 为了说明变量共同度的统计意义,对下式两边 求方差,有
(一)协交因子模型与协交因子解
在协交因子轴情况下,坐标和投影,即模型和 结构之间是有差别的。而在正交因子空间中,坐标 值和投影值一致,基因子模型和因子结构是一回事, 无需区分这两者。一个完全协交因子解必须包括因 子模型和因子结构两大部分。
1.因子变换矩阵. 因子变换矩阵.
2.协因子相关矩阵
3.因子结构矩阵
③公因子方差贡献的统计意义 所谓公共因子方差贡献是指因子载荷矩阵中第 j 列元素的平方和。即
表示同一公共因子 对各个变量 所 提供的方差贡献的总和。它是衡量公共因子相对重 要性的指标。
第二节 因子载荷矩阵的估计方法
一、因子载荷矩阵的估计 二、因子载荷矩阵的方差最大正பைடு நூலகம்旋转 三、因子载荷矩阵的Promax协旋转 因子载荷矩阵的Promax Promax协旋转
多元统计分析方法及其应用
统计学院
第八章 因子分析
第一节 因子分析的原理与模型 第二节 因子载荷矩阵的估计方法 第三节 因子得分及因子分析步骤 第四节 因子分析在Excel中的实现 因子分析在Excel Excel中的实现
因子分析是主成分分析的推广和发展,它是 由研究原始数据相关矩阵的内部依赖关系出发, 把一些具有错综复杂关系多个变量(或样品)综 合为少数几个因子,并给出原始变量与综合因子 之间的相关关系的一种多元统计分析方法。它也 属于多元分析中数据降维的一种统计方法。

8 因子分析

8 因子分析
23
变量
F1
0.691 0.789 0.702 0.674 0.62 0.687 0.621 0.538 0.434 0.147
F2
0.217 0.184 0.535 0.134 0.551 0.042 -0.521 0.087 -0.439 0.596
F3
-0.58 -0.193 0.047 0.139 -0.084 -0.161 0.109 0.411 0.372 0.658
* *
F2
0.136 0.194 0.825 0.15
*
F3
0.156 0.515 0.223 0.750 0.102 0.635 0.147
*
F4
-0.113 -0.006 -0.148 0.076 0.468 -0.17 -0.079 0.217 0.141 0.934*
X1 X2 X3 X4 X5 X6 X7 X8 X9 X 10
析可在许多变量中找出隐藏的具有代表性的因子。 将相同本质的变量归入一个因子,可减少变量的 数目,还可检验变量间关系的假设。
2
8.1 因子分析的基本原理
因子分析(factor analysis)是一种用来分析隐藏在表
象背后的因子作用的一类统计模型和方法。它通过研
究众多变量之间的内部依赖关系,探求观测数据的基 本结构,并用少数几个不可观测的所谓公共因子 (common factor)的线性组合与特殊因子(specific factor) 之和来描述原来观测的每一分量。
19
x1 0.569 y1 0.814 y2
x2 0.783 y1 0.305 y2 0.548 y3
x3 0.783 y1 0.305 y2 0.548 y3

《应用多元分析》第三版(第八章 因子分析)

《应用多元分析》第三版(第八章 因子分析)
Σ=A*A*′+D
因此,因子载荷矩阵A不是惟一的,在实际应用中常常利用
这一点,通过因子的旋转(见稍后的§8.4),使得新的因子
有更好的实际意义。
三、因子载荷矩阵的统计意义

1.A的元素aij
m
2
2
h

a
❖ 2.A的行元素平方和 i
ij
j 1
p
2
2
g

a
❖ 3.A的列元素平方和 j
ij
i 1
❖ 二、正交因子模型的性质
❖ 三、因子载荷矩阵的统计意义
一、数学模型

设有p维可观测的随机向量 x ( x1 , x2 , , x p ),其均值
为 μ ( 1 , 2 , , p ),协差阵为Σ=(σij)。因子分析的
一般模型为
x1 1 a11 f1 a12 f 2 a1m f m 1
有什么实际意义的,故实践中m也不应选得过小。
2.模型不受单位的影响

将x的单位作变化,通常是作一变换x*=Cx,这里
C=diag(c1,c2,⋯,cp),ci>0,i=1,2,⋯,p,于是
x*=C μ+CAf+C ε
令μ*=C μ,A*=CA,ε*=C ε,则有
x*=μ*+A*f+ε*
这个模型能满足类似于前述因子模型的假定,即
x a f a f a f
2
2
21 1
22 2
2m m
2


x p p a p1 f1 a p 2 f 2
a pm fm p
其中f1, f2, ⋯, fm为公共因子,ε1, ε2, ⋯, εp为特殊因子,
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2、计算所选原始变量的相关系 数矩阵
相关系数矩阵描述了原始变量之间的相关关
系。可以帮助判断原始变量之间是否存在相关关
系,这对因子分析是非常重要的,因为如果所选
变量之间无关系,做因子分析是不恰当的。并且
相关系数矩阵是估计因子结构的基础。
3、提取公共因子
这一步要确定因子求解的方法和因子的个数。 需要根据研究者的设计方案或有关的经验或知识 事先确定。因子个数的确定可以根据因子方差的 大小。
例如,在企业形象或品牌形象的研究中,消费者
可以通过一个有24个指标构成的评价体系,评价百货
商场的24个方面的优劣。
但消费者主要关心的是三个方面,即商店的环境 、商店的服务和商品的价格。因子分析方法可以通过24 个变量,找出反映商店环境、商店服务水平和商品价格 的三个潜在的因子,对商店进行综合评价。而这三个公 共因子可以表示为:
因子分析通常包括以下五个步骤
1、选择分析的变量
2、计算所选原始变量的相关系数矩阵
3、提取公共因子
4、因子旋转
5、计算因子得分
1、选择分析的变量

用定性分析和定量分析的方法选择变量,
因子分析的前提条件是观测变量间有较强
的相关性,因为如果变量之间无相关性或
相关性较小的话,他们不会有共享因子,所
以原始变量间应该有较强的相关性。
x4
x5
0.92204
0.95149
0.16655
0.15728
x4
x5
0.35108
0.36366
-0.02506
-0.03493
在这个例子中我们得到了两个因子,第一个因子是社会经济 发展水平因子,第二个是计划生育因子。有了因子得分值后,则 可以利用因子得分为变量,进行其他的统计分析。
§ 6 因子分析的步骤、展望和建议
第八章 因子分析
§1 引言
因子分析 (factor analysis) 是一种数据简化的
技术。它通过研究众多变量之间的内部依赖关系,探
求观测数据中的基本结构,并用少数几个假想变量来 表示其基本的数据结构。这几个假想变量能够反映原 来众多变量的主要信息。原始的变量是可观测的显在
变量,而假想变量是不可观测的潜在变量,称为因子。
(二)旋转方法
变换后因子的共同度没有发生变化! 变换后因子的贡献发生了变化!
§ 5 因子得分
(一)因子得分的概念 前面我们主要解决了用公共因子的线性组合来表示一
组观测变量的有关问题。如果我们要使用这些因子做其他
的研究,比如把得到的因子作为自变量来做回归分析,对 即给出公共因子的值。
样本进行分类或评价,这就需要我们对公共因子进行测度,
人均要素变量因子分析。对我国 32 个省市自治区的要素状 况作因子分析。指标体系中有如下指标: X1 :人口(万人) X2 :面积(万平方公里) X3 :GDP(亿元) X4 :人均水资源(立方米/人) X5:人均生物量(吨/人) X6:万人拥有的大学生数(人) X7:万人拥有科学家、工程师数(人) Rotated FACTOR1 -0.21522 0.63973 -0.15791 0.95898 0.97224 -0.11416 -0.11041 Factor Pattern FACTOR2 FACTOR3 -0.27397 0.89092 -0.28739 -0.28755 0.06334 0.94855 -0.01501 -0.07556 -0.06778 -0.17535 0.98328 -0.08300 0.97851 -0.07246
高载荷指标 因子1 X2;面积(万平方公里) X4:人均水资源(立方米/人) X5:人均生物量(吨/人) X6:万人拥有的大学生数(人) X7:万人拥有的科学家、工程师数(人) X1;人口(万人) X3:GDP(亿元) 因子命名 自然资源因子
人力资源因子
因子2 因子3
经济发展总量因子
Standardized Scoring Coefficients FACTOR1 FACTOR2 FACTOR3 X1 0.05764 -0.06098 0.50391 X2 0.22724 -0.09901 -0.07713 X3 0.14635 0.12957 0.59715 X4 0.47920 0.11228 0.17062 X5 0.45583 0.07419 0.10129 X6 0.05416 0.48629 0.04099 X7 0.05790 0.48562 0.04822
行的元素平方值向 0和 1两极分化。有三种主要的正交
旋转法。四次方最大法、 方差最大法 和等量最大法。
奥运会十项全能运动项目 得分数据的因子分析
百米跑成绩 X 1 跳远成绩 X 2 铅球成绩 X 3 跳高成绩 X 4 400米跑成绩 X 5 百米跨栏 X 6 铁饼成绩 X 7 撑杆跳远成绩 X 8 标枪成绩 X9 1500米跑成绩 X
X1 X2 X3 X4 X5 X6 X7
X1=-0.21522F1-0.27397F2+0.89092F3 X2=0.63973F1-0.28739F2-0.28755F3 X3=-0.15791F1+0.06334F2+0.94855F3 X4=0.95898F1-0.01501F2-0.07556F3 X5=0.97224F1-0.06778F2-0.17535F3 X6=-0.11416F1+0.98328F2-0.08300F3 X7=-0.11041F1+0.97851F2-0.07246F3
X1 X2 X3 X4 X5 X6 X7 X8 X9 X 10
共同度 0.84 0.7 0.81 0.65 0.87 0.62 0.72 0.66 0.57 0.89
*
0.075 0.153 0.814* 0.176 0.735* -0.041
*
0.762* 0.11 0.112
通过旋转,因子有了较为明确的含义。X百米跑, 1
求出各样本的因子得分,有了因子得分
值,则可以在许多分析中使用这些因子, 例如以因子的得分做聚类分析的变量,做 回归分析中的回归因子。
因子分析是十分主观的,在许多出版的资料中, 因子分析模型都用少数可阐述因子提供了合理解释。 实际上,绝大多数因子分析并没有产生如此明确的结 果。不幸的是,评价因子分析质量的法则尚未很好量 化,质量问题只好依赖一个
只取方差大于1(或特征值大于1)的那些因子, 因为方差小于1的因子其贡献可能很小; 按照因子的累计方差贡献率来确定,一般认 为要达到60%才能符合要求;
4、因子旋转
通过坐标变换使每个原始变量在尽可
能少的因子之间有密切的关系,这样因子
Байду номын сангаас
解的实际意义更容易解释,并为每个潜在因
子赋予有实际意义的名字。
5、计算因子得分
“哇!”准则 如果在仔细检查因子分析的时候,研究人员能够喊 出“哇,我明白这些因子”的时候,就可看着是成功运 用了因子分析方法。
谢 谢 !
§ 4 因子旋转(正交变换)
(一)为什么要旋转因子
建立了因子分析数学目的不仅仅要找出公共因子以
及对变量进行分组,更重要的要知道每个公共因子的
意义,以便进行进一步的分析,如果每个公共因子的
含义不清,则不便于进行实际背景的解释。由于因子
载荷阵是不惟一的,所以应该对因子载荷阵进行旋转。
目的是使因子载荷阵的结构简化,使载荷矩阵每列或
变量
F1
0.844* 0.631 0.243 0.239 0.797 0.404 0.186 -0.036 -0.048 0.045
* *
F2
0.136 0.194 0.825 0.15
*
F3
0.156 0.515 0.223 0.750 0.102 0.635 0.147
*
F4
-0.113 -0.006 -0.148 0.076 0.468 -0.17 -0.079 0.217 0.141 0.934*
F4
-0.206 0.092 -0.175 0.396 -0.419 0.345 -0.234 0.44 -0.235 -0.279
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
共同度 0.84 0.7 0.8 0.65 0.87 0.62 0.72 0.66 0.57 0.89
因子载荷矩阵可以看出,除第一因子在所有的变量在公共因子 上有较大的正载荷,可以称为一般运动因子。其他的3个因子不太 容易解释。似乎是跑和投掷的能力对比,似乎是长跑耐力和短跑速 度的对比。于是考虑旋转因子,得下表
方差最大旋转后的因子结构
Factor1 Factor2
标准化得分函数
Factor1 Factor2
x1
x2 x3
-0.35310
0.07757 0.89114
-0.87170
0.95154 0.25621
x1
x2 x3
-0.05897
-0.05805 0.33042
-0.49252
0.58056 0.03497
X 2 跳远和 X 5400米跑,需要爆发力的项目在 F1 有较大的 F1 可以称为短跑速度因子; 载荷,
X 3 铅球, X 7铁饼和 X 9标枪在F2上有较大的载荷,可以
称为爆发性臂力因子;
X 6百米跨栏,X 8 撑杆跳远, X 2 跳远和为 X 4跳高在 F3上
有较大的载荷,F3 爆发腿力因子; F4 长跑耐力因子。
xi i i1F1 i 2 F2 i 3 F3 i
i 1,,24
F1、F2、F 3 称 是不可观测的潜在因子。 24个变量 共享这三个因子,但是每个变量又有自己的个性, 不被包含的部分 i ,称为特殊因子。
相关文档
最新文档