第八章因子分析
第八章因子分析
因子分析
R型因子分析:对变量
Q型因子分析:对样品
基本思想
通过变量的相关系数矩阵内部结构的研究,找 出能控制所有变量的少数几个随机变量(不可观 测)去描述多个变量之间的相关关系;然后根据 相关性的大小把变量分组,使得同组内的变量 之间相关性较高,不同组的变量相关性较低。 相对于主成分分析,因子分析更倾向于描述原 始变量之间的相关关系。因此,因子分析的出 发点是原始变量的相关矩阵。
xi ai1F1 ai 2 F2 aij F j xi Fj ai1F1F j ai 2 F2 F j aij F j F j
aim Fm i aim Fm F j i F j
(2)变量共同度的统计意义 变量 xi 的共同度定义为因子载荷 A 中的第i行
ˆ a
2 im
正交因子模型具有如下特性:
假定因子模型中,各个变量及公共因子、特殊 因子都已经是标准化的变量。 (1)因子载荷(负荷) aij 的统计意义是随机变量
xi 与公共因子 F j的相关系数,即表示 xi 依赖 F j的比重(分量)。反映了 xi 在 F j 上的相对
重要性。
aij rxi Fj
通常先对 X 作标准化处理,使标准化得到的新 变量 E (X) 0,Var ( X) 1 。这样就有
X AF ε
假定(1) E (F) 0, (2) E (ε) 0,
D (F ) I m ;
12 D(ε) 0
2 2
0 2 p
1 R Σ U 0
0 p U iuiui i 1 p
从另一个角度讲主成分法
第八章因子分析-新
In conjunction with his famous two-factor theory of intelligence
因子分析的目的:用少数几个不可观测的隐变 量来解释原始变量间的协方差关系
Origins of Factor Analysis
Wanted to estimate intelligence of 24 children in a village school.
短跑速度
因子得分计算公式
11x1s 12 x2 s 1, x10s 10
爆发性臂力 21x1s 22 x2 s 2, x10s 10 爆发性腿力 31x1s 32 x2 s 3, x10s 10 耐力 41x1s 42 x2 s 4, x10s 10
对10个变量标准化后的因子分析表明,十项得 分基本上可归结于他们的短跑速度、爆发性臂 力、爆发性腿力和耐力这四个方面,每一方面 都称为一个公共因子。
因子分析的类型
探索性因子分析exploratory Factor Analysis
根据变量间相关关系探索因子结构 实例2
确认性因子分析Confirmatory Factor Analysis
注意:因子分析是一种用来分析隐藏在表象背后的潜在因 子作用的统计模型,这些共同因素通常是不可直接观测的
收缩压
舒张压
心跳间隔
呼吸间隔
舌下温度
实例1
交感神经
负交感神经
考查人体的五项生理指标:收缩压、舒张压、 心跳间隔、呼吸间隔和舌下温度。
从生理学知识可知,这五项指标是受植物神经 支配的,植物神经又分为交感神经和负交感神 经,因此这五项指标至少受到两个公共因子的 影响,也可用因子模型去处理。
第八章 因子分析 SPSS教学课件
F 1 0 . 0 X 1 0 . 7 1 X 2 0 . 1 3 X 3 0 . 2 3 X 4 0 9 3 . 3 X 5 0 5 . 2 3 X 6 2
F 2 0 . 4 X 1 0 . 2 0 X 2 0 . 9 4 7 X 3 0 . 6 0 2 X 4 0 . 0 3 6 X 5 0 . 4 1 X 6
11个学生的数学、物理、化学、语文、历史、英语的成 绩如下表。
王明 赵武 马六 和平 小二 张三 李斯 周五 罗兰 刘二 高管
数学 物理 化学 语文 历史 英语
65
61
72
84
81
79
77
77
76
64
70
55
67
63
49
65
67
57
80
69
75
74
74
63
74
70
80
84
81
74
78
84
75
62
71
因子分析和主成分分析的一些注意事项
➢ 可以看出,因子分析和主成分分析都依赖于原始变 量,也只能反映原始变量的信息。所以原始变量的 选择很重要。
a. 旋转在 3 次迭代后收敛。
这里,第一个因子主要和语文、历史、英语三科有很强的 相关性;而第二个因子主要和数学、物理、化学三科有很 强的相关性。因此可以给第一个因子起名为“文科因子”, 而给第二个因子起名为“理科因子”。从这个例子可以看 出,因子分析的结果比主成分分析解释性更强。
• 这两个因子的系数所形成的散点图(虽然 不是载荷,在SPSS中也称载荷图,
计算因子得分
成 分 得 分系 数 矩 阵
成分
数学
1 .073
因子分析
Burgelman
DebraM. Amidon
D. L. Barton 魏江、许庆瑞
陈劲
本文试图应用因子分析理论,通过建立 企业技术创新能力测度与评价的因子分 析模型对此类问题的解决作初步的尝试。
二、企业技术创新能力测度与评价初 始指标体系
技术创新过程是一个从资源投入到研 发、试制、生产、销售的全过程,因此 技术创新能力是各个过程能力有效协 同而表现出的一项综合能力。
LOGO
第八章 因子分析
第八组 李晓丹
企业技术创新能力测度与评价的因子 分析模型及其应用
一、引言
二、企业技术创新能力测度与评价初始 指标体系
结构
三、企业技术创新能力测度与评价的 因子分析模型 四、模型应用 五、结论
一、引言
进行成功的技术创新
正确地制定技术创新战 略 建立一个科学的技术创新能力 测度指标体系
DZ var AF A varF A AA ,
T T
AAT
所以第j列因子载荷为第j个主成分
当最后m-p个特征根很小时,去掉
j ej
p 1 e p 1 , m em
A 1 e1 p e p
(三)因子旋转
本文采用方差极大正交旋转法进行因子旋转。
的特征值为
1 2 p 0
其相应的特征向量为e1,e2,... em(标准正交化向量)
1 e1 , 2 e2 , m em 1 e1 , 2 e2 , m em
T
(二)确定因子载荷矩阵
当公因子Fi有p个时,特殊因子为0,所以Z=AF,A为因子 载荷矩阵。
第八章 因子分析
F1 0.073 X 1 0.1X 2 0.129 X 3 0.335 X 4 0.322 X 5 0.365 X 6 F 2 0.407 X 1 0.296 X 2 0.426 X 3 0.031 X 4 0.044 X 5 0.116 X 6
以各因子的方差贡献率为权重,可以计算总 的因子得分
成 分 矩 阵a 成分 数学 物理 化学 语文 历史 英语 1 -.646 -.892 -.531 .861 .798 .767 2 .680 .325 .770 .416 .422 .576
提取方法 :主 成分分析法。 a. 已提取了 2 个成分。
X 1 0.646 F1 0.68 F 2 1 X 2 0.892 F1 0.325 F 2 2 X 3 0.531F1 0.77 F 2 3 X 4 0.861F1 0.416 F 2 4 X 5 0.798 F1 0.422 F 2 5 X 6 0.767 F1 0.576 F 2 6
历史Байду номын сангаас
81 70 67 74 81 71 65 86 67 70 67
英语
79 55 57 63 74 64 57 71 50 65 63
计算主成分贡献率和累积贡献率并确定共因子
说明的总方差 初始特征值 合计 方差的 % 3.463 57.709 1.843 .368 .219 .082 .026 30.723 6.132 3.650 1.361 .425 累积 % 57.709 88.432 94.564 98.214 99.575 100.000 提取平方和载入 合计 方差的 % 累积 % 3.463 57.709 57.709 1.843 30.723 88.432
第八章因子分析(2009.11)
0.60 ≤ KMO﹤0.70:不太适合
KMO﹤0.60:不适合
2014/5/19 14-36
第四步:单击Extraction按纽,弹出对话框,选择 未经旋转的因子 因子提取方法
载荷矩阵
主成分分析法
相关系数矩阵
提取特征值 大于1的因子
2014/5/19
因子与其特征 15-36 值的碎石图
★ 几个重要的概念
Sig. (1-tailed)
a. Determinant = 9.356E-03
2014/5/19
25-36
3.相关系数矩阵的逆矩阵
Inverse of Correlation Matrix 合 作性 分配 出 发点 工 作投 入 发 展机 会 社 会地 位 权 力距 离 职 位升 迁 领 导风 格 合 作性 3.215 -2.417 -1.112 -.399 1.945 -1.249 .612 -1.286 .152 分配 -2.417 3.704 -.053 .681 -.826 1.392 -.563 .152 .008 出 发点 -1.112 -.053 3.281 .674 -2.230 .609 -1.292 1.343 -.441 工 作投 入 -.399 .681 .674 1.412 -.752 .335 -.585 .425 .114 发 展机 会 1.945 -.826 -2.230 -.752 6.499 -1.874 .101 -4.326 -.151 社 会地 位 -1.249 1.392 .609 .335 -1.874 1.951 -.225 .938 -.019 权 力距 离 .612 -.563 -1.292 -.585 .101 -.225 2.018 -.224 -.033 职 位升 迁 -1.286 .152 1.343 .425 -4.326 .938 -.224 4.341 -.309 领 导风 格 .152 .008 -.441 .114 -.151 -.019 -.033 -.309 1.409
应用多元分析第八章 因子分析
1.00 0.32 0.33 0.18 0.00
1.00 0.24 1.00 0.34 0.24 1.00 -0.02 0.17 -0.00 1.00
例8.1.2 为了评价即将进大学的高中生的学习能力, 抽了200名高中生进行问卷调查,共50个问题。素 有这些问题可以归结为阅读理解、数学水平和艺 术素养三个方面。 例8.1.3 公司老板对48名应聘者进行面试,并给出 他们在15个方面的得分,这15个方面是:申请书 的形式(x1)、外貌(x2)、专业能力(x3)、讨人喜欢 (x4)、自信心(x5)、精明(x6)、诚实(x7)、推销能力 (x8)、经验(x9)、积极性(x10)、抱负(x11)、理解能 力(x12)、潜力(x13)、交际能力(x14)、适应性(x15)。 通过因子分析,这15个方面可归结为应聘者的外露 能力、讨人喜欢的程度、经验、专业能 i i 1,,10.
j 1
4
十项全能运动员得分相关矩阵
X1
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 1.00 0.59 0.35 0.34 0.63 0.40 0.28 0.20 0.11 -0.77
X2
X3
X4
X5
X6
X7
i 1
i
i 1
一、主成分法:
1 n 1 n x xi , S ( xi x )( xi x ) ' n i 1 n 1 i 1
ˆ ˆ 1、求出S的特征值1 p 0, 相应的正交单位特征向量
ˆ ti , i 1, , p。
2、估计:
data examp733(type=corr); input x1-x8; cards; 1.000 . . . . . . . 0.923 1.000 . . . . . . 0.841 0.851 1.000 . . . . . 0.756 0.807 0.870 1.000 . . . . 0.700 0.775 0.835 0.918 1.000 . . . 0.619 0.695 0.779 0.864 0.928 1.000 . . 0.633 0.697 0.787 0.869 0.935 0.975 1.000 . 0.520 0.596 0.705 0.806 0.866 0.932 0.943 1.000 ; proc factor data=examp733(type=corr); var x1-x8; proc factor data=examp733(type=corr) n=2; var x1-x8; run;
第八章_因子分析
第八章_因子分析因子分析是一种常用的多元统计分析方法,它通过对观测变量之间的关系进行综合考虑,将它们归纳为较少数量的共同因子,并解释这些因子与观测变量之间的关系。
因子分析可以用来发现数据背后的隐藏结构和模式,从而提高数据的解释力和预测能力。
1.因子分析的主要应用领域因子分析在许多领域中都有广泛应用。
在社会科学领域,因子分析常用于对人的主观评价和态度的研究,例如对消费者满意度、领导能力等方面的研究。
在市场研究中,因子分析可以将众多的市场指标归纳为几个关键的影响因素,从而更好地了解市场的特点和消费者的需求。
在心理学领域,因子分析可以用来研究人的智力、性格、态度等方面的因素。
在生物医学领域,因子分析可以用来研究疾病的病因,如心脏病的发病机制等。
2.因子分析的基本原理因子分析的基本原理是通过对观测变量之间的协方差矩阵进行特征值分解,找出最能解释观测变量之间关系的共同因子。
首先,将原始数据标准化,然后计算变量之间的协方差矩阵。
接下来,对协方差矩阵进行特征值分解,得到一组特征值和特征向量。
根据特征值的大小,选择前k个最大的特征值对应的特征向量,作为共同因子的估计。
最后,通过因子载荷矩阵和因子得分矩阵,将观测变量映射到共同因子上进行解释。
3.因子分析的步骤因子分析的步骤主要包括:确定研究对象和目标、准备数据、选择因子提取方法、确定因子数目、因子旋转和解释因子。
(1)确定研究对象和目标:确定要进行因子分析的变量和要研究的问题,例如对消费者满意度进行因子分析,研究消费者满意度的主要影响因素。
(2)准备数据:收集数据并进行预处理,包括缺失值处理、异常值处理和变量标准化。
(3)选择因子提取方法:根据数据的特点和研究目标选择适合的因子提取方法,常见的方法包括主成分分析、主因子分析和最大似然估计。
(4)确定因子数目:根据特征值和方差贡献率等指标,确定最优的因子数目。
(5)因子旋转:对提取的因子进行旋转,使得每个因子上的变量载荷更加清晰和有意义。
第八章 因子分析和聚类分析
(三)样本数据与小类、小类与小类间亲疏程度 的度量 在度量了样本数据间的亲疏程度后,SPSS会 自动将最亲密(距离最小或相关系数最大)的样 本首先聚成小类,接下来的工作是如何将某个样 本与已经形成的小类继续聚集,以及如何将已经 形成的小类和小类继续聚集。于是就必须度量样 本与小类以及小类和小类之间的亲疏程度。 在SPSS中提供了多种度量方法:
(二)样本数据间“亲疏程度”的度量 聚类分析中,个体之间的“亲疏程度”是极为 重要的,它将直接影响最终的聚类结果。对“亲 疏程度”的测度一般有两个角度:第一,个体之 间的相似程度;第二,个体之间的差异程度。衡 量个体间的相似程度通常可采用简单相关系数或 等级相关系数等;个体间的差异程度通常通过某 种距离来测度。聚类时,距离较近的样本属于同 一类,距离较远的样本属于不同的类。 在SPSS中,对不同度量类型的数据采用了不 同的测定亲疏程度的统计量。 个体间距离的定义会受k个变量类型的影响。 由于变量类型一般有定距型和非定距型之分,使 得个体间距离的定义也因此不同。
(l) Method ,因子提取方法选择项
(2) Analyze 栏,指定分析矩阵的选择项。
(3) Display 栏,指定与因子提取有关的输出项。
(4) Extract 栏,控制提取进程和提取结果的选择 项。 (5) Maximum iterations for Convergence 参数框, 指定因子分析收敛的最大迭代次数。系统默认的 最大迭代次数为25。Fra bibliotek
单击矩形框右侧的向下箭头展开下拉菜单, 在菜单中选择连续变量距离测度的方法。这些方法 是: Euclidean distance:Euclidean 距离,即两观 察单位间的距离为其值差的平方和的平方根,该技 术用于Q 型聚类; Squared Euclidean distance:Euclidean 距离 平方,即两观察单位间的距离为其值差的平方和, 该技术用于Q 型聚类; Cosine:变量矢量的余弦,这是模型相似性的 度量; Pearson correlation:相关系数距离,适用于R 型聚类;
8因子分析
第八章 §8.2 因子模型
正交因子模型
然后由Σ 满足的分解式(8.2.3)求得A和D. 也就是从可以观测的变量X1,…,Xp给出的样 本资料中,求出载荷矩阵A和D. 又 COV(X,F)=E[(X-EX)(F-EF)′] =E[(X-μ)F′]=E[(AF+ε)F′] =AE(FF′)+E(εF′)= A, (8.2.4)
Σ -D = AA'
(8.2.3)
18
(8.2.3)称为正交因子模型的协方差结构.
第八章 §8.2 因子模型
正交因子模型
由(8.2.3)可知,X符合正交因子模型
意味着第j个变量和第k个变量(j≠k)的协
方差σjk由下式给出:
(Σ= AA' +D)
σjk=aj1ak1+aj2ak2+…+ajmakm (j≠k) σjj = (aj1)2+ (aj2)2+ …+ (ajm)2+ σj 2
26
第八章 §8.2 因子模型
q 2愈大,表明F 对X的贡献愈大.如果我们
把A矩阵的各列平方和都计算出来,使相应 的贡献有顺序: 2 2 2 1 2 m
j
正交因子模型中各个量的统计意义 j
q q q
我们就能够以此为依据,提炼出最有 影响的公共因子. 要解决此问题,关键是求载荷矩阵A 的估计.
27
第八章 §8.2 因子模型
因子分析的任务
1. 由样本(即观测数据)得出Σ 的估计(样 本协差阵),假定X符合正交因子模型,则有分 解式: Σ= AA' +D 2. 由样本协差阵估计A和D及公因子个数
m使之满足:
08 第八章 因子分析
本章内容讲授结束
因子载荷矩阵的统计意义
假定因子模型中,各个变量、公共因子、特 殊因子都已经进行了标准化处理。为进一步理解 因子分析,下面给出因子载荷矩阵中有关因子载 荷、变量共同度、公共因子方差贡献的统计意义。
①因子载荷的统计意义
②变量共同度的统计意义 所谓变量共同度是指因子载荷矩阵中第i 所谓变量共同度是指因子载荷矩阵中第i 行元 素的平方和。即 为了说明变量共同度的统计意义,对下式两边 求方差,有
(一)协交因子模型与协交因子解
在协交因子轴情况下,坐标和投影,即模型和 结构之间是有差别的。而在正交因子空间中,坐标 值和投影值一致,基因子模型和因子结构是一回事, 无需区分这两者。一个完全协交因子解必须包括因 子模型和因子结构两大部分。
1.因子变换矩阵. 因子变换矩阵.
2.协因子相关矩阵
3.因子结构矩阵
③公因子方差贡献的统计意义 所谓公共因子方差贡献是指因子载荷矩阵中第 j 列元素的平方和。即
表示同一公共因子 对各个变量 所 提供的方差贡献的总和。它是衡量公共因子相对重 要性的指标。
第二节 因子载荷矩阵的估计方法
一、因子载荷矩阵的估计 二、因子载荷矩阵的方差最大正பைடு நூலகம்旋转 三、因子载荷矩阵的Promax协旋转 因子载荷矩阵的Promax Promax协旋转
多元统计分析方法及其应用
统计学院
第八章 因子分析
第一节 因子分析的原理与模型 第二节 因子载荷矩阵的估计方法 第三节 因子得分及因子分析步骤 第四节 因子分析在Excel中的实现 因子分析在Excel Excel中的实现
因子分析是主成分分析的推广和发展,它是 由研究原始数据相关矩阵的内部依赖关系出发, 把一些具有错综复杂关系多个变量(或样品)综 合为少数几个因子,并给出原始变量与综合因子 之间的相关关系的一种多元统计分析方法。它也 属于多元分析中数据降维的一种统计方法。
第八章 因子分析地理模型
求解R矩阵的特征方程|R-λI|=0,记特征值为
λ1>λ2 …>λp>=0,特征向量矩阵为U,这样有关
系: R=U
λ1 0
λ2 …
U’
0 λp
U为正交矩阵,并且满足U’U=UU’=I
令F=U’X,则得
λ1 0
FF’=
λ2 …
0 λp
F为主因子阵,并且 Fα=U’Xα(α=1,2…n),即每 一个Fα为第α个样品主因子观测值。 在因子分析中,通常只选其中 m(m<p) 个主因子。
浙 江 6149 41.88 6221
2966
37 8721
安 徽 2521 55 6380 51.82 7438
2699
42 8848
1、将原始数据标准化 2、建立六个指标的相关系数阵R 3、共因子方差 4、总方差解建立因子载荷阵: 5、建立因子载荷阵: 由于前三个特征值的累计贡献率已达 93.505%,所以取前三个特征值建立因子 载荷阵如下:
主成分分析从原理上是寻找椭球的所有主轴。因此, 原先有几个变量,就有几个主成分。
而因子分析是事先确定要找几个成分,这里叫因子 (factor)(比如两个),那就找两个。
这使得在数学模型上,因子分析和主成分分析有不少 区别。而且因子分析的计算也复杂得多。根据因子分 析 模 型 的 特 点 , 它 还 多 一 道 工 序 : 因 子 旋 转 ( factor rotation);这个步骤可以使结果更好。
x11 x12……x1n x21 x22……x2n
..
X=
..
..
xP1 xP2……xPn
p表示变量数,n表示样本数。
8 因子分析
变量
F1
0.691 0.789 0.702 0.674 0.62 0.687 0.621 0.538 0.434 0.147
F2
0.217 0.184 0.535 0.134 0.551 0.042 -0.521 0.087 -0.439 0.596
F3
-0.58 -0.193 0.047 0.139 -0.084 -0.161 0.109 0.411 0.372 0.658
* *
F2
0.136 0.194 0.825 0.15
*
F3
0.156 0.515 0.223 0.750 0.102 0.635 0.147
*
F4
-0.113 -0.006 -0.148 0.076 0.468 -0.17 -0.079 0.217 0.141 0.934*
X1 X2 X3 X4 X5 X6 X7 X8 X9 X 10
析可在许多变量中找出隐藏的具有代表性的因子。 将相同本质的变量归入一个因子,可减少变量的 数目,还可检验变量间关系的假设。
2
8.1 因子分析的基本原理
因子分析(factor analysis)是一种用来分析隐藏在表
象背后的因子作用的一类统计模型和方法。它通过研
究众多变量之间的内部依赖关系,探求观测数据的基 本结构,并用少数几个不可观测的所谓公共因子 (common factor)的线性组合与特殊因子(specific factor) 之和来描述原来观测的每一分量。
19
x1 0.569 y1 0.814 y2
x2 0.783 y1 0.305 y2 0.548 y3
x3 0.783 y1 0.305 y2 0.548 y3
第8章因子分析讲解
4、随机向量 X 的相关矩阵
R (rij ) p p , rij
Cov( X i , X j ) D(Xi ) D(X j )
上页 下页
性质:设 X、Y 是随机向量,A、B 是常数矩阵,则
(1)D ( X ) = Cov ( X, X ) (2)E (AX) = AE(X) (3)E(AXB)=AE(X)B (4)D(AX)=AD(X)AT (5)Cov (AX, BY) = ACov (X,Y)BT
p2
1m F1 1
2m
F2
2
pm
Fm
p
或X AF
上页 下页
称 F1, F2,, Fm为公共因子,是不可观测的变量,
他们的系数称为因子载荷。 是特i 殊因子,是不能
被前m个公共因子包含的部分。并且满足:
cov(F, ) 0 , F, 不相关;
1
D(F)
享这六个因子,但是每个变量又有自己的个性,不被包含的
部分i ,称为xi 的特殊因子。
因子分析(factor analysis)是一种数据简化技术。 它通过研究众多变量之间的内部依赖关系,探求观测数据中 的基本结构,并用少数几个假想变量来表示其基本的数据结 构。这几个假想变量能够反映原来众多变量的主要信息。原 始的变量是可观测的显在变量,而假想变量是不可观测的潜 在变量,称为因子。
我们将每个方面称为一个公共因子,每个学生的成绩 均由这六个因子确定,即第i个学生的考试分数Xi能用这
六个公共因子Y1、Y2、Y3、Y4、Y5、Y6的线性组合表示出
来,即可以表示为:
上页 下页
xi i i1F1 i2F2 i6F6 i i 1,, n
称 F1,F2,,F6 是不可观测的潜在因子。n个变量Xi共