数据挖掘——第八章因子分析
因子分析方法ppt课件

10
因子分析数学模型中几个相关概念
举例说明:
11
12
因子分析的五大基本步骤
第一步:因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩,即将 原有变量中的信息重叠部分提取和综合成因子,进而最终实 现减少变量个数的目的。因此它要求原有变量之间应存在较 强的相关关系。否则,如果原有变量相互独立,相关程度很 低,不存在信息重叠,它们不可能有共同因子,那么也就无 法将其综合和浓缩,也就无需进行因子分析。本步骤正是希 望通过各种方法分析原有变量是否存在相关关系,是否适合 进行因子分析。
2
因子分析的基本模型
因子分析模型中,假定每个原始变量由两部分组成: 共同因子和唯一因子。 共同因子是各个原始变量所共有的因子,解释变 量之间的相关关系。
唯一因子顾名思义是每个原始变量所特有的因子, 表示该变量不能被共同因子解释的部分。原始变量 与因子分析时抽出的共同因子的相关关系用因子负 荷表示。
18
第四步:决定因素与命名
• 转轴后,要决定因素数目,选取较少因素 层面,获得较大的解释量。在因素命名与 结果解释上,必要时可将因素计算后之分 数存储,作为其它程序分析之输入变量。
19
第五步:计算各样本的因子得分
• 因子分析的最终目标是减少变量个数,以 便在进一步的分析中用较少的因子代替原 有变量参与数据建模。本步骤正是通过各 种方法计算各样本在各因子上的得分,为 进一步的分析奠定基础。
因子分析方法
1
因子分析的基本概念
因子分析的概念 就是在尽可能不损失信息或少损失信息的情况下,将多个变量减少为 少数几个潜在的因子。也就是用少数几个因子来描述许多指标或因素之 间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方 法 主成分分析(Principal component analysis): 是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标 变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相 关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少 变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信 息。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降 低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子 分析的一个特例
8因子分析

因子分析,相较于主成分分析而言,通过对因子的旋转处理,使得我们可以更直观的认识到数据内部之间的关系,其目的即用有限个不可观测的因变量来解释原始变量间的相关关系。
即用几个少数的综合因子来取代错综复杂关系的变量。
因子分析函数:factanal(X,factors,scores=”none”,rotation=”varimax”)这个函数是基于极大似然方法求解X为数据,矩阵或者数据框factors为因子个数scores为因子得分的计算方法,”regression”,”Bartlett”rotation为因子旋转方法自编因子分析函数:factpc(X,m,scores=”none”,rotation=”varimax”)这个函数是基于主成分方法来求解的。
极大似然法要求数据来自多元正态分布,这一点一般是很难满足的。
而主成分法没有正态总体的要求。
对于数据d9.1 水泥行业运营因素做因子分析。
输入:> X=read.table("clipboard",header=T)> cor(X) #计算相关系数矩阵#极大似然法进行因子分析> FA0=factanal(X,3,rotation="none")> FA0Call:factanal(x = X, factors = 3, rotation = "none") Uniquenesses:x1 x2 x3 x4 x5 x60.005 0.005 0.005 0.271 0.005 0.548Loadings: #因子载荷矩阵Factor1 Factor2 Factor3x1 0.950 -0.307x2 0.948 -0.310x3 -0.340 -0.782 0.517x4 0.363 0.561 -0.531x5 0.454 0.693 0.556x6 0.383 0.163 0.527Factor1 Factor2 Factor3SS loadings 2.402 1.623 1.140Proportion Var 0.400 0.271 0.190 #方差贡献率Cumulative Var 0.400 0.671 0.861 #累计方差贡献率The degrees of freedom for the model is 0 and the fit was 1. 1422#主成分法进行因子分析> library(mvstats)> FA1=factpc(X,3)$Vars#方差方差贡献率累计方差贡献率Vars Vars.Prop Vars.CumFactor1 2.570 0.4283 42.83Factor2 1.713 0.2855 71.38Factor3 1.249 0.2082 92.19$loadings #载荷矩阵Factor1 Factor2 Factor3x1 0.7829 0.5029 -0.3624x2 0.7811 0.4964 -0.3756x3 -0.5786 0.7685 0.0802x4 0.5951 -0.6990 -0.2415x5 0.6317 -0.1457 0.6557x6 0.5084 0.3367 0.6943$scores #因子得分Factor1 Factor2 Factor3冀东水泥 1.10805 0.19287 -0.40233大同水泥 -1.07195 1.46385 -0.37413四川双马 -0.58577 -0.49848 0.24193牡丹江 -1.17442 -0.77791 0.08986西水股份 -0.05264 -0.46073 2.31615狮头股份 -1.05007 2.04151 0.25174太行股份 0.20807 0.48809 -0.23430海螺水泥 2.20745 0.32524 1.16336尖峰集团 -1.11541 -1.53235 0.39013四川金顶 0.09714 -0.60602 -1.45691祁连山 0.66096 1.03293 0.04173华新水泥 0.41359 -1.08331 0.19805福建水泥 0.86840 -0.53255 -1.82104天鹅股份 -0.51340 -0.05315 -0.40422$Rank #得分排名F Ri冀东水泥 0.48359 3大同水泥 -0.12910 8四川双马 -0.37184 11牡丹江 -0.76615 13西水股份 0.35587 4狮头股份 0.20127 5太行股份 0.19490 6海螺水泥 1.38882 1尖峰集团 -0.90457 14四川金顶 -0.47152 12祁连山 0.63632 2华新水泥 -0.09863 7福建水泥 -0.17273 9天鹅股份 -0.34622 10$commonx1 x2 x3 x4 x5 x60.9971 0.9976 0.9318 0.9011 0.8502 0.8539从上面结果来看,用极大似然法解释的方差为86%,基本可以全面反映六项财务指标的信息。
因子分析ppt课件

(3)因子旋转
通过正交旋转或斜交旋转使提取出的因子具有可解 释性。
(4)计算因子得分
通过各种方法求解各样本在各因子上的得分,为进 一步分析奠定基础。
❖ 2、因子分析前提条件——相关性分析:
分析方法主要有:
(1)计算相关系数矩阵(correlation coefficients matrix)
1 2 为p的特0 征根,
标准化特征向量,则
为u对1 , 应u2 的,, up
1
Σ = U
2
U AA + D
p
u1 u2
up
1
0
1u1u1 2u2u2
0
u1 u2
p
up
mumum m1um1um1
1u1
2u2
pu p
1u1
2
u2
p
因子分析的基本理论 ❖ 3、因子分析的目的:
因子分析的目的之一,简化变量维数。即要使因素结 构简单化,希望以最少的共同因素(公共因子),能 对总变异量作最大的解释,因而抽取得因子愈少愈好, 但抽取因子的累积解释的变异量愈大愈好。
在因子分析的公共因子抽取中,应最先抽取特征值最 大的公共因子,其次是次大者,最后抽取公共因子的 特征值最小,通常会接近0。
(3)因子分析中因子载荷的不唯一性有利于对公因子进行有效解释; 而主成分分析对提取的主成分的解释能力有限。
因子分析的基本理论
❖ 5、因子分析模型: 设 Xi (i 1,2,个,变p)量p,如果表示为
X i i ai1F1 aimFm i (m p)
X1 1 11 12
或
X
2
《因子分析》PPT课件 (2)

24.12.2020
精选PPT
8
输出结果及其解释
这是用主成分分析法提取初始公因子的第1部分
结果,相关矩阵的特征值总和为4(指标数),前
2个特征值1.718252和1.093536都大于1,下面将
根据这2个较大的特征值提取2个相应的初始
公因子。
24.12.2020
精选PPT
9
含有2个公因子的初始公因子模型为:
24.12.2020
精选PPT
11
24.12.2020
精选PPT
12
经最大方差旋转法旋转后的因子模型为:
x1= 0.87226G1+0.30149G2
x2= 0.94758G1-0.08748G2 x3=-0.09851G1+0.94739G2
x4= 0.13687G1+0.35848G2 旋转后的第1和第2公因子能解释的方差 分别为1.687177和1.124611;4个标准化指标共 性之和以及它们各自的共性估计值与旋转前相 同。
精选PPT
28
(3)转轴法:正交转轴法(最大变异法,VARIMAX
ROTATION) Rotation Method:Varimax
转换矩阵
1 2
Orthogonal Transformation Matrix
1
2
0.74346
0.66878
-0.66878
0.74346
24.12.2020
精选PPT
置置所h有2i为的在h20i =与11;之间服
⑤SMC[S] 相关系数的平均。
置h2i为xi与其他指标之间全
24.12.2020
精选PPT
5
第八章因子分析-新

In conjunction with his famous two-factor theory of intelligence
因子分析的目的:用少数几个不可观测的隐变 量来解释原始变量间的协方差关系
Origins of Factor Analysis
Wanted to estimate intelligence of 24 children in a village school.
短跑速度
因子得分计算公式
11x1s 12 x2 s 1, x10s 10
爆发性臂力 21x1s 22 x2 s 2, x10s 10 爆发性腿力 31x1s 32 x2 s 3, x10s 10 耐力 41x1s 42 x2 s 4, x10s 10
对10个变量标准化后的因子分析表明,十项得 分基本上可归结于他们的短跑速度、爆发性臂 力、爆发性腿力和耐力这四个方面,每一方面 都称为一个公共因子。
因子分析的类型
探索性因子分析exploratory Factor Analysis
根据变量间相关关系探索因子结构 实例2
确认性因子分析Confirmatory Factor Analysis
注意:因子分析是一种用来分析隐藏在表象背后的潜在因 子作用的统计模型,这些共同因素通常是不可直接观测的
收缩压
舒张压
心跳间隔
呼吸间隔
舌下温度
实例1
交感神经
负交感神经
考查人体的五项生理指标:收缩压、舒张压、 心跳间隔、呼吸间隔和舌下温度。
从生理学知识可知,这五项指标是受植物神经 支配的,植物神经又分为交感神经和负交感神 经,因此这五项指标至少受到两个公共因子的 影响,也可用因子模型去处理。
因子分析ppt课件

(1)计算相关系数矩阵
计算原有变量的简单相关系数矩阵。观察相关系数矩阵,如果相关系数 矩阵中的大部分相关系数值小于 0.3,则各个变量之间大多为弱相关,这就不 适合做因子分析。如果一个变量与其他变量间相关度很低,则在下一分析步骤 中可考虑剔除此变量。
因子分析
(2)进行统计检验
在因子分析过程中提供了几种检验方法来判断变量是否适合做因子分析。主要统 计方法有如下两种:
因子分析
—SPSS操作及其原理
因子分析
2008-4-23
在科学研究中,往往希望尽可能多地收集反映研究对象 的多个变量,以期能对问题有比较全面、完整的把握与认识。 多变量的大样本虽然能为科学研究提供大量的信息,但是在一 定程度上增加了数据采集的工作量,更重要的是在大多数情况 下,许多变量之间可能存在相关性,这意味着表面上看来彼此 不同的变量并不能从各个侧面反映事物的不同属性,而恰恰是 事物同一种属性的不同表现。
因子分析
统计学原理 因子分析的含义
因子分析,又叫因素分析,就是通过寻找众多变量的公共因 素来简化变量中存在复杂关系的一种统计方法,它将多个变量综合 为少数几个“因子”以再现原始变量与“因子”之间的相关关系。
因子分析
因子分析
寻找基本结构
在多元统计中,经常遇到诸多变量之间存在强相关的问题,它会 对分析带来许多困难。通过因子分析,可以找出几个较少的有实际意 义的因子,反映出原来数据的基本结构。例如:调查汽车配件的价格 中,通过因子分析从20个指标中概括出原材料供应商、配件厂商、新 进入者、后市场零部件厂商、整车厂和消费者6个基本指标。从而找 出对企业配件价格起决定性作用的几个指标。
因子分析
主成分分析的数学模型
因子分析
第八章因子分析PPT课件

11 27 17 42
Σ
5 17 52 5
20
42
5
86
则Σ可分解为
Σ=AA′+D
其中
2 1
4 0 0 0
4 3
0 2 0 0
, B
A
1 7
0 0 2 0
9 2
都称为一个因子。十项得分与这四个因子之间的关系可以描
述为如下的因子模型:
xi=μi+fi1+fi2+fi3+fi4+εi, i=1,2,⋯,10
其中f1, f2, f3, f4表示四个因子,称为公共因子(common factor)
,aij称为xi在因子fj上的载荷(loading),μi是xi的均值,εi是xi不
x*=μ*+A*f+ε*
这个模型能满足类似于前述因子模型的假定,即
第12页/共48页
E f 0
*
E
ε
0
V f I
V ε * D*
Cov f , ε * Cov f , ε C 0
D* diag( 1*2 , 2*2 ,
1.A的元素a ij
•
x i =μ i +a i1 f 1 +a i2 f 2 +⋯+a im f m +ε i
Cov xi , f j ai Cov f , f j Cov i , f j aij
m
《因子分析法预测》课件

因子提取
因子提取是因子分析的关键步骤,通过数学方法将多个变量提取成少数几个因子,这些因子能够反映 原始变量的主要信息。
常用的因子提取方法有主成分分析、最大似然法等。
因子解释
因子解释是对提取出的因子进行解释 ,通过旋转矩阵等方法将因子与原始 变量建立联系,明确因子的含义。
解释时需要结合专业知识,对因子的 含义进行合理的解释和命名。
感谢您的观看
THANKS
信息浓缩
通过提取公因子,可以浓缩信息,反映原始 变量之间的相关关系。
稳健性高
在处理异常值或缺失值时,因子分析法的稳 健性较高。
缺点
依赖原始变量
因子分析法的结果很大程度上依赖于原始变 量的选择和数量。
因子解释的主观性
对因子的解释可能存在主观性,不同的人可 能对同一组数据得出不同的解释。
无法处理高度相关变量
因子得分计算
因子得分计算是根据因子的权重和原始变量的值计算出每个样本的因子得分,为后续的分析和预测提供依据。
可以通过回归分析、加权平均等方法计算因子得分。
04 因子分析法的优缺点
优点
降维性
因子分析法可以将多个变量通过少数几个因 子表示,简化数据结构。
解释性强
因子分析法能够提供清晰的因子结构,有助 于理解数据背后的驱动因素。
高消费者的满意度和忠诚度。
案例四:产品组合优化
总结词
因子分析法可以帮助企业优化产品组合,提 高产品线的协同效应和市场竞争力。
详细描述
产品组合优化是企业提高市场竞争力的重要 手段。通过因子分析法,企业可以对现有产 品线进行全面分析,了解各产品之间的关联 度和差异性。在此基础上,企业可以优化产 品组合,提高产品线的协同效应和市场竞争 力。同时,企业还可以发现新的产品机会,
因子分析与聚类分析ppt课件

图8-6 Fac精to选rPPST课c件ores 对话框
23
(1)Save as variables 复选项,将因子得分作为 新变量保存在数据文件中。
(2) Method 栏,指定计算因子得分的方法。其中, Regression 选项为回归法,Bartlett 选项为巴特利 特法,Anderson-Rubin 选项是为了保证因子的正 交性而对Bartlett 因子得分的调整。
(3)Display factor score coefficient matrix 复
选项,选择此项将在输出窗中显示因子得分系数矩
阵,是标准化的得分系数。原始变量值进行标准化
后,可以根据该矩阵给出的系数计算各观测量的因
子得分,还显示协方差精选矩PP阵T课件。
24
8、单击“Options”按钮,进入Options对话框,可以进一 步选择各种输出项。如图8-7 所示。
数目。 (5)Maximum iterations for Convergence 参数框,
指定因子分析收敛的最大迭代次数。
精选PPT课件
20
6、单击“Rotation”按钮,展开Rotation对话框,如图8-5 所示,可以选择因子旋转方法。
精选PPT课件
21
图8-5 Rotation 对话框
(1)Method 框,选择旋转方法。其中,None 表示 不进行旋转,Varimax为方差最大旋转法,Direct Oblilmin为直接斜交旋转法,Quartmax为四次最大 正交旋转法,Equamax为平均正交旋转法,Promax 为斜交旋转法。
2、 KMO 检验
KMO检验统计量是用于比较变量间简单相关系数和偏相
关系数的指标,取值在0和1之间。值越接近于1,意味着变
第八章因子分析(2009.11)

0.60 ≤ KMO﹤0.70:不太适合
KMO﹤0.60:不适合
2014/5/19 14-36
第四步:单击Extraction按纽,弹出对话框,选择 未经旋转的因子 因子提取方法
载荷矩阵
主成分分析法
相关系数矩阵
提取特征值 大于1的因子
2014/5/19
因子与其特征 15-36 值的碎石图
★ 几个重要的概念
Sig. (1-tailed)
a. Determinant = 9.356E-03
2014/5/19
25-36
3.相关系数矩阵的逆矩阵
Inverse of Correlation Matrix 合 作性 分配 出 发点 工 作投 入 发 展机 会 社 会地 位 权 力距 离 职 位升 迁 领 导风 格 合 作性 3.215 -2.417 -1.112 -.399 1.945 -1.249 .612 -1.286 .152 分配 -2.417 3.704 -.053 .681 -.826 1.392 -.563 .152 .008 出 发点 -1.112 -.053 3.281 .674 -2.230 .609 -1.292 1.343 -.441 工 作投 入 -.399 .681 .674 1.412 -.752 .335 -.585 .425 .114 发 展机 会 1.945 -.826 -2.230 -.752 6.499 -1.874 .101 -4.326 -.151 社 会地 位 -1.249 1.392 .609 .335 -1.874 1.951 -.225 .938 -.019 权 力距 离 .612 -.563 -1.292 -.585 .101 -.225 2.018 -.224 -.033 职 位升 迁 -1.286 .152 1.343 .425 -4.326 .938 -.224 4.341 -.309 领 导风 格 .152 .008 -.441 .114 -.151 -.019 -.033 -.309 1.409
因子分析与主成分分析

因子分析与主成分分析因子分析和主成分分析是统计学中常用的降维技术,它们在数据分析和模式识别等领域中广泛应用。
本文将介绍因子分析和主成分分析的基本概念与原理,并对它们的应用进行探讨。
一、因子分析的概念与原理因子分析是一种用于发掘多个变量之间潜在关联性的方法。
当我们面对大量变量时,往往希望找到其中的共性因素来解释观测数据。
因子分析通过将变量进行降维,将原始变量解释为共同的因子或构念,从而减少信息冗余,提取数据的主要特征。
因子分析的核心思想是假设多个观测变量是由少数几个潜在因子所共同决定的。
这些潜在因子无法直接观测,但可以通过观测变量的线性组合进行间接估计。
通过因子分析,我们可以得到因子载荷矩阵,它描述了每个观测变量与潜在因子之间的关系强度。
二、主成分分析的概念与原理主成分分析是一种常用的无监督学习方法,用于降维和数据压缩。
与因子分析类似,主成分分析也采用线性组合的方式将原始变量映射到一个低维的特征空间。
主成分分析的目标是找到一组新的变量,称为主成分,它们能够最大程度地保留原始数据中的信息。
主成分分析的步骤如下:1. 标准化数据:将原始数据标准化,使得变量的均值为0,方差为1,以消除变量尺度差异的影响。
2. 计算协方差矩阵:计算标准化后的数据的协方差矩阵,用于评估各个变量之间的相关性。
3. 特征值分解:对协方差矩阵进行特征值分解,得到特征值和特征向量。
4. 选择主成分:根据特征值大小,选择要保留的主成分数量。
5. 计算主成分:将原始数据投影到所选择的主成分上,得到降维后的数据。
三、因子分析与主成分分析的应用1. 数据降维:因子分析和主成分分析可以用于降低数据集的维度,减少冗余信息。
在机器学习和数据挖掘中,高维数据集的处理往往会面临计算复杂度和过拟合等问题,降维技术可以有效解决这些问题。
2. 变量选择:通过因子分析和主成分分析,可以识别出对观测数据具有重要影响的变量。
这对于特征选择和模型建立有重要意义,可以提高模型的解释性和泛化能力。
08 第八章 因子分析

本章内容讲授结束
因子载荷矩阵的统计意义
假定因子模型中,各个变量、公共因子、特 殊因子都已经进行了标准化处理。为进一步理解 因子分析,下面给出因子载荷矩阵中有关因子载 荷、变量共同度、公共因子方差贡献的统计意义。
①因子载荷的统计意义
②变量共同度的统计意义 所谓变量共同度是指因子载荷矩阵中第i 所谓变量共同度是指因子载荷矩阵中第i 行元 素的平方和。即 为了说明变量共同度的统计意义,对下式两边 求方差,有
(一)协交因子模型与协交因子解
在协交因子轴情况下,坐标和投影,即模型和 结构之间是有差别的。而在正交因子空间中,坐标 值和投影值一致,基因子模型和因子结构是一回事, 无需区分这两者。一个完全协交因子解必须包括因 子模型和因子结构两大部分。
1.因子变换矩阵. 因子变换矩阵.
2.协因子相关矩阵
3.因子结构矩阵
③公因子方差贡献的统计意义 所谓公共因子方差贡献是指因子载荷矩阵中第 j 列元素的平方和。即
表示同一公共因子 对各个变量 所 提供的方差贡献的总和。它是衡量公共因子相对重 要性的指标。
第二节 因子载荷矩阵的估计方法
一、因子载荷矩阵的估计 二、因子载荷矩阵的方差最大正பைடு நூலகம்旋转 三、因子载荷矩阵的Promax协旋转 因子载荷矩阵的Promax Promax协旋转
多元统计分析方法及其应用
统计学院
第八章 因子分析
第一节 因子分析的原理与模型 第二节 因子载荷矩阵的估计方法 第三节 因子得分及因子分析步骤 第四节 因子分析在Excel中的实现 因子分析在Excel Excel中的实现
因子分析是主成分分析的推广和发展,它是 由研究原始数据相关矩阵的内部依赖关系出发, 把一些具有错综复杂关系多个变量(或样品)综 合为少数几个因子,并给出原始变量与综合因子 之间的相关关系的一种多元统计分析方法。它也 属于多元分析中数据降维的一种统计方法。
多元统计分析 喀什师范学院笔记 第八章 因子分析ppt课件

最新版整理ppt
32
最新版整理ppt
22
联系:因子分析数学模型的特殊因子方 差为0的时候,就形成特殊形式的因子分 析,即主成分分析。两种方法均可在 SPSS FOR WINDOWS的因子分析过程 FACTOR中实现,但用FACTOR过程实现 主成分分析时,产生的因子载荷矩阵表,
不能直接依据表的数据,写出各主成分
与原变量的线性组合,需对各主成分上
特殊因子ε,则指一个假设的抽象的变量, 它只能用来解释一个原始的变量,与其 它变量完全无关,各特殊因子之间以及特 殊因子与所有公共因子之间都是互相独 立的。它表示变量X不能被公共因子解释 的部分。
最新版整理ppt
9
因子载荷
模型中各公共因子的系数aij称为因子载 荷,是连接观测变量和公共因子之间的 纽带,其统计意义就是第i个变量与第j个 公共因子的相关系数,即表示变量xi依赖 公共因子Fj的分量,反映了第i个变量在 第j个公共因子上的相对重要性。|aij|≤1, aij的绝对值越大,表明xi与Fj的相依程度 越大。
最新版整理ppt
11
公共因子对原变量的贡献
因子载荷矩阵中各列元素的平方和,叫 做公共因子Fj对x的贡献,它反映每个公 共因子对数据的解释能力,是衡量公共 因子相对重要性的指标。此值越大,表 明公共因子Fj对x的影响和作用越大,计 算出所有的指标,按其大小排序,就可 以提炼出最有影响的公共因子。
最新版整理ppt
计算因子载荷阵可以从样本的协方差阵出发, 也可以从样本相关阵出发。
公共因子与变量个数一样多,且特殊因子方差 为0时,因子载荷阵的第j列应该是ej与相应特 征值平方根的乘积,而ej恰是第j个主成分的系 数,故而得名主成分法。
最新版整理ppt
因子分析法(自己整理)

因子分析法1.因子分析法简介:1)因子分析法的提出“因子分析”的名称于1931年由Thurstone 首次提出,但它的概念起源于二十世纪初Karl Pearson 和Charles Spearmen 等人关于智力测验的统计分析。
近年来,随着电子计算机的高速发展,人们将因子分析方法成功地应用于各个领域,使得因子分析的理论和方法更加丰富。
2)因子分析的定义因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。
因子分析法(Factor Analysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。
运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。
3)与主成分分析的联系主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。
主成分分析一般很少单独使用:a,了解数据。
(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。
(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。
2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
量表的因子分析-8-3讲解

探索性因子分析步骤
第一步:通过共变关系的分解,找出最低限度的主要成分 (principal component)或共同因子(common factor)。
顺序与类别变量不得使用因子分析简化结构。
抽样的过程必须具有随机性,并具有一定的规模。
如果研究的总体具有较高的同质性(如学生样本),变量数目不多,样本数
可以介于100~200之间;Gorsuch(1983)建议样本数最少为变量数的5倍, 且大于100。
因子分析的原理
1.因子分析模型
因子分析模型在形式上和多元回归模型相似,每个观测 变量由一组因子的线性组合来表示。
X i ai1F1 ai2 F2 ai3 F3 aim F mU i
上式中,F1,F2,……Fm叫公共因子(Common factors),它们是 各个观测变量所共有的因子,解释了变量之间的相关。 Ui称为特殊因子(Unique factor),它是每个观测变量所特有的因子,相 当于多元回归中的残差项,表示该变量不能被公共因子所解释的部分。 aim称为因子负载(Factor loading),它是第i个变量在m个公共因子上 的负载,相当于多元回归分析中的标准回归系数。
该测度从比较观测变量之间的简单相关系数和偏相关系数的相对大小出发, 其值的变化范围从0~1。当所有变量之间的偏相关系数的平方和,远远小于简
单相关系数的平方和时,KMO值接近1。KMO值较小时,表明 观测变量不适合做因子分析。
通常按以下标准解释该指标的大小:
KMO统计量 0.90以上 0.80以上 0.70以上
多元统计分析课件 第八章 因子分析

9
因子分析与主成分分析是多元分析中两种 重要的降维方法,但两者有很大的不同
主成分分析不能作为一个模型来描述,它只 能作为一般的变量变换,主成分可表示为 可观测的原始变量的线性组合。
1.因子分析FA:是研究众多原始变量间相关系数矩 阵或协方差矩阵的内部依赖关系,它是将众多个具有 错综复杂关系的变量归结为少数几个综合因子,以此 再现原始变量与综合(公共)因子之间的相关关系.
所以,因子分析侧重于探究多变量之间的相关性 的简化数据结构的方法。
4
例1. 为了了解学生的学习能力,观测了n个学生的p个 科目的成绩(分数),用X1,…,Xp表示p个科目(例如 代数、几何、语文、英语、政治,…),
定的。
这就是一个最简单的因子模型.
5
进一步地,可把这个简单因子模型推广到多个
因子的情况,即全体科目X所共有的因子有m
个,如数学推导因子、记忆因子、计算因子…
等.分别记为F1,…,Fm,即
Xi=ai1F1十ai2F2十…十aimFm十εi
(i=l,…,p)
用这m个不可观测的、相互独立的、公共因子 F1,…,Fm(也称为潜因子)和一个特殊因子εi 来描述原始可测变量(科目) X1,…,Xp,并 以此来解释分析学生的学习能力。
而因子分析需要构造一个因子模型,公因子 一般不能表示为原始变量的线性组合。
此外,在研究的侧重点上二者也有所差异, 在此不再赘述。
10
例5. 某公司对100名招聘人员的知识和能力进行测
试,出了50道题的试卷。其内容包括的面较广,但总 的来讲可归纳为如下六个方面:
多元统计分析之因子分析(课堂PPT)

2020/4/24
13
对求得的公因子,需要观察它们在哪些变量上 有较大的载荷,再据此说明该公因子的实际含义。 但对于分析得到的初始因子模型,其因子载荷矩阵 往往比较复杂,难以对公因子F 给出一个合理的解
i
释,此时可以考虑进一步做因子旋转,以求旋转后 能得到更加合理的解释。
2020/4/24
14
因子分析得到的模型有两个特点:其一,模型不 受量纲的影响;其 二,因子载荷不是唯一的,通过 因子轴的旋转,可以得到新的因子载荷阵,使意义 更加明显。
2020/4/24
37
(6)α因子分解法:此法将变量看成是从潜在变量 空间中抽取出的样本,在计算中尽量使得变量的 α 信度达到最大。
2020/4/24
38
(7)映像因子分解:该方法把一个变量看作是其他 变量的多元回归,据此概念提取公因子。
2020/4/24
39
事实上,如果变量数和样本量都大,而且相关性 也高,则各种因子提取法的结果基本相同,区别仅 仅在于其分析思想不同。 主成分法是最常用的方法, 在多数情况下也是最佳的选择;如果样本量极大 (1500以上),则极大似然法的结果稍为更精确些; 如果数据不好(样本小,或变量少),α 因子法或映像 因子法可能更好;当对各种方法的原理不太清楚或 者适用条件不明的情况下,主成分法仍然是最好的 选择。
(2)未加权的最小平方法:该方法使实际的相关阵 和再生的相关阵之差的平方和达到最小。
2020/4/24
34
(3)广义最小二乘法:该方法实际也是使实际的相 关阵和再生的相关阵之差的平方和达到最小。但是 对相关系数要进行加权,权重为其单值的倒数,这 样单值高的变量,其权重比单值低的变量的权重小。
2020/4/24
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、因子分析的基本理论
1、什么是因子分析
利用降维的思想,由研究原始变量相关矩阵或协 方差矩阵的内部依赖关系出发,把一些具有错综复杂 关系的多个变量归结为少数几个综合因子的一种多元 统计分析方法。
2、历史 由心理学家发展起来的,1904年,斯皮尔曼 在美国心理学杂志上发表了第一篇有关因子分析 的文章,来解释人类的行为和能力。50年代后, 在社会学、经济学、医学、地质学、气象学和市 场营销学中得到了广泛的应用。
3、应用方面
1、寻求基本结构summarization
2、数据简化 data reduction
应用多变量如果存在较强的相关 性。意味着他们所反映的信息高度重合, 通过因子分析可以找到较少的代表因子。 例如,某快餐店为了了解市场竞争力进行 消费者调查,通过定性研究设计了30个调 查项目,这30个项目可能反映了快餐的质 量、价格、就餐环境和服务四个基本方面 。通过因子分析我们能找到反映这四个 因 子和30个观测变量之间的关系。
或X μ AF
(m p)
a1m F1 1 a2 m F2 2 a pm Fm p
a12 a22 ap2
称为 F1 , F2 ,, Fm公共因子,是不可观测的变量, 他们的系数称为因子载荷。 i 是特殊因子,是不能被 前m个公共因子包含的部分。其中:
中原始变量与因子分析时抽取出的公共因子的相关程 度。 x* a F a F a F
i i1 1
* i
i2 2
im m
i
Cov(x ,Fj ) cov( aik Fk i ,Fj )
i 1 m
m
cov( aik Fk ,Fj ) cov( i ,Fj)
二、因子分析的基本内容
1、因子分析的基本步骤
(1)因子分析的前提条件鉴定 考察原始变量之间是否存在较强的相关关系,是否适 合进行因子分析。因为: 因子分析的主要任务之一就是对原有变量中信息重叠 的部分提取和综合成因子,最终实现减少变量个数的目的。 所以要求原有变量之间应存在较强的相关关系。否则,如 果原有变量相互独立,不存在信息重叠,也就无需进行综 合和因子分析。 (2)因子提取 研究如何在样本数据的基础上提取综合因子。
应用第二方面:数据简化
数据简化 通过因子分析把一组观测变量化为较少的几个 因子后,利用这些因子代替原来的观测变量进 行其他的统计分析,比如:回归分析、路径分 析、判别分析和聚类分析,利用因子值还可以 直接对样本进行分类和综合评价。
因子分析的基本思想
把每个研究变量分解为几个影响因素变量, 将每个原始变量分解成两部分因素,一部分 是由所有变量共同具有的少数几个公共因子 组成的,另一部分是每个变量独自具有的因 素,即特殊因子。
2 1 aij i2 hi2 i2 j 1
所有的公共因子和特殊因子对变量 X i* 的贡献为1。 hi2反映了全 部公共因子对变量Xi*的影响,是全部公共因子对变量方差所做出的 贡献,或者说Xi*对公共因子的共同依赖程度,称为公共因子对变量 Xi*的方差贡献。 hi2接近于1,表明该变量的原始信息几乎都被选取的公共因子 说明了。 i2 特殊因子的方差,反映了原有变量方差中无法被公共因子 描述的比例。
建模
因子分析
(Factor Analysis)
小组案例分析
第7组:因子分析 第9组:回归分析 第10组:聚类分析(与因子分析相关) 第13组:判别分析 第15组:k-中心点算法
演讲时间:第14周。
小组大作业
自主选题,利用之前所讲过的算法和模型 , 进行分析。 要求:上交分析报告。 模型流程图。 上交时间:期末考试前。
i 1
aij
r ij r
cov( xi *, F j ) var( xi *) var( F j )
注意: 在各公共因子不相关的前提下, ij(载荷矩阵中第i行, a 第j列的元素)是随机变量 xi*与公共因子Fj 的相关系数, 表示xi*依赖于Fj的程度。反映了第i个原始变量在第j 个公共因子上的相对重要性。因此 绝对值越大,则 aij 公共因子Fj与原有变量xi的关系越强。
重点
什么是因子分析? 理解因子分析的基本思想 因子分析的数学模型以及模型中公共因子、因 子载荷变量共同度的统计意义 因子分析的基本步骤 因子旋转的意义
引入
研究事物时候,需要影响该对象的各种变量的大量 数据。但是过多的变量会影响数据的采集和数据的 分析。 大多数情况下,多变量会出现相关,利用传统的多 元回归就出现了大问题。 如果删减指标,有时会损失很多有用的信息。 需要在减少指标的同时,尽量减少对于原指标所包 含信息的损失。 由于各变量之间相关,所以有可能用较少的综合指 标分别综合存在于各变量中的各类信息,从而达到 降维的目的。
(2)共同度----又称共性方差或公因子方差(community
或common variance)就是观测变量的方差中由公因子决 定的比例。当因子正交时,等于每个公共因子之负荷量的 平方总和(一行中所有因素负荷量的平方和)。变量 X i 的共同度是因子载荷矩阵的第i行的元素的平方和。记为
2 h aij。 2 i j 1 m
x1=代数1
x2=代数2 x3=几何 x4=三角 x5=解析几何
0.896
0.802 0.516 0.841 0.833
0.341
0.496 0.855 0.444 0.434
该案例是对数学专业的五门专业课进行相关性因子分析
6、因子分析模型中的几个重要统计量的意义 (1)因子负荷量(或称因子载荷)----是指因子结构
从共同性的大小可以判断这个原始实测 变量与公共因子间之关系程度。特殊因子方差 (剩余方差)----各变量的特殊因素影响大小就是1
减掉该变量共同度的值。
统计意义:
m
X i* ai1F1 aim Fm i
两边求方差
Var ( X i ) a 2 i1Var ( F1 ) a 2 imVar ( Fm ) Var ( i )
设 X i (i 1,2,, p ) p 个变量,如果表示为
X i i ai1F1 aim Fm i
X 1 1 a11 X a 2 2 21 或 X a p p p1
因子分析案例2
公因子F1 x1=代数1 x2=代数2 x3=几何 x4=三角 0.896 0.802 0.516 0.841 公因子 F2 0.341 0.496 0.855 0.444 共同度 hi 0.919 0.889 0.997 0.904 特殊因子
δi
0.081 0.111 0.003 0.096
在因子分析的公共因子抽取中,应最先抽取特征值最大 的公共因子,其次是次大者,最后抽取公共因子的特征 值最小的,通常会接近0。
案例1:在企业形象或品牌形象的研究中,消费者可以通 过一个有24个指标构成的评价体系,评价百货商场的24个 方面的优劣。 但消费者主要关心的是三个方面,即商店的环境、商店的 服务和商品的价格。因子分析方法可以通过24个变量,找 出反映商店环境、商店服务水平和商品价格的三个潜在的 因子,对商店进行综合评价。而这三个公共因子可以表示 为:
7、主成分分析分析principal components与因子分析的联系和差异 联系:(1)因子分析是主成分分析的推广,是主成分分析的逆问 题。(2)二者都是以‘降维’为目的,都是从协方差矩阵或相关系数 矩阵出发。 区别:(1)主成分分析模型是原始变量的线性组合,是将原始变 量加以综合、归纳,仅仅是变量变换;而因子分析是将原始变量加以分 解,描述原始变量协方差矩阵结构的模型;只有当提取的公因子个数等 于原始变量个数时,因子分析才对应变量变换。(2)主成分分析,中 每个主成分对应的系数是唯一确定的;因子分析中每个因子的相应系数 即因子载荷不是唯一的。(3)因子分析中因子载荷的不唯一性有利于 对公共因子进行有效解释;而主成分分析对提取的主成分的解释能力有 限。 目的不同!一个侧重降维,一个侧重解释!
xi i i1F1 i 2 F2 i 3 F3 i
F1、F2、F3
是不可观测的潜在因子,称为公共因子。24个变量共享这三个因 子. 但是每个变量又有自己的个性,不被包含的部分,称为特殊因 子。
i
因子分析案例2
公因子F1 x1=代数1 x2=代数2 x3=几何 x4=三角 0.896 0.802 0.516 0.841 公因子 F2 0.341 0.496 0.855 0.444 共同度 hi 0.919 0.889 0.997 0.904 特殊因子
。
如果(2)不成立,即 D( F ) 各公共因子之间不独立, I 则因子分析模型为斜交因子模型.
5、因子分析的目的
因子分析的目的之一,简化变量维数。即要使因素结构 简单化,希望以最少的共同因素(公共因子),能对总 变异量作最大的解释,因而抽取得因子愈少愈好,但抽 取因子的累积解释的变异量愈大愈好。
x5=解析几何
0.833
0.434
0.882
0.118
第一个观测变量共同度h12=(0.896)平方+(0.341)平方=0.919 同时,它的剩余方差是:
(3)特征值----是第j个公共因子Fj对于X*的每一分量Xi* 所提供的方差的总和。又称第j个公共因子的方差贡献。 即每个变量与某一共同因子之因子负荷量的平方总和 (因子载荷矩阵中某一公共因子列所有因子负荷量的平 方和)。 如因子分析案例中 F1的特征值 G=(0.896)平方 +(0.802)平方 +(0.516)平方 +(0.841)平方 +(0.833)平方 =3.113 表示了每个公因子 对数据的届时能力