第十一讲 因子分析
因子分析ppt课件剖析
样本总方差
归因于第 个j =
因子的比例
lˆ12j lˆ22j s11 s22
lˆp2j s pp
*因子旋转
为什么要旋转因子? 建立因子分析模型的目的不仅是找出公共因子,
更重要的是知道每个公共因子的意义,以便对实际问 题进行分析。如果求出因子解后,各个因子的典型代 表变量不很突出,还需要进行因子旋转,通过适当的 旋转得到比较满意的公共因子。
假设公共因子F和特殊因子 是正态分布的,则可以根
据极大似然的思想得到因子载荷和特殊方差的极大似然 估计。
当 Fj 和 j 是联合正态时,观测值 X j LFj j
就是正态的。它通过 LL 依赖于 L 和 。
**正因为正交变化而使 Lˆ 的多重选择成为可能,仍然不
能很好的确定这个模型。施加可方便计算的唯一性条件
因子分析的思想和目的:
把每个研究变量分解为几个影响因素变量,将每个 原始变量分解成两部分因素,一部分是由所有变量 共同具有的少数几个公共因子组成的,另一部分是 每个变量独自具有的因素,即特殊因子。
因子分析的目的之一,简化变量维数。即要使因素 结构简单化,希望以公共因子,能对总信息量作最 大的解释,因而抽取得因子愈少愈好,但抽取因子 的累积解释的信息量愈大愈好。
利用谱分解,令 有特征值-特征向量 i,ei ,且
1 2 p 0 则
1e1e1 2e2e2
p
ep
e
p
=
1 e1 2 e2
p
ep
1 e1
2 e2
p ep
令 m p是公共因子的个数,则所估计的因子载荷矩
阵 l为ij
L [ ˆ1eˆ1 ˆ2 eˆ2
因子分析法(自己整理)
因子分析法1.因子分析法简介:1)因子分析法的提出“因子分析”的名称于1931年由Thurstone 首次提出,但它的概念起源于二十世纪初Karl Pearson 和Charles Spearmen 等人关于智力测验的统计分析。
近年来,随着电子计算机的高速发展,人们将因子分析方法成功地应用于各个领域,使得因子分析的理论和方法更加丰富。
2)因子分析的定义因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。
因子分析法(Factor Analysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。
运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。
3)与主成分分析的联系主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。
主成分分析一般很少单独使用:a,了解数据。
(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。
(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。
2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
因子分析(研究生课程)
⑤ Reproduced 再生相关阵,选择此项给出因子分析后的相关阵,还 给出残差,即原软关与再生相关之间的差值。 ⑥ Anti-image 反映像相关阵。包括偏相关系数的负数;反映像协方差 阵,包括偏协方差的负数;在一个好的因子模型中除对角线上的系 数较大外,远离对角线的元素应该比较小。 ⑦ KMO and Bartlett's test of sphericity KMO和球形 Bartlett检验。选 择此项给出对采样充足度的Kaisex-Meyer-Olkin测度。检验变量间 的偏相关是否很小。Bartlett球形检验,检验的书相关阵是否是单 位阵。它表明因子模型是否是不合适宜的。
因子分析
暨南大学管理学院企业管理系
陈晓曦
历史
1947年,美国统计学家Stone关于国民经济的 研究。
1927-1938年的数据,得到了17个反映国民收入与 支出的变量, 后来通过因子分析发现,只需要用3个新的综合变 量,就可以解释95%的原始信息。
总收入 总收入率 积极发展或衰退趋势
案例
在企业形象或品牌形象的研究中,消费者可以 通过一个有24个指标构成的评价体系,评价百 货商场的24个方面的优劣。
但消费者主要关心的是三个方面,即商店的 环境、商店的服务和商品的价格。因子分析方法可 以通过24个变量,找出反映商店环境、商店服务水 平和商品价格的三个潜在的因子,对商店进行综合 评价。而这三个公共因子可以表示为:
F3
-0.58 -0.193 0.047 0.139 -0.084 -0.161 0.109 0.411 0.372 0.658
F4
-0.206 0.092 -0.175 0.396 -0.419 0.345 -0.234 0.44 -0.235 -0.279
因子分析(因子评价)
因子分析一.因子分析原理因子分析是根据相关性大小把原始变量进行分组,使得同组内的变量之间相关性高,而不同组的变量之间的相关性低。
每组变量代表一个基本结构(即公共因子),并用一个不可观测的综合变量来表示。
对于所研究的某一具体问题,原始变量分解为两部分之和。
一部分是少数几个不可观测的公共因子的线性函数,另一部分是与公共因子无关的特殊因子。
从全部计算过程来看作R 型因子分析与作Q 型因子分析都是一样的,只不过出发点不同,R 型从相关系数矩阵出发,Q 型从相似系数阵出发都是对同一批观测数据,可以根据其所要求的目的决定用哪一类型的因子分析因子模型的性质:模型不受变量量纲的影响;因子载荷不是唯一的。
二.因子分析的数学模型设有p 个指标,则因子分析数学模型为:11111221221122221122p p p pp p p pp p X r Y r Y r Y X r Y r Y r Y X r Y r Y r Y=+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 其中,12,,,p X X X 是已标准化的可观测的评价指标。
12,,,k F F F 出现在每个指标i X 的表达式中,称为公共因子,公共因子是不可观测的,其含义要根据具体问题来解释。
i ε是各个对应指标i X 所特有的因子,故称为特殊因子,它与公共因子之间彼此独立。
ij r 是指标i X 在公共因子j F 上的系数,称为因子载荷,因子载荷ij r 的统计含义是指标i X 在公共因子j F 上的相关系数,表示i X 与j F 线性相关程度。
用矩阵形式表示为:X AF ε=+其中12(,,,)p X X X X '=,12(,,,)k F F F F '=,12(,,,)p εεεε'=,111212122212m m p p pm r r r r r r A rr r ⎛⎫⎪⎪= ⎪ ⎪ ⎪⎝⎭,A 称为因子载荷矩阵。
其统计含义是:A 中的第i 行元素12,,,i i im r r r 说明了指标i X 依赖于各个公共因子的程度。
因子分析ppt课件
xi ai1 f1 ai2 f2 ... ui
特殊因子(unique factor)观测变量所
特有的因子,表示
公因子(common因fa子ct负or载s)(是factor load该in变gs量):不表能示被i公个因 观测变量所共有的变因量子在,第解j个释公因子上子的所负解载释,的是部因分子。
因子抽取方法的选择一般考虑因子分 析的目的和对变量方差的了解程度:
如果因子分析的目的是用最少的因子 最大程度地解释原始数据中的方差,或特 殊因子、误差带来的方差很小,则用主 成分分析法。
如果目的是确定数据结构,但不了解 变量方差的情况,则用公因子分析法。
五、解释因子(rotation)
初始因子很难解释,大多数因子都和很多变 量有关,因子的实际意义难以理解和把握。 因子旋转使因子结构更简单、更易于理解。
当公因子间不相关时,某变量 xi 的公因子方差
h2i
a2i1
a2i2
...
a
பைடு நூலகம்
2 im
即等于与该变量有关的公因子负载的平方和。
因子贡献率(contributions) 表示每个公因子对数据的解释能力, 它等于和该因子有关的因子负载的平 方和,能衡量公因子的相对重要性。
公因子个数 ≤ 观测变量数
能代表观测变量较多信息的公因子是 研究感兴趣的;求因子解时,第一个因 子代表信息最多,随后的因子代表性逐 渐衰减。
0.6以上,差; 0.5,很差;0.5以下不能接受;
KMO 用于检测变量之间的简单相关系数和偏 相关系数的相对大小,取值在0--1间,一般认 为KMO在0.9以上很适合做因子分析,0.8以上 比较适合做因子分析;
Bartlett's 球形检验虚无假设“相关矩 阵是单位矩阵”,拒绝该假设(P<.001)表明 数据适合进行因子分析。
因子分析的原理与方法
因子分析的原理与方法因子分析是一种多变量分析方法,它用于揭示一组观测变量之间潜在的共同因素或维度。
在因子分析中,我们希望通过分析观测变量之间的相关性,找到更少的潜在因子来解释数据的结构。
本文将介绍因子分析的原理和方法。
一、因子分析的原理因子分析的核心原理是将一组观测变量解释为潜在因子的线性组合。
假设我们有n个观测变量和m个潜在因子,那么可以用下面的数学模型表示:X = AF + E其中,X是一个n×1的观测变量向量,A是n×m的因子载荷矩阵,F是一个m×1的因子向量,E是一个n×1的误差向量。
因子载荷矩阵A 表示了每个观测变量与每个因子之间的关系程度。
因子向量F表示每个样本在每个因子上的得分。
误差向量E表示了不能被因子解释的观测变量的部分。
基于以上数学模型,因子分析的目标是找到一个合适的因子载荷矩阵A和因子向量F,使得误差向量E最小。
换句话说,我们希望通过降低数据的维度,找到能够最大程度解释观测变量之间关系的因子。
这样一来,我们可以简化数据的分析和解释,并且更好地理解观测变量背后的潜在结构和因素。
二、因子分析的方法因子分析方法可以大致分为两种类型:探索性因子分析和确认性因子分析。
下面将分别介绍这两种方法。
1. 探索性因子分析(Exploratory Factor Analysis,EFA)探索性因子分析是一种无先验假设的因子分析方法,它旨在通过自动化算法发现数据中存在的潜在因子结构。
具体步骤如下:(1)选择合适的因子提取方法,常用的包括主成分分析法和最大似然法。
(2)确定因子数目,可以依据一些统计指标(如特征值大于1、解释方差比例)或人的经验判断。
(3)估计因子载荷矩阵,可以使用方法如最小二乘法、主成分法或最大似然法。
(4)旋转因子载荷矩阵,常用的旋转方法包括方差最大旋转法和斜交旋转法。
(5)解释因子载荷矩阵,通过解释载荷矩阵的模式和大小,识别出观测变量与潜在因子的关系。
(完整版)方法:因子分析法
因子分析基础理论知识1 概念因子分析(Factor analysis ):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。
从数学角度来看,主成分分析是一种化繁为简的降维处理技术。
主成分分析(Principal component analysis ):是因子分析的一个特例,是使用最多的因子提取方法。
它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。
选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。
两者关系:主成分分析(PCA )和因子分析(FA )是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。
2 特点(1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。
(2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。
(3)因子变量之间不存在显著的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显著的相关关系。
(4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。
显然,在一个低维空间解释系统要比在高维系统容易的多。
3 类型根据研究对象的不同,把因子分析分为R 型和Q 型两种。
当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。
但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。
4分析原理假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 :⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=np n n p p x x x x x x x x x X 212222111211当p 较大时,在p 维空间中考察问题比较麻烦。
因子分析-PPT
因子 得分
因子分析
什么 叫因 子分
析
定义解释
因子分析就是主成分分析得推广和发展, 她就是把具有复杂关系得多个变量(或样 品)综合为少数几个因子,并给出原始变量 与综合因子之间得相关关系得多元统计 分析方法
种类
R型因子分析(对变量进行因子分析) Q型因子分析(对样品进行因子分析)
应用意义
应用范围
表示得形式不同。
因子 分析 得统 计意
义
假定因子模型中,各个变量、 公共因子、特殊因子都已经进 行了标准化处理
因子载荷矩阵得统计意义
变量共同度得统计意义
公因子方差贡献得统计意义
因子 载荷 矩阵 得估 计方
法
方法一:流
应用类型
基本思想 数学模型
因子 分析 得模
型
主成 分分 析与 因子 分析 得区
别
主成分分析就是一种数学变换 (正交变换)不能称为一种数学 模型;而因子分析需要构造数 学模型。
主成分得个数与原始数据个数 相等,就是把原始变量变换成 为相互独立得新得变量;而因 子个数一般要求小于原始数据 个数,目得在于得到一个结构 简单得因子模型。
可以互相讨论下,但要小声点
因子 旋转
含义:
因子旋转就是根据因子载荷矩阵 得不唯一性,用一个正交矩阵右乘 因子载荷矩阵,实行旋转(由线性代 数,一次正交变换,对应坐标系得一 次旋转),使旋转后得因子载荷矩阵 结构简化,以便对公共因子进行合 理得解释。
所谓结构简化就就是使得每个变 量仅在一个公共因子上有较大得 载荷,而在其她得公共因子上得载 荷比较小。
常用得方法有:
因子分析PPT课件
3. 公共因子的方差贡献:是某公共因子对所有原变量载荷的平方和, 它
反映该公共因子对所有原始总变异的解释能力,等于因子载荷矩阵中某 一列载荷的平方和。一个因子的方差贡献越大,说明该因子就越重要。
2024/6/2
15
★ 确定公因子数目的准则
1)因素的特征值(Eigenvalues)大于或等于1;
2)因素必须符合陡阶检验(Screen Test),陡阶检
仅仅是为了化简、浓缩数据,则采用正交旋转(保持
直角90度,不允许公因子相关)。如果研究的目的是
为了得到理论上有意义的研究结果,则采用斜交旋转。
(不呈90度,允许公因子相关;有证据表明公因子之
间是相关的才用)
旋转之后,特征值发生变化,但共同度不变
2024/6/2
18
第六步:单击Scores按纽,弹出对话框
输出旋转后的 因子载荷矩阵
2024/6/2
输出载荷散点图17
★ 因子旋转
为了更好地解释因子分析解的结果,常常需要将
因子载荷转换为比较容易解释的形式(相当于相机的
调焦,使看得更清楚;一般会使各因子对应的载荷尽
可能地向0和1两极分化)。
常用的方法有正交旋转(varimax procedure)
和斜交旋转(oblique rotation),如果研究的目的
2024/6/2
1
二、因子分析思想与方法的由来
● 英国统计学家Scott 1961年对英国157个 城镇发展水平进行调查时,原始测量的变量有57 个,而通过因子分析发现,只需要用5个新的综 合变量(它们是原始变量的线性组合),就可以 解释95%的原始信息。
● 美国统计学家Stone在1947年研究国民经
因子分析ppt课件
因素分析
四、常用术语
4.特征值(Eigenvalues)
特征值是指每个变量在某一公共因子上的因子负荷量的平 方总和,又叫特征根。在因子分析的公共因子提取中,特征值 最大的公共因子会最先被提取,其次是次大者,最后提取的公 共因子的特征值最小。因子分析的目的,在于使因子维度简单 化,希望以最少的公共因子,能对总变异量作最大的解释,因 而提取的因愈少愈好,但提取因子之累积解释的变异量则愈大 愈好。
因素分析
四、常用术语
2.公因子方差(communality)
公因子方差也叫共同度,又称公共方差,指一个观测变量 在全部公共因素上的因素负荷的平方之和。记为h2。第i个变量 zi的公共因素方差hi2=ai12+ ai22+…+aim2 ,m为公共因素数。hi2 表示m个公共因素能解释变量zi的方差的比例数。
每个公因子对原始数据的解释能力,可以用该因子所解释 的总方差来衡量,通常称为该因子的贡献率,记作Vp。它等于 和该因子有关的因子负载的平方和。实际中常用相对指标来表 示,相对指标体现着公因子的相对重要性。即每个公共因子所 解释的方差占所有变量总方差的比例。设k表示观测变量数, Vp/k表示第p个因子所解释的方差比例,则V/k表示所有公因子 累积解释的方差比例,它可以用来作为因子分析结束的判断指 标。
因素分析
五、数据处理过程
zij是第i个体在第j观测变量上的得分,( j k)是因素
对观测变量的加权系数,(Fik)是个体i在因素F k上的 得分,Uij为特殊因素,dj为特殊因素对观测变量的加权系 数;N为样本容量,n为观测变量的个数,m为公因素的个 数。
因素分析
三、因素分析基本过程
1.计算相关矩阵,确定因素初始载荷值(矩阵) 2.确定公因子提取的方法。(特征值法或陡坡检验法) 3.计算各公因素的载荷情况,分析特征值。 4.因素旋转。 5.计算旋转后的因子载荷矩阵。 6.因子命名与解释 要点:因子内高相关、因子间低相关,简化解释维度 误区:因子分析就是抱弃一些变量,用最少的变量代替全体变量
11因子分析解析
aij
r ij r
cov( xi *, F j ) var( xi *) var( F j )
注意: 在各公共因子不相关的前提下, aij(载荷矩阵中第i行, 第 j 列的元素)是随机变量 xi*与公共因子 Fj 的相关系数, 表示xi*依赖于Fj的程度。反映了第i个原始变量在第j 个公共因子上的相对重要性。因此 绝对值越大,则 aij 公共因子Fj与原有变量xi的关系越强。
(2)共同度----又称共性方差或公因子方差(community
或common variance)就是观测变量的方差中由公因子决 定的比例。当因子正交时,等于每个公共因子之负荷量的 平方总和(一行中所有因素负荷量的平方和)。变量 X i 的共同度是因子载荷矩阵的第i行的元素的平方和。记为
2 h aij 。 2 i j 1 m
设 X i (i 1,2,, p ) p 个变量,如果表示为
X i i ai1F1
aim Fm i
a12 a22 ap2
(m p)
a1m F1 1 a2 m F2 2 F a pm m p
在因子分析的公共因子抽取中,应最先抽取特征值最大 的公共因子,其次是次大者,最后抽取公共因子的特征 值最小的,通常会接近0。
案例1:在企业形象或品牌形象的研究中,消费者可以通 过一个有24个指标构成的评价体系,评价百货商场的24个 方面的优劣。 但消费者主要关心的是三个方面,即商店的环境、商店的 服务和商品的价格。因子分析方法可以通过24个变量,找 出反映商店环境、商店服务水平和商品价格的三个潜在的 因子,对商店进行综合评价。而这三个公共因子可以表示 为:
方法因子分析法
方法因子分析法因子分析法是一种统计方法,用于找出背后隐藏的因素,并将观测到的变量与这些潜在因素进行关联。
它的主要原理是通过观察多个相关变量之间的共同性,推断出潜在的共同因素。
它可以帮助研究者减少变量的数量,简化数据分析过程,并识别出变量之间的关系。
在执行因子分析之前,首先需要确定几个重要的因素。
这可以通过以下步骤来完成:1.收集数据:收集你感兴趣的变量的测量数据。
这些变量应该是相关的。
2.计算相关性矩阵:计算变量之间的相关性系数。
这可以通过计算协方差矩阵或相关系数矩阵来完成。
3.确定特征值:通过对相关矩阵进行特征值分解,可以得到特征值和特征向量。
特征值表示了每个因素的方差贡献程度。
4.选择因子数量:通过观察特征值的大小,选择需要保留的因子数量。
一般来说,保留特征值大于1的因子。
5.旋转因子矩阵:利用主成分分析或极大似然估计方法,对因子进行旋转。
旋转可以使因子更具可解释性。
6.确定因子载荷:因子载荷表示每个变量与因子之间的相关性。
一般来说,载荷大于0.3或0.4的变量可以被认为与这个因子有关。
7.解释因子:根据因子的载荷模式和理论背景,解释每个因子表示什么。
因子分析法的一个重要应用是在心理学研究中。
通过对一系列调查问卷的因子分析,可以识别出潜在的心理因素,如情绪、人格特征等。
这对于心理学家研究个体和群体之间的差异,以及预测特定行为和情绪表现的可能性非常有用。
另一个重要应用是在市场调研中。
通过对消费者购买行为和偏好的因子分析,可以识别潜在的购物动机和购买因素。
这对于企业制定市场策略和产品定位非常有价值。
虽然因子分析法可以提供丰富且有用的信息,但也有一些限制。
首先,它依赖于数据的质量和变量之间的相关性。
如果数据不准确或变量之间相关性较低,可能会得到不可靠的结果。
其次,因子分析无法证明因果关系。
它只能提供变量之间的关联性,而不能解释变量之间的因果关系。
最后,选择因子的数量和因子旋转方法都需要主观判断,可能会导致结果的不确定性。
因子分析方法
第一步:因子分析的前提条件 三种方法判断数据是否适合作因子分析:
KMO
KMO测度的值越高(接近1.0时),表明变量间的共同因子越 多,研究数据适合用因子分析。通常按以下标准解释该指标 值的大小:KMO值达到0.9以上为非常好,0.8~0.9为好, 0.7~0.8为一般,0.6~0.7为差,0.5~0.6为很差。如果KMO 测度的值低于0.5时,表明样本偏小,需要扩大样本。
因子分析的基本模型
因子分析模型中,假定每个原始变量由两部分组成: 共同因子和唯一因子。 共同因子是各个原始变量所共有的因子,解释变 量之间的相关关系。
唯一因子顾名思义是每个原始变量所特有的因子, 表示该变量不能被共同因子解释的部分。原始变量 与因子分析时抽出的共同因子的相关关系用因子负 荷表示。
A称为因子载荷矩阵, aji称为因子载荷,是第j个原始变量 在第i个因子上的负荷。
U称为特殊因子,表示了原有变量不能被因子解释的部分, 其均值为0,相当于多元线性回归模型中的残差。
因子分析的特点
(1)因子变量的数量远少于原有的指标变量的数量, 因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原 始变量的信息进行重新组构,它能够反映原有变量大 部分的信息。 (3)因子变量之间不存在显著的线性相关关系,对 变量的分析比较方便,但原始部分变量之间多存在较 显著的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些 原始变量信息的综合和反映。
因子分析数学模型中几个相关概念
• 3、因子的方差贡献(特征值)
因子的方差贡献(特征值)的数学定义为: 。
该 式表明,因子Fi的方差贡献是因子载荷矩阵A中第i列元素
的平方和。因子Fi的方差贡献反映了因子Fi对原有变量总方 差的解释能力,(其解释方差的大小成为因子的特征值)。
因子分析法基本原理
1.因子分析法基本原理在对某一个问题进行论证分析时,采集大量多变量的数据能为我们的研究分析提供更为丰富的信息和增加分析的精确度。
然而,这种方法不仅需要巨大的工作量,并且可能会因为变量之间存在相关性而增加了我们研究问题的复杂性。
因子分析法就是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
这样我们就可以对原始的数据进行分类归并,将相关比较密切的变量分别归类,归出多个综合指标,这些综合指标互不相关,即它们所综合的信息互相不重叠。
这些综合指标就称为因子或公共因子。
因子分析法的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。
对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
这样,就能相对容易地以较少的几个因子反映原资料的大部分信息,从而达到浓缩数据,以小见大,抓住问题本质和核心的目的。
因子分析法的核心是对若干综合指标进行因子分析并提取公共因子,再以每个因子的方差贡献率作为权数与该因子的得分乘数之和构造得分函数。
因子分析法的数学表示为矩阵:B AF X +=,即:⎪⎪⎪⎩⎪⎪⎪⎨⎧++++=++++=++++=++++=pk pk p p p p k k k k k k f f f f x f f f f x f f f f x f f f f x βααααβααααβααααβαααα 332211333332321313223232221212113132121111(k ≤p)………………(1式) 模型中,向量X ()p x x x x ,,,,321 是可观测随机向量,即原始观测变量。
F ()k f f f f ,,,,321 是X ()p x x x x ,,,,321 的公共因子,即各个原观测变量的表达式中共同出现的因子,是相互独立的不可观测的理论变量。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
7.3 使用FACTOR过程进行因子分析
FACTOR过程简介
PROC FACTOR DATA = <数据集> <选项>; VAR <原始变量>; RUN;
(1) PROC FACTOR语句
PROC FACTOR语句标志FACTOR过程的开始, 同时还可通过设置其他语句定义数据集、指定具体 分析方法和过程等。通常只需要VAR语句作为 PROC FACTOR语句的附加选项。
Xi:观测指标(标准化数据) Fi:公因子 ei:特殊因子 aij:因子载荷(计算关键项)
四、因子分析与主成分分析的区别
(1).主成分分析不能作为一个模型,只是变量变换,而因 子分析需要构造模型。 (2).主成分的个数和变量的个数相同,它是将一组具有相 关的关系的变量变换为一组互不相关的变量,而因子分析 是要用尽可能少的的公因子,以便构造一个简单的因子模 型 (3).主成分表示为原始变量的线性组合,而因子分析是将 原始变量表示为公因子和特殊因子的线性组合。
( h1* ) 2 r21 * R r p1 r12 * 2 ( h2 ) rp 2 r1 p r2 p * 2 (h p )
3. 因子载荷矩阵的估计方法
给定p个相关变量X1,...,Xp的观测数据阵X,由 X = AF + ε易推出 ∑ = AA' + D 其中∑ = D(X)为X的协方差阵,A = (aij)为p m的因子
X1 a11F1 a12 F2 e1 X 2 a21F1 a22 F2 e2 X 3 a31F1 a32 F2 e3 X 4 a41F1 a42 F2 e4 X 5 a51F1 a52 F2 e5
X = AF + e
X1 X2
┇
a11
a12 a22
E(F) =0,D(F) = Im,即F1、F2、…、Fm互不相关,方差为 1;D(ε) = diag(12,22,…,p2),即ε1、ε2、…、εp互不相关, 方差不一定相等,εi~N(0,i2)。 因子分析的目的就是通过模型X = AF + ε以F代替X, 由于m < p,从而达到降维的愿望。
4. 因子旋转(正交变换)
所谓因子旋转就是将因子载荷矩阵 A右乘一 个正交矩阵 T, 使旋转后的因子载荷阵 A * 在结构 上得以简化,即:使得每个变量仅在一个公因子 上有较大的载荷,而在其余的因子上载荷比较 小。这样做便于对公因子进行解释和说明。
设p维可观测向量X满足因子模型:X = AF +ε。T为正 交阵,则因子模型可写为 X = ATT'F +ε = A*F* +ε 其中A* = AT,F* = T'F。 易知,∑ = AA' + D = A*A*' + D(其中A* = AT)。这说 明,若A,D是一个因子解,任给正交阵T,A* = AT,D 也是因子解。在这个意义下,因子解是不惟一的。 由于因子载荷阵是不惟一的,所以可对因子载荷 阵进行旋转。目的是使因子载荷阵的结构简化,使载 荷矩阵每列或行的元素平方值向0和1两极分化,这样 的因子便于解释和命名。
t 1
t 1
(3) 公共因子Fj方差贡献的统计意义
因子载荷矩阵A中各列元素的平方和:
2 q a ij 2 j i 1 p
称为公因子Fj对X的贡献,是衡量Fj相对重要性的 指标,qj2越大表明Fj对X的贡献越大。
(1) 主成分法 设样品协方差阵S的特征值为λ1≥λ2≥…≥ λp≥0,u1,u2,…,up,为对应的标准化特征向量, 当最后p–m个特征值较小时,S可近似地分解为:
规定因子个数的上限。默认值是所有被分析变量的个数。 指定因子旋转的方法。默认值是NONE。具体选项有: VARIMAX(正交方差最大旋转)、ORTHOMAX(最大正 交旋转)、QUARTIMAX(正交四次方最大旋转)等。 显示相关系数阵。 重新排列因子系数阵的列,使那些在第一因子上载荷量 最大的变量排在第一列,其他按从大到小的顺序排列, 便于因子含义的解释。输出数据集中的变量顺序不变。 显示均值、标准差及观察个数。
有三种主要的正交旋转法:四次方最大法、方差 最大法和等量最大法。这些旋转方法的目标是一致 的,只是策略不同。 如果两种旋转模型导出不同的解释,这两种解释 不能认为是矛盾的。倒不如说是看待相同事物的两种 不同方法。 在统计意义上所有旋转都是一样的,即不能说 一 些旋转比另一些旋转好。因此,在不同的旋转方法之 间进行的选择必须根据非统计观点,通常选择最容易 解释的旋转模型。
(2) VAR语句 VAR 语句用来指定需要分析的数值变量。如果 该句省略,那么在其他语句中未做特殊规定的所有 数值变量都将被分析。
选项
METHOD(M)=
NFACTOR(N)=
功能和用法
指定因子提取的方法,默认的方法为 principal , 可 供选择的方法:PRIN/P(主成分法)、PRINT(主 因子法)、ML/M(最大似然法)。.
* * * * * u1 , * u ,..., u 其中 A ( 1 2 2 m m) , 令
2 ˆ ) 1 aik ( * 2 i k 1
m
(i = 1,…,p)
则A和D为因子模型的一个解,这个解称为主因子解。
在实际中特殊因子方差(或变量共同度)是未知的。 以上得到的解是近似解。为了得到近似程度更好的解, 常常采用迭代主因子法。即利用上面得到的 2 D* = diag( ) ˆ12 ,..., ˆp 作为特殊因子方差的初始估计,重复上述步骤,直到解 稳定为止。 变量共同度hi2常用的初始估计有以下几种方法: 取第i个变量与其他变量相关系数绝对值的最大值; 取1,它等价于主成分解。
2
AA'D
其中,A ( 1 u1, 2 u2 ,..., m um ) (aij ) pm为pm阵,
2 ,即得因子模型的一个解。载荷阵 sii aik 2 i m
A中的第j列和X的第j个主成分的系数相差一个倍数
( j j = 1,…,m),故这个解称为主成分解。
2. 因子分析模型中的几个统计特征
(1) 因子载荷aij的统计意义
由Xi = ai1F1 +…+ aimFm + εi,两边同乘以Fj, 再求数学期望:
E(XiFj)=ai1E(F1Fj)+…+aijE(FjFj)+…+aimE(FmFj)+E(εiFj)
从而有
rij = E(XiFj) = aij
三、因子分析的主要应用
(1).寻求基本结构,简化观测系统,将具有错综复杂关系 的对象(变量或样本)综合为少数几个因子(不可观测的 随机变量),并再现因子与原始变量之间的内在联系。 (2).用于分类,对变量或样本进行分类。
7.2 因子分析的概念与计算步骤
1. 因子分析模型
设p维可观测的随机向量X = (X1,...,Xp)'(假 2,…,p)表示为
定Xi为标准化变量,即E(Xi) = 0,Var(Xi) = 1,i = 1,
(m p)
X = AF + ε 上式称为因子模型,其中 F 1 、 F 2 、 … 、 F m 称为公因 子,简称因子,是不可观测的变量;待估的系数阵 A称为 因子载荷阵,aij(i = 1,2,…,p;j = 1,2,…,m)称为第i个变 量在第j个因子上的载荷(简称为因子载荷); ε称为特殊因子,是不能被前 m个公因子包含的部分。 并且满足:cov(F,ε) = 0,即F,ε不相关;
┇
… … … …
a1q a2q
┇
F1 F2
┇
e1
=
a21
┇
+
e2
┇
Xm
am1
am2
amq
Fq
em
X1 = a11F1 + a12F2 + … + a1qFq +e1 X2 = a21F1 + a22F2 + … + a2qFq +e2 Xm = am1F1 + am2F2 + … + amqFq +em
这五项指标是受植物神经支配的,植物神经又分为
交感神经和副交感神经,因此这五项指标也可以用
因子分析模型去处理。
二、因子分析数学模型
X1:收缩压
common factor F1:交感神经
X2:舒张压
X3:心跳间隔
F2:副交感神经
X4:呼吸间隔
X5:舌下温度
common factor
specific factor
k 1
(2) 主因子法 主因子方法是对主成分方法的修正,设R = AA' + D, 则R* = R – D = AA'称为约相关矩阵,若已知特殊因子方 * 2 ˆ ( 差的初始估计 i ) ,也就是已知变量共同度的估计:
ˆ i* ) 2 (hi* ) 2 1 (
则R*对角线上的元素是,而不是1。即:
即载荷矩阵中第i行,第j列的元素aij是第i个变量 与第j个公因子的相关系数,反映了第i个变量与第j个 公因子的相关程度。|aij| 1,绝对值越大,相关程度 越高。在这种意义上公因子解释了观测变量间的相关 性。
(2) .变量共同度的统计意义
因子载荷矩阵第i行的元素平方和:
h
2 i