SAS学习系列34.-因子分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SAS学习系列34.-因子分析
34.因子分析
(一)基本原理
一、概述
因子分析,是用少数起根本作用、相互独立、易于解释通常又是不可观察的因子来概括和描述数据,表达一组相互关联的变量。通常情况下,这些相关因素并不能直观观测。
因子分析是从研究相关系数矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。简言之,即用少数不可观测的隐变量来解释原始变量之间的相关性或协方差关系。
因子分析的作用是减少变量个数,根据原始变量的信息进行重组,能反映原有变量大部分的信息;原始部分变量之间多存在较显著的相关关系,重组变量(因子变量)之间相互独立;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。
主成分分析是因子分析的特例。主成份分析的目标是降维,而因子分析的目标是找出公共因素及特有因素,即公共因子与特殊因子。
因子分析模型在形式上与线性回归模型相似,但两者有着本质的区别:回归模型中的自变量是可观测到的,而因子模型中的各公因子是不可观测的隐变量,而且两个模型的参数意义也不相同。
二、原理
假设样品检测p 个指标(变量)X 1, …, X p ,得到观测矩阵X ,这p 个指标变量可能受m (m
用矩阵表示为
111p p m m p X A f e ⨯⨯⨯⨯=+
其中,共同影响因素f 1,…f m 是均值为0方差为1的随机变量,称为公共因子;A p×m 称为因子载荷矩阵,a ji 是第j 变量在第i 公共因子上的负荷,即X j 在坐标轴f i 上的投影;e i 是变量X i 所特有的因子,均值为0方差为σi 2,称为特殊因子。各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即COV(e i , e j )=0, COV(e, f )=0. 因子分析就是用f 1,…f m 代替X 1, …, X p , 达到降维的目的。
主成份分析中,残差通常是彼此相关的。因子分析中,特殊因子起到残差的作用,但被定义为彼此不相关且和公因子也不相关。而且每个公因子假定至少对两个变量有贡献,否则它将是一个特殊因子。
在开始提取公共因子时,已假定它们彼此不相关且具有单位方差。故向量X 的协方差矩阵Σ可以表为
Σ=D(X)=D(Af+e)=AA T +D
其中,D=diag(σ12, …, σp 2). 若假定X 已标准化,即每个X i 都均值为0
方差为1. 则
1122221
1var()i i i im m p i ij i i X a f a f a f X a σ==+++⎧⎪⎨==+⎪⎩∑ 记2
21m
i
ij j h a ==∑称为变量共同度,则有221, 1,...,i i h i p σ=+=. h i 2反映了公共因子f 对X i 的影响(贡献),即X i 对共同因素f 的依赖程度;σi 2为剩余方差,若h i 2接近1,σi 2很小,则表明因子分析的效果好。
公共因子f j 对X i 的影响,可由A 中第j 列元素来描述,
221p
i ij i g a ==∑
称为公共因子f j 对X 的贡献,是衡量公共因子重要性的尺度。
a ij 为第i 个变量与第j 个公共因子的相关系数,反映了它们的相关程度:
三、求因子载荷矩阵
若X 的协方差矩阵∑和D 已知,则根据∑-D =AA T 求出A
1122(,,)m m A λξλξλξ=
其中,λ1≥λ2≥…λm >λm+1=…=λp =0为∑*=∑-D 的特征值,ξi 为相应的特征向量。
但在实际问题中,并不知道∑和D ,就需要从n 个样品,p
个指标的np 个样本数据,估计因子载荷a ij 和特殊因子方差σi 2. 常用的参
数估计法有:主成分法、主因子解法、极大似然法。
(1)主成分法
记样本数据的协方差矩阵为ˆ∑,其特征值λ1≥λ2≥…≥λp ≥0, 相
应的特征向量为ξi . 当最后p-m 个特征值较小时,对ˆ∑
做谱分解: 111222ˆ=T T T m m m D λξξλξξλξξ∑+++ 先取111a λξ=,看11
ˆT a a ∑-是否接近对角矩阵,若是,说明只取一个公共因子就行了,所有指标主要受到这一个公共因子的影响;若否,再取222a λξ=,看1122
ˆT T a a a a ∑--是否接近对角矩阵……象主成分分析一样,直接取前q 个特征值和特征向量,使得它们的特征值之和占全部特征值之和的85%以上即可。此时,特殊因子方差为
221ˆ, 1,...,q
i
ii ki k a i p σ==∑-=∑ (2)主因子解法
主因子解法是对主成分法的修正,记样品数据的相关矩阵为R ,设R= AA T + D ,则R* = R –D = AA T 称为约相关矩阵。若已知特殊因
子方差的初始估计*2ˆ()i σ
,则*2*2ˆ()1()i i h σ=-,故
计算R *的特征值λ1*≥λ2*≥…≥λp *>0,相应的特征向量为u i *, 则有近似分解式:R* = AA T , 其中
令
则A和D为因子模型的一个解,称为主因子解。
在实际中特殊因子方差是未知的,以上得到的解是近似解。为了得到近似程度更好的解,常常采用迭代主因子法。即利用上面得到的
作为特殊因子方差的初始估计,重复上述步骤,直到解稳定为止。
变量共同度h i2常用的初始估计有以下三种方法:
①取第i个变量与其他所有变量的多重相关系数的平方;
②取第i个变量与其他变量相关系数绝对值的最大值;
③取1(等价于主成分解)。
(3)极大似然法
假定公共因子f和特殊因子e服从正态分布,则可得到因子载荷阵和特殊因子方差的极大似然估计。设p维观测向量X(1),...,X(n)为来自正态总体N p(μ,∑)的随机样品,则样品似然函数为μ,∑的函数L(μ,∑).
μ=,则似然函数为A,D的函数:φ(A,D),设∑= AA T +D,取X
求A,D使φ(A,D)达到最大。为保证得到唯一解,可附加计算上方便的唯一性条件:A T D-1A = 对角阵,用迭代方法可求得极大似然估计A和D。
四、公共因子的解释