第17章 因子分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因子分析的基本原理
由于F1、F2与每一个Xi都有关,因此,研究 这5个指标变量之间的关系可以转化为研究这 两个潜在因子之间的关系。因子分析的基本 原理就是依据可测指标变量之间的相关关系, 从中寻找出合理的有实际意义的潜在因子, 并估计出潜在因子对可测指标变量的影响程 度。
因子分析的步骤
因子分析的核心问题有两个:一是如何构造 因子变量;二是如何对因子变量进行命名解 释。因此,因子分析的基本步骤和解决思路 就是围绕这两个核心问题展开的。
因子分析基本思想
可以说,因子分析是主成分分析的推广,也 是一种把多个变量化为少数几个综合变量的 多变量分析方法,其目的是用有限个不可观 测的隐变量来解释原始变量之间的相关关系。 因子分析主要用于:1、减少分析变量个数; 2、通过对变量间相关关系探测,将原始变量 进行分类。即将相关性高的变量分为一组, 用共同的潜在因子代替该组变量。
因子分析的基本原理
ξ γ γ γ 如果假设 ξ 是方差为1,、 1、 2 、 3 相互独立, 并且假设指标变量被标准化为方差为1的变 X3 量 X 1 , X 2 ,,那么,
cov(X 1 , X 2 ) = cov(a1 ξ , a2ξ ) + cov(γ 1 , γ 2 ) + cov(a1 ξ , γ 2 ) + cov(a 2 ξ , γ 1 ) =a1 a 2 var(ξ ) + 0 + 0 + 0 =a 1 a 2
因子分析的基本原理
解上述方程组,得到一组解为: a1=0.897,a2=0.959,a3=0.803 从而得到三个标准指标Xi与潜在因子以及误差项之 间的关系表达式,即:
X X X
1 2 3
= 0 . 897 ξ + λ 1 = 0 . 959 ξ + λ 2 = 0 . 803 ξ + λ 3
因子分析的应用
在采用多元统计分析技术进行数据处理、建立宏 观或微观系统模型时,需要研究以下几个方面的问 题: 简化系统结构,探讨系统内核。可采用主成分 分析、因子分析、对应分析等方法,在众多因素中 找出各个变量最佳的子集合,从子集合所包含的信 息描述多变量的系统结果及各个因子对系统的影响。 “从树木看森林”,抓住主要矛盾,把握主要矛盾 的主要方面,舍弃次要因素,以简化系统的结构, 认识系统的内核。
令 ξ 是影响这三个指标变量的潜在因子。显 然,每个成绩指标变量除了受这个潜在因子 的影响外,可能还受其它因子的影响。把 ξ 以外的影响因子记为 γ ,从数学角度看,它 们之间的关系可以表示为:
x 1 = a 1ξ + γ 1 x 2 = a 2ξ + γ 2 x = a ξ + γ 3 3 3
因子分析的基本原理
下表给出了三个指标之间的相关系数,其中,x1是孩子的数 学成绩,x2是孩子的语文成绩,x3是孩子的英语成绩。求影 响支配这三个成绩指标变量的潜在因子。 三个指标之间的相关系数 x1 x1 x2 x3 1.00 0.77 0.72 1.00 0.86 1.00 x2 x3
因子分析的基本原理
从这个关系表达式可以看出这个潜在因子对孩子的 三门课的成绩都有影响,而且,影响程度比较均衡。
因子分析的基本原理
再看下面这组表达式,其中X1-X5是五个指 标变量,它们分别表示收缩压、舒张压、心 跳间隔、呼吸间隔和舌下温度。从医学知识 可知,这5个指标是受自主神经的交感神经和 副交感神经支配的,而交感神经和副交感神 经状态又不能直接测定。用F1、F2分别表示 交感神经和副交感神经这2个因子,则可测指 标Xi是不可测因子Fj的线性函数,
因子分析SAS程序
SAS系统中利用FACTOR过程对数据进行主成分分 析。 FACTOR过程的语法格式如下: PROC FACTOR DATA= N= OUT= OUTSTAT= METHOD= ROTATE= MAXITER= RECORDER HEY [选项]; VAR 变量/[选项]; PARTIAL 变量; RUN;
前面章节讨论了多元线性回归分析、主成分分析等,它们的 共同特点是讨论内容为可测量变量之间的相互关系,即所分 析的这些变量是可以直接观察或测量得到的。但是,在医学 研究中,很多情况下我们所要研究的变量是不能直接测量的。 例如,研究家庭环境、社会环境和学校环境对儿童智商的影 响,这四个变量都是不能或不易直接观测得到的。我们称这 种不能或不易直接观测得到的变量为潜在变量或潜在因子。 虽然这些潜在变量不能直接测量,但是它们是一种抽象的客 观存在,因此一定与某些可测量变量有着某种程度的关联。 例如,脑部疾病患者的意识清醒状态是一个不可测变量,但 可以通过患者的语言能力、辨识能力、记忆能力、理解能力 等一系列可观测的指标来反映。
因子分析的步骤
因子旋转
若所得的m个因子无法确定或其实际意义不是很明显, 这时需将因子进行旋转以获得较为明显的实际含义。
用原指标的线性组合来求各因子得分
采用回归估计法,Bartlett估计法或Thomson估计法计 算因子得分。
综合得分
以各因子的方差贡献率为权,由各因子的线性组合得到 综合评价指标函数。 F=(w1F1+w2F2+…+wmFm)/(w1+w2+…+wm) 此处wi为旋转前或旋转后因子的方差贡献率。
因子分析基本思想
因子分析法就是寻找这些潜在因子的模型分析方法,它是在 主成分的基础上构筑若干意义较为明确的潜在因子,以它们 为框架分解原变量,以此考察原变量间的联系与区别。 例如,随着年龄的增长,儿童的身高、体重会随着变化,具 有一定的相关性,身高和体重之间为何会有相关性呢?因为 存在着一个同时支配或影响着身高与体重的生长因子。那么, 我们能否通过对多个变量的相关系数矩阵的研究,找出同时 影响或支配所有变量的共性因子呢?因子分析就是从大量的 数据中“由表及里”、“去粗取精”,寻找影响或支配变量 的多变量统计方法。
因子分析的应用
构造预测模型,进行预报控制。在自然和社会科 学领域的科研与生产中,探索多变量系统运动的客 观规律及其与外部环境的关系,进行预测预报,以 实现对系统的最优控制,是应用多元统计分析技术 的主要目的。在多元分析中,用于预报控制的模型 有两大类。一类是预测预报模型,通常采用多元线 性回归或逐步回归分析、判别分析、双重筛选逐步 回归分析等建模技术。另一类是描述性模型,通常 采用聚类分析的建模技术。
因子分析的基本原理
a1 a 2 = cov(X 1 , X 2 ) = corr( X 1 , X 2 ) = r12 = 0.77
同理可以得到, a 1 a 3 = r13
a 2 a 3 = r23 = 0 .86
= 0 .72
也就得到了a1、a2和a3的一个方程组:
a 1 a 2 = r12 = 0 . 77 a 1 a 3 = r13 = 0 . 72 a a = r = 0 . 86 23 2 3
因子分析基本思想
可以说,因子分析是主成分分析的推广,也 是一种把多个变量化为少数几个综合变量的 多变量分析方法,其目的是用有限个不可观 测的隐变量来解释原始变量之间的相关关系。 因子分析主要用于:1、减少分析变量个数; 2、通过对变量间相关关系探测,将原始变量 进行分类。即将相关性高的变量分为一组, 用共同的潜在因子代替该组变量。
因子分析基本思想
因子分析法是从研究变量内部相关的依赖关系出发, 把一些具有错综复杂关系的变量归结为少数几个综 合因子的一种多变量统计分析方法。它的基本思想 是将观测变量进行分类,将相关性较高,即联系比 较紧密的分在同一类中,而不同类变量之间的相关 性则较低,那么每一类变量实际上就代表了一个基 本结构,即公共因子。对于所研究的问题就是试图 用最少个数的不可测的所谓公共因子的线性函数与 特殊因子之和来描述原来观测的每一分量。
第17章 因Байду номын сангаас分析 章
中国疾病预防控制中心
学习目标
熟悉因子分析的基本思想; 熟悉因子分析的基本原理; 了解因子分析的数学模型; 掌握因子模型的性质以及一些基本概念:公共度和 方差贡献。 熟悉估计因子载荷的分析步骤、因子旋转和因子得 分等; 掌握因子分析的步骤以及FACTOR过程实例。
因子分析基本思想
如何选择适当的方法来解决实际问题,需要对问题 进行综合考虑。对一个问题可以综合运用多种统计 方法进行分析。例如一个预报模型的建立,可先根 据有关生物学、生态学原理,确定理论模型和试验 设计;根据试验结果,收集试验资料;对资料进行 初步提炼;然后应用统计分析方法(如相关分析、逐 步回归分析、主成分分析等)研究各个变量之间的相 关性,选择最佳的变量子集合;在此基础上构造预 报模型,最后对模型进行诊断和优化处理,并应用 于生产实际。
因子分析的步骤
因子分析常常有以下四个基本步骤:
确认待分析的原变量是否适合作因子分析; 构造因子变量; 利用旋转方法使因子变量更具有可解释性; 计算因子变量得分。
因子分析的步骤
因子分析的计算过程:
将原始数据标准化,以消除变量间在数量级和量纲上的 不同; 求标准化数据的相关矩阵; 求相关矩阵的特征值和特征向量; 计算方差贡献率与累积方差贡献率; 确定因子:设F1,F2,…, Fp为p个因子,其中前m个 因子包含的数据信息总量(即其累积贡献率)不低于 80%时,可取前m个因子来反映原指标;
因子分析SAS程序
DATA语句指定要分析的数据集名及一些选项,它 可以是原SAS数据集,也可以是corr、cov、ucorr、 ucov等矩阵。 N用来确定潜在因子个数,该选择项缺省时,系统 N 自动根据“特征值大于1”的原则确定潜在因子个数。 OUT选择项用来保存原变量和因子得分变量,变量 名为factor1,factor2,…。只有使用了N选择项, OUT选择项才能起作用。
因子分析基本思想
因子分析最初用于心理、智力测验的统计分析,随着计算技 术的不断发展,如今已广泛应用于医学、气象、经济学等其 他研究领域,在中医辨证论治研究中也有了初步成果。如李 文林等利用因子分析法建立隐结构在慢性胃炎辨证中应用的 初步分析,确定了28个原始变量中隐含的12个因子,并利用 因子载荷最终分析出这12个因子(隐节点)所对应的症状信息。 陈启光等在中医证候规范研究中以468例高脂血症的40个四 诊信息指标进行因子分析,结果表明:提取的5个公因子能 包含四诊信息指标中83.92%的信息,并提供所有测量指标 在不同公因子载荷的大小,为医师评价该指标在不同证候中 的主次关系提供了定量的分析手段。
因子分析的基本原理
Fj对各Xi的影响是线性的,再加上其它影响 因子ei,则各Xi与F1、F2的关系可表示为:
X1 X 2 X 3 X 4 X 5 = a11 F1 + a12 F2 + e1 = a 21 F1 + a 22 F2 + e 2 = a 31 F1 + a 32 F2 + e 3 = a 41 F1 + a 42 F2 + e 4 = a 51 F1 + a 52 F2 + e 5
因子分析基本思想
对于多指标数据中呈现出的相关性,是否存在对这 种相关性起支配作用的潜在变量?如果存在,如何 找出这些潜在因素?这些潜在因素是怎样对原始指 标起支配作用的?这些问题都可以通过因子分析来 解决。 因子分析是一种旨在寻找隐藏在多变量数据中、无 法直接观察到却影响或支配可测变量的潜在因子、 并估计潜在因子对可测变量的影响程度以及潜在因 子之间的相关性的一种多元统计分析方法。
因子分析的应用
进行数值分类,构造分类模式。在多变量 系统的分析中,往往需要将系统性质相似的 事物或现象归为一类。以便找出它们之间的 联系和内在规律性。过去许多研究多是按单 因素进行定性处理,以致处理结果反映不出 系统的总的特征。进行数值分类,构造分类 模式一般采用聚类分析和判别分析技术。
因子分析的应用
因子分析基本思想
其基本思想是从分析多变量数据的相关关系人手, 找到支配这种相关关系的少数几个相关独立的潜在 因子,并通过建立起这些潜在因子与原变量之间的 数量关系来预测潜在因子的状态,帮助发现隐藏在 原变量之间的某种客观规律性。因子分析和主成分 分析都能够起到清理多个原始变量内在结构关系的 作用,但主成分分析重在综合原始变量的信息,而 因子分析重在解释原始变量间的关系,是比主成分 分析更深入的一种多元统计方法。