第17章 因子分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

因子分析的基本原理
由于F1、F2与每一个Xi都有关,因此,研究 这5个指标变量之间的关系可以转化为研究这 两个潜在因子之间的关系。因子分析的基本 原理就是依据可测指标变量之间的相关关系, 从中寻找出合理的有实际意义的潜在因子, 并估计出潜在因子对可测指标变量的影响程 度。
因子分析的步骤
因子分析的核心问题有两个:一是如何构造 因子变量;二是如何对因子变量进行命名解 释。因此,因子分析的基本步骤和解决思路 就是围绕这两个核心问题展开的。
因子分析基本思想
可以说,因子分析是主成分分析的推广,也 是一种把多个变量化为少数几个综合变量的 多变量分析方法,其目的是用有限个不可观 测的隐变量来解释原始变量之间的相关关系。 因子分析主要用于:1、减少分析变量个数; 2、通过对变量间相关关系探测,将原始变量 进行分类。即将相关性高的变量分为一组, 用共同的潜在因子代替该组变量。
因子分析的基本原理
ξ γ γ γ 如果假设 ξ 是方差为1,、 1、 2 、 3 相互独立, 并且假设指标变量被标准化为方差为1的变 X3 量 X 1 , X 2 ,,那么,
cov(X 1 , X 2 ) = cov(a1 ξ , a2ξ ) + cov(γ 1 , γ 2 ) + cov(a1 ξ , γ 2 ) + cov(a 2 ξ , γ 1 ) =a1 a 2 var(ξ ) + 0 + 0 + 0 =a 1 a 2
因子分析的基本原理
解上述方程组,得到一组解为: a1=0.897,a2=0.959,a3=0.803 从而得到三个标准指标Xi与潜在因子以及误差项之 间的关系表达式,即:
X X X
1 2 3
= 0 . 897 ξ + λ 1 = 0 . 959 ξ + λ 2 = 0 . 803 ξ + λ 3
因子分析的应用
在采用多元统计分析技术进行数据处理、建立宏 观或微观系统模型时,需要研究以下几个方面的问 题: 简化系统结构,探讨系统内核。可采用主成分 分析、因子分析、对应分析等方法,在众多因素中 找出各个变量最佳的子集合,从子集合所包含的信 息描述多变量的系统结果及各个因子对系统的影响。 “从树木看森林”,抓住主要矛盾,把握主要矛盾 的主要方面,舍弃次要因素,以简化系统的结构, 认识系统的内核。
令 ξ 是影响这三个指标变量的潜在因子。显 然,每个成绩指标变量除了受这个潜在因子 的影响外,可能还受其它因子的影响。把 ξ 以外的影响因子记为 γ ,从数学角度看,它 们之间的关系可以表示为:
x 1 = a 1ξ + γ 1 x 2 = a 2ξ + γ 2 x = a ξ + γ 3 3 3
因子分析的基本原理
下表给出了三个指标之间的相关系数,其中,x1是孩子的数 学成绩,x2是孩子的语文成绩,x3是孩子的英语成绩。求影 响支配这三个成绩指标变量的潜在因子。 三个指标之间的相关系数 x1 x1 x2 x3 1.00 0.77 0.72 1.00 0.86 1.00 x2 x3
因子分析的基本原理
从这个关系表达式可以看出这个潜在因子对孩子的 三门课的成绩都有影响,而且,影响程度比较均衡。
因子分析的基本原理
再看下面这组表达式,其中X1-X5是五个指 标变量,它们分别表示收缩压、舒张压、心 跳间隔、呼吸间隔和舌下温度。从医学知识 可知,这5个指标是受自主神经的交感神经和 副交感神经支配的,而交感神经和副交感神 经状态又不能直接测定。用F1、F2分别表示 交感神经和副交感神经这2个因子,则可测指 标Xi是不可测因子Fj的线性函数,
因子分析SAS程序
SAS系统中利用FACTOR过程对数据进行主成分分 析。 FACTOR过程的语法格式如下: PROC FACTOR DATA= N= OUT= OUTSTAT= METHOD= ROTATE= MAXITER= RECORDER HEY [选项]; VAR 变量/[选项]; PARTIAL 变量; RUN;
前面章节讨论了多元线性回归分析、主成分分析等,它们的 共同特点是讨论内容为可测量变量之间的相互关系,即所分 析的这些变量是可以直接观察或测量得到的。但是,在医学 研究中,很多情况下我们所要研究的变量是不能直接测量的。 例如,研究家庭环境、社会环境和学校环境对儿童智商的影 响,这四个变量都是不能或不易直接观测得到的。我们称这 种不能或不易直接观测得到的变量为潜在变量或潜在因子。 虽然这些潜在变量不能直接测量,但是它们是一种抽象的客 观存在,因此一定与某些可测量变量有着某种程度的关联。 例如,脑部疾病患者的意识清醒状态是一个不可测变量,但 可以通过患者的语言能力、辨识能力、记忆能力、理解能力 等一系列可观测的指标来反映。
因子分析的步骤
因子旋转
若所得的m个因子无法确定或其实际意义不是很明显, 这时需将因子进行旋转以获得较为明显的实际含义。
用原指标的线性组合来求各因子得分
采用回归估计法,Bartlett估计法或Thomson估计法计 算因子得分。
综合得分
以各因子的方差贡献率为权,由各因子的线性组合得到 综合评价指标函数。 F=(w1F1+w2F2+…+wmFm)/(w1+w2+…+wm) 此处wi为旋转前或旋转后因子的方差贡献率。
因子分析基本思想
因子分析法就是寻找这些潜在因子的模型分析方法,它是在 主成分的基础上构筑若干意义较为明确的潜在因子,以它们 为框架分解原变量,以此考察原变量间的联系与区别。 例如,随着年龄的增长,儿童的身高、体重会随着变化,具 有一定的相关性,身高和体重之间为何会有相关性呢?因为 存在着一个同时支配或影响着身高与体重的生长因子。那么, 我们能否通过对多个变量的相关系数矩阵的研究,找出同时 影响或支配所有变量的共性因子呢?因子分析就是从大量的 数据中“由表及里”、“去粗取精”,寻找影响或支配变量 的多变量统计方法。
因子分析的应用
构造预测模型,进行预报控制。在自然和社会科 学领域的科研与生产中,探索多变量系统运动的客 观规律及其与外部环境的关系,进行预测预报,以 实现对系统的最优控制,是应用多元统计分析技术 的主要目的。在多元分析中,用于预报控制的模型 有两大类。一类是预测预报模型,通常采用多元线 性回归或逐步回归分析、判别分析、双重筛选逐步 回归分析等建模技术。另一类是描述性模型,通常 采用聚类分析的建模技术。
因子分析的基本原理
a1 a 2 = cov(X 1 , X 2 ) = corr( X 1 , X 2 ) = r12 = 0.77
同理可以得到, a 1 a 3 = r13
a 2 a 3 = r23 = 0 .86
= 0 .72
也就得到了a1、a2和a3的一个方程组:
a 1 a 2 = r12 = 0 . 77 a 1 a 3 = r13 = 0 . 72 a a = r = 0 . 86 23 2 3
因子分析基本思想
可以说,因子分析是主成分分析的推广,也 是一种把多个变量化为少数几个综合变量的 多变量分析方法,其目的是用有限个不可观 测的隐变量来解释原始变量之间的相关关系。 因子分析主要用于:1、减少分析变量个数; 2、通过对变量间相关关系探测,将原始变量 进行分类。即将相关性高的变量分为一组, 用共同的潜在因子代替该组变量。
因子分析基本思想
因子分析法是从研究变量内部相关的依赖关系出发, 把一些具有错综复杂关系的变量归结为少数几个综 合因子的一种多变量统计分析方法。它的基本思想 是将观测变量进行分类,将相关性较高,即联系比 较紧密的分在同一类中,而不同类变量之间的相关 性则较低,那么每一类变量实际上就代表了一个基 本结构,即公共因子。对于所研究的问题就是试图 用最少个数的不可测的所谓公共因子的线性函数与 特殊因子之和来描述原来观测的每一分量。
第17章 因Байду номын сангаас分析 章
中国疾病预防控制中心
学习目标
熟悉因子分析的基本思想; 熟悉因子分析的基本原理; 了解因子分析的数学模型; 掌握因子模型的性质以及一些基本概念:公共度和 方差贡献。 熟悉估计因子载荷的分析步骤、因子旋转和因子得 分等; 掌握因子分析的步骤以及FACTOR过程实例。
因子分析基本思想
如何选择适当的方法来解决实际问题,需要对问题 进行综合考虑。对一个问题可以综合运用多种统计 方法进行分析。例如一个预报模型的建立,可先根 据有关生物学、生态学原理,确定理论模型和试验 设计;根据试验结果,收集试验资料;对资料进行 初步提炼;然后应用统计分析方法(如相关分析、逐 步回归分析、主成分分析等)研究各个变量之间的相 关性,选择最佳的变量子集合;在此基础上构造预 报模型,最后对模型进行诊断和优化处理,并应用 于生产实际。
因子分析的步骤
因子分析常常有以下四个基本步骤:
确认待分析的原变量是否适合作因子分析; 构造因子变量; 利用旋转方法使因子变量更具有可解释性; 计算因子变量得分。
因子分析的步骤
因子分析的计算过程:
将原始数据标准化,以消除变量间在数量级和量纲上的 不同; 求标准化数据的相关矩阵; 求相关矩阵的特征值和特征向量; 计算方差贡献率与累积方差贡献率; 确定因子:设F1,F2,…, Fp为p个因子,其中前m个 因子包含的数据信息总量(即其累积贡献率)不低于 80%时,可取前m个因子来反映原指标;
因子分析SAS程序
DATA语句指定要分析的数据集名及一些选项,它 可以是原SAS数据集,也可以是corr、cov、ucorr、 ucov等矩阵。 N用来确定潜在因子个数,该选择项缺省时,系统 N 自动根据“特征值大于1”的原则确定潜在因子个数。 OUT选择项用来保存原变量和因子得分变量,变量 名为factor1,factor2,…。只有使用了N选择项, OUT选择项才能起作用。
因子分析基本思想
因子分析最初用于心理、智力测验的统计分析,随着计算技 术的不断发展,如今已广泛应用于医学、气象、经济学等其 他研究领域,在中医辨证论治研究中也有了初步成果。如李 文林等利用因子分析法建立隐结构在慢性胃炎辨证中应用的 初步分析,确定了28个原始变量中隐含的12个因子,并利用 因子载荷最终分析出这12个因子(隐节点)所对应的症状信息。 陈启光等在中医证候规范研究中以468例高脂血症的40个四 诊信息指标进行因子分析,结果表明:提取的5个公因子能 包含四诊信息指标中83.92%的信息,并提供所有测量指标 在不同公因子载荷的大小,为医师评价该指标在不同证候中 的主次关系提供了定量的分析手段。
因子分析的基本原理
Fj对各Xi的影响是线性的,再加上其它影响 因子ei,则各Xi与F1、F2的关系可表示为:
X1 X 2 X 3 X 4 X 5 = a11 F1 + a12 F2 + e1 = a 21 F1 + a 22 F2 + e 2 = a 31 F1 + a 32 F2 + e 3 = a 41 F1 + a 42 F2 + e 4 = a 51 F1 + a 52 F2 + e 5
因子分析基本思想
对于多指标数据中呈现出的相关性,是否存在对这 种相关性起支配作用的潜在变量?如果存在,如何 找出这些潜在因素?这些潜在因素是怎样对原始指 标起支配作用的?这些问题都可以通过因子分析来 解决。 因子分析是一种旨在寻找隐藏在多变量数据中、无 法直接观察到却影响或支配可测变量的潜在因子、 并估计潜在因子对可测变量的影响程度以及潜在因 子之间的相关性的一种多元统计分析方法。
因子分析的应用
进行数值分类,构造分类模式。在多变量 系统的分析中,往往需要将系统性质相似的 事物或现象归为一类。以便找出它们之间的 联系和内在规律性。过去许多研究多是按单 因素进行定性处理,以致处理结果反映不出 系统的总的特征。进行数值分类,构造分类 模式一般采用聚类分析和判别分析技术。
因子分析的应用
因子分析基本思想
其基本思想是从分析多变量数据的相关关系人手, 找到支配这种相关关系的少数几个相关独立的潜在 因子,并通过建立起这些潜在因子与原变量之间的 数量关系来预测潜在因子的状态,帮助发现隐藏在 原变量之间的某种客观规律性。因子分析和主成分 分析都能够起到清理多个原始变量内在结构关系的 作用,但主成分分析重在综合原始变量的信息,而 因子分析重在解释原始变量间的关系,是比主成分 分析更深入的一种多元统计方法。
相关文档
最新文档