第17章 因子分析

合集下载

因子分析方法ppt课件

因子分析方法ppt课件

10
因子分析数学模型中几个相关概念
举例说明:
11
12
因子分析的五大基本步骤
第一步:因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩,即将 原有变量中的信息重叠部分提取和综合成因子,进而最终实 现减少变量个数的目的。因此它要求原有变量之间应存在较 强的相关关系。否则,如果原有变量相互独立,相关程度很 低,不存在信息重叠,它们不可能有共同因子,那么也就无 法将其综合和浓缩,也就无需进行因子分析。本步骤正是希 望通过各种方法分析原有变量是否存在相关关系,是否适合 进行因子分析。
2
因子分析的基本模型
因子分析模型中,假定每个原始变量由两部分组成: 共同因子和唯一因子。 共同因子是各个原始变量所共有的因子,解释变 量之间的相关关系。
唯一因子顾名思义是每个原始变量所特有的因子, 表示该变量不能被共同因子解释的部分。原始变量 与因子分析时抽出的共同因子的相关关系用因子负 荷表示。
18
第四步:决定因素与命名
• 转轴后,要决定因素数目,选取较少因素 层面,获得较大的解释量。在因素命名与 结果解释上,必要时可将因素计算后之分 数存储,作为其它程序分析之输入变量。
19
第五步:计算各样本的因子得分
• 因子分析的最终目标是减少变量个数,以 便在进一步的分析中用较少的因子代替原 有变量参与数据建模。本步骤正是通过各 种方法计算各样本在各因子上的得分,为 进一步的分析奠定基础。
因子分析方法
1
因子分析的基本概念
因子分析的概念 就是在尽可能不损失信息或少损失信息的情况下,将多个变量减少为 少数几个潜在的因子。也就是用少数几个因子来描述许多指标或因素之 间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方 法 主成分分析(Principal component analysis): 是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标 变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相 关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少 变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信 息。 两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降 低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子 分析的一个特例

《应用多元分析》(第四版,王学民编著)JMP12.1的应用

《应用多元分析》(第四版,王学民编著)JMP12.1的应用

《应用多元分析》(第四版)JMP12.1的应用王学民说明:本文侧重于JMP12.1的菜单操作,其输出结果有许多与SAS9.3的输出结果相同或类似,对于这些部分本文未作输出说明,可参见《应用多元分析》(第四版,王学民编著)各章附录1(SAS的应用)或书中的有关例题。

读者首先进入上财教学网/,点击:教师主页→统计与管理学院→王学民→《应用多元分析》(第四版)配书资料下载,下载的资料中有一个“《应用多元分析》(第四版)Excel数据”文件夹,本文均从该文件夹中打开数据表。

在主窗口(见图1)中,选择文件 打开…,即出现如图2所示的“打开数据文件”窗口,选择窗口左边列表框中Excel数据所在的文件夹,双击窗口中的数据表名即出现“Excel 导入向导”窗口(见图3),在该窗口中点击导入,即可打开数据表。

图1图2图3第三章多元正态分布一、对例3.4.2进行相关分析等打开examp3.4.2.xlsx数据表(见图3.1)⇒选择分析⇒多元方法 >⇒多元,随即出现“多元与相关性”对话框(见图3.2)⇒选择x1,x2,x3,x4,x5,x6,x7,并点击Y,列(或将其拖入“Y,列”列表框内)⇒确定⇒在出现的“多元”窗口中(见图3.3),点击“多元”旁的红色小三角或在右边空白处点击右键,出现图中菜单,做该菜单中的选择可得相应的结果。

图3.1图3.2图3.3图3.3(续)注:“偏相关性”中的值是给定其他5个变量后求得的两个变量间的偏相关系数。

在图3.3(续)中,点击“散点图矩阵”旁的红色小三角菜单,做图中选择。

在图 3.3的菜单中,选择三维椭圆图,出现如图3.4所示的对话框,点击确定,得到可旋转的三维椭圆图,如图3.5所示。

图3.4图3.5二、对pic3.1.2.xlsx数据表作二元正态密度椭圆线打开pic3.1.2.xlsx数据表⇒分析⇒以X拟合Y⇒在图3.6中选择y→Y,响应;选择x →X,因子⇒确定⇒在随即出现的窗口中(见图3.7),点击“二元拟合”旁的红色小三角,做该图中菜单的选择⇒在弹出的对话框中(见图3.8),填入概率值→确定,重复操作,在图3.8中分别填入概率值:0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,0.95,0.99),生成图3.9。

《因子分析》PPT课件 (2)

《因子分析》PPT课件 (2)

24.12.2020
精选PPT
8
输出结果及其解释
这是用主成分分析法提取初始公因子的第1部分
结果,相关矩阵的特征值总和为4(指标数),前
2个特征值1.718252和1.093536都大于1,下面将
根据这2个较大的特征值提取2个相应的初始
公因子。
24.12.2020
精选PPT
9
含有2个公因子的初始公因子模型为:
24.12.2020
精选PPT
11
24.12.2020
精选PPT
12
经最大方差旋转法旋转后的因子模型为:
x1= 0.87226G1+0.30149G2
x2= 0.94758G1-0.08748G2 x3=-0.09851G1+0.94739G2
x4= 0.13687G1+0.35848G2 旋转后的第1和第2公因子能解释的方差 分别为1.687177和1.124611;4个标准化指标共 性之和以及它们各自的共性估计值与旋转前相 同。
精选PPT
28
(3)转轴法:正交转轴法(最大变异法,VARIMAX
ROTATION) Rotation Method:Varimax
转换矩阵
1 2
Orthogonal Transformation Matrix
1
2
0.74346
0.66878
-0.66878
0.74346
24.12.2020
精选PPT
置置所h有2i为的在h20i =与11;之间服
⑤SMC[S] 相关系数的平均。
置h2i为xi与其他指标之间全
24.12.2020
精选PPT
5

17.2 FACTOR过程实例_SAS统计分析与应用从入门到精通_[共7页]

17.2 FACTOR过程实例_SAS统计分析与应用从入门到精通_[共7页]

SAS统计分析与应用从入门到精通如何选择适当的方法来解决实际问题,需要对问题迚行综合考虑。

对一个问题可以综合运用多种统计方法迚行分析。

例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料迚行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量乊间的相关性,选择最佳的变量子集合;在此基础上构造预报模型,最后对模型迚行诊断和优化处理,幵应用于生产实际。

17.2 FACTOR过程实例在SAS系统中,可利用FACTOR过程对数据迚行主成分分析。

FACTOR过程的语法栺式如下:PROC FACTOR DATA= N= OUT= OUTSTAT= METHOD= ROTATE= MAXITER= RECORDER HEY [选项];VAR 变量/[选项];PARTIAL 变量;RUN;各语句选项说明如下。

DATA语句指定要分析的数据集名及一些选项,它可以是原SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。

N用来确定潜在因子个数,该选择项缺省时,系统会自动根据“特征值大于1”的原则确定潜在因子个数。

OUT选择项用来保存原变量和因子得分变量,变量名为factor1,factor2,…。

只有使用了N 选择项,OUT选择项才能起作用。

OUTSTAT选择项指定输出结果的SAS数据集名,该数据集保存的是每一个指标的均值、标准差、样本数、相关系数矩阵或方差协方差矩阵、特征值和特征向量、事前共性方差、事后共性方差、未旋转因子载荷、旋转线性变换、旋转后的因子载荷以及因子得分系数等。

METHOD选择项用来确定因子分析的方法,可选用的有主成分分析法prin、最大似然分析法ml、主因子分析法prinit等,缺省是prin。

ROTATE选择项用来指定因子旋转的方法,可选用的有最大方差旋转法varimax、正交最大方差旋转法orthomax、相等最大方差旋转法equamax、比例最大方差旋转法promax等,缺省是none,不旋转。

因子分析ppt课件

因子分析ppt课件
(2)因子提取 研究如何在样本数据的基础上提取综合因子。
(3)因子旋转
通过正交旋转或斜交旋转使提取出的因子具有可解 释性。
(4)计算因子得分
通过各种方法求解各样本在各因子上的得分,为进 一步分析奠定基础。
❖ 2、因子分析前提条件——相关性分析:
分析方法主要有:
(1)计算相关系数矩阵(correlation coefficients matrix)
1 2 为p的特0 征根,
标准化特征向量,则
为u对1 , 应u2 的,, up
1
Σ = U
2
U AA + D
p
u1 u2
up
1
0
1u1u1 2u2u2
0
u1 u2
p
up
mumum m1um1um1
1u1
2u2
pu p
1u1
2
u2
p
(4)方差贡献率----指公共因子对实测变量的贡献,又称变异量 方差贡献率=特征值G/实测变量数p,是衡量公共因子相对重 要性的指标,Gi越大,表明公共因子Fj对X*的贡献越大,该因 子的重要程度越高 如因子分析案例中 F1的贡献率为3.113/5=62.26%
因子的基本内容
❖ 1、因子分析的基本步骤:
如果相关系数矩阵中的大部分相关系数值均 小于0.3,即各变量间大多为弱相关,原则 上这些变量不适合进行因子分析。
(2)计算反映象相关矩阵(Anti-image correlation matrix)
(3)巴特利特球度检验(Bartlett test of sphericity )
该检验以原有变量的相关系数矩阵为出发点,其零假 设H0是:相关系数矩阵为单位矩阵,即相关系数矩阵 主对角元素均为1,非主对角元素均为0。(即原始变 量之间无相关关系)。

环境统计学环境因子分析

环境统计学环境因子分析

自然科学研究 社会科学研究
112.66
94.32
18.34
110.80
73.14
37.65
113.03
97.75
15.27
91.84
84.20
7.63
71.23
49.98
21.25
64.43
44.33
20.10
54.37
34.71
19.66
52.38
44.35
8.03
54.02
39.98
14.04
49.52
第xi 指标 xi i ai1 f1 ai2 f2 i
x1 1 a11 f1 a12 f 2 1 x2 2 a21 f1 a22 f 2 2 x3 3 a31 f1 a32 f 2 3 x4 4 a41 f1 a42 f 2 4 x5 5 a51 f1 a52 f 2 5 x6 6 a61 f1 a62 f 2 6
则称X为具有k个公共因子的因子模型
X AF U
xi ai1 f1 ai2 f2 aik fk i
如果满足
(1)fi的均数为0,方差为1;
(2) i的均数为0,方差为δi;
(3) fi与 i相互独立.
(4) fi与fj相互独立(i≠j)
则称该因子模型为正交因子模型。
E(F)=0, Cov (F)=Ik
因子分析(factor analysis)也是一种降维、简化数据的 技术。它通过研究众多变量之间的内部依赖关系,探 求观测数据中的基本结构,并用少数几个“抽象”的 变量来表示其基本的数据结构。这几个抽象的变量被 称作“因子”,能反映原来众多变量的主要信息。原 始的变量是可观测的显在变量,而因子一般是不可观 测的潜在变量。

第十七章 因子分析

第十七章 因子分析

17.2.因子分析
• 模型拟合度的评估:评估因子模型拟合度 的一种好方法就是检查残差相关,如果残 差值越低代表模型拟合度越高;残差值如 果还是太高则代表所萃取出的因子不恰当, 需重新以不同方法萃取因子或萃取更多或 更少的因子。在SPSS中是KMO指标法。
17.2.因子分析
• 因子数目的确定:以本陡坡图(Scree Plot) 来确定,实质是因子分析后萃取那些特征 值大于1的因子,在图上表现为小于1的特 征值呈现出非常平缓的坡度,则舍弃;取 那些很陡坡度的特征值对应的因子。
17.2.因子分析
• 因子分析的种类:包括探索性因子分析和验证性 因子分析两类。
– 探索性因子分析(Exploratory Factor Analysis: EFA) 是指研究者事先对数据背后存在多少个基础变量结构 一无所知,因子分析是为了探索基础变量的维度。这 种基础变量也称为潜变量(latent variable); – 验证性因子分析(Confirmatory Factor Analysis: CFA )是指研究者根据某些理论或其他先验的知识 来对因子的个数和结构作出假设,然后收集数据来验 证这种假设。
第十七章主成分分析和因子分析本章主要学习主成分分析和因子分析的目的方法和结果解释及其两者的比较
第十七章 主成分分析和因子分析
本章主要学习主成分分析和因子分 析的目的、方法和结果解释及其两 者的比较。
17.1.主成分分析
• 主成分分析的目的:
– 简化变量之间的关系 – 缩减变量的数目
• 主成分分析的基本做法:将数据中原有的p个变 量作线性组合得到k个新变量,而且k<p才能实现 变量简化的目的。 • 主成分的萃取:主成分分析是将彼此间具有相关 关系的p个变量,经过线性组合后成为k个彼此间 相关系数为零的新变量,此过程称为萃取 (Extraction);而这k个新变量就是k个主成分 (Principal Components)。

因子分析在STATA中实现和案例

因子分析在STATA中实现和案例

第13章因子分析因子分析始于1904年Chars Spearman对学生成绩的分析,在经济领域有着极为广泛的用途。

在多个变量的变化过程中,除了一些特定因素之外,还受到一些共同因素的影响。

因此,每个变量可以拆分成两部分,一是共同因素,二是特殊因素。

这些共同因素称为公因子,特殊因素称为特殊因子。

因子分析即是提出多个变量的公共影响因子的一种多元统计方法,它是主成分分析的推广。

因子分析主要解决两类问题:一是寻求基本结构,简化观察系统。

给定一组变量或观察数据,是否存在一个子集,特别是一个加权子集,来解释整个问题,即将为数众多的变量减少为几个新的因子,以再现它们之间的内在联系。

二是用于分类,将变量或样本进行分类,根据因子得分值,在因子轴所构成的空间中进行分类处理。

p个变量X的因子模型表达式为:f称为公因子,Λ称为因子载荷。

X的相关系数矩阵分解为:对于未旋转的因子,1Φ。

ψ称为特殊度,即每个变量中不属于共性的部=分。

13.1 因子估计Stata可以通过变量进行因子分析,也可以通过矩阵进行。

命令为factor 或factormat。

webuse bg2,cleardescribefactor bg2cost1-bg2cost6factor bg2cost1-bg2cost6, factors(2)* pf 主因子方法,用复相关系数的平方作为因子载荷的估计量(默认选项)factor bg2cost1-bg2cost6, factors(2) pcf* pcf 主成分因子,假定共同度=1factor bg2cost1-bg2cost6, factors(2) ipf* ipf 迭代主因子,重复估计共同度factor bg2cost1-bg2cost6, factors(2) ml* ml 极大似然因子,假定变量(至少3个)服从多元正态分布,对偏相关矩阵的行列式进行最优化求解,等价于Rao的典型因子方法13.2 预测Stata可以通过predict预测变量得分、拟合值和残差等。

SPSS因子分析法-例子解释PDF

SPSS因子分析法-例子解释PDF

m
总和。变量 Z
j 的共同度 h 2 的数学定义为�h 2


2
a ji
�该式表明变量 Z
的共同度是因子
j
i�1
载荷矩阵 A 中第 j 行元素的平方和。由于变量 Z j 的方差可以表示成 h 2 � u 2 � 1 �因此变
量 Z j 的方差可由两个部分解释�第一部分为共同度 h 2 �是全部因子对变量 Z j 方差解释说
�因子的方差贡献�特征值 eigenvalue�
n
2
因子的方差贡献�特征值�的数学定义为� S i 2 � � a ji �该式表明�因子 F i 的方差
j�1
贡献是因子载荷矩阵 A 中第 i 列元素的平方和。因子 F i 的方差贡献反映了因子 F i 对原有
变量总方差的解释能力。该值越高�说明相应因子的重要性越高。因此�因子的方差贡 献和方差贡献率是衡量因子重要性的关键指标。
释性有助于对因子分析结果的解释评价�对因子的进一步应用有重要意义。例如�对高 校科研情况的因子分析中�如果能够得到两个因子�其中一个因子是对科研人力投入、 经费投入、立项项目数等变量的综合�而另一个是对结项项目数、发表论文数、获奖成 果数等变量的综合�那么�该因子分析就是较为理想的。因为这两个因子均有命名可解 释性�其中一个反映了科研投入方面的情况�可命名为科研投入因子�另一个反映了科 研产出方面的情况�可命名为科研产出因子。
Z j � a j1 F 1 � a j 2 F 2 � a j 3 F 3 � � � � � a jm F m � U j �j=1,2,3…,n�n 为原始变量总数�
可以用矩阵的形式表示为 Z � AF � U 。其中 F 称为因子�由于它们出现在每个原始

因子分析

因子分析

第二部分:自变量分析(Analysis of Interdependence)第三讲因子分析西安交通大学管理学院2008秋胡平市场细分案例:网民网上购物行为分析传统购物习惯针对您在日常生活中的购物习惯(非网上购物),请就下列叙述是否符合您实际购物情况进行打分(1-完全不符合,2-不符合,3-无所谓或难判断,4-符合,5-完全符合)西安交通大学管理学院2008秋胡平市场细分案例:网民网上购物行为分析西安交通大学管理学院2008秋胡平市场细分案例:网民网上购物行为分析西安交通大学管理学院2008秋胡平综合这二类因素,考虑如下股票价格模型:其中ε~N(0, 2 σ),Y 为预期收益率,若用Pt 表示t时案例1: 新兴股市的多因素模型在估计参数时,以年为单位,诸x i 取年平均值,对每一个新兴股市都取1984~1993 年共10 年的数据,按年顺序排号为:(P j ,x j 1 ,x j 2 ,⋯,x j 7 )j=1,⋯,10,其中P j 是1983+j年的股票指数的年平均值。

为消除量纲的影响,对每个新兴股市的数据进行如下变换:西安交通大学管理学院2008秋胡平13-82中第Ⅱ、第Ⅲ栏中可以看出,有7个新兴股市的因素似乎要强。

这又表明和微观因素相比,宏观因素对各新兴股市的影响第一、第二主成份点图西安交通大学管理学院2008秋胡平休息了!西安交通大学管理学院2008秋胡平主成分分析用SPSS操作算例演示打开spss数据窗口,在Analysis窗口选择Data Reduction,点击Factor。

西安交通大学管理学院2008秋胡平点击进入Factor Analysis对话框下面的Descriptives…按钮进入Descriptives对话框,在下面的Correlation Matrix框架中选Coefficients以输出原始变量的相关矩阵。

西安交通大学管理学院2008秋胡平进入Extraction对话框,在Display框架中选取Scree plot以输出碎石图帮助确定应保留主成分个数。

主成分分析实例和含义讲解

主成分分析实例和含义讲解

a. Rotation converged in 3 iterations.
22
• 这x文6来个)表表,示说hism明toa六rtyh(个(历变数史量学)和),因,e子pnhg的ylis关s(h(系物英。理语为))简,等单ch变记em量,(。我化这们学样用)因x1,,子xli2ft,1e和xr3a,ft2x(与4,语这x5, 些原变量之间的关系是(注意,和主成分分析不同,这里把成分(因 子)写在方程的右边,把原变量写在左边;但相应的系数还是主成分 和各个变量的线性相关系数,也称为因子载荷):
• 那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在 极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些 点的变化了;这样,由二维到一维的降维就自然完成了。
6
4
2
0
-2
-4
-4
-2
0
2
4
7
椭球的长短轴
• 当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主 要变化,而代表短轴的变量就描述了数据的次要变化。
11
主成分分析的数学
• 要寻找方差最大的方向。即使得向量X的线性组合a’X的方差
最大的方向a. • 而Var(a’X)=a’Cov(X)a;由于Cov(X)未知;于是用X的样本相
关阵R来近似.因此,要寻找向量a使得a’Ra最大(注意相关阵 和协方差阵差一个常数 • 记得相关阵和特征值问题吗?回顾一下吧! • 选择几个主成分呢?要看“贡献率.”
16
•可以把第一和第二主成分的载荷点出一个二维图以直 观地显示它们如何解释原来的变量的。这个图叫做载荷 图。
17
Component Plot
1.0
cphheyms

因子分析应用(青苗教育)

因子分析应用(青苗教育)

q
中公因子方差计算式为: di2 ai2k k 1
技能教育
11
6-5
因子
因子负载
元素
a1
a2
a3
Cs
0.979
0.037
0.055
Tb
0.838
0.126
0.285
Sc
0.985
-0.110
-0.065
Rb
0.949
0.160
-0.020

Fe
0.978
0.113
0.040
Co
0.983
-0.080
技能教育
4
1、监测数据的标准化
• 根据表6-2给出的监测数据 xij(i=1,2…36=n,j=1,2…26=p),结合下式进行标 准化处理。标准化数值为Zij:
式中:
Zi j
Xij X Sj
j
1 1n0
X j n i1 X ij
S j
1 1n0 1
1n0
i 1
( X ij
2
X j)
计算值见表6-3
技能教育
2
环境因子分析实例
技能教育
3
大气污染源识别应用
• 张孟威(1979-1980年)利用因子分析对北 京某地区大气飘尘作数据分析。测定大气中 的26种元素的浓度值,数据见表6-2,目的 是识别出该地区主要的地面污染源类型及其 对大气污染的贡献率。
• 我将通过此例的计算来说明因子分析的整个 过程。
-0.087

Ce
0.967
-0.205
-0.052

Yb
0.894
-0.019
-0.140

金融模型中的变量误差问题

金融模型中的变量误差问题

第17章金融模型中的变量误差问题G.S.Maddala 和M.Nimalendran1.引言金融中的变量误差(errors-in-variables,EIV)问题产生于回归模型中错误地使用测定变量或者代理变量。

因变量的测量误差表现在扰动项里,它们不会产生问题。

然而,当自变量存在测量误差时,这一误差就会表现在回归元和新回归模型的误差项里。

这导致回归元与误差项之间的同期相关,也导致有偏的OLS(普通最小二乘)估计量(甚至是渐进估计量)和不一致的标准误。

测量误差引起的偏倚可能是显著的并可能导致错误的推断。

此外,当模型中存在一个以上的回归元时,偏倚的方向是不可预知的。

一些经济计量学教科书包括Maddala(1992)和Greene(1993)都详尽地讨论了测量误差对OLS估计量的影响。

Fuller (1987)对变量误差模型进行了全面的讨论,Griliches(1985),Chamberlain和Goldberger (1990)在经济计量模型的背景下讨论了变量误差问题。

回归元的误差可能是由几个原因引起的。

我们可以把这些原因分为以下两类:(1)测量误差,和(2)用代理变量代替不可观测的理论概念、模型构造或者潜变量。

在回归模型中使用估计值就可能引入测量误差。

例如,在CAPM(资本资产定价模型)的横截面检验中使用估计的beta值作为回归元,以及在APT(套利定价理论)两步检验中的第二步使用估计的因子载荷而不是实际的因子载荷。

误差的第二个主要来源是用代理变量代替不可观测的变量或者潜变量。

金融中这样的例子是,检验信号模型时,经济计量学家只能观测到作为信号的基本属性的噪声信号。

本文将考察金融模型中使用的几种减小变量误差问题的模型和方法。

金融中会遇到变量误差问题的几个领域记述如下:I.检验资产定价模型:这些检验存在几个潜在性问题,包括与风险度量使用估计值有关联的测量误差,以及与实际市场组合不可观测性有关联的问题。

II.业绩衡量:衡量投资组合管理(共同基金,退休基金等)的业绩,是评价管理人员提供超额收益能力的一个重要部分。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
前面章节讨论了多元线性回归分析、主成分分析等,它们的 共同特点是讨论内容为可测量变量之间的相互关系,即所分 析的这些变量是可以直接观察或测量得到的。但是,在医学 研究中,很多情况下我们所要研究的变量是不能直接测量的。 例如,研究家庭环境、社会环境和学校环境对儿童智商的影 响,这四个变量都是不能或不易直接观测得到的。我们称这 种不能或不易直接观测得到的变量为潜在变量或潜在因子。 虽然这些潜在变量不能直接测量,但是它们是一种抽象的客 观存在,因此一定与某些可测量变量有着某种程度的关联。 例如,脑部疾病患者的意识清醒状态是一个不可测变量,但 可以通过患者的语言能力、辨识能力、记忆能力、理解能力 等一系列可观测的指标来反映。
因子分析基本思想
因子分析最初用于心理、智力测验的统计分析,随着计算技 术的不断发展,如今已广泛应用于医学、气象、经济学等其 他研究领域,在中医辨证论治研究中也有了初步成果。如李 文林等利用因子分析法建立隐结构在慢性胃炎辨证中应用的 初步分析,确定了28个原始变量中隐含的12个因子,并利用 因子载荷最终分析出这12个因子(隐节点)所对应的症状信息。 陈启光等在中医证候规范研究中以468例高脂血症的40个四 诊信息指标进行因子分析,结果表明:提取的5个公因子能 包含四诊信息指标中83.92%的信息,并提供所有测量指标 在不同公因子载荷的大小,为医师评价该指标在不同证候中 的主次关系提供了定量的分析手段。
因子分析的应用
构造预测模型,进行预报控制。在自然和社会科 学领域的科研与生产中,探索多变量系统运动的客 观规律及其与外部环境的关系,进行预测预报,以 实现对系统的最优控制,是应用多元统计分析技术 的主要目的。在多元分析中,用于预报控制的模型 有两大类。一类是预测预报模型,通常采用多元线 性回归或逐步回归分析、判别分析、双重筛选逐步 回归分析等建模技术。另一类是描述性模型,通常 采用聚类分析的建模技术。
因子分析SAS程序
SAS系统中利用FACTOR过程对数据进行主成分分 析。 FACTOR过程的语法格式如下: PROC FACTOR DATA= N= OUT= OUTSTAT= METHOD= ROTATE= MAXITER= RECORDER HEY [选项]; VAR 变量/[选项]; PARTIAL 变量; RUN;
如何选择适当的方法来解决实际问题,需要对问题 进行综合考虑。对一个问题可以综合运用多种统计 方法进行分析。例如一个预报模型的建立,可先根 据有关生物学、生态学原理,确定理论模型和试验 设计;根据试验结果,收集试验资料;对资料进行 初步提炼;然后应用统计分析方法(如相关分析、逐 步回归分析、主成分分析等)研究各个变量之间的相 关性,选择最佳的变量子集合;在此基础上构造预 报模型,最后对模型进行诊断和优化处理,并应用 于生产实际。
因子分析的基本原理
ξ γ γ γ 如果假设 ξ 是方差为1,、 1、 2 、 3 相互独立, 并且假设指标变量被标准化为方差为1的变 X3 量 X 1 , X 2 ,,那么,
cov(X 1 , X 2 ) = cov(a1 ξ , a2ξ ) + cov(γ 1 , γ 2 ) + cov(a1 ξ , γ 2 ) + cov(a 2 ξ , γ 1 ) =a1 a 2 var(ξ ) + 0 + 0 + 0 =a 1 a 2
因子分析的基本原理
解上述方程组,得到一组解为: a1=0.897,a2=0.959,a3=0.803 从而得到三个标准指标Xi与潜在因子以及误差项之 间的关系表达式,即:
X X X
1 2 3
= 0 . 897 ξ + λ 1 = 0 . 959 ξ + λ 2 = 0 . 803 ξ + λ 3
因子分析基本思想
可以说,因子分析是主成分分析的推广,也 是一种把多个变量化为少数几个综合变量的 多变量分析方法,其目的是用有限个不可观 测的隐变量来解释原始变量之间的相关关系。 因子分析主要用于:1、减少分析变量个数; 2、通过对变量间相关关系探测,将原始变量 进行分类。即将相关性高的变量分为一组, 用共同的潜在因子代替该组变量。
因子分析的应用
进行数值分类,构造分类模式。在多变量 系统的分析中,往往需要将系统性质相似的 事物或现象归为一类。以便找出它们之间的 联系和内在规律性。过去许多研究多是按单 因素进行定性处理,以致处理结果反映不出 系统的总的特征。进行数值分类,构造分类 模式一般采用聚类分析和判别分析技术。
因子分析的应用
因子分析基本思想
因子分析法是从研究变量内部相关的依赖关系出发, 把一些具有错综复杂关系的变量归结为少数几个综 合因子的一种多变量统计分析方法。它的基本思想 是将观测变量进行分类,将相关性较高,即联系比 较紧密的分在同一类中,而不同类变量之间的相关 性则较低,那么每一类变量实际上就代表了一个基 本结构,即公共因子。对于所研究的问题就是试图 用最少个数的不可测的所谓公共因子的线性函数与 特殊因子之和来描述原来观测的每一分量。
因子分析的步骤
因子分析常常有以下四个基本步骤:
确认待分析的原变量是否适合作因子分析; 构造因子变量; 利用旋转方法使因子变量更具有可解释性; 计算因子变量得分。
因子分析的步骤
因子分析的计算过程:
将原始数据标准化,以消除变量间在数量级和量纲上的 不同; 求标准化数据的相关矩阵; 求相关矩阵的特征值和特征向量; 计算方差贡献率与累积方差贡献率; 确定因子:设F1,F2,…, Fp为p个因子,其中前m个 因子包含的数据信息总量(即其累积贡献率)不低于 80%时,可取前m个因子来反映原指标;
令 ξ 是影响这三个指标变量的潜在因子。显 然,每个成绩指标变量除了受这个潜在因子 的影响外,可能还受其它因子的影响。把 ξ 以外的影响因子记为 γ ,从数学角度看,它 们之间的关系可以表示为:
x 1 = a 1ξ + γ 1 x 2 = a 2ξ + γ 2 x = a ξ + γ 3 3 3
因子分析基本思想
对于多指标数据中呈现出的相关性,是否存在对这 种相关性起支配作用的潜在变量?如果存在,如何 找出这些潜在因素?这些潜在因素是怎样对原始指 标起支配作用的?这些问题都可以通过因子分析来 解决。 因子分析是一种旨在寻找隐藏在多变量数据中、无 法直接观察到却影响或支配可测变量的潜在因子、 并估计潜在因子对可测变量的影响程度以及潜在因 子之间的相关性的一种多元统计分析方法。
因子分析的应用
在采用多元统计分析技术进行数据处理、建立宏 观或微观系统模型时,需要研究以下几个方面的问 题: 简化系统结构,探讨系统内核。可采用主成分 分析、因子分析、对应分析等方法,在众多因素中 找出各个变量最佳的子集合,从子集合所包含的信 息描述多变量的系统结果及各个因子对系统的影响。 “从树木看森林”,抓住主要矛盾,把握主要矛盾 的主要方面,舍弃次要因素,以简化系统的结构, 认识系统的内核。
第17章 因子分析 章
中国疾病预防控制中心
学习目标
熟悉因子分析的基本思想; 熟悉因子分析的基本原理; 了解因子分析的数学模型; 掌握因子模型的性质以及一些基本概念:公共度和 方差贡献。 熟悉估计因子载荷的分析步骤、因子旋转和因子得 分等; 掌握因子分析的步骤以及FACTOR过程实例。
因子分析基本思想
因子分析基本思想
其基本思想是从分析多变量数据的相关关系人手, 找到支配这种相关关系的少数几个相关独立的潜在 因子,并通过建立起这些潜在因子与原变量之间的 数量关系来预测潜在因子的状态,帮助发现隐藏在 原变量之间的某种客观规律性。因子分析和主成分 分析都能够起到清理多个原始变量内在结构关系的 作用,但主成分分析重在综合原始变量的信息,而 因子分析重在解释原始变量间的关系,是比主成分 分析更深入的一种多元统计方法。
因子分析的基本原理
Fj对各Xi的影响是线性的,再加上其它影响 因子ei,则各Xi与F1、F2的关系可表示为:
X1 X 2 X 3 X 4 X 5 = a11 F1 + a12 F2 + e1 = a 21 F1 + a 22 F2 + e 2 = a 31 F1 + a 32 F2 + e 3 = a 41 F1 + a 42 F2 + e 4 = a 51 F1 + a 52 F2 + e 5
因子分析的基本原理
由于F1、F2与每一个Xi都有关,因此,研究 这5个指标变量之间的关系可以转化为研究这 两个潜在因子之间的关系。因子分析的基本 原理就是依据可测指标变量之间的相关关系, 从中寻找出合理的有实际意义的潜在因子, 并估计出潜在因子对可测指标变量的影响程 度。
因子分析的步骤
因子分析的核心问题有两个:一是如何构造 因子变量;二是如何对因子变量进行命名解 释。因此,因子分析的基本步骤和解决思路 就是围绕这两个核心问题展开的。
从这个关系表达式可以看出这个潜在因子对孩子的 三门课的成绩都有影响,而且,影响程度比较均衡。
因子分析的基本原理
再看下面这组表达式,其中X1-X5是五个指 标变量,它们分别表示收缩压、舒张压、心 跳间隔、呼吸间隔和舌下温度。从医学知识 可知,这5个指标是受自主神经的交感神经和 副交感神经支配的,而交感神经和副交感神 经状态又不能直接测定。用F1、F2分别表示 交感神经和副交感神经这2个因子,则可测指 标Xi是不可测因子Fj的线性函数,
因子分析SAS程序
DATA语句指定要分析的数据集名及一些选项,它 可以是原SAS数据集,也可以是corr、cov、ucorr、 ucov等矩阵。 N用来确定潜在因子个数,该选择项缺省时,系统 N 自动根据“特征值大于1”的原则确定潜在因子个数。 OUT选择项用来保存原变量和因子得分变量,变量 名为factor1,factor2,…。只有使用了N选择项, OUT选择项才能起作用。
因子分析基本思想
相关文档
最新文档