第六章 因子分析 (2)
因子分析 PPT课件
同时假定随机向量 X 满足以下模型: X 1 a11F1 a12 F2 a1m Fm 1 X a F a F a F 2 12 1 22 2 2m m 2 X p a p1 F1 a p 2 F2 a pm Fm P 则称模型(3.1)为正交因子模型。
设 X ( X1 , X 2 ,
E( F ) 0 , Cov( F ) I m (即 F 的各分量方差为 1,且互不相关) 。又设 (1, 2 , , p ) 与 F 互不相关,且
2 E ( ) 0 , Cov( ) diag(12 ,2 , 2 , p )。
之因子分析
SPSS软件
• 因子分析(Factor Analysis)是多元统计 分析中处理降维问题的一种重要方法。变 量的共线性很多是都对分析结果具有显著 的影响。所谓降维,就是独钓共线性,剩 下的,或者合并的都是线性无关的,或者 正交的,或者垂直的。
一、什么是主成分分析和因子分析?
• 主成分分析(Principal Components Analysis)也是多元统计分析中简化数据 结构(降维问题)的一种重要方法。简化 数据结构是指将某些较复杂的数据结构通 过变量变换等方法使相互依赖的变量变成 互不相关的;或把高维空间的数据投影到 低维空间,使问题得到简化而损失的信息 市的实证 设施建设情况。
案例1
• 中国统计年鉴,2005,各地区城市市政设施数据。 变量有: • City—城市名称; • X1—年末实有道路长度(公里); • X2—年末实有道路面积(万平方公里); • X3—城市桥梁(座); • X4—城市排水管道长度(公里); • X5—城市污水日处理能力(万立方米); • X6—城市路灯(盏);
第六章 因子分析
k 1 m m
= Cov( = aij
a
k 1
ik
Fk , Fj ) Cov( i , Fj )
如果对 X i 作了标准化处理, X i 的标准差为 1,且 Fj 的标准差 为 1,因此
rX i , Fj
m * ij
i j i j
i, j 1, 2,, p
(6.10) 我们知道 A 的解是不唯一的,可以有许多。这种方法要求得 到的解使得第一公共因子 F1 对 X 的贡献 g1
2
ai2 达到最 1
i 1
p
大,第二共因子 F2 对 X 的贡献 g 2
2
ai22 达到次之, ,
第一,变量 X 的协差阵 Σ 的分解式为
D( X ) D( AF ε) E[( AF ε)( AF ε)] AE (FF ) A AE (Fε) E (εF ) A E (εε) AD(F ) A D(ε )
由模型(6.2)式所满足的条件知
第六章 因子分析
第一节
引言
一般认为因子分析是从Charles Spearman在 1904年发表的文章《对智力测验得分进行统 计分析》开始,他提出这种方法用来解决智 力测验得分的统计方法。目前因子分析在心 理学、社会学、经济学等学科中都取得了成 功的应用,是多元统计分析中典型方法之一 。
因子分析(factor analysis)也是一种降维、 简化数据的技术。它通过研究众多变量之间 的内部依赖关系,探求观测数据中的基本结 构,并用少数几个“抽象”的变量来表示其 基本的数据结构。这几个抽象的变量被称作 “因子”,能反映原来众多变量的主要信息 。原始的变量是可观测的显在变量,而因子 一般是不可观测的潜在变量。
第六章 因子分析
2
4
6
8
10 t
12
14
16
18
20
主因子的概念
如果对m个原变量(x1, x2,…, xm)进行n次观测,则各主成分的时间序列可表示为:
x11 x Y LT X LT 21 xm1 x12 ... x1n y11 y x22 ... x2 n = 21 xm 2 ... xmn ym1 y12 ... y1n y22 ... y2 n ym 2 ... ymn
第1主成分y1 第2主成分y2 第m主成分ym
主成分的方差,即X的协方差阵的特征值,按照y1、y2、…、ym的顺序从大到小进 行排列。 为了分析各主成分对原变量的作用、研究原变量与各主成分的关系:
对各主成分进行标准化,使它们的方差都等于1,这时的主成分称为“主因子”。
第i个主因子就是第i个主成分yi的标准化,记为fi, 有:
为了提高因子的利用率,需要将公共信息与独立信息尽可能地分离开来,以
便采取公共信息作为新的因子变量(少于原变量的个数m)建立预报方程,从而 达到减少误差,提高预报准确率的效果。 简言之,从数量较多的因子变量中分离出数量较少的新因子,并分析原变量 与各个新因子之间的关系,这称为“因子分析”。
例: x1和x2两个变量,存在相关性,寻找它们的共同信息和独立信息,并分离。 对x1和x2做了20次观测, 如右图所示20个散点,两样本的相关系 数为0.92。 可见,第一主成分y1可以表征x1和x2的共同的成分; 所以因子分析与主成分分析(或经验正交函数分解)有密切联系。
2因子分析
775.8
0.82
2410.05
2295.19
1.1496
62.8
14
江西
1103.2
1.3
2310.98
1804.93
0.6649
59.9
15
山东
2475.1
1.44
3109.11
1989.53
0.8809
55
16
河南
2815.8
1.5
3782.26
1508.36
0.5823
58.5
17
湖北
1296.5
11559.83
1257.71
0.4349
70.4
26
陕西
1046.1
2.6
2228.55
1091.96
0.4383
59.7
27
甘肃
672
5.86
2879.36
1037.12
0.4883
57.2
28
青海1Biblioteka 7.12.626725.11
1133.06
0.4096
70.3
29
宁夏
139.1
4.01
5607.97
X5
-0.9089 0.3057 -0.0356 0.9210
X6
0.9086 0.0296
0.192
0.8634
用统计学术语叫权重表示x的分量cov的共同度共同度公共因子方差剩余方差变量共同度的统计意义变量共同度的统计意义因子载荷据阵a中各列元素的平方和记为表示第j个因子对所有分量的总影响称为第j因子对x的贡献它是衡量第j个因子相对重要性的指标公共因子公共因子ffjj方差的统计意义方差的统计意义因子载荷阵的估计方法因子载荷阵的估计方法主成分法主因子法极大似然法则协差阵可分解为其中分量a和d就是因子模型的一个解a中的第j中的第j个主成分的系数相差一个倍数
第六章 温度因子分析
不同生态系统生产力
化,形成与此相应的植物发育节律,称为物候。 • 植物发芽、生长、现蕾、开花、结实、落叶、 休
眠等生长发育阶段的开始和结束称为物候期。 • 植物物候具有稳定性,可以用来指导林业生产。
影响物候的因素
• 纬度、经度和海拔 • 霍普金斯通过研究发现: • 在北美洲温带,每向北移动纬度1度,或向
东移动经度5度,或海拔上升124m,植物 在春天和初夏 物候会延迟4天。这一规律称 为霍普金斯定律。 • 南京和北京,纬度相差6度,桃、李开花 间 差19天;但到4、5月间,两地物候相差9天。
二、关于温度的一些生态概念
• (一)三基点温度 • 最适温度:生物生长发育或生理活动得以
正常进行的温度范围。 • 最低温度和最高温度:植物生长发育和生
理活动的低温和高温限度。 • 合称为三基点温度。
• (二)积温: 积温既能说明某一地区的热 量条件,又能说明生物各生长发育阶段或 整个生长期所需要的热量条件。
• *昼夜变温与种子萌发
•
有一些植物的种子在变温下萌发良好。
低温有利于增加氧在细胞中的溶解度;提
高透性。
• 昼夜变温与生长发育 • 较低的夜温和适宜的昼温对植物生长、开花、结
实和物质的贮藏有利。 • 云南松林:1000m 3/ha。 • 波密云杉林:2000m 3/ha。 • (二)物候 • 季节明显地区,植物适应于气候条件的节律性 变
第六章因子分析
第六章因子分析第六章因子分析§6.1因子分析的基本原理与模型一、因子分析的基本思想基本思想:根据相关性的大小将变量分组,使得同组内变量间的相关性较高,不同组间的相关性较低。
每组变量代表一个基本结构,并用一个不可观测的综合变量形式表示,这个基本结构成为公共因子。
此时的原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。
目的:从一些有错综复杂的问题中找出几个主要因子,每个主要因子代表原始变量间相互依赖的一种作用。
二、因子分析的基本模型常用的因子分析模型:R型因子分析和Q 型因子分析(一)R型因子分析模型R型因子分析是对变量作因子分析。
R型因子分析中的公共因子是不可直接观测但又客观存在的共同影响因素,每一个变量都可以表示成公共因子的线性函数与特殊因子之和,即:其中:称为公共因子,称为的特殊因子矩阵表达式:且满足:(1)(2),即公共因子与特殊因子是不相关的(3),即各公共因子不相关且方差为1(4),即各个特殊因子不相关,方差不要求相等模型中称为因子载荷,是第个变量在第个因子上的负荷,如果把变量看成维空间中的一个点,则表示它在坐标轴上的投影,因此矩阵称为因子载荷矩阵。
(二)Q型因子分析Q型因子分析是对样品作因子分析。
模型同上注:主成分分析与因子分析的区别主成分分析的数学模型本质上是一种线性变换,是将原始坐标变换到变异程度大的方向上去,相当于从空间上转换观看数据的的角度,突出数据变异的方向,归纳重要信息。
因子分析与主成分分析一样都属降低变量维数的方法。
但因子分析的本质是从显在变量去“提炼”潜在因子的过程。
模型中应注意的问题:(1)变量的协方差阵的分解式为即(2)因子载荷不是唯一的。
三、因子载荷阵的统计意义(一)因子载荷的统计意义对于因子模型可知的协方差若对作标准化处理,的标准差为1,且的标准差为1则(相关系数)综上可知:对于标准化后的,是的相关系数,一方面表示的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量对公共因子的相对重要性。
《因子分析》PPT课件 (2)
24.12.2020
精选PPT
8
输出结果及其解释
这是用主成分分析法提取初始公因子的第1部分
结果,相关矩阵的特征值总和为4(指标数),前
2个特征值1.718252和1.093536都大于1,下面将
根据这2个较大的特征值提取2个相应的初始
公因子。
24.12.2020
精选PPT
9
含有2个公因子的初始公因子模型为:
24.12.2020
精选PPT
11
24.12.2020
精选PPT
12
经最大方差旋转法旋转后的因子模型为:
x1= 0.87226G1+0.30149G2
x2= 0.94758G1-0.08748G2 x3=-0.09851G1+0.94739G2
x4= 0.13687G1+0.35848G2 旋转后的第1和第2公因子能解释的方差 分别为1.687177和1.124611;4个标准化指标共 性之和以及它们各自的共性估计值与旋转前相 同。
精选PPT
28
(3)转轴法:正交转轴法(最大变异法,VARIMAX
ROTATION) Rotation Method:Varimax
转换矩阵
1 2
Orthogonal Transformation Matrix
1
2
0.74346
0.66878
-0.66878
0.74346
24.12.2020
精选PPT
置置所h有2i为的在h20i =与11;之间服
⑤SMC[S] 相关系数的平均。
置h2i为xi与其他指标之间全
24.12.2020
精选PPT
5
第六讲因子分析
第六讲因⼦分析第五讲因⼦分析在许多实际问题中,涉及的变量众多,各变量间还存在错综复杂的相关关系,这时最好能从中提取少数综合变量,这些综合变量彼此不相关,⽽且包含原变量提供的⼤部分信息。
因⼦分析就是为解决这⼀问题提供的统计分析⽅法。
以后,如⽆特别说明,都假定总体是⼀个p维变量:它的均值向量,协⽅差矩阵V=(ij)pp都存在。
第⼀节正交因⼦模型1.1 公共因⼦与特殊因⼦从总体中提取的综合变量:F1, F2, … , F m(m于是,我们有:变量X i的信息=公共因⼦可以表达部分公共因⼦不可表达部分这就是所谓因⼦模型。
⽬前,公共因⼦可以表达的部分由公共因⼦的线性组合表⽰。
即上⾯的因⼦模型可以写成以下的形式:1.2 正交因⼦模型设总体,均值向量,协⽅差矩阵。
因⼦模型有形式:其中m如果引⼊以下向量与矩阵:则因⼦模型的矩阵形式为:对于正交的因⼦模型,还要进⼀步要求:z1. 。
即有:公共因⼦是互相不相关的。
z2. 。
即:特殊因⼦和公共因⼦不相关。
1.3 因⼦载荷矩阵1.矩阵A称为因⼦载荷矩阵(component matrix),系数a ij称为变量X i在因⼦F j上的载荷(loading)。
由于特别,如果总体是标准化的,则有Var(X i)=1,从⽽有:于是:即变量X i在公共因⼦F j上的载荷a ij就是X i与F j的相关系数。
2.载荷矩阵的估计:主成分法。
主成分法是估计载荷矩阵的⼀种⽅法,由于其估计结果和变量的主成分仅相差⼀个常数倍,因此就冠以主成分法的名称。
在学到这⾥的时候,不要和主成分分析混为⼀谈。
主成分法是SPSS系统默认的⽅法,在⼀般情况下,这是⽐较好的⽅法。
以数据“应征⼈员”为例,按特征值⼤于1提取公共因⼦。
在⽤不同⽅法获得因⼦载荷时,公共因⼦对总体⽅差的贡献率以主成分法为最⾼:⽅法贡献率 %Principle components 81.476Maximum likelihood74.304Unweighted least squares74.485Principal axis factoring74.462Alpha factoring74.540Image factoring69.365关于主成分法的内容可参看任何⼀本多元统计分析书,例如:《应⽤多元统计分析》,⾼惠璇著,北京⼤学出版社,p301。
第六章 因子分析
9
寻找基本结构
在多元统计中,经常遇到诸多变量之间存在强相关的问题,它 会对分析带来许多困难。通过因子分析,可以找出几个较少的有实
际意义的因子,反映出原来数据的基本结构。
例如:调查汽车配件的价格中,通过因子分析从 20 个指标中概 括出原材料供应商、配件厂商、新进入者、后市场零部件厂商、整 车厂和消费者6个基本指标。从而找出对企业配件价格起决定性作用 的几个指标。
本包含了原来变量的所有信息。
12
主成分分析的数学模型
13
主成分分析与因子分析公式上的区别
y1 a11 x1 a12 x2 a1 p x p
主成分分析
y2 a21 x1 a22 x2 a2 p x p y p a p1 x1 a p 2 x2 a pp x p
由于umn为随机向量X的相关矩阵的特征值对 应的特征向量的分量,特征向量之间彼此正交, 实际上从X到F的转换关系是可逆的,即:
x1 11 F1 21 F2 p1 Fp x2 12 F1 22 F2 p 2 Fp x F F F 1p 1 2p 2 pp p p
1、因子分析的核心:用较少的、相互独立的因 子反映原有变量的绝大部分信息。 因子分析的数学模型:设有p个变量,每个变量 的均值为0,标准差为1。将每个原有变量用k个 (k<p)因子f1,f2,…,fk 的线性组合表示,即
x1 a11 f1 a12 f 2 a1k f k 1 x2 a21 f1 a22 f 2 a2 k f k 2 x p a p1 f1 a p 2 f 2 a pk f k p
第6章因子分析m
m
hi2 ui2j j 1
i 1,2,, n 24
• Q型因子分析模型与R型因子分析模型的差 异体现在X1,…,Xn表示的是n个样品。
• 因子分析的目的就是通过模型X=UF+ε,以 F代替X,由于一般都要求m<p,m<n,从而 达到简化变量维数的目的。
25
• 注:在因子分析中,因子载荷阵是不唯一的。 • 证明:
若T为任意一个m m阶正交矩阵,令U * UT,F * T F,
34
可看出,公因子F1与变量X1,X2,X5关系密 切,它主要代表了这些变量的信息;公因子F2与变 量X3,X4关系密切,它主要代表了这两个变量的 信息。
35
4、变量共同度hi2 ——U的行元素平方和
变量共同度也称为公共方差(公因子方差),指观
测变量方差中由公因子决定的比例,也即原始变量Xi对
公因子依赖的程度。
• 例:五个观测变量,两个公因子的模型: X1 0.9562F1 0.2012F2 1 X 2 0.8735F1 0.2896F2 2 X 3 0.1744F1 0.8972F2 3 X 4 0.5675F1 0.7586F2 4 X 5 0.8562F1 0.3315F2 5
的公共因素,每个公因子Fj (j=1, …,m)假定至少对
两个原始变量有作用(有贡献),否则它将归入特殊 因子。
29
公因子是相互独立的不可观测的理论变 量(之所以称其为因子,是因为它是不可观 测的,即不是具体的变量,与前面的聚类分 析不同)。公共因子的含义,必须结合具体 问题的实际意义而定。
30
06-第六章因子分析
第六章 因子分析一.基本原理因子分析(Factor anslysis )是用来分析隐藏在表象背后的因子作用的一类统计模型与方法。
起源于心理度量学(Phsycholometrics ),在方法上与主成分分析有密切联系。
因子分析一般有两个用途,一是通过寻求变量的基本结构,对变量进行简化;二是通过因子得分,在因子轴构成的空间中将变量或者样品进行分类。
1.正交因子模型设x 为一个p 维可观测随机向量,假定x 受到m 个不可观测的随机因子的控制,称这m 个影响x 的因子为公共因子,若m 维随机向量f 对x 的影响是线性的,则x 与f 之间的关系可用下述模型来表述:x Lf με=++其中μ为P 维常向量,表示X 的均值;L 为p m ⨯维常数阵,L 的第I 行表示公共因子f 对X 第I 个分量i x 的影响系数;ε为P 维随机变量,表示X 中与f 无关的那一部分,称为特殊因子。
其中f 和ε都是不可观测的,假定它们满足下列条件 (1)f 和ε相互独立 (2)()0,()m E f V f I ==(3)()0,()E V εε==ψ,其中ψ(psai)为对角阵。
由于()m V f I =,即各因子之间不相关,这样的模型便称为正交因子模型。
在正交因子模型中,公共因子f 对X 的各分量都起作用,而特殊因子ε的第I 个分量只对X 的第I 个分量起作用。
L 称为载荷阵(Loading Matrix )。
如果对X 进行标准化处理,则μ为0,原式化为x Af ε=+。
A 为载荷阵。
X 的方差是由载荷阵和特殊因子的方差构成的。
即()Var X AA '=+ψ。
2.因子分析与其他多元分析方法的区别与多元回归的区别:因子分析中,各个公共因子是虚拟的,本身是未知量。
与主成分分析的区别:主成分分析本质上是一种变量变换,而因子分析则是构造出一组新的因子来对原变量进行解释。
二.计算模型1.因子载荷的含义假定在因子分析模型中,对各变量及公共因子、特殊因子均进行了标准化处理。
因子分析PPT课件
3. 公共因子的方差贡献:是某公共因子对所有原变量载荷的平方和, 它
反映该公共因子对所有原始总变异的解释能力,等于因子载荷矩阵中某 一列载荷的平方和。一个因子的方差贡献越大,说明该因子就越重要。
2024/6/2
15
★ 确定公因子数目的准则
1)因素的特征值(Eigenvalues)大于或等于1;
2)因素必须符合陡阶检验(Screen Test),陡阶检
仅仅是为了化简、浓缩数据,则采用正交旋转(保持
直角90度,不允许公因子相关)。如果研究的目的是
为了得到理论上有意义的研究结果,则采用斜交旋转。
(不呈90度,允许公因子相关;有证据表明公因子之
间是相关的才用)
旋转之后,特征值发生变化,但共同度不变
2024/6/2
18
第六步:单击Scores按纽,弹出对话框
输出旋转后的 因子载荷矩阵
2024/6/2
输出载荷散点图17
★ 因子旋转
为了更好地解释因子分析解的结果,常常需要将
因子载荷转换为比较容易解释的形式(相当于相机的
调焦,使看得更清楚;一般会使各因子对应的载荷尽
可能地向0和1两极分化)。
常用的方法有正交旋转(varimax procedure)
和斜交旋转(oblique rotation),如果研究的目的
2024/6/2
1
二、因子分析思想与方法的由来
● 英国统计学家Scott 1961年对英国157个 城镇发展水平进行调查时,原始测量的变量有57 个,而通过因子分析发现,只需要用5个新的综 合变量(它们是原始变量的线性组合),就可以 解释95%的原始信息。
● 美国统计学家Stone在1947年研究国民经
6第六章因子分析
2013年7月17日星期三
化学与环境科学学院
24
5.1因子分析简介
• 主成分分析和因子分析的区别、联系与适用场合
通过因子分析得来的新变量是对每一个原始变量进行内部剖析。 因子分析不是对原始变量的重新组合,而是对原始变量进行分 解,分解为公共因子与特殊因子两部分。即因子分析就是要利 用少数几个公共因子去解释较多个要观测变量中存在的复杂关 系,它把原始变量分解为两部分因素,一部分是由所有变量共 同具有的少数几个公共因子构成的,另一部分是每个原始变量 独自具有的因素,即特殊因子。
(m p)
X 1 1 11 12 1m F1 1 X 22 2 m F2 2 2 2 21 或 X p p p1 p 2 pm Fm p
• 因子分析注意事项:
2013年7月17日星期三
化学与环境科学学院
17
5.1因子分析简介
• 因子分析注意事项:
2013年7月17日星期三
化学与环境科学学院
18
5.1因子分析简介
• 因子分析注意事项:
2013年7月17日星期三
化学与环境科学学院
19
5.1因子分析简介
• 因子分析注意事项:
2013年7月17日星期三
2013年7月17日星期三
化学与环境科学学院
30
5.1因子分析简介
2013年7月17日星期三
化学与环境科学学院
31
第五节 因子分析
第六章因子分析
§6.1.1 因子分析的基本思想
因子分析还可用于对变量或样品的分类处理,我们在得出 因子的表达式之后,就可以把原始变量的数据代入表达式 得出因子得分值,根据因子得分在因子所构成的空间中把 变量或样品点画出来,形象直观地达到分类的目的。
因子分析不仅仅可以用来研究变量之间的相关关系, 还可以用来研究样品之间的相关关系,通常将前者称之 为R 型因子分析,后者称之为Q 型因子分析。我们下面 着重介绍R型因子分析。
第六章 因子分分析
•§6.1 因子分析的基本理论 •§6.2 因子载荷的求解 •§6.3 因子分析的步骤与逻辑框图 •§6.4 因子分析的上机实现
第六章 因子分分析
因子分析(factor analysis)模型是主成分分析的 推广。它也是利用降维的思想,由研究原始变量相关 矩阵内部的依赖关系出发,把一些具有错综复杂关系 的变量归结为少数几个综合因子的一种多变量统计分 析方法。相对于主成分分析,因子分析更倾向于描述 原始变量之间的相关关系;因此,因子分析的出发点 是原始变量的相关矩阵。因子分析的思想始于1904年 Charles Spearman对学生考试成绩的研究。
1。F1, F2 ,, Fm 是彼此独立的公共因子,都满足均值为0,方差 为1。ei为特殊因子,与每一个公共因子均不相关且均值为0。
则ai1, ai2 ,, aim为对第 i门科目考试成绩的因子载荷。对该模型,
有: var( X i ) ai21 ai22 ai2m var(ei ) 1 (6.5)
121
cov(ε)
Σ
2 22
0 ห้องสมุดไป่ตู้
0
2 pp
第6章--因子分析
第6章--因子分析第六章因子分析一、填空题1. 因子分析常用的两种类型为 ____________ 和 ___________ 。
2. 因子分析是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现______________ 与____________ 间的相互关系。
3•因子分析就是通过寻找众多变量的______________ 来简化变量中存在的复杂关系的一种方法。
4 •因子分析是把每个原始变量分解成两个部分即____________ 、。
5 •变量共同度是指因子载荷矩阵中__________________________ 。
6 •公共因子方差与特殊因子方差之和为________ 。
7.求解因子载荷矩阵常用的方法有______________________ 和________________ &常用的因子旋转方法有 ____________________ 和__________________ 。
9. Spss中因子分析采用__________________ 命令过程。
10•变量X i的方差由两部分组成,一部分为 ___________ ,另一部分为__________二、判断题1. 在因子分析中,因子载荷阵不是唯一的。
()2. 因子载荷阵经过正交旋转后,各变量的共性方差和各个因子的贡献都发生了变化。
()3. 因子分析和主成分分析的核心思想都是降维。
()4.因子分析有两大类,R型因子分析和Q型因子分析;其中R型因子分析是从变量的相似矩阵出发,而Q型因子分析是从样品的相关矩阵出发。
()5. 特殊因子与公共因子之间是相互独立的。
()6. 变量共同度是因子载荷矩阵列元素的平方和。
()7. 公共因子的方差贡献是衡量公共因子相对重要性指标。
()8. 对因子载荷阵进行旋转的目的是使结构简化。
()三、简答题1.因子分析的基本思想是什么,它与主成分分析有什么区别和联系?2 •因子模型的矩阵形式UF ,其中:F F1, ,F m 1, , P U U ij pm请解释式中F、、U的统计意义。
06 第六章 R-Q型因子分析
+
x
2 j
n
∑ j =1
(xij − x j ) 2
i =1
k =1,2,…,n
(6.6)
∑ hLL
=
m
x
2 Lj
−
2x j xLj
+
x
2 j
n
∑ j =1
(xij − x j ) 2
i =1
且
L=1,2,…,n
(6.7)
∑ ∑ hkk + hLL − 2hkL =
m
xk2j
− 2xLj xkj
+
x
(6.4)
1
∑ ∑ hkL =
m
(xkj − x j )(xLj − x j ) = n
m
xkj xLj
− x j xkj
n
−
x j xLj
+
x
2 j
k,L=1,2,…,n
∑ j=1
(xij − x j )2
j =1
∑ (xij − x j )2
i =1
i =1
(6.5)
∑ hkk
=
m
xk2j
− 2x j xkj
从R型因子分析的结果可知,本例取公因子数p为 2 时,提取了原始信息的约 92%,故 在二维因子空间中样品点与变量点的关系基本反映了原始关系,损失信息约为 8%。以f1、 f2为纵横坐标,将表 5-2 中各变量点,表 6-1 中各样品点投于f1-f2因子空间可得图 6-1。
4
图 6-1 25 个沉积物样本 6 个变量的 R-Q 型分析图
为叙述方便,我们将前一种方法称为 R-Q 型因子分析,后一方法称为对应分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章主成分分析
clear
set more off
cd
"C:\Users\zhou\OneDrive\Lectures_ebook\multivariate_statistics\labora tory\03principal"
use data
*定义变量的标签
label var area "省份"
label var x1 "GDP(亿元)"
label var x2 "居民消费水平(元)"
label var x3 "固定资产投资(亿元)"
label var x4 "职工平均工资(元)"
label var x5 "货物周转量(亿吨公里)"
label var x6 "居民消费价格指数(上年100)"
label var x7 "商品零售价格指数(上年100)"
label var x8 "工业总产值(亿元)"
describe
sum
corr
//findit factortest
//ssc install factortest
//check the data
factortest x1-x8
pca x1-x8, correlation /*主成分估计*/
pca x1-x8, covariance component(3) /*主成分估计*/
//test
estat kmo /*KMO检验,越高越好*/
estat smc /*SMC检验,值越高越好*/
screeplot /* 碎石图(特征值等于1处的水平线标示保留主成分的分界点)*/ loadingplot , yline(0) xline(0)/*载荷图 */
loadingplot , combined factors(3) yline(0) xline(0)/*载荷图 */
predict f1 f2 f3 /*预测变量得分*/
scoreplot,mlabel(area) yline(0) xline(0) /*得分图*/
scoreplot,xtitle("经济社会总量") ytitle("人民生活水平") mlabel(area) yline(0) xline(0) /*得分图*/
scatter f2 f3,xtitle("人民生活水平") ytitle("物价水平") mlabel(area) yline(0) xline(0) /*得分图*/
scoreplot, factors(3) mlabel(area) /*得分图*/
scoreplot,combined factors(3) mlabel(area) yline(0) xline(0) /*得分图*/
//ranking by score
describe f1-f3
sort f1 //sorting
gen rank_nature=_n //ranking
browse area f1 rank_nature // show dat
gsort -f1 //generalized sorting
gen rank_nature1=_n //ranking
browse area f1 rank_nature rank_nature1 // show dat
cor x1-x8
matrix CM=r(C) //define covariance matrix
pcamat CM, comp(3) n(1000) names(a1 a2 a3 a4 a5 a6 a7 a8)
//rotate /*旋转*/。