第8讲 因子分析与对应分析

合集下载

因子分析与对应分析

因子分析与对应分析
1 .9 .4
.0 .S 4
.0 .0 .4
专等 总 . 00o总 . 01 中
. 17 总
1. 63 专
. 82 中 . 4 ig总
. 8中
30 总 . 07 专
. 07 中
校人 .9 10r .1 00 .0 52 .5 99
1 .1 62 .0 8 . .3 8
返回
因子分析简单实例输出1
i
a
n
c
e
E
m
E
ig
s
e
n
o
v
f
a
lu
%
m
C
u% uo m
la f
t
uo
iv
la f
e
Co r
Vo t ia T %am a n o r l c t iap % e a no
l cn
5 7.1 463 7 . 8 66 . 47 6
4 63
66
6
9 5.2 337 3 . 7 93 . 99 9
xx32
21 31
f1 f1
22 32
f2 f2
2k 3k
fk fk
e2 e3

xm m1 f1 m2 f2 mk fk em
其中 x1 ~ xm 是对原始变量进行均值为0,标准差为1标准化后的变量。
特性方差V(e)
前k个因子,共性方差为:
k
Vc(xi)
2 ij
j 1
m
Vc(xi)
2 ij
j 1
返回
因子分析菜单
返回标的调查数据进行因子分析为例,本数据是美 国洛杉矶标准大城市统计区中的12个人口调查区的五个经济学变量的数据。

对应分析

对应分析

p12 / p1. p22 / p2. p n 2 / pn .
p1 p / p1. p 2 p / p 2. pnp / pn.
pij n pij E ( ) = ∑ . pi. = p. j , j = 1,2,, p pi. i =1 pi.
因为原始变量的数量等级可能不同,所以为了尽 量减少各变量尺度差异,将行轮廓中的(各列元素) 均除以其期望的平方根.得矩阵D(R)
32 6
15 1
62 8
11 1
40 8
58 6
35 10
58 67
21 23
70 95
17 25
70 71
62 89
83 91
American European Japanese Large Medium Small Family Sporty Work 1 Income 2 Incomes Own Rent Married Married with Kids Single
变量的叉积矩阵
∑ R = (X* )′X* ( p × p)
样品的叉积矩阵
∑ Q = X* ( X* )′ ( n × n)
显而易见,变量和样品的叉积矩阵的阶数不同,一般来说, 显而易见,变量和样品的叉积矩阵的阶数不同,一般来说, 他们的非零特征根也不一样,那么能否将观测值做变换. 他们的非零特征根也不一样,那么能否将观测值做变换.
含义 雪糕 纯水 碳酸饮料 果汁饮料 保健食品 空调 洗衣机 毛毯
代码 Feel1 Feel2 Feel3 Feel4 Feel5 Feel6 Feel7 Feel8
含义 清爽 甘甜 欢快 纯净 安闲 个性 兴奋 高档
name1
product1 product2 product3 product4 product5 product6 product7 product8 feel1 feel2 feel3 feel4 feel5 feel6 feel7 feel8 50 508 55 109 34 11 30 2 368 217 19 142 16 2 4 3

对应分析

对应分析

可见 λk 也是ZZ’的特征根,相应的特征向量是 Zu k
因此将原始数据矩阵X变换成矩阵Z,则变量和 样品的协差阵分别可表示为 A = Z ′Z 和B=ZZ′ ,A和 B具有相同的非零特征值,相应的特征向量有很密 切的关系。 这样就可以用相同的因子轴去同时表示变量 和样品,把变量和样品同时反映在具有相同坐标 轴的因子平面上。

= ∑ z ak z aj
a =1
n
pak − pa. p.k xak − xa. x.k = z ak = pa. p.k xa. x.k
令Z为zij所组成的矩阵,则 A = Z′Z
p1 j 称 p. j
p2 j p. j
L
pnj x1 j = p. j x. j
L
第i个行变量的期望:
E( pij p. j )=∑
j =1 p
pij p. j
. p. j = pi.
因为原始变量的数量等级可能不同,所以为了尽量 减少各变量尺度差异,将列形象中的各行元素均除以 其期望的平方根。得矩阵D(Q)
p11 p.1 p1. p21 D (Q ) = p.1 p2. M p n1 p.1 pn. p12 p.2 p1. p22 p.2 p2. M pn 2 p.2 pn.
X ⋅ X*
*

x11 − x1 x21 − x1 L xn1 − x1 x11 − x1 x12 − x2 L x1p − xp x12 − x2 x22 − x2 L xn2 − x2 x21 − x1 x22 − x2 L x2 p − xp = × M M M M M M x − x x − x L x − x x −x x − x L x − x np p n1 1 n2 2 np p 1p p 2 p p

因子分析与对应分析

因子分析与对应分析

【Analyze】/【Data Reduction】/【Factor】 要求:选入分析变量
(因子分析得变量)
(定义记录旋转条件)
Descriptives:选择需要输出得统计量
要求:输出相关系数矩阵;进行因子分析适用条件得检验
所有变量间得相关系数矩阵 显著性水平
相关系数矩阵得行列式值 KMO 检验和Bartlett球形检验
(统计量)
单变量描述统计量:各分析变量得均值、标准差及观测数 原始分析结果:原变量得公因子方差、与变量相同个数得因子、 各因子得特征根及其所占总方差得百分比和累计百分比
(相关矩阵)
相关系数矩阵得逆矩阵 再生相关系数矩阵
反映像协方差阵和相关阵
Extraction:选择因子提取得方法
要求:输出碎石图
(选择公共因子得提取方法)
相关矩阵 协方差矩阵
(设定公共因子提取标准)
显示未经旋转变换得因子提取结果 显示碎石图,体现各因子重要程度
以特征根大于指定数值为提取标准
自定义提取因子得数量
(收敛时得最大迭代次数)
公共因子的提取方法: (1)主成分分析法(默认); (2)不加权最小二乘法; (3)广义最小二乘法; (4)极大似然法; (5)主轴因子法; (6) 因子法; (7)影像因子法
因子分析与对应分析
第一节 因子分析——【Factor】过程
主成分分析得推广和发展,对观测量数目要求至少就是变量得5倍以上, 且越多越好
一、因子分析简介
• 做什么? 因子分析就是多元统计分析中处理降维得一种统计方法,她主要将 具有错综复杂关系得变量或者样品综合为数量较少得几个因子,以 再现原始变量与因子之间得相互关系。
拒绝原假设,认为各 变量之间不独立

因子分析及对应分析

因子分析及对应分析

2012-12-13 2012-12-13
5 5
在满足以上假定的条件下,就有:
cov( X i , X j ) E (ai F gi )(a j F g j ) ai a j var F ai a j
于是,有
cov( X i , X j ) cov( X i , X k )

aj ak
2012-12-13 2012-12-13
6 6
因为 a i 是一个常数,与 gi 相互独立且 F 与 X i 的方差均被假定为1。 F 于是有 1 ai2 var( gi )
因此,常数a i 的意义就在于其平方表示了公共因子F 解释X i 的方 2 差的比例,因此被称之为因子载荷,而 a i 被称作共同度。 对Spearman的例子进行推广,假定每一门科目的考试成绩都受 到 m个公共因子的影响及一个特殊因子的影响,于是上式就变 成了如下因子分析模型的一般形式:
x* a 1 1 f 1 a 1 2 f 2 a 1 p f p c 1 g 1 1 * x 2 a 2 1 f 1 a 2 2 f 2 a 2 p f p c 2 g2 x* a f a f a f c g , m1 1 m2 2 m p p m m m where E ( f j ) 0 , D( f j ) 1, E ( g i ) 0 , D( g i ) 1
X i ai 1 F1 ai 2 F2 aim Fm gi
2012-12-13 2012-12-13
7 7
X 式中, i为标准化后的第 i 门科目的考试成绩,均值为0,方差为 1。F1 , F2 , , Fm 是彼此独立的公共因子,都满足均值为0,方差 为1。gi为特殊因子,与每一个公共因子均不相关且均值为0。 则ai 1 , ai 2 , , aim 为对第 i 门科目考试成绩的因子载荷。对该模型, 有: 2 2 2

R语言版应用多元统计分析对应分析

R语言版应用多元统计分析对应分析

应用多元统计分析第8章 对应分析- 1-对应分析(Correspondence Analysis)是在因子分析的基础上发展起来的一种视觉化的数据分析方法,目的是通过定位点图直观地揭示样品和变量之间的内在联系。

R型因子分析是对变量(指标)进行因子分析,研究的是变量之间的相互关系;Q型因子分析是对样品作因子分析,研究的是样品之间的相互关系。

但无论是R型或Q型分析都不能很好地揭示变量和样品之间的双重关系。

而在许多领域错综复杂的多维数据分析中,经常需要同时考虑三种关系,即变量之间的关系、样品之间的关系以及变量与样品之间的交互关系。

法国学者苯参次(J.P.Benzecri)于1970年提出了对应分析方法,这个方法对原始数据采用适当的标度化处理,把R型和Q型分析结合起来,通过R型因子分析直接得到Q型因子分析的结果,同时把变量和样品反映到同一因子平面上,从而揭示所研究的样品和变量之间的内在联系。

在因子分析中,R型因子分析和Q型因子分析都是从分析观测数据矩阵出发的,它们是反映一个整体的不同侧面,因而它们之间一定存在内在联系。

对应分析就是通过某种特定的标准化变换后得到的对应变换矩阵Z将两者有机地结合起来。

具体地,就是首先给出变量的R型因子分析的协方差阵 和样品的Q型因子分析的协方差阵 。

由于矩阵 和 有相同的非零特征值,记为 ,如果 的对应于特征值 的标准化特征向量为 ,则容易证明, 的对应于同一特征值的标准化特征向量为当样本容量n很大时,直接计算矩阵 的特征向量会占用相当大的容量,也会大大降低计算速度。

利用上面关系式,很容易从 的特征向量得到 的特征向量。

并且由 的特征值和特征向量即可得到R 型因子分析的因子载荷阵A和Q型因子分析的因子载荷阵B,即有由于 和 具有相同的非零特征值,而这些特征值又是各个公因子的方差,因此设有p个变量的n个样品观测矩阵 ,这里要求所有元素 ,否则对所有数据同时加上一个适当的正数,以使它们满足以上要求。

主成分与因子分析-新版分解

主成分与因子分析-新版分解

x11 x12 x x21 x22
x1 p x2 p =(X1,X2,…,Xp)
xn1 xn2
xnp
则因子分析的一般数学模型为
X1 a11F1 a12 F2 X 2 a21F1 a22 F2 X p ap1F1 ap2 F2
a1m Fm 1
a2m Fm
2
apm Fm
p
矩阵形式为
X AF
F (F1, F2 , , Fm )T 称为公共因子
8.2 因子分析
8.2.1 因子分析的数学模型 1.因子分析的含义 因子分析是主成分分析的推广,它是探讨存在相关关系的 变量之间,是否存在不能直接观测到但对可观测指标的变 化起支配作用的潜在因子(factor)的分析方法。 2.因子分析的基本原理 因子分析就是通过变量的相关系数矩阵内部结构的研究, 找出能控制所有变量的少数几个公共因子去描述多个变量 之间的相关关系,然后根据相关性的大小把变量分组.
这样,二维问题即可以降为一维问题,只取一个综合变量
P1(主成分)即可。
X2
F1
F2
**
*
**
**
**
** θ
X1
相当于在平面上做一个坐标变换,即按逆时针方向旋转角 度θ,根据旋转变换公式,新旧坐标之间有如下关系
P1 X1 cos X 2 sin u11 X1 u12 X 2
P2
X1 sin X 2 cos u21 X1 u22 X 2
u1p X p u2 p X p
u pp X p
若令式中U=(u1,u2,…,up)T, X=(X1,X2,…,XP)T
模型可简写为
P=u1X1+u2X2+…+upXp =UTX

第8讲因子分析与对应分析

第8讲因子分析与对应分析

第8讲因子分析与对应分析因子分析和对应分析是多元统计分析的两个重要方法,可以用于探索和解释多个变量之间的关系。

本文将详细介绍因子分析与对应分析的原理、应用以及在研究中的注意事项。

一、因子分析1.概念与原理因子分析是一种用于降维和检验构念的统计方法,通过分析变量之间的共同变异性,将一组相关变量归纳为几个相互独立的因子。

通过因子分析,可以减少变量的数量,提取出变量集合的共同因素,并进一步应用这些因子进行研究。

2.过程与步骤因子分析的步骤主要包括:确定因子数量、提取因子、旋转因子和解释因子。

首先,需要根据研究的目的和理论基础确定因子的数量;然后,通过主成分分析、最大似然法等方法提取因子;接着,对提取的因子进行旋转,以便更好地解释因子的含义;最后,根据提取和旋转的因子来解释因子的含义和解释力,进行结果的解释。

3.应用与示例因子分析可以应用于研究心理学、社会学、经济学等多个领域。

例如,在心理学中,可以通过因子分析提取出代表不同人格特征的因子,从而研究不同因素对人格的影响。

在市场研究中,可以通过因子分析分析顾客对不同产品特征的偏好,从而为产品定位和市场推广提供参考。

二、对应分析1.概念与原理对应分析是一种描绘和解释两个或多个表格之间关系的统计方法,通过计算表格中元素之间的关联性,找出表格之间的对应关系。

对应分析基于数学原理,可以识别表格中的模式和趋势,并提供对表格元素之间关系的可视化展示。

2.过程与步骤对应分析的过程主要包括:计算对应坐标、分析对应方向和解释对应结果。

首先,通过降维技术(如主成分分析)计算表格中每个元素的对应坐标,即将高维表格转化为低维坐标。

其次,通过对应方向的分析,找出表格之间的对应关系。

最后,根据对应结果,解释表格之间的关联性和趋势。

3.应用与示例对应分析可以应用于研究多个变量之间的关系,如消费者对产品特征的偏好、不同地区的经济发展等。

例如,在市场研究中,可以通过对应分析识别消费者对不同产品特征的偏好,并据此进行市场推广策略。

对应分析 课件讲解

对应分析 课件讲解

行记分(row score) xi和列记分yj的加权均值成 比例, 而列记分yj和行记分xi的加权均值成比 例. 数值r为行列记分的相关(在典型相关的意 义上).
记R=diag(ai.), C=diag(a.i), R1/2= diag(a.i1/2), 则上面式子为
rx=R-1Ay; ry=C-1A’x 或
例子(数据ChMath.txt )
该数据关于汉字读写能力的变量有三个水 平:
“纯汉字”意味着可以完全自由使用纯汉 字读写,
“半汉字”意味着读写中只有部分汉字 (比如日文),
而“纯英文”意味着只能够读写英文而不 会汉字。而数学成绩有4个水平(A、B、C、 D)。
人们可以对这个列联表进行前面所说的c2检验来考 察行变量和列变量是否独立。结果在下面表中 (通过Analyze-Descriptive Statistics-Crosstabs)
类似地,点击Continue之后,把“数学成绩” 选入Column (列),并以同样方式定义其范围 为1到4。
由于其他选项可以用默认值,就可以直接点击 OK来运行了。这样就得到上述表格和点图。
附录 对应分析的数学
因子分析对变量和对样品要分别对待. 对应分 析把变量和样本同时反映到相同坐标轴(因子 轴)的一张图形上. 数学上, 令A=[aij]为n×p矩阵, x=[xi] 为n-(列) 向量, y=[yj] 为p-(列)向量. 那么(r,x,y)称为对 应分析问题C0(A)的解, 如果
Z’Z的特征根为l1≥l2≥…≥lp; Z’Z相应的特征 向量为u1,u2…,up. ZZ’相应的特征向量为 v1,v2…,vn.对最大的m个特征值得因子载荷阵

u11
l1
F

因子分析

因子分析
2
2.1概述
因子分析
因子分析是多元统计分析的一个重要分支。主要目的是浓缩数 据。通过对诸多变量的相关性研究,可以用假想的少数几个变量,来 表示原来变量的主要信息。 因子分析最初是由英国心理学家C.Spearman提出的。目前因子 分析在心理学、社会学、经济学、人口学、地质学、生理学,甚至在 化学和物理学中都得到了成功的运用。它的运用主要有两个方面:一 是寻求基本结构,简化观测系统。通常采用因子分析的方法将为数众 多的变量减少为几个新因子,以再现他们之间的内在联系;二是用语 于分类,将变量或者样本进行分类,根据因子得分值在因子轴所构成 的空间中进行分类处理。
2.3因子模型与主成分模型的区别
请注意因子模型 X1=a11f1+a12f2+…+a1mfm+e1

Xk=ak1f1+ak2f2+…+akmfm+ek
与主成分模型
Y1=b11X1+b12X2+…+b1mXk

Yk=b1kX1+b2kX2+…+bkKXk
之间的区别:公共因子在因子模型等号的右边,主成分在主成分模型等号 的左边。虽然在一定的条件下,等号左右边是可以转换的,但还需注意, 在因子模型中,除了公共因子外,还有特殊因子,也就是说公共因子只解 释了原来变量的部分方差,而主成分解释了原来变量的全部方差。
同理可求出a3,… ,am。
(2)ε 未知,求负载矩阵A的实际方法(事实上我们不知道ε ) 现ε 未知,先用R(X)代替R*(X),按照上面的方法求出对应于 R(X)的最大特征根λ1的、标准化了的(长度为1的)特征向量b1, a1= 1。若R(X)-a1a1t接近对角阵,则说明剩下的 b1

因子分析

因子分析

因子分析专题§8.1 引言因子分析是主成分分析的推广,它也是一种把多个变量化为少数几个综合变量的多元分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。

例8.1.1 Linden 对二次大战以来奥林匹克十项全能比赛的得分做了分析研究,他收集了160组数据,这十个全能项目依次为:100米跑、跳远、铅球、跳高、400米跑、110米跨栏、铁饼、撑竿跳高、标枪、1500米跑。

但是总的来说基本上可归结为他们的短跑速度、爆发性臂力、爆发性腿力和耐力这四个方面,每一个方面都称为一个因子。

用1021,,,x x x 分别表示十个项目的得分,它们可以表示为含有上述四个因子的线性模型:i i i i i i i f a f a f a f a x εμ+++++=44332211,10,,2,1 =i其中4321,,,f f f f 表示4个因子,称为公因子,ij a 称为第i 个变量在第j 个因子上的载荷。

i μ是总平均,i ε是第i 项得分不能被四个公因子解释的部分,称之为特殊因子。

这个模型形式上与线性回归模型几乎一样,但是它们有着本质的区别:回归模型中自变量是可以被观测得到的,而上述因子模型中的4321,,,f f f f 是不可观测的隐变量,这使得该模型理解起来较为困难;再者,两个模型的参数意义也很不相同。

例8.1.2 为了评价高中学生将来进大学时的学习能力,抽了200名高中生进行问卷调查,共50个问题。

所有这些问题可简单地归结为阅读理解、数学水平和艺术修养这三个方面。

这也是一个因子分析模型,每一方面就是一个因子。

例8.1.3 公司老板对48名申请工作的人进行面试,并给出申请人在15个方面所得的分数,这15个方面是:(1)申请信的形式;(2)外貌;(3)专业能力;(4)讨人喜欢的能力;(5)自信心;(6)洞察力;(7)诚实;(8)推销能力;(9)经验;(10)驾驶汽车本领;(11)抱负;(12)理解能力;(13)潜力;(14)对工作要求强烈程度(15)适应性。

因子分析法

因子分析法

因子分析法一、基础理论知识1.概念因子分析(Factor Analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。

从数学角度来看,主成分分析是一种化繁为简的降维处理技术。

主成分分析(Principal Component Analysis):是因子分析的一个特例,是使用最多的因子提取方法。

它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。

选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。

两者关系:主成分分析(PCA)和因子分析(FA)是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。

主成分分析主要是一种探索性的技术,在分析者进行多元数据分析之前,用它来分析数据,让分析者对数据有一个大致的了解,这是非常有必要的。

主成分分析一般很少单独使用:(a)了解数据(screening the data);(b)和cluster analysis(聚类分析)一起使用;(c)和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成分对变量的维度进行简化(reduce dimensionality);(d)在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。

(1)因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各变量的线性组合。

(2)主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。

(3)主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。

因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。

第八章因子分析

第八章因子分析
对 x i 所特有的,即每门课程的考试成绩可以
看作由一个公因子(与智力相一致)和一个特殊 因子之和组成。
例2 考虑人的五个生理指标:收缩压(x 1 ),舒 张压( x 2 ),心跳间隔( x 3 ),呼吸间隔( x 4 ),舌 下温度( x 5 )。从生理学的知识知道这五个指标
是受植物神经的交感神经和副交感神经这两个
(8.1)
神经和副交感神经,那么可以设想变量
xp ap1F1 ap2F2 apmFm p
用矩阵表示:
x1 a11 a12 a1m F1 1
x2
a21
a22
a2m
F2
2
x
p
a
p1
ap2
a
pm
Fm
p
X AF ε
高维空间中的互相垂直的m个坐标
例1
1
2
3
4
5
6
1.古典语 1
2.法语 0.83
1
3.英语 0.78 0.67
1
4.数学 0.70 0.67 0.64
1
5.判别 0.66 0.65 0.54 0.54 1
6.音乐 0.63 0.57 0.51 0.51 0.4 1
表中课程是按照相关系数从上到下递减排列的。 Spearman注意到相关矩阵中一个有趣的规律: 如果不考虑对角元素的话,任意两列的元素大致
Y1 11X1 12X2 Y2 21X1 22X2
1p X p 2pXp
Yp p1X1 p2X2 pp X p
(8.2)
其中, i j 为随机向量 X 的相关矩阵的特征值 所对应的特征向量的分量,因为特征向量之 间彼此正交,从X 到 Y 的转换关系是可逆的, 即有

因子分析

因子分析

正交特征向量:u , u ,, u
* 1 * 2
* p
当特殊因子 i 的方差不为且已知的,问题非常好解决。
12 2 2 R =R 2 p
* u* 1 1 * 2 u2* * p u*p * * p u p
根据公共因子的模型性质,有
第i个变量与第j个公共因子的相关重要性。绝对值越 大,相关的密切程度越高。
x F ij (载荷矩阵中第i行,第j列的元素)反映了
i j
2、变量共同度的统计意义
定义:变量 X i 的共同度是因子载荷矩阵的第i行的元
m 2 素的平方和。记为 hi2 aij。 j 1
D的主对角线上的元素值越小,则公共因子共享的成 分越多。
2、模型不受计量单位的影响
将原始变量X做变换X*=CX,这里 C=diag(c1,c2,…,cn),ci>0。
C(X - μ) = C(AF + ε) CX Cμ + CAF + Cε
X* Cμ + CAF + Cε X* μ* + A*F* + ε*
(一)主成分分析法
1 2 U AA + D Σ = U p
u1 u 2
u1 1 0 u 2 up 0 p u p
1u1u 2u2u mumu m1um1u 1 pupu 1 2 m m p
子空间的转化性质好。
i
3、公共因子F j 方差贡献的统计意义 因子载荷矩阵中各列元素的平方和
2 S j aij i 1 p

对应分析

对应分析
对应分析 (Correspondence Analysis)
对应分析是1970年法国巴黎科学院统计研究室的
Bezecri教授首先提出的,1977年引入国内。对应分析是在
因子分析的基础上发展起来的一种新的因子分析方法。
找出代表性指标,进 行地质成因解释 R—型 研究指标 因子分析 Q—型 研究样品 方法 找出代表性样品,进 行地质作用解释 特征值
因子分析的优点
1、降维,即化多为少,以少代多; 2、浓缩,即把多个指标的分散信息集中到少数几个主因子上;
3、分割,即把具有复杂相关关系的指标分割成各个不同特征的独立类型。
因子分析的缺点
1、割裂 即把R—型与Q—型截然分开,割断了指标与样品间的联系,损
失了一些指标的信息; 2、局限 即对Q—型因子分析,当N很大时,求逆、求特征值都很困难,
1 1
k
p
确定主因子数 K(K=2,3)一般取 K= 2 或 3 即可。
(3)计算因子载荷矩阵; F1 F2 FK x1 u11 1 , u12 2 , , u1k k
x2 u21 1 , u22 2 , , u2 k k F x p u p1 1 , u p 2 2 , , u pk k
p
.l
i.
p l .

i 1
p
p
pi k p. i p k pi l p i.p l . . p p.k pi. p. i. l
i l
Zi kZ
i 1
即: BN N Z N P Z PN
A与B之间存在着简单的对应关系,即认为从Xij 到 Zij 的变换对指标和样品是对等的
x Pi. Pij i. T j 1

对应分析

对应分析

对应分析(Correspondence Analysis)在进行数据分析时,经常要研究两个定性变量(品质变量)之间的相关关系。

我们曾经介绍过使用列联表和卡方检验来检验两个品质变量之间相关性的方法,但是该方法存在一定的局限性。

卡方检验只能对两个变量之间是否存在相关性进行检验,而无法衡量两个品质型变量各水平之间的内在联系。

例如,汽车按产品类型可以分豪华型、商务型、节能型、耐用型,按销售区域可分为华北区、华南区、华中区、华东区、西南区、西北区、东北区。

利用卡方检验,只能检验销售地区与对型的偏好之间是否相关,但无法知道不同地区的消费者到底比较偏好哪种车型。

对应分析方法(Correspondence Analysis)又称相应分析、关联分析,是一种多元相依变量统计分析技术,是对两个定性变量(因素)的多种水平之间的对应性进行研究,通过分析由定性变量构成的交互汇总数据来解释变量之间的内在联系。

同时,使用这种分析技术还可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。

特别是当分类变量的层级数比较大时,对应分析可以将列联表中众多的行和列的关系在低维的空间中表示出来。

而且,变量划分的类别越多,这种方法的优势就越明显。

对应分析以两变量的交叉列联表为研究对象,利用“降维”的方法,通过图形的方式,直观揭示变量不同类别之间的联系,特别适合于多分类定性变量的研究。

对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

它最大特点是能把众多的样品和众多的变量同时作到同一张图上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。

另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。

该统计研究技术在市场细分、产品定位、品牌形象以及满意度研究等领域得到了广泛的运用。

第八章 因子分析地理模型

第八章  因子分析地理模型
R=X*X’ (为方便计,假定标准化处理后的矩阵仍记为X)。
求解R矩阵的特征方程|R-λI|=0,记特征值为
λ1>λ2 …>λp>=0,特征向量矩阵为U,这样有关
系: R=U
λ1 0
λ2 …
U’
0 λp
U为正交矩阵,并且满足U’U=UU’=I
令F=U’X,则得
λ1 0
FF’=
λ2 …
0 λp
F为主因子阵,并且 Fα=U’Xα(α=1,2…n),即每 一个Fα为第α个样品主因子观测值。 在因子分析中,通常只选其中 m(m<p) 个主因子。
浙 江 6149 41.88 6221
2966
37 8721
安 徽 2521 55 6380 51.82 7438
2699
42 8848
1、将原始数据标准化 2、建立六个指标的相关系数阵R 3、共因子方差 4、总方差解建立因子载荷阵: 5、建立因子载荷阵: 由于前三个特征值的累计贡献率已达 93.505%,所以取前三个特征值建立因子 载荷阵如下:
主成分分析从原理上是寻找椭球的所有主轴。因此, 原先有几个变量,就有几个主成分。
而因子分析是事先确定要找几个成分,这里叫因子 (factor)(比如两个),那就找两个。
这使得在数学模型上,因子分析和主成分分析有不少 区别。而且因子分析的计算也复杂得多。根据因子分 析 模 型 的 特 点 , 它 还 多 一 道 工 序 : 因 子 旋 转 ( factor rotation);这个步骤可以使结果更好。
x11 x12……x1n x21 x22……x2n
..
X=
..
..
xP1 xP2……xPn
p表示变量数,n表示样本数。

聚类分析、对应分析、因子分析、主成分分析spss操作入门

聚类分析、对应分析、因子分析、主成分分析spss操作入门
25
软件操作
Scores为计算因子的方法
Save as variables:将因子得分保存在 SPSS变量中,method表示计算因子得分的 方法,Regression—回归法 Display factor score coefficient matix: 输出因子得分系数矩阵
采用聚类方法:系统聚类 K均值聚类
3
系统聚类

参与系统聚类的变量选到Variables(s)中 字符型变量作为标记变量选到Lable Cases by中 Cluster中确定聚类类型,是Q型聚类还是R型聚类

Agglomeration schedule:输出聚类过程表 Proximity matrix:输出个体之间的距离矩阵 Cluster Membership 中 None 表示不输出样本 所属类,Single solution表示当分成n类时各样 本所属类,Range of solutions表示当分成m-n 4 类时各样本属性所属类
基本思想:根据所研究的样本或变量在观测数据上表现的不 同亲疏程度,采用不同的聚类方法将亲疏程度较大的样本/ 变量聚合为一类,把另外一些亲疏程度较大的样本/变量聚 合为一类,直到把所有的样本/变量都聚合完毕,形成一个 由小到大的分类系统 。
聚类方法不同: 聚类对象不同时的聚类类型: 亲疏程度的判定 hierarchical cluster),聚类过程是按 系统聚类:又称为层次聚类( 样本之间的聚类:即Q型聚类分析,常用距离来测度样本之间的亲疏程 照一定层次进行的; 距离:将每一个样本看作p维空间的一个点,并用某种度量测量点与点 度; 之间的距离,距离较近的归为一类,距离较远的点应属于不同的类; 均值聚类( K-means Cluster ); K 变量之间的聚类:即 R型聚类分析,常用相似系数来测度变量之间的亲 相似系数:性质越接近的变量或样本,它们的相似系数越接近于1或一l, 疏程度; 而彼此无关的变量或样本它们的相似系数则越接近于0,相似的为一类,不 相似的为不同类;

对应分析课件.ppt

对应分析课件.ppt

优秀课件,精彩无限!
13
表中的术语
Inertia-惯量, 为每一维到其重心的加权距离的平方。它 度量行列关系的强度。
Singular Value-奇异值(是惯量的平方根),反映了 是行与列各水平在二维图中分量的相关程度,是对行与列 进行因子分析产生的新的综合变量的典型相关系数。
Chi Square-就是关于列联表行列独立性c2检验的c2统 计量的值,和前面表中的相同。其后面的Sig为在行列独立 的零假设下的p-值,注释表明自由度为(4-1)×(3-1)=6, Sig.值很小说明列联表的行与列之间有较强的相关性。
优秀课件,精彩无限!
4
例子(数据ChMath.txt )
该数据关于汉字读写能力的变量有三个水 平:
“纯汉字”意味着可以完全自由使用纯汉 字读写,
“半汉字”意味着读写中只有部分汉字 (比如日文),
而“纯英文”意味着只能够读写英文而不 会汉字。而数学成绩有4个水平(A、B、C、 D)。
虽然对不同数据类型所产生结果的解释有 所不同,数学的原理是一样的。下面通过 对ChMath.txt数据的计算和结果分析来 介绍对应分析。
优秀课件,精彩无限!
10
首先看对应分析结果的一个主要SPSS展示,然后 再解释该图的来源和解释。
运用纯汉字的点和最好的数学成绩A最接近,而不会汉字 只会英文的点与最差的数学成绩F(或者D,虽然在纵坐 标稍有差距)最接近,而优用秀课件部,精彩分无限!汉字的和数学成绩B接11近。
优秀课件,精彩无限!
17
SPSS的实现
打开ChMath.sav数据,其形式和本章开始的 列联表有些不同。其中ch列代表汉字使用的三 个水平;而math列代表数学成绩的四个水平; 第一列count实际上是ch和math两个变量各 个水平组合的出现数目,也就是列联表中间的数 目。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

4、主成分表
列出了所有的主成分,且按照特征根从大到小次序排列。
说明:第一主成分特征根为5.280,方差贡献率为88.001%,前两个主成 分的累计贡献率为94.504%,根据提取因子的条件——特征值大于1, 本例只选出一个因子。
5、碎石图
按照特征根大小排列的主成分散点图。纵坐标为特征值,横坐标为因子数。
8、因子得分的协方差矩阵
反映各因子间的联系程度。
注:本例只提取了一个公共因子,故表格内容无实际意义。
例2 利用因子分析过程分析一年内各个城市的日照情况。 数据文件:“主要城市日照数.sav” 。
【Analyze】/【Data Reduction】/【Factor】 要求:选入分析变量
要求:输出因子分析适用条件的检验
(2)然后,根据相关性(或相似性)的大小把变量(或样品)分 组,使得同组内的变量(或样品)之间的相关性(或相似性)较 高,但不同组的变量相关性(或相似性)较低。
依据处理的对象不同,可以分为两类: R型因子分析,对变量做降维处理 Q型因子分析,对样本做降维处理
•R型因子分析
因子分析的几个概念: • 1、因子载荷
Plots:设置需要输出图形
(输出对应分析图) 双变量散点图
行点图 列点图
限制标签长度
输出各行变量分类对应于行得分的散点图 输出各列变量分类对应于列得分的散点图
(图形维度)
输出分析结果的所有维度 限制输出维度的数目
结果解读:
1、对应分析表
给出不同年龄阶段的人群分别投票给三位总统候选人的人数。
2、结果汇总表
第一节 因子分析——【Factor】过程
主成分分析的推广和发展,对观测量数目要求至少是变量的5倍以上, 且越多越好
一、因子分析简介
• 做什么? 因子分析是多元统计分析中处理降维的一种统计方法,它主要将 具有错综复杂关系的变量或者样品综合为数量较少的几个因子, 以再现原始变量与因子之间的相互关系。
• 基本思想: (1)首先,通过变量(或样品)的相关系数矩阵(或相似系数矩 阵)内部结构的研究,找出能控制所有变量(或样品)的少数几 个随机变量(常称为因子)去描述多个变量(或样品)之间的相 关(相似)关系;
提取一个主成分即可
6、因子负荷矩阵
用来反映各个变量的变异主要由哪些因子解释。
X1 0.977F1 1,L , X 6 0.927F1 6
7、因子得分系数矩阵
得出用各个变量的线性组合表达的主成分。
F1 0.185X1 0.182X 2 0.163X3 0.182X 4 0.178X5 0.176X6
(维度对点惯量的贡献量)
5、对应分析图
首先看同一变量的不同分组在某一侧维度上靠的远近程度,较近表示这些分组在该 维度上区别不大,比如第二维度;然后看不同变量的各分组间的位置,从图形中心 (0,0)出发,相同方位上大致相同的区域内的不同变量的分组彼此有联系。
说明:可看出45~64岁这个阶段的选民都倾向于克林顿,其他的 没有明显的倾向性。
说明:第一主因子主要由前5个 变量决定,第二主因子主要由 中间4个变量决定,第三主因子 主要由最后3个变量决定。
7、因子转换矩阵
旋转前的因子载荷矩阵乘以因子转换矩阵等于旋转后的因子载荷矩阵。
8、因子旋转后的因子载荷图
图中的坐标轴就是各个主因子。
9、因子得分系数矩阵
得到因子得分表达式。
F1 0.195X1 0.229X 2 0.252X 3 L 0.169X12 F 2 0.142X1 0.126X 2 0.048X 3 L 0.100X12 F3 0.081X1 0.015X 2 0.086X 3 L 0.516 X12
6、旋转后因子载荷矩阵
经过正交旋转后的因子载荷矩阵,给出旋转后的各变量的因子表达式。
X1 0.837F1 0.014F 2 0.463F3 X 2 0.882F1 0.013F 2 0.375F3 L X12 0.140F1 0.018F 2 0.913F3
KMO大于0.9时效果最佳,小于0.5时不适宜做因子分析。 Bartlett球形检验用于检验相关系数矩阵是否是单位阵,如果
结论是不拒绝该假设,则表示各个变量都是各自独立的。
3、变量共同度表
给出了提取公共因子前后各变量的共同度(衡量公共因子的相对重要性指标)
该变量95.4%的 信息已经被提取
说明:比如变量X1的共同度位0.954,即提取的公共因子对变量X1的 方差做出了95.4%的贡献。
第三节 最优尺度分析 ——【Optimal Scaling】过程初步认识
【Analyze】/【Dimension Reduction】/【Optimal Scaling】
分析变量中存在无序多分类变量时 (确定是在不同变量间分析还是在几组变量间分析)
(当数据中存在复选集变量时) (分析方法) 多元对应分析 分类变量主成分分析 非线性典型相关分析
第12章 因子分析与对应分析
主成分分析——【Factor】过程
对观测量数目没有严格要求
主成分分析是将多个指标化为少数相互无 关的综合指标的统计方法,通常数学上的处理 就是将原来的p个指标做线性组合,作为新的综 合指标,记第一个综合指标为F1。
选取这个线性组合的原则是令F1的方差最 大,称F1为第一主成分;然后选取第二主成分 F2,且F1与F2的协方差为0,类似构造其余的 主成分。
3、主成分表
说明:第一主成分特征根为6.854,方差贡献率为57.041%,前3个 主成分的累积贡献率为84.421%,根据提取因子的条件——特征值 大于1,本例选出3个因子。
4、碎石图
说明:前3个主成分的特征根都在1以上。
5、因子载荷矩阵
给出各变量的因子表达式。
X1 0.852F1 0.435F 2 0.015F3 X 2 0.854F1 0.419F 2 0.115F3 L X12 0.562F1 0.164F 2 0.715F3
要求:用均值代替缺失值
(选择缺失值处理方法)
因子载荷矩阵和结构矩阵按数值大小排序 不显示绝对值小于指定数的载荷系数
(选择系数的输出方式)
结果解读:
1、相关系数矩阵表
变量间相关性很高
2、 KMO检验和Bartlett球形检验结果表
接近0.9,适合 做因子分析
拒绝原假设,认为 各变量之间不独立
注: KMO检验用于检验变量间的偏相关系数是否过小,一般,
(收敛时的最大迭代次数)
公共因子的提取方法: (1)主成分分析法(默认); (2)不加权最小二乘法; (3)广义最小二乘法; (4)极大似然法; (5)主轴因子法; (6) 因子法; (7)影像因子法
Rotation:选择因子旋转的方法
方差最大化正交旋转 斜交旋转法
(因子旋转的方法)
四分旋转法 平均正交旋转法 斜交旋转法
当一些变量为有序分类或者连续性变量时使用,该方法使用主成分 提取方式,以尽量稍等主成分解释尽量多的原始信息。
输出主成分转换矩阵
(设置旋转解的输出)
输出二维或三维的因子载荷图
Factor Scores:因子得分
要求:输出因子得分系数矩阵
回归法 巴特列特法 安德森-鲁宾法
(在数据文件中建立一个新变量,用于保存各观测量的因子得分) (因子得分计算方法)
(输出因子得分系数矩阵及因子协方差矩阵)
Options对话框
(相关矩阵)
相关系数矩阵的逆矩阵 再生相关系数矩阵
反映像协方差阵和相关阵
Extraction:选择因子提取的方法
要求:输出碎石图
(选择公共因子的提取方法)
相关矩阵 协方差矩阵
(设定公共因子提取标准)
显示未经旋转变换的因子提取结果 显示碎石图,体现各因子重要程度
以特征根大于指定数值为提取标准
自定义提取因子的数量
要求:输出碎石图
要求:输出因子得分系数阵
要求:采用方差最大化正交旋转;输出因子载荷图
结果解读:
1、 KMO检验和Bartlett球形检验结果表
说明: KMO检验结果为0.798,大于0.5,比较适合作因子分析; Bartlett球形检验的Sig.值为0,各变量不独立。
2、变量共同度表
说明:变量“Jan”的共同度为0.915,即选取的公共因子提取了变量 “Jan”91.5%的信息。
Descriptives:选择需要输出的统计量
要求:输出相关系数矩阵;进行因子分析适用条件的检验
所有变量间的相关系数矩阵 显著性水平
相关系数矩阵的行列式值 KMO 检验和Bartlett球形检验
(统计量)
单变量描述统计量:各分析变量的均值、标准差及观测数 原始分析结果:原变量的公因子方差、与变量相同个数的因 子、各因子的特征根及其所占总方差的百分比和累计百分比
列出维数、奇异值(惯量的平方根)、惯量(又指特征根)、总的卡方检验及Sig.值
维数
奇异值
特征根 总的卡方检验
注:惯量用于说明对应分析各个维度的结果能够解释列联表中两个变量 联系的程度。
说明:表中两个维度分别解释了总信息量的99.6%和0.4%,说明二维 图形完全可以表示两个变量间的信息,且观察时以第一维度为主。
Model:模式子对话框
(设置分析结果维数) (选择距离测量方式) 卡方距离 欧氏距离,主要用于连续变量
(变量的标准化方式)
对称法(默认)
(正则化方法)
Satistics:设置需要输出的统计量
输出对应分析表(列联表) 输出行点概述表 输出列点概述表 指定的前n个维度输出基于行列得分的原始表格
输出行轮廓表 输出列轮廓表 (输出行点和列点的标准差、以及各维度坐标间的相关系数)
例2 利用简单对应分析过程分析不同年龄段选民的倾向。 数据文件:voter.sav
相关文档
最新文档