SPSS软件中对应分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

对应分析
当A 与B 的取值较少时,把所得的数据放在一张列联表中,就可以很直观的对A 与B 之间及它们的各种取值之间的相关性作出判断,当ij P 较大时,则说明属性变量A 的第i 状态与B 的第j 状态之间有较强的依赖关系.但是,当A 或者B 的取值比较多时,就很难正确的作出判断,此时就需要利用降维的思想简化列联表的结构.
几个基本定义:
我们此处讨论因素A 有n 个水平，因素B 有p 个水平。

行剖面：当变量A 的取值固定为i 时（i=1，2，…，n ），变量B 的各个状态相对出现的概率情况，即：可以方便的把第i 行表示成在p 维欧氏空间中的一个点，其坐标为：
)
,,,(..2
.1i ip i i i i r
i
p p p p p p p = ，i=1，2，… , n ,
实际上，该坐标可以看成p 维超平面121=+++p x x x 上的点。

记n 个行剖面的集合为n(r)。

由于列联表行与列的地位是对等的，由上面行剖面的定义方法，可以很容易的定义列剖面。

列剖面：
)
,,,(..2.1j nj
j j j j c
j
p p p p p p p = ，j=1，2，… , p,
实际上，该坐标可以看成n 维超平面121=+++n x x x 上的点。

记p 个列剖面的集合为p(c)。

定义了行剖面和列剖面之后，我们看到属性变量A 的各个取值情况可以用p 维空间的n 个点来表示，而B 的不同取值情况可以用n 维空间上的p 个点来表示。

而对应分析就是利用降维思想，把A 的各个状态表现在一张二维图上，又把B 的各个状态表现在一张二维图上，且通过后面的分析可以看到，这两张二维图的坐标有着相同的含义，即可以把A 的各个取值与B 的各个取值同时在一张二维图上表示出来。

距离：
通过行剖面与列剖面的定义，A 的不同取值可以利用P 维空间中
的不同点表示，各个点的坐标分别为r
i P （i=1，2，…，n ）。

而B
的不同取值可以用n 维空间中的不同点表示，各个点的坐标分别
为c
j P （j=1，2，…，p ）。

对此，就可以引入距离概念来分别描
述A 的各个状态之间与B 的各个状态之间的接近程度。

定义A 的第k 状态与第l 状态之间的加权距离为：
2
1
..2
)
(
),(.
.
∑=-
=p
j j lj j kj l k p p p p p p l k D ，
该距离也可以看做是坐标为：
)
,
,,
(
.
..
2.2.
1.1i p ip
i i i i p p p p p p p p p ，i=1，2，…,n （1）
的任意两点之间的普通欧式距离。

类似的，定义属性变量B 的两个状态s ，t 之间的加权距离为：
2
1
...2
)(),(.∑=-
=n
i t
i it
i is
p p p p p p t s D s
总惯量：
根据上面的准备，可以给出行剖面集合n(r)的总惯量的定义：由（1）式定义的n 个点与其重心的欧式距离之和称为行剖面集合n(r)的总惯量，记为I I 。

注意：（1）总惯量类似方差，反映差异信息。

（2）经过数学分解，我们可以得知，总惯量与2
χ统计量
仅相差一个常数，而由前面列联表的分析我们知道，2
χ统计量
反映了列联表横栏与纵栏的相关关系。

对应分析就是在总惯量信息损失最小的前提下，简化数据结构以反映两属性变量之间的相关关系。

实际上，总惯量的概念类似于主成分分析或因子分析中方差总和的概念。

在SPSS 软件中进行对应分析，系统会给出对总惯量的提取情况。

完全对应的，我们对列进行相应分析，可以得到列剖面集
合的总惯量为：2
1χn
I I I J ==
SPSS 中有一个概念：惯量：相当于因子分析中的特征根，用于说明对应分析各个维度的结果能够解释列联表中两变量联系的程度。

对应分析基本理论：
经过上述变化后，就可以直接计算属性变量各个状态之间的距离，通过距离大小反映各个状态之间的接近程度，同类型的状态之间距离应当较短，而不同类型的状态之间距离应当较长，据此可以对各个状态之间进行分类以简化数据结构。

但是，这样做不能对两个属性变量同时进行分析。

因此，我们不计算距离，代之求协方差矩阵，进行主成分分析，提取主成分，用主成分所定义的坐标轴作为参照系，对两个变量的各个状态进行分析。

计算行剖面的协方差矩阵Z Z r '=∑，列剖面的协方差矩阵
Z Z c '=∑。

具体分解过程可参考《多元统计分析》，何晓群。

由矩阵的知识可知，Z Z r '=∑，Z Z c '=∑有相同的非零特征根。

j j j j r u u Z Z u λ='=∑ ，对该式两边左乘矩阵Z '，有 )()(j j j u Z u Z Z Z '=''λ ，
即)()(j j j c u Z u Z '='∑λ。

该式表明：对于因素A 降维，投影方向为 ,,21u u ，
对于因素B 降维，投影方向为 ,,21'
u Z u Z ' ，这两个直角坐标
重合。

这样,因素A 和因素B 降维后可以在同一个坐标轴中表示出来,只不过对坐标轴有一个拉伸。

注意： r ∑与c ∑具有相同的非零特征根，而这些特征根正是各个公因子所解释的方差，或提取的总惯量的份额，即有：
J I r
i i
I I ==∑=1
λ。

那么变量B 的第一主成分、第二主成分…….
直到第r 个主成分与变量A 的相对应的各个主成分在总方差中所占的百分比完全相同。

这样就可以用相同的坐标轴同时表示两个属性变量的各个状态，把两个变量的各个状态同时反映在具有相同坐标轴的因子平面上，以直观的反映两个属性变量及各个状态之间的相关关系。

一般情况下，我们取两个，这样就可以在一张二维图上同时画出两个变量的各个状态。

对应分析的优点：
结果直观、简单；适用于研究较多分类变量；对应分析的缺点：
不能进行具体联系的检查，本质是一种统计描述方法；无法自动判断最佳维度数；
分析结果对极端值敏感。

所以数据量不能太少，样本量越大越好。

例题讲解：
这里以较为经典的头发颜色与眼睛颜色的研究案例说明SPSS 中对应分析的实现方法，该数据由Fisher 在1940年首次引用。

研究者收集了苏格兰北部Caithness 郡5387名小学生眼睛与头发颜色的数据。

研究者希望直到头发与眼睛的颜色存在何种关联，即某种头发颜色的人更倾向于何种颜色? 数据见文件hair&eye 。

（1）对数据的初步分析
按照常规方法，采用列联分析，crosstabulation，结论：存在明显相关关系。

看看从图表方式能否看出具体的关联方式：graph——bar——stacked，然后双击图，options，scales to 100%
利用统计图，做出条图和马赛克图.结果显示：随着头发颜色有金色、红色逐渐变为深色、黑色，人群中眼睛颜色为浅色的比例越来越低，而眼睛深色的比例越来越高。

显然，这一信息提示头发颜色和眼睛颜色之间是有关联的。

以上信息是通过对样本直接观察得到的，这种联系是真实存在还是由抽样误差导致的假象？这可以通过检验加以证实。

对于两变
χ检验来证实。

但是究竟是怎样的联系方量关联问题一般使用2
χ式？是其中仅某两类中存在联系，还是两两都有联系？这是2
检验不能回答的，需要采用更复杂的分析方法才能得到进一步的分析结果，而对应分析就是一个很好的选择。

结果难点讲解：
结果汇总表：
（1）奇异值：Z矩阵分解过程中产生，他的平方就是inertia. （2）行变量各类别的分析结果状况
Mass：各类别的组成，发色为金色的占总人口的27%
Scores in dimension：给出各类别在相关维度上的评分。

金色在2维空间中的坐标值（-0.814，-0.417），依次类推。

然后给出惯量在行变量中的分解情况。

数值越大，说明该类别对惯量的贡献越大。

此处贡献最大的是深色。

Contribution：首先给出各维度信息量在各类别间的分解情况，本例中可见第一维度的信息主要被金色、深色和黑色3各类别所携带，意味着，这三个类别在第一维度区分度较好。

同理，在第二维度上金色和棕色区分度较好。

随后给出各类别的信息在各个维度上的分布比例。

如金色的总信息量中90.7%分布在第一维度，
只有9.3%分布在第二维度。

最后一栏是信息量之和。

（3）图中，红色离原点太近，说明两个维度上对红色的信息提取不够，我们只能说明头发颜色金色和眼睛颜色深色、
浅色关系较强。

所以我们选择3个维度进行分析。

从图形可以看出，红色离其它颜色都较远，无法作出合理判断。

说明我们选取两个维度分析就足够了。

实际上对于对应分析而言，所有信息主要反映在图中，因此多数分析报告均只使用图进行描述。

进一步分析：
当参与对应分析的变量其类别间可能存在某种内在的次序关系时，分析者往往希望在表格中直接观察到这种次序。

对应分析可以提供这种输出。

由于各个类别在各个维度上已经算出相应的坐标值，因此只需要将各个类别按照坐标值从小到大排列即可。

选项：statistic ，permutations
我们发现：眼睛颜色和头发颜色都是按照坐标值（降维后）从小到大进行排列。

更为重要的是：表格中的频数会集中在主对角线上，使得对应关系比原来清楚。

如现在我们可以立刻发现，头发黑色与眼睛深色、棕色有较强关联。

在model模块中，还有很多菜单选项没有给大家讲解。

这些模块主要适用于基于均数的对应分析范围，但个人认为这种方法很不成熟，效果做出来也不是很理想，所以没有给大家介绍。

有兴趣
的同学可以参考张文彤高级篇。

多重对应分析
在前面的分析中，考察的都是一个二维交叉表中行、列变量间各类别的联系情况，我们希望能够同时考察多个分类变量类别取值间的联系。

例如性别、职业、学历等和职务级别之间的关系如何。

显然对应分析也可以解决此类问题，但是简单对应分析只能对两个分类变量进行分析，这里涉及多个分类变量，我们可以进行多重对应分析。

虽然名为多重对应分析，但是这一方法和前述的简单对应分析完全不同。

最突出的部分表现在它的算法和简单对应分析完全不同，它会首先对各个变量进行最优尺度变换，以尽量凸显类别间的差异，然后再按照标准的对应分析算法进行计算。

这使得即使在两变量的情况下，这两个过程的结果也不会完全等价。

不过，主要使用正确，两个结果在解释上是基本一致的。

在SPSS分析菜单下选择降维（Data Redaction-数据消减）后选择最优尺度算法，该选项下，根据数据集和数据测量尺度不同有三种不同的高级定类分析算法，主要包括：多重对应分析、分类（非线性）主成分分析、非线性典型相关分析。

当变量都是多重名义型数据，则自动采用多重对应分析方法；
当某些变量不是多重名义型，则自动采用分类（非线性）主成分分析；
当变量集合多于一个，则采用非线性典型相关分析。

例题数据mcorres.Sav。

变量全部进入analysis variables模块；补充变量的含义是如果有哪个变量你并不想作为对应分析的变量，而只是作为附属变量表现在对应图上可以加入。

点击V ARIABLES，画图形。

对应分析练习：
1、请根据以下列联表数据进行对应分析
人数初级(B1) 高级(B2) 中级(B3) 其它职称(B4)
教师(A1) 99 34 217 12
科技人员(A2) 98 31 149 9
现役军人(A3) 49 5 66 48
行政干部(A4) 1299 248 2261 2430
其他人员(A5) 171 11 238 69
2、SPSS自带数据voter.sav
1992年美国大选时出现了3位候选人，最终是克林顿击败了老布什和佩罗当选总统，那么不同教育程度的选民其倾向性如何？变量pres92记录受访者选择了哪位候选人，degree
则为受访者的文化程度，
A．试用对应分析考察不同文化程度的选民倾向性；
B．试进行多重对应分析。