对应分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.对应分析
对应分析表(A correspondence table)是一个两维表(two-way table),表中的单元包含行变量和列表量之间对应测度的一些信息。所谓的对应测度(The measure of correspondence),可以表明行变量或列变量之间的近似程度(similarity)、密切关系(affinity)、复杂关系(confusion)、关联程度(association)或交互作用(interaction)。交叉列联表(a crosstabulation)是对应分析表中最普通的一种类型,该表中的单元格包含频数(计数)。
利用SPSS中的列联表分析也可以得到交叉列联表,但是交叉列联表并不总是能够清晰地刻画出行变量和列变量之间的本质关系。当我们所感兴趣的变量是名义变量(没有内在的次序或秩序)同时还包含很多类型时,这种问题尤其突出。一个有关职业和早餐谷类食品的交叉列联表,也许能够告诉我们观测单元频数和期望频数是否存在显著差异,但是它很难识别出从事何种职业的人们喜欢哪种类似的早餐食品,同时也很难对早餐口味进行归类。
利用多维空间图形,对应分析可以分析两个名义变量之间的关系。这种图形称为对应分析图,是利用计算出来的行变量和列变量得分而绘制的。变量中相似的类型在图形中比较接近,因此通过这种方法可以很容易看出某个变量的哪些类型和其它类型相似,也可以分析出行变量和列变量的哪些类型存在相关性。SPSS的对应分析方法还容许用辅助点(supplementary points)对根据活动点定义出的空间进行拟合。
如果没有办法根据类型的得分排序,或者这种排序与我们的直觉不相符,那么可以设定某些类型的得分相同,实际上就是对类型的次序设定限定条件。比如说,我们预期变量“吸烟行为”有四个类型:不吸烟、少量吸烟、适度吸烟和大量吸烟,每一类型都有对应于次序的得分,但是对应分析对这四个类型进行排序时,可以限定适度吸烟和大量吸烟的得分相同。
利用距离来进行对应分析依赖于我们所使用的正态化方法。对应分析可用来分析一个变量类型之间的差异,同时也可以分析变量(行变量和列变量)之间的差异。在默认的正态化方法下下,SPSS的对应分析主要用来研究行变量与列变量之间的差异(。
对应分析算法可以进行各种类型的分析。标准的对应分析以行变量和列变量为中心并且分析这两个变量之间的开方距离。但是也有其它的中心选项,利用欧式距离,并且以低维空间的矩阵作为代表。
正态化过程将惯量分布到行变量和列变量得分上,不管采用哪种类型的正态化方法,对应分析的某些输出结果,比如奇异值(the singular values)、每个维度的惯量(the inertia per dimension)和贡献度(contributions)并不发生变化。但是行变量得分、列变量得分和它们的方
差却受到正态化方法的影响。对应分析有多种分散惯量的方法,最常用的方法是将惯量仅仅分散到行得分或列得分上,或者将它对称分散到行得分或者列得分上。
对应分析有下面四种正态化方法:
1、行主成分法(Row principal):在行主成分正态化过程中,行点之间的欧氏距离(Euclidean distances)近似于对应分析表中行变量之间的开方距离,行得分是列得分的加权平均,列得分要进行标准化,使得其平方距离的加权和为1(质心)。由于主成分正态化方法对行类型距离取最大值,如果我们仅仅对行变量各类型之间的差距感兴趣,那么就应该使用这种方法;
2、列主成分法(Column principal):在另外一个方面,列点之间的欧氏距离(Euclidean distances)近似于对应分析表中行变量之间的开方距离,此时列得分是行得分的加权平均,行得分要进行标准化,使得其平方距离的加权和为1(质心)。列成分正态化方法对列类型距离取最大值,如果我们仅对列变量各类型之间的差距感兴趣,那么就应该使用这种方法;
3、对称法(Symmetrical):行变量和列变量可以按照一视同仁的方法来处理,这种对称正态化方法将相同的惯量分布到行得分和列得分上。需要注意的时,此时行点距离或者列点距离与开方距离都不存在近似相等关系,如果我们对两组变量间的差异性或者近似性感兴趣,通常使用这种方法;使用这种方法时,通常还要绘制二维图。
4、主成分法(Principal):第四个选项是主成分正态化(principal normalization),利用这种方法在进行对应分析时,惯量要被分散两次,一次是分散到行得分上,另外一次是分散到列得分上。如果我们仅对行点之间的距离和列点之间的距离感兴趣,但是并不关心行点和列点之间的关系时,可以使用这种方法。使用主成分正态化方法时,绘制二维图就不合适了,因此我们使用主成分正态化方法时,就不能选择输出二维图。
例1 吸烟行为与工作类型的关系
前面的分析中已经提到过,对应分析的主要目标是利用对应表显示行变量和列变量之间的关系。本例中使用的数据来自Greenacre(1984),利用他假设的数据来分析职员类型和吸烟之间的关系。下表是数据中使用的变量名、变量标签和变量标签值:
其中变量staff最后一个类型(National Average)和smoke的最后两个类型(No Alcohol 和Alcohol)在分析中作为辅助(supplementary)类型。
打开SPSS中tutorial\sample files文件夹中的smoking.sav .
数据文件中的个案以计数值进行了加权,因此在分析之前要以变量count为权数,对个案进行加权,点击Data→Weight Cases...,进入加权个案对话框;
选择变量count,移入Weight cases by下Frequency Variable文本框中,点击OK按钮,完成个案的加权;
首先使用行主成分正态化的方法来进行对应分析,点击Analyze→Data Reduction→Correspondence Analysis...,进入对应分析对话框;
从左侧变量列表框中选择Staff Group为行变量,移入Row Variable方框中,点击Define 按钮,进入定义行变量范围对话框;在minimum value后键入1,maximum value后键入5,设定行变量的类型数为5个,点击Update后再键入Continue按钮,回到对应分析对话框;
选定Smoking为列变量,移入Column Variable方框中,点击Define Range按钮,也进
入定义行变量范围对话框;在minimum value后键入1,maximum value后键入4,设定列变量的类型数为4个,点击Update后再键入Continue按钮,回到对应分析对话框