对应分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对应分析法
一、简介
对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,是一种多元统计分析技术,主要分析定性数据的方法,也是强有力的数据图示化技术。对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系,适用于两个或多个定类变量。
对应分析是由法国人Benzenci于1970年提出的,起初在法国和日本最为流行,然后引入到美国。对应分析法是在R型和Q型因子分析的基础上发展起来的一种多元统计分析方法,因此对应分析又称为R-Q型因子分析。在因子分析中,如果研究的对象是样品,则需采用Q型因子分析;如果研究的对象是变量,则需采用R型因子分析。但是,这两种分析方法往往是相互对立的,必须分别对样品和变量进行处理。因此,因子分析对于分析样品的属性和样品之间的内在联系,就比较困难,因为样品的属性是变值,而样品却是固定的。于是就产生了对应分析法。对应分析就克服了上述缺点,它综合了R型和Q型因子分析的优点,并将它们统一起来使得由R型的分析结果很容易得到Q型的分析结果,这就克服了Q 型分析计算量大的困难;更重要的是可以把变量和样品的载荷反映在相同的公因子轴上,这样就把变量和样品联系起来便于解释和推断。
对应分析数据的典型格式是列联表或交叉频数表。常表示不同背景的消费者对若干产品或产品的属性的选择频率。背景变量或属性变量可以并列使用或单独使用。两个变量间——简单对应分析;多个变量间——多元对应分析。
对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
对应分析法整个处理过程由两部分组成:表格和关联图。对应分析法中的表格是一个二维的表格,由行和列组成。每一行代表事物的一个属性,依次排开。列则代表不同的事物本身,它由样本集合构成,排列顺序并没有特别的要求。在关联图上,各个样本都浓缩为一个点集合,而样本的属性变量在图上同样也是以点集合的形式显示出来。
二、案例分析
2.1 简单对应分析
上面的交互分析表,主要收集了48961人的自杀方式以及自杀者的性别和年龄数据。
其中,性别取值1-male 2-female,年龄取值1-5,分别表示不同年龄段。首先,把性别字段乘上10加上年龄字段生成新字段sexage,取值是11-15,21-25,然后分别用M/F和年龄组中值代表Sexage字段的变量值标,这样就可以进行简单对应分析了。
分别定义好行列变量以及取值范围。
对应分析中,6×10的列联表(交互表)可以得到行列维度最小值减1的维度,我们看到第一维度Dim1解释了列联表的60.4%,第二维度Dim2解释了列联表的33.0%,说明在两个维度上已经能够说明数据的93.4%。
首先对SPSS分析得到的对应图进行修饰和编辑,在零点增加两条中线。
我们从图上左右可以看出,左边全部是M*,男性,右边F*全部是女性,说明男女有显著差异;同时看横轴中线上方都是年龄大的,下面都是年龄小的,说明年龄有差异。还可以看出,老的男性比较喜欢HANG,GAS和GUN是年轻男性的偏好;老的女性比较喜欢DAWN,年轻的女性比较偏好POISON。从中心向任意点连线-向量,例如从中心向GUN做向量,然后让所有的人往这条向量及延长线上作垂线,垂点越靠近向量正向的表示越偏好这种方法。
从图中我们可以看出,希望GUN方法的人依次是M15、M30、M45、M60、M80、F15等等。依次类推,还可以从中心向任意一种方法作垂线,都可以排出每种方法选择人群的偏好次序,也可以从中心往所有的人作向量,得到每一类人在选择六种方法上的偏好排名。
简单对应分析的优点:
定性变量划分的类别越多,这种方法的优势越明显,揭示行变量类别间与列变量类别间的联系,将类别联系直观地表现在二维图形中(对应图),可以将名义变量或次序变量转变为间距变量。
简单对应分析的缺点:
不能用于相关关系的假设检验,维度要由研究者决定,有时候对应图解释比较困难,对极端值比较敏感。
2.2 多元对应分析
我们假定有个汽车数据集,包括:来源国(1-美国、2-欧洲、3-日本),尺寸(1-大型、2-中型、3-小型),类型(1-家庭、2-运动、3-工作),拥有(1-自有、2-租赁)性别(1-男、2-女),收入来源(1-1份工资来源、2-2份工资来源),婚姻状况(1-已婚、2-已婚有孩子、3-单身、4-单身有孩子);
从数据集看,我们有7个定类变量,如果组合成简单的交叉表是困难的事情,此时采用多重对应分析是恰当的分析方法。
在SPSS分析菜单下选择降维(Data Redaction-数据消减)后选择最优尺度算法,该选项下,根据数据集和数据测量尺度不同有三种不同的高级定类分析算法,主要包括:多重对应分析、分类(非线性)主成分分析、非线性典型相关分析。
从图中我们可以看出:美国车都比较大,家庭型,主要购买者是已婚带孩子的;日本和欧洲车主要是小型、运动的和已婚没有孩子的人购买;特别注意:单身和单身带孩子的往往是租赁汽车,收入单一来源,但这个地区没有车满足这个市场,或许是市场空白。
对应分析的优点:
定性变量划分的类别越多,这种方法的优势越明显;揭示行变量类别间与列变量类别间的联系;将类别联系直观地表现在二维图形中(对应图);可以将名义变量或次序变量转变为间距变量。
对应分析的缺点:
不能用于相关关系的假设检验;维度要由研究者决定;有时候对应图解释比较困难;对极端值比较敏感。