SPSS处理对应分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验八:对应分析
一.实验目的
1) 掌握对应分析方法在SPSS 软件中的实现;
2) 熟悉对应分析的用途和操作方法;
二.实验要求
某生产纯水的企业为其产品命名,决定对选定的备选名称方案进行品牌测试,采用问卷调查的方式对消费者进行名称联想调查,以便最终确定产品品牌名称。
调查数据表如下
雪糕纯水碳酸饮料果汁饮料保健饮料空调洗衣机
玉泉5050855109341120雪源4421106895292812期望2151364130214664波澜1483713637113365天山绿5088471251353913美纯20605374342208
品牌名称
产品名称是通过对应分析说明选定的品牌在消费者的心目中是否达到了预期效果。
三.实验内容
1. 试验步骤:
(1)数据录入。
打开SPSS 数据编辑器,建立“对应分析.sav ”文件。
在变量视窗中录入3个变量,用A 表示“品牌”,用B 表示“产品”,用C 表示“频数”,对A 变量和B 变量输入对应的标签和值,C 变量输入对应的标签。
然后在数据视图中将数据对应录入,其相关操作及变量视图的效果如下图一所示:
【图一】
(2)进行对应分析。
依次点击“数据→加权个案→描述”再将“频数”导入“频率变量”,如下图二所示:
【图二】
依次点击“分析-数据降维→点击对应分析→将pp(品牌名称)导入行→定义全距→最小值为1,最大值为6→将cpmc(产品名称)导入列→定义全距→最小值为1,最大值
为7→点击更新→点击继续”,如下图三所示:
【图三】
依次点击“模型→选择距离度量中的卡方→继续”如下图四所示:
【图四】
依次点击“统计量→选择行轮廓表,列轮廓表,对应表,行点概览,列点概览→点击继续”,如下图五所示:
【图五】
依次点击“图→选择散点图中的行点,列点→选择线图中的已转换的行类别,已转换的列类别→继续”,如下图六所示:
【图六】
2.试验结果输出,如下表一:
【表一】
3.实验分析
1) “对应表”是产品名称与品牌名称的交叉列联表,表中的数据为相应的频数,有效边际是相应的合计数据。
可以看到,在调查的4223名消费者中, 大多数消费者以玉泉,雪源,美纯品牌命名,大多数消费者命名的产品是雪糕,纯水,保健饮料。
尽管通过对应表发现消费者命名产品的倾向,但没有揭示出以哪种品牌命名哪种产品的规律;
2) “行简要表”是“对应表”的补充,是用对应表中相应位置的数据除以每一行的有效边际,如50/789=0.063 ,显示了各频数在各行方向上的百分比,较对应表更直观清晰。
可以看到,消费者命名“雪糕,纯水,保健饮料”分别占总消费者的“14.1%,34.2%,13.7%”,命名“纯水”的比例最高,命名“碳酸饮料”的比例最低,仅为7.4%;
3)“列简要表”也是“对应表”的补充,是用“对应表”中相应位置的数据除以每一列的有效边际,如50/597=0.084 。
显示了各频数在列向上的百分比,较对应表更直观清晰。
可以看到,消费者以玉泉,雪源品牌命名的比例最高,占到18.6%,以天山绿品牌命名的比例最低,仅为11.8%;
4)若将“对应表”中的数据看为一个矩阵A ,则“摘要”中的惯量为AA ’的特征值i λ,奇异值为对应特征值开根所得的结果,即
i λ。
“惯量”是度量行列关系的强度。
惯量比例中的“解释”为各特征值所占特征值总和的百分比,即方差贡献率5
1
/
i i i λλ=∑。
在“摘要”
中,由对应分析的基本原理可知,提取的特征根个数为1},min{
-c r ,这里,由于品牌名称有6个水平(r =6),产品名称有7种(7=c ),因此提惯量,也即特征值。
其中第一个特征根的值最大,意味着它解释各别差异的能力最强,地位最重要,其他特征根的重要性依次下降,特征根的总和为 1.108;第四、第五列是对交叉列联表作卡方检验的卡方观测值(4679.050)和相应的小p 值(0.000),由于小05.0000.0<=p ,因此拒绝原假设,认为行变量和列变量有显著的相关性关系;第六列是各个特征根的方差贡献率,第一个特征根的方差贡献率为0.412,方差贡献率是最高的;第七列是各特征根的累计方差贡献率,由于前两个特征根就已经解释了各类别差异的74.0%,因此最终提取2个因子是可行的,信息丢失少;
5) “概述行点”表显示了行变量各分类降维的情况,表中的“质量”表示行变量占各变量总和的百分比,“维中的得分”为各变量在各公共因子上的得分。
第二列是行变量各类
别的百分比;第三、第四列是行变量各类别在第1、第2个因子上的因子载荷,它们将成为分布图中的数据点的坐标;第五列为各特征根;第六、第七列是行变量各分类对第1、第2个因子值差异的影响程度;波澜这个品牌对第1个因子值的差异影响最大(45.5%),雪源这个品牌对第2个因子值的差异影响最大(61.4%),第八、第九、第十列是第1、第2因子对行变量各分类差异的解释程度。
玉泉这个品牌第1个因子解释了53.2%的差异,第2个因子解释了43.1%的差异,两因子共解释了96.3的差异。
天山绿品牌的信息丢失较为严重;
6)“维数1转换的品牌名称类别图”是品牌在第1个因子上的载荷图,由图可知“美纯”类的载荷最高;
7)“维数2转换的品牌名称类别图”是品牌在第2个因子上的载荷图,由图可知“雪源”类的载荷最高;
8)“维数1转换的产品名称类别图”是品牌在第1个因子上的载荷图,由图可知“纯水类的载荷最高;
9)“维数2转换的产品名称类别图”是品牌在第2个因子上的载荷图,由图可知“雪糕”类的载荷最高;
10)“品牌名称的行点”是品牌在第1、第2因子上载荷的散点图,借助该图可分析品牌各类间的差异性;可以看出,这些类别可以分别自成一类;
11)“产品名称的列点”是品牌在第1、第2因子上载荷的散点图,借助该图可分析产品各类间的差异性;可以看出,雪糕,纯水可分别自成一类,其他产品可粗略看成一类;
12)“行和列点图”是产品名称与品牌名称的对应分布图,借助该图可分析产品名称与品牌名称各类间的倾向性。
可以看出,雪源品牌偏向于给雪糕命名,天山绿品牌偏向于给碳酸饮料命名,波澜品牌倾向于给洗衣机命名,期望品牌偏向于给空调命名,美纯、玉泉品牌倾向于给纯水命名,其余品牌类别对产品的选择差异不十分显著。
最终我们可以看出各个品牌在消费者的心目中对应的产品分别为:
雪源 <——> 雪糕;
天山绿<——> 毛毯;
玉泉<——> 纯水;
美纯<——> 纯水;
期望<——> 空调;
波澜<——> 洗衣机;
符号<——>表示这种关系是相互的。
四、存在问题与解决情况
由于本次试验较为简单,因此基本不存在问题,现对对应分析做简单总结如下:(1)对应分析(Correspondence analysis)也称关联分析、R-Q型因子分析,是近年新发展起来的一种多元相依变量统计分析技术,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。
可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。
(2)基本思想:是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
首先编制两变量的交叉列联表,将交叉列联表中的每个数据单元看成两变量在相应类别上的对应点;然后,对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图;最后,通过观察对应分布图就能直接地把握变量之间的类别联系;(3)它最大特点:是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。
另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
(4)对应分析法整个处理过程由两部分组成:表格和关联图。
对应分析法中的表格是一个二维的表格,由行和列组成。
每一行代表事物的一个属性,依次排开。
列则代表不同的事物本身,它由样本集合构成,排列顺序并没有特别的要求。
在关联图上,各个样本都浓缩为一个点集合,而样本的属性变量在图上同样也是以点集合的形式显示出来。
(5)对应分析的关键问题是:第一,如何将多个类别点表示在低维空间中,以易于直接观察;第二,如何确定各类别点的坐标,以易于鉴别类别间联系的强弱;为解决以上问题,对应分析采用与因子分析类似的方法降低维数,采用与多维尺度分析类似的方法绘制图形。
多元统实验总结
在日常的生活中我们会经常遇到这样的问题:给出某上市公司4项指标的数据,试对综合赢利能力做分析。
再或者某生产纯水的企业为其产品命名,决定对选定的备选名称方案进行品牌测试,请利用采用问卷调查的方式对消费者进行名称联想调查的数据来确定产品品牌名称……
随着我国科学技术的不断发着和经济的蒸蒸日上,这类问题多不胜数,着实令一些商家头痛,这时多元统计分析便派上了很大的用途。
第一个问题其实是一个主成份分析,利用spss等统计软件对数据做相应处理,然后求出其综合指标的排名即可。
第二个问题是对应分析,我们只需要将这些数据通过统计软件分析,便可得到名字和产品的对应关系。
米斯拉曾说“数学是人类思考中最高的成就”,这点在多元统计分析中便得到了充分的体现。
从总体上来看,本学期的多元统计实习课程共有八节,分别做了:多元数据的相关性,多元方差分析,判别分析,聚类分析问题,主成分分析,因子分析,对应分析。
通过这八次的实习,使我对多元统计有了初步的认识,消除了对满课本的矩阵、向量的恐惧,多元统计在我脑中不再是空无的理论框架,而是解决实际问题的有力工具。
通过这学期的学习,我的进步可以概括以下几点:
1.从思想上认识到这门学科的重要性。
学之则用之,我想这应该是每一门课是否是成功开设的主要衡量因素,多元统计是研究客观事物中多个随机变量的统计规律性,包括变量之间的相互联系,通过实习使我对其有了更为深刻的理解,使我看到了它与现实生活的密切联系。
2.对spss有了进一步的了解。
在去年的《数理统计》课程中我首次接触到该软件,当时只是一个入门性的学习,但通过这一学期的实习,使我对该软件的使用熟练程度有了很大的提升,不管是从最基本的输入数据到最后的操作与结果分析。
3.学会了一些常用的分析方法。
特别是后面的判别分析,聚类分析,主成分分析,因子分析,对应分析,使我对其的理解不只是停留在理论基础上。
以主成分分析与因子分析的区别为例,在课本上我们只知道两者的关系是互逆的,只知道主成分分析是对原有多个指标的综合,尽量用综合的几个新指标代替原来的多个指标所有信息,而因子分析是将一个可测量的随机向量分解成两个不可测量的或没有进行测量的随机向量。
通过课本的学习我们只是对
这些概念性的描述有一个初步的认识,甚至是强行加入记忆的,到底它们有什么区别,怎样在实际生活中体现的,遇到这类问题我们应该怎样处理,通过第六次与第七次的实习就将这些问题进行了一个更容易接受的解答。
总之,这八次实习受益匪浅,如果有机会一定要继续学习。