SPSS学习系列17. 交叉表与多选题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
17. 交叉表与多选题
(一)基本理论
分类变量包括无序分类变量、有序分类变量、多选题变量集。
对于分类变量的描述统计,主要是对分类变量各水平值分别进行频数和比例计算,再进步计算所需的一些相对频数指标。
一、单分类变量的统计描述
1. 频数分布
分类变量的分析,首先要了解:各类别的样本数(频数),以及占总样本量的百分比;对有序分类变量,还需要了解:累积频数、累积百分比。
2. 集中/离散趋势
观察原始频数,或者使用众数。对于分类变量,集中/离散趋势是一体的。
3. 相对频数指标
(1)比(Riatio)
两个有关指标之比A/B, 用来反映相对的大小关系,例如,月销售额/销售人数;
(2)构成比
用于描述事物内部各构成部分所占的比重,例如,百分比、累积百分比;
(3)率(Rate)
率是具有时间概念或速度、强度意义的指标,表示某个时期内某事件发生的频率或强度,例如速率、频率、费率、发病率等。
二、多分类变量的联合描述
列联表。例如,r×c二维列联表:
(1)共n个样本;
(2)按两种属性A、B,属性A有r个水平值:A1, …, A r; 属性B有c个水平值:B1, …, B c. 属性A=A i,属性B=B j的样本数为n ij.
(3)n i. = “属性A=A i”的合计数,n.j = “属性B=B j”的合计数。
注:多分类变量对应高维列联表。
三、多选题的统计描述
多选题是调查问卷的常见题型,因为多选题是回答同一个大问题,所以不能割裂开来单独分析,需要做汇总处理。
1. 应答人数(Count)
选择各题项的人数,原始频数;
2. 应答人数百分比
选择该项的人数占总人数的百分比,可以反映该选项在人群中的受欢迎程度;
3. 应答人次(Response)
选择各选项的总人次,1个受访者选择2个选项,即2人次;
4. 应答次数百分比
在做出的所有选择中,选择该项的人次占总人次数的比例。
(二)SPSS实现
有某调查问卷的数据文件(部分):
变量属性:
一、单分类变量的描述——频率
变量“s4”表示学历:
问题1:描述受访者的学历分布情况
【分析】——【描述统计】——【频率】,将“学历”选入【变量】框,点【确定】得到
S4. 学历
频率
百分比
有效百分比
累积百分比
有效
初中/技校或以下 154 13.4 13.4 13.4 高中/中专 313 27.3 27.3 40.7 大专
331
28.9
28.9
69.6
本科 292 25.5 25.5 95.0 硕士或以上 57 5.0 5.0 100.0
合计
1147
100.0
100.0
注:详细操作见第15篇《频率图表》。
二、多分类变量的联合描述——交叉表
问题2:描述“性别”和“学历”的交叉频数分布
1. 【分析】——【描述统计】——【交叉表】,打开“交叉表”窗口,将“性别”选入【行】框,将“学历”选入【列】框,勾选“显示复式条形图”
注:若是3个分类变量的三维列联表,将第3个分类变量选入【层1的1】框,通过【下一张】可以设置更多层;
2. 【精确】设置计算概率值的方法,保持默认;
【统计量】设置计算行/列变量关联性的统计指标和检验方法,保持默认;
【格式】【Bootstrap】一般不用设置;
3. 点【单元格】,勾选【计数】的“观察值”,勾选【百分比】的“列”,【非整数权重】选默认的“四舍五入单元格计数”;
点【继续】回到原窗口,点【确定】得到
注:若将变量“城市”选入第1步中的【层1的1】框,则得到三维列联表,
S4. 学历中的 % 48.1% 53.4% 57.7% 57.9% 63.2% 55.5%
计数80 146 140 123 21 510
女
S4. 学历中的 % 51.9% 46.6% 42.3% 42.1% 36.8% 44.5%
计数154 313 331 292 57 1147 合计
S4. 学历中的 % 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
(三)多选题处理——多重响应
一、多选题的编码
多选题的编码方式有两种:
1. 多重二分法
是标准的多选题数据格式,即每个选项各设一个变量,“选中=1”“未选中=0”
例如,C0题:请问您的家庭目前有下列还贷支出吗?
(1)房贷(2)车贷(3)其他一般消费还贷
用变量C0_1、C0_2、C0_3分别代表上述3个选项,取值“1=选中、0=未选中、99=拒答”;
注:“99=拒答”后续可作为缺失值,或合并到“0=未选中”。
2. 多重分类法
若题项较多限定回答数较少,多重二分法就显得太啰嗦(过多的“未选中”),此时适合用多重分类法:为所有选项设置一套值标签,需要多少个变量取决于限选项数。
例如,Q题:如果你喝酒,主要受哪方面的影响?(限选2项,请按主次程度排出顺序,不喝酒的不用填)
(1)家人(2)朋友同学(3)影视剧(4)文学作品(5)网络(6)风俗习惯(7)其他
用变量Qa_1、Qa_2分别表示第1影响、第2影响,取值为选项编号,如Qa_1=3, Qa_2=2.
二、设定多选题变量集
多选题按前文的编码方式录入后只是若干个离散的变量,SPSS 并不知道它们代表一道多选题,这就需要将其设置为多选题变量集(也称为多重响应集),SPSS提供了两种方式:
方法1:【分析】——【表】——【多响应集】
方法2:【分析】——【多重响应】——【定义变量集】
二者操作基本相同,区别在于方法1可以保存定义的信息,方法2关闭数据文件后相应信息将丢失。下面以方法2为例,
有数据文件:
多选题变量是c0和a3,其中c0_1, c0_2, c0_3是多重二分法