社会调查研究方法教案第10章 定量资料整理

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第10章定量资料整理(2学时)

当我们运用前述的各种方法收集到一批数据资料后,接下来的任务就是要对这些资料进行统计分析。在这一章中,我们将按定量资料分析的程序,对原始数据的整理、录人,以及单变量分析、双变量统计表格的制作做简要的介绍。

第一节资料的整理与录入

—、资料的审核

资料的审核是资料处理的第一步工作。它是指研究者对所收集的原始资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。其目的是使得原始资料具有较好的准确性、完整性和真实性,从而为后续资料整理录人与统计分析工作打下较好的基础。

资料的审核工作包含两方面的内容:一是检查出问卷资料中的问题;二是重新向被调查者核实。

二、资料的编码

在前面介绍问卷设计时,我们曾指出,编码就是给每个问题及答案一个数字作为它的代码。从资料处理的角度看,编码就是用阿拉伯数字来代替问卷中每一个问题的回答,或者说是将问卷中的答案转换成数字的过程。表10一l就是一份问卷中前几个问题的答案和编码。

表格式问题的答案进行转换时还要特别注意它的方向性,比如(见表10-2)。

表10-2 对婚事花费态度的调查

在每一行所在选项下打“√”

对于赞同节俭办婚事的看法,我们按1=非常问意,2=同意,3=无所谓,4=不同意,5=很不同意来赋值;而对赞同婚事大操大办的看法,我们则按5=非常同意,4=同意,3

=无所谓,2=不同意,1=很不同意来赋值。这样上例三种看法的赋值情况如表10-3。

所以,对于这个回答者的答案,我们应该将其转换为:2、2、1。

每一个回答者在这一量表上的三个得分(每行一个答案所对应的码值)加起来,就构成他对婚事操办方式的态度得分。按我们上述赋值方式,则一个回答者在该量表上的得分越高,表明他的态度越倾向干婚事大操大办。

在对问卷中的问题进行编码时,要给不同的问题分配合适的栏码,即指定该问题的编码值在整个数据文件中所处的位置。这种栏码有时在问卷设计时就印在问卷上(每页的右边,用一条竖线与问题及答案隔开),但也有很多情况下是在问卷收回后编码时再指定。栏码的指定方法是从问卷的第一个项目或问题开始,先根据每一个项目或问题答案数码的位数,束确定该项日或问题所占有的宽度,再根据的后顺序来确定其在整个数据排列中所处的位置,这样从头依次往后排列。表10—4就是指定栏码的一个例子。

表10-4 编码制定例

第一个问题的答案代码只有1和2,是一位数,故宽度为1。因是第一个问题,故序号为1。第二个问题是“年龄”,一般情况下,人们的年龄不会超过100岁,是2位数,宽度为2,接上题序号,给定栏码2—3号,第三与第四个问题的答案均为一位数,故按顺序分别给予4号和5号。需要说明的是,在给年龄、工资收入、时间、人数等定距变量分配栏码时,一定要根据实际情况,确定合适的宽度。

三、数据录入

数据录入的方式主要有两种:一是直接从问卷上将编好码的数据输入计算机;另一种是先将问卷上编好码的数据转录到专门的登录表上,然后再从登录表上将数据输入计算机。登录表的横栏为问题及变量名,且都有给定的栏码,纵栏为个案记录,表10—6就是登录表的一部分。

表10-6 数据登录表(部分)

四、数据清理

1.有效范围清理

对于问卷中的任何一个变量来说,它的有效的编码值往往都有某种范围,而当数据中的数字超出了这一范围时,可以肯定这个数字一定是错误的。比如,如果在数据文件的“性别”这一变量栏中,出现了数字5或者7、8等,我们马上可以判定这是错误的编码值。因为根据编码手册中的规定,“性别”这一变量的陨值是1=男,2=女,0=无回答。凡是超出这三者范围的其他的编码值,都肯定是错误的。要检查出所有不符合要求的编码值,我们只需在计算机上,用spss软件(或其他软件)执行一条统计各变量颇数分布的命令。计算机很快就能给出下述形式的结果:

A5 Valid Cum Value Label Value Frequency Percent PercentPercent

1 316 31.4 31.5 31.5

2 428 42.5 42.6 74.1

3 121 12.0 12.1 86.2

4 128 12.7 12.7 98.9

7 9 0.9 0.9 99.8

7 2 0.2 0.2 100.0 0 3 0.3 Missing

………………

Total 1007 100.0 100.0

Valid cases 1004 Missing cases 3

2.逻辑一致性清理

逻辑一致性清理则是从另一种角度来查找数据中所存在的问题。它比有效范围清理要稍微复杂一些。其基本思路是依据问卷中的问题相互之间所存在的某种内在的逻辑联系,来检查前后数据之间的合理性

要查找和清理有着上述错误的个案,需要在SPSS软件中,执行条件选择命令(IF)。比如,先用IF命令将所有回答“没有孩子”的个案挑出来,单独做频数统计;再按前述有效范围清理的方法,找到那些在“孩子的年龄”变量上编码值不为零的个案;同样地,先用IF命令将未婚者挑出来,单独做频数统计;然后找到那些在变量子女数日或者子女年龄上,出现有非零编码值的个案。再根据这些个案的编号找来原始问卷进行核对,纠正错误。逻辑一致性清理还可以采取SPSS中构成新变量的命令(即compute命令)来进行。读者可参考有关SPSS统计分析的著作。

3.数据质量抽查

尽管采取了上述两种方法对数据进行清理,但仍会有一些错误的数据无法查出来。人们往往采用随机抽样的方法,从样本的全部个案中,抽取—部分个案,进行这种形式的校对工作。用这一部分个案校对的结果,来估计和评价全部数据的质量。

第二节统计表的制作

一、统计表的构成与制作

1、统计表的构成

从统计表的结构上看,通常都由表号、总标题、横行标题、纵栏标题、数字注释和资料来源等要素组成。

表号式表的序号,位于表顶端的左角。其作用是便于指示和查找。

总标题是表的名称。作用是简要说明表中资料的内容,指明资料的时间与空间范围等。

横行标题是横行的名称,对于频数统计表来说,一般用来统计所要说明的主题;而对于交互分类统计表来说,它也是表示其中一个变量的类别。

数字是统计表的实质性内容,是对调查资料进行统计汇总、整理和计算的结果体现。

注释或资料来源是对表中资料的一种说明。

表10-7、表10-8是一般统计表的两个例子。

表号总标题

表10-7 1990年全国城乡人口及其比重

纵栏标题横行标题数字资料来源:中国人口统计年鉴(1991年).北京:中国统计出版社,1992.14

注释和资料来源

相关文档
最新文档