第八章数据的预处理.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第八章数据的预处理
本章教学目的与要求
本章主要介绍数据的审核、编辑、编码、录入、数据的清理、再编码、变量代换等内容。学习本章要注意理解数据预处理在市场调查中的地位和作用;掌握数据处理的具体方法;掌握数据的统计分组方法和数据的图表展示方法。
本章重点问题辅导
数据处理阶段的主要任务
这一阶段的主要任务是通过审核、编辑、编码、录入、数据清理、再编码、变量转换等,以确保调查的每个环节都符合既定程序,所有问卷都填写准确完整、数据都干净可用,为下一步做数据分析创造一个良好的条件。
一、复查审核
1、复查审核的含义和目的
复查审核是指对访员的作弊行为及调查是否严守程序进行核实。
数据审核的目的是要确保每份要送去进行数据录入分析的调查问卷都是有效的,衡量是否有效的标准是看访谈是否按规定的方式进行,访员有无做假.
2.复查审核的五方面内容。
1)查实此人是否真正接受调查
2)查实受访者是否符合过滤条件
3)查实调查是否按规定的要求进行
4)查实问卷回答内容是否完整
5)核实其他方面的问题
二、编辑整理
1、编辑整理的含义
编辑整理是对访员或受访者的疏忽、遗漏、错误进行检查。
2、编辑整理过程要查验的三个问题及要求
编辑整理过程中检验的问题包括以下几个方面:
(1)访员是否没问某些问题,或者没有记录某些问题的答案。
(2)访员是否遵循了规定的跳问了路线。
(3)开放性问题的答案是否真实合理。
三、编码
1、编码的含义
编码是指对一个问题的不同答案确定相应数字代码的过程,以便于数据的分组和后期的分析。
2、对开放式题目的答案进行编码的过程。
对开放式题目的答案进行编码的过程包括四个方面:
1)录入答案
2)尝试用不同方法对录入的答案进行排序、归类,并结合主观判断,然后合并意思相近的答案
3)对精简后的答案设置编码,对合并后浓缩的统一清单上的不同答案分配不同数字。
4)录入编码,通过SPSS的编码功能或通过普通录入软件的寻找替换功能实现编码录入。
四、数据录入
数据录入是数据分析的前提,借助这一过程,信息从书面形式转到计算机足以识别的电子或数字形式。
五、再编码
1、再编码与编码的联系与区别
再编码是相对于录入前的编码来说的,再编码也是编码,都同样是用一组数码替代一个问题的各个选项,只是目的不同,录入前的编码包括问卷设计时的编码主要是为方便录入,同时兼顾方便数据处理,而再编码则纯是为了方便处理,是对原编码的补充,有时则是对原编码的调整修改。再编码往往伴随着重新归类分组,由于计算机对数字型数据的偏爱,以及某些统计分析程序只能处理数字型数据,因此经过再编码,数据处理不仅更方便,也更可行。
2、再编码的注意事项。
1)合理性
2)经济性
六、排序
是按一定顺序将数据排列,便于研究者通过浏览数据发现一些明显的特征趋势或解决问题的线索,除此之外,排序还有助于对数据检查纠错,以及为重新归类分组以及再编码提供依据。
七、变量转换与构造及数据选择
1、变量转换的涵义
变量转换有两种含义。一是变量类型的转换,例如出于录入需要有些数字型数据被定义为字符型数据;二是数学意义上的变量代换,即使用原有数据变量做自变量,利用常规运算和统计分析软件中的函数库构造新的变量。
2、数据选择包括的内容
1)将某些不合格的数据直接剔除,不包括在某些计算范围内。
2)将某些符合特定条件的数据筛选出来进行计算,把不符合特定条件的数据排除在计算之外。
八、数据清理
在进行图表化和进行数据分析之前,还必须再检查一遍,被称为数据的自动清理。可以通过错误检查程序和汇总报告两条途径来解决。
九、统计分组
是根据需要规定分组标准,分组界限,然后将每个个体对照分组标准归到相应的组中,这就是统计分组。统计分组必须遵守几条原则:1)不漏;2)不重;3)不空。
十、统计表
1、统计表的编制技巧
(1)内容力求简明扼要,不得庞杂,要使人一目了然,以便比较分析;(2)统计表一定要加标题,而且标题要清楚反映表的主要内容和所属的时间、地域以及口径和范围;(3)统计表的各行各列原则上也要加标题,而且排列顺序应尽量反映内容的逻辑关系;(4)统计表的数据必须标明计量单位和来源出处;
2、制作统计表的要求:科学、实用、简练、美观。
3、提要统计表和综合统计表
提要统计表一般是在调查过程中分阶段向客户提供的,目的是为客户跟踪质量或提供急需的服务。
综合统计表一般是在调查全部结束后,对已录入且经过整改予以处理后的干净数据编制,目的是为研究者提供分析线索,通常不向客户提供。
十一、统计图
1、线形图:主要适用于显示变量值在不同时点上的差异。
2、饼状图:适合于反映单元不太多的结构分布。
3、柱形图:是最常用的图形,任何可在线形图、饼状图中表现的数据都可以用柱形图
表达,许多线形图、饼状图不能表达或不能有效表达的数据,也可以用柱形图表达。
4、条形图:条形图可以看着是旋转了90度的柱形图,条形图更多用在变量值较多的
场合,此时柱形图往往因纸张宽度不够排列显得比较拥挤,而条形图则可充分利用纸张高度大于宽度的特点使布局更加合理。
5、直方图:直方图只是柱形图与条形图的变形,但与柱形图和条形图相比,直方图实
际上有三方面的差异:
1)直方图更适合于反映饼状图通常反映的内容—变量的分布。
2)直方图的各个矩形之间没有空隙,不象柱形图与条形图各柱之间往往留有一定的空隙。
3)直方图通常反映频数而非频率,不象柱形图与条形图那样频数与频率皆可。
6、面积图和散点图。
本章练习题
一、填空题
1.数据清理可以通过两条途径自动完成:一是---------;二是------------。
(错误检查程序汇总报告)
2数据分析中所用的统计方法有--------和----------两大类。
(基本统计分析方法高级统计分析方法)
3.统计分组需要遵循-----------和----------两个基本原则。
(不漏不重)
4 从工作程序上看,数据处理具有承前启后的作用,承-----------之前;启-------------于后。
. (现场调查报告撰写)
5.最常用的两种统计表是------------和-------------。
(提要统计表综合统计表)
6.数据预处理阶段的任务包括数据的审核、编辑、----------、录入、数据清理、-----------、变量代换、--------------和数据的图表展示等内容。
(编码再编码统计分组)
二、选择题
1.饼状图主要适合于显示(C)。
A 变量值在不同空间点上的差异
B 变量值在不同时间点上的差异
C 单元不太多的结构分布
D 不同样本间分布差异的比较
2.衡量回收后的问卷是否有效,其标准是( A)。
A 访谈是否按规定的方式进行,访员有无作假
B 问卷上的问题是否回答完整
C 访员是否询问了问卷上的所有问题
D 问卷上的问题回答是否正确