调查资料的整理方法专业培训
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
举例:
一项调查样本规模为1,000个个案,一份问卷 的字符数(数据的个数)为200个,研究者从中 随机抽取3%的个案,即30份进行对照检查,结 果发现有2个字符输入错误,这样
2÷(200×30)=
1 ≈0.03%
3,000
可知,数据差错率在0.03%左右.这也就是说 在总共20万个数据中,大约有60个左右的差 错.我们虽无法查出他们 ,但却知道他们占多 大的比例,对我们的调查结果有多大程度的影 响.
资料编码
一、编码的一般规则 二、开放题编码技术 三、编码手册
⑴ 您的年龄: 35_岁 ⑵ 您的性别:① 男 □√
②女 □
⑶ 您的文化程度:① 小学以下
□
② 初中
□
③ 高中或中专 ④ 大专以上
□√ □
⑷ 您每月的收入为多少?5000____元
1-2_ 35_ 3_ 1
4_ 3 5- 8_ 5000_
第三节 数据资料的整理
二、数据资料的分组
按照一定的标志,把数字资料划分为不同的组成部分。步骤: 选择分组标志、确定分组界限、编制变量系列。 1、选择分组标志 (1)质量标志—按性质和类别分组。如产品优劣。 (2)数量标志—按事物的发展规模、水平、速度、比例等数 量特征分组。如城市的规模:特大、大、中等、小。 (3)空间标志—按事物的地理位置、区域范围等空间分组。 (4)时间分组—按事物的持续性和先后顺序分组。 2、确定分组界限 分为组数、组距、组中值的确定和计算内容。 (1)组数:K=1+3.3 logN N为总体单位数。一般5-8组为 宜 (2)组距:等组距(组距=全距/组数);不等组距。
一、编码的一般规则
1. 确定编码方式; 2. 除了对每个回答的选项进行编码外,还要
对问卷编号、访问员编号等内容依照统一标 准进行编码; 3. 数字资料尽可能保持原貌; 对于“不确定”、“不知道”或“其他”选 项,编码设计使用固定代码。
有些调查要对无回答和不知道的答案进行编码
对无回答的编码常用的是0.对不知道 的编码常为9.或99,或999.但是少数问题可 能很麻烦,如家庭子女数.所以对无回答和不 知道的编码必须是在经验上决不会出现的数 字.这样编码往往要多一列,如 无回答为99, 不知道为98.三个孩子要填03.
三、缺失值的处理
1. 缺失值的分析 2. 缺失值的预防 3. 缺失值的估计
Hale Waihona Puke Baidu
第四节 统计表和统计图的制作
一、统计表的结构、种类及制作方法
1、统计表的结构
由标题、横标目(主项)、纵标目(纵 向)、数字、资料来源五部分组成。
表9-12 1990年全国城乡人口及其比重-
人口数(--标亿题) 比重(%)
编码手册
列 1-6 7 8-9 10 11-13 14-15
16 ……
问题 号码 A1 A2 A3
A4
A5 A6
A7 ……
变量名称 期刊年月编号
性别 年龄 学历 身高 职业
婚姻状况 ……
内容说明
91 年 6 月第二个个案为 910602 1.男 2.女 如实填写
1.小学以下 2.中学
4.中专
5.大专
2、合格性审核。审核调查资料是否符合原设计要 求。 二、文字资料的分类 分类就是根据资料的性质、内容或特征,将相异的 资料区别开来,将相同或相近的资料合为一类的过程。 1、方法:前分类法(调查实施前分类)、后分类法 (调查资料搜集后分类)。 2、原则:穷举原则(没有遗漏,每一条都要归类)、 相斥原则(不重复,同一资料只能归为一类)。
第二节 文字资料的整理
三、文字资料的汇编
汇编的目的指按调查目的和要求对分类后的资 料进行汇总和编辑,使之成为能反映调查对象客观 情况的系统、完整、集中和简明的材料。 1、汇编的方法 给各类资料加上标题、符号,编上序号等。 2、汇编的要求
(1)完整和系统—可用的资料汇编后要分类编 在一起。
(2)简明和集中—尽可能使文字简单明了。
第四节 统计表和统计图的制作
二、统计图的种类及制作方法
2、统计表的制作 (1)条形图—柱形图:表示事物大小、内部结构、 动态变动。 (2)圆形图:以圆形面积大小或圆内扇形面积大 小表示事物的大小和所占比重。 (3)曲线图:用连续的起伏升降的线条反映事物 动态或分布特征的一种统计表。
第四节 统计表和统计图的制作
第四节 统计表和统计图的制作
二、统计图的种类及制作方法
统计图是用几何图形或象形图来显示社会现 象数量特征的一种重要工具。
特点:直观、形象、生动。 作用:表明内部结构、对比关系、发展趋势、 分布状况、依存关系。 1、统计表的类型 (1)按作用划分:比较图、结构图、相关 图、分配图。 (2)按制作形式分:条形图、圆形图、曲 线图、象形图。 见EXCEL插入。
纵标目
横
市
2.11
标
镇
0.85
目
乡
8.34
18.69 7.54 73.77
合计
11.30
100.00
数据
资料来源:中国统计年鉴1991,中国统 计出版社1991年版,第7-13页。
第四节 统计表和统计图的制作
一、统计表的结构、种类及制作方法
2、统计表的类型 简单分组表、复合分组表、组距分组表。 简单分组表—主项只按一个标志分组。 复合分组表—主项按两个或两个以上标志进行层叠 分组。 3、统计表的制作 (1)简单明了 (2)格式开口 (3)栏目下面加编号 (4)表注简明扼要 (5)横栏合计放最后,纵栏合计放最前。
第一节 整理资料概述
三、整理资料的一般步骤 资料的整理主要是文字资料和数字资料的
整理。步骤: 1、资料的审核—审核资料的真实性、准确性 和完整性。 2、资料的编码—为计算机处理准备。 3、资料的分组—根据分类、分组标志分组。 4、资料的汇总—将分散的资料以集中的形式 显示出来。分手工、计算机汇总两种。 5、制作统计表和统计图—通过编制统计表和 统计图以集中、简明、直观的形式显示出来。
第三节 数据资料的整理
数据资料的整理包括:检验、分组、汇总、 制作统计表或统计图。
一、数据资料的检验
检验、验证各种资料是否完整和正确。 1、内容:填报的表格是否齐全;调查表的 答案是否完整。 2、方法: (1)经验检验。如企业经营差却是利税大 户。 (2)逻辑检验。如20岁工龄10年。 (3)计算检验。如分组不等于总和。
第三节 数据资料的整理
二、数据资料的分组 3、分组的类型 (1)按数量分组:简单分组、复合分组。 简单分组就是对调查对象只按一个标志进行的分 组; 复合分组就是用两个或以上的标志对调查对象依 次进行分组。 (2)按性质分组:品质标志分组、数量标志分 组。
三、数据资料的汇总 1、手工汇总
2、计算机汇总
第十一章 调查资料的整理方法
本章主要内容: 整理资料的意义、原则和步骤 文字资料整理的方法 数字资料整理的方法 统计表的统计图的种类与制作方法
第一节 整理资料概述
一、 整理资料的涵义和意义
1、涵义 指运用科学的方法,将调查的原始资料按调查 目的进行审核、汇总与初步加工,使之系统化 和条理化,并以集中、简明的方式反映调查对 象总体情况的过程。
2、意义 第一,对调查资料的全面检查。 第二,进一步分析研究资料的基础。 第三,积累保存资料的客观要求。
第一节 整理资料概述
二、整理资料的原则
1、真实性原则—是整理资料的最根本要求; 2、准确性原则—描述事实要准确,特别是数据; 3、完整性原则—尽可能全面、如实的反映全貌; 4、统一性原则—对调查指标有统一的解释,对 各项数值,计算方法、计算单位要统一; 5、简明性原则—资料尽可能简单、明确。该用 文字说明的用文字说明,该用表格的用表格,该用 图表的用图表。
第二节 文字资料的整理
文字资料一般包括:历史资料、汇报材料、总 结报告、访谈记录、观察记录、问卷答案等。 一、文字资料的审核
1、真实性审核。也称信度审核,就是看调查资料 是不是真实可靠。方法:经验法(找有经验的专家或 实践丰富的调查人员实施)、逻辑法(根据内在逻辑 检验)、来源法(根据来源渠道判断)。
逻辑一致性的清理是从另一角度来查找 数据中所存在的问题.其基本思路是依据问卷 中的问题的相互之间所存在的内在逻辑联系 来检查前后数据之间的合理性.
3. 数据质量抽查
是指用随机抽样的方法抽取一部分个案, 来估计和评价全部数据的质量.
根据样本中的个案数目的多少,以及每份 问卷中变量数和总字符数的多少,研究者往往 抽取2%—5%的个案进行质量抽查.
90
80
70
60
50
东部
40
西部
30
北部
20
10
0 第一季度 第二季度 第三季度 第四季度
90 80 70 60 50 40 30 20 10
0 第一季度 第二季度 第三季度 第四季度
三维柱形图 1 东部 西部 北部
踏实,奋斗,坚持,专业,努力成就 未来。20.11.2820.11.28Satur day, November 28, 2020
二、开放题编码技术
事后编码——确定范围 1. 分类 2. 代码指南 3. 如何应付新的答案 4. 如何归类不十分清晰的答案 5. 注意编码工作的时间地点
三、编码手册
1. 与编号有关的内容 2. 与变量编码有关的内容 3. 与变量数值编码有关的内容 4. 与缺失值有关的编码内容
(1)工作后您是否参加过成人教育? 1 ( ) 1. 是( ) 2. 否( )
(2)如参加过,是哪一类?(如没有 2 ( ) 参加过,编码用9) 1. 初中文化补习 ( ) 2. 高中文化补习 ( ) 3. 专门的职业培训( ) 4. 其他的进修学习( )
(3)总共( )年。(如没有参加过,3-4( ) 编码用99)
二、数 据 清 理
1.可能数值清理 对于问卷中的任何一个变量它的有效的编
码值往往都有某种范围.当数据中的数字超出 了这一范围时,这个数字一定是错误的.
这种错误可以发生在资料处理的每一个阶 段.比如:错误回答, 编码员错写, 录入人员错误 输入.
★ 在电脑上检查有效范围的编码值.
2.逻辑一致性的清理
数据录入与整理
数据录入——将问卷资料所对应的代码扫描 或用键盘直接输入计算机磁盘,建立数据文 件;
数据整理——数据清理和缺失值的处理
一、录入方式
1. 人工输入 2. 计算机辅助系统转换 3. 光电输入
择偶标准调查数据录入表
个案 A1 A2 A3 A4 A5 A6 A7 … 编号 1-6 7 8-9 10 11-13 14-15 16 … 0525 921001 1 35 5 176 03 1 … 0526 921002 2 24 6 165 04 2 … 0527 921003 1 27 7 177 06 3 … 0528 921004 1 28 6 167 09 2 …. 0529 921005 2 31 8 158 12 1 … 0530 921006 2 24 7 155 10 1 … … … … … … … … .. …
第三节 数据资料的整理
二、数据资料的分组 2、确定分组界限 (3)组限的确定 组限就是组距的两端数值。 起点数据(最小数)为下限,终点数据(最大值)为上限。 表现形式:封闭式(最小值的下限、最大值的上限确定)、 开口式(最小值的下限、最大值的上限不确定)。 (4)组中值的确定 组中值就是各组标志值的代表值。 封闭式组距数列:组中值=(上限+下限)/2 开口式组距数列:缺下限的组中值=上限-(相邻组组距/2) 缺上限的组中值=下限+(相邻组组距/2)
弄虚作假要不得,踏实肯干第一名。01:42:5201:42:5201:4211/28/2020 1:42:52 AM
安全象只弓,不拉它就松,要想保安 全,常 把弓弦 绷。20.11.2801:42:5201:42Nov-2028-Nov-20
重于泰山,轻于鸿毛。01:42:5201:42:5201:42Saturday, November 28, 2020
7.硕士
8 博士
3.高中 6.大学 9.其他
cm
1.工人
2.党政机关公务员
3.农民
4.私营企业主
5.离退休人员
6.教师医生
7.公安,司法,军人 8.企业白领
9.专业技术人员 10.其他
1.未婚 2.离婚 3.丧偶 4.其他
……
编码卡片的第一行读到这样的数字000165089441,这时我们可以根据编码手册转译过来, 即第00001号被调查者,年龄是65岁,业务专长是国际贸易,住宅面积65平方米以上,属 于该退未退的工作人员,未退休的理由是身体健康尚能工作。