缺失值的处理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
16
A7
婚姻状况
编码卡片的第一行读到这样的数字000165089441,这时我们可以根据编码手册转译过来, 即第00001号被调查者,年龄是65岁,业务专长是国际贸易,住宅面积65平方米以上,属 于该退未退的工作人员,未退休的理由是身体健康尚能工作。
四、特殊题型的编码
1. 复选题的编码 2. 排序题的编码
第三节 数据录入与整理
数据录入——将问卷资料所对应的代码扫 描或用键盘直接输入计算机磁盘,建立数 据文件; 数据整理——数据清理和缺失值的处理
一、录入方式
1. 人工输入 2. 计算机辅助系统转换 3. 光电输入
择偶标准调查数据录入表
个案 编号 A1 1-6 A2 7 1 2 1 1 2 2 … A3 8-9 35 24 27 28 31 24 … A4 10 5 6 7 6 8 7 … A5 11-13 176 165 177 167 158 155 … A6 14-15 03 04 06 09 12 10 … A7 16 1 2 3 2 1 1 .. … … … … … …. … … …
编码手册 列 1-6 7 8-9 10 11-13 14-15 问题 号码 A1 A2 A3 A4 A5 A6 变量名称 期刊年月编号 性别 年龄 学历 身高 职业 内容说明 91 年 6 月第二个个案为 910602 1.男 2.女 如实填写 1.小学以下 2.中学 3.高中 4.中专 5.大专 6.大学 7.硕士 8 博士 9.其他 cm 1.工人 2.党政机关公务员 3.农民 4.私营企业主 5.离退休人员 6.教师医生 7.公安 ,司法 ,军人 8.企业白领 9.专业技术人员 10.其他 1.未婚 2.离婚 3.丧偶 4.其他
3. 数据质量抽查
举例:
一项调查样本规模为1,000个个案,以分文卷的字符 数(数据的个数)为200个,研究者从中随机抽取3%的 个案,即30份进行对照检查,结果发现由2个字符输 入错误,这样 2÷(200×30)=
1 3,000
≈0.03%
可知,数据差错率在0.03%左右.这也就是说在总 共20万个数据中,大约有60个左右的差错.我们虽无 法查出他们 ,但却知道他们占多大的比例,对我们 的调查结果有多大程度的影响 .
二、开放题编码技术
事后编码——确定范围 1. 分类 2. 代码指南 3. 如何应付新的答案 4. 如何归类不十分清晰的答案 5. 注意编码工作的时间地点
三、编码手册
1. 与编号有关的内容 2. 与变量编码有关的内容 3. 与变量数值编码有关的内容 4. 与缺失值有关的编码内容
纵标题:表 的上面,调 查指标的名 称
2.统计表的制作
统计表的制作原则是科学,规范,简明,实用,美观. 统计表制作时应注意的问题: 首先 标题要简短明了. 确切说明表中数据的内容,使人一目了然. 其次 表的纵栏标题与横行标题要准确反映变量取 值的含义,排序也应具有一定的逻辑结构. 第三 表中的数据资料必须注明计量单位. 第四 对于一般频数分布表则应列出合计栏,以便获 得整体情况的资料. 最后 各种表格应以横线为主能够不用竖线则尽量 不用
三、缺失值的处理
1. 缺失值的分析 2. 缺失值的预防 3. 缺失值的估计
四、统计表与统计图
1.统计表的构成 构成:总标题,横行标题,纵栏标题,指标数值 资料来源,五个部分构成. ★简单分组表:
表 1. 性别 男 女 1997 年征婚广告性别比 人数 197 103 百分比 65.7 34.3
2.逻辑一致性的清理
逻辑一致性的清理是从另一角度来查找 数据中所存在的问题.其基本思路是依据问 卷中的问题的相互之间所存在的内在逻辑联 系来检查前后数据之间的合理性.
是指用随机抽样的方法抽取一部分个案, 来估计和评价全部数据的质量. 根据样本中的个案数目的多少,以及每分 文卷中变量数和总字符数的多少,研究者往往 抽取2%—5%,的各按进行质量抽查.
有些调查要对无回答和不知道的答案进行编码 对无回答的编码常用的是0.对不知道 的编码常为9.或99,或999.但是少数问题可 能很麻烦,如家庭子女数.所以对无回答和不 知道的编码必须是在经验上决不会出现的数 字.这样编码往往要多一列,如 无回答为99, 不知道为98.三个孩子要填03.
(1)工作后您是否参加过成人教育? 1 ( ) 1. 是( ) 2. 否( ) (2)如参加过,是哪一类?(如没有 2 ( ) 参加过,编码用9) 1. 初中文化补习 ( ) 2. 高中文化补习 ( ) 3. 专门的职业培训( ) 4. 其他的进修学习( ) (3)总共( )年。(如没有参加过, 3-4( ) 编码用99)
0525 921001 0526 921002 0527 921003 0528 921004 0529 921005 0530 921006 … …
二、数 据 清 理
1.可能数值清理 对于问卷中的任何一个变量它的有效的 编码值往往都有某种范围.当数据中的数字超 出了这一范围时,这个数字一定是错误的. 这种错误可以发生在资料处理的每一个 阶段.比如:错误回答, 编码员错写, 录入人 员错误输入. ★ 在电脑上检查有效范围的编码值.
③ 高中或中专 ④ 大专以上 ⑷
您每月的收入为多少? 5000____元
4_ 3 5- 8_ 5000_
一、编码的一般规则
1. 确定编码方式; 2. 除了对每个回答的选项进行编码外,还要 对问卷编号、访问员编号等内容依照统一 标准进行编码; 3. 数字资料尽可能保持原貌;
对于“不确定”、“不知道”或“其他” 选项,编码设计使用固定代码。
数据来源:择偶标准调查 1997 年数据
2001年全国城乡人口及比重 人口数(亿) 比重(%) 市
横标题: 分组的 名称, 表的左边
2.95 1.58 7.67
24.00 13.00 63.00 100.00
标题:顶端中 央,简要说明 表的内容,包 括时间和空间 范围等
镇 乡
合计 12.20
资料来源:中国统计年鉴 2002,中国统计出版社2002 年版,第7-13页。
检查——资料是否完整、准确和真实; 校订——对初步检查合格的问ቤተ መጻሕፍቲ ባይዱ做更细致 的查验,找出不合格答案,并做相应处理。
第二节 资料编码
一、编码的一般规则 二、开放题编码技术 三、编码手册
⑴ ⑵ ⑶
您的年龄: 35_岁 您的性别:① 男 ② 女 您的文化程度:① ②
1-2_ 35_ □√ □ 小学以下 初中 □ □ □√ □ 3_ 1
数据处理
对调查材料进行审查、检验和初步加工, 使之系统化和条理化,并以集中、简明的 方式反映调查对象总体的情况。主要是对 文字资料和数据资料的整理。(资料还包 括实物资料和视听资料) 资料 可供计算机分析的数据形式
数据处理的重要性: 社会调查深化、提高 由感性认识向理性认识飞跃
第一节 资料检查与校订