lecture11

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 非简单随机抽样设计对数据分析的影响
描述性研究:统计计算应反映抽样过程 分析性研究:存在争论
无回答误差(Nonresponse error)
概念
➢ 由于一部分被抽中的个体没有参与调查而导致的调查结果 与总体指标的不一致
➢ 导致无回答的主要原因:无法进入;无人在家;拒访;被访者无
法完成访谈
对无回答误差的估计
yr
ys
ms ns
yr
ym
➢长期以来,应答率(response rate)一直被视为与无回答误
差相等同的指标,但是无回答误差还取决于回答样本与无
回答样本之间的差异
➢ 应答率的持续下降是目前社会调查所面临的主要问题
➢ 处理无回答误差的统计方法
建立无回答似然函数模型(nonresponse likelihood),对回答样本进 行加权调整(Rubin 1987)
调查质量
➢ 质量的概念 ➢ 调查误差
数据检查
目的
➢ 保证数据完整、准确、真实
方法
➢ 问卷检查
问卷填答的完整性 访问过程是否符合要求 一般应在调查地点完成,以方便及时改正
➢ 回访
调查结束后,由督导或复查员随机抽取一部分被访者进行再次访问 通常采用电话和邮件访问的形式
数据编码(1)
目的
➢ 将被访者的回答归结为有意义的有限类别,从而可以对数 据进行简单描述和统计分析
标准
➢ 与理论相一致
编码框应该与理论和研究问题相结合
➢ 穷尽性(exhaustiveness)
每一种可能的回答、每一种情况都应包括在编码框里面
➢排他性(mutual exclusiveness)
各个类别相互排他,每个可能回答仅被划分到某一个类别
➢ 细节
编码框需要具体到怎样的程度 一般来说,种类多比少好
单变量分布
➢ 内在一致性的清理
多变量对比
数据加权
对不同入样概率进行调整 对无回答情况进行调整 事后的分层调整(post-stratification)
质量的概念
什么是质量——“fitness to use”(Juran & Gryna 1980)
➢ 达到用户所要求的目标,满足用户需要
调查质量概念的多维性
调查质量的不同维度之间常常存在冲突
➢ 例:时效vs.精确;切实vs.可比
调查误差(Survey Errors)
与代表性(representativeness)有关的误差
➢抽样框误差(Coverage error) ➢抽样误差(Sampling error) ➢无回答误差(Non-response error)
社会调查方法
第11讲 数据处理与调查质量
课程回顾
调查方式简介
➢邮件调查(Mail questionnaire) ➢当面调查(Personal interview) ➢电话调查(Telephone interview)
不同调查方式的比较
电脑辅助调查的发展
本讲内容提要
数据处理
➢ 检查 ➢ 编码 ➢ 录入与清理 ➢ 加权
数据编码(2)
方法
➢归纳式编码(inductive coding)
尽可能的保留原始数据中的具体信息,推迟对类别的合并 多用于对开放式问题的编码以及对文献资料的编码
➢演绎式编码(deductive coding)
将原始数据按照某种预先构建的概念体系进行编码 一般的预编码都属于演绎式编码
➢ 比较
➢ 例:职业编码
被访者对职业的原始回答:律师、理发师、木匠、经纪人、电梯操作 员、种地的农民、临床护士、经理、高中教师、电工、广告代理人
一种可行的编码方法:
1 专业技术和管理人员:律师、经理、高中教师 2 技术和销售人员:广告代理人、经纪人 3 服务人员和熟练工人:临床护士、理发师、木匠、电工 、电梯操 作员 4 非熟练工人:种地的农民
对抽样框误差的估计
YC
Y
U N
YC YU
➢ 抽样框误差的大小取决于两个因素
抽样框遗漏的比例
目标总体中被涵盖群体与遗漏群体之间的平均差异
➢ 一般而言,家庭户调查倾向于遗漏穷人、社会孤立群体、 流动性强的群体
➢ 可以对抽样框遗漏的部分进行专门研究,包括一些定性方 法的研究
➢ 一般试图去降低抽样框误差,而很少去度量它
演绎式编码违背了关于行为的持续性和复杂性理论 预编码容易忽略掉调查中出现的新问题,缺乏具体描述使数据分析存
在着一定的局限性 演绎式编码使研究者直视理论概念本身,避免细枝末节的干扰 归纳式编码最大的优点在于它的灵活性和丰富性 归纳式编码的缺点在于研究者要面对大量的细节和具体描述
数据编码(3)
选择偏差模型(selection bias model,Heckman 1979)
与测量过程有关的误差
➢测量误差(Measurement error)
可能来源:(1) 调查员; (2) 被访者;(3) 问卷;(4) 调查方式
抽样调查中的误差
(Groves et al. 2004: Pp.48)
抽样框误差(Coverage error)
概念
➢ 由于目标总体中的一部分个体没有被包括在抽样框中而导 致的调查结果与总体指标的不一致
数据处理过程中所产生的错误,以编码阶段最多
数据编码(4)
编码手册(codebook)
➢ 作用
提供一套标准化的编码程序 数据分析的指南
➢ 内容
编号 变量名称和变量标签 变量数值及标签 对缺失值的编码
数据录入与清理
录入方式
➢ 人工输入 ➢ 光电输入 ➢ 计算机辅助系统转换
数据清理
➢ 数值范围的清理
➢ 长期以来,调查质量被等同于调查的精度 ➢ 在过去10-15年间,调查质量的概念进一步扩展,包括了对
数据用户来说非常重要的其他维度,如时效性、可得性等 ➢例:欧洲统计中心(Eurostat 2000)对调查质量的界定
切实(relevance)、精确(accuracy)、及时(timeliness)、可得 (accessibility)、可比(comparability)、一致(coherence)
应用最新的抽样框和总体估计数据 对要进行推断的目标总体加以限定
抽样误差(Sampling error)
概念
➢ 由于所抽取样本与目标总体范围不一致而导致的样本指标
与总体指标的差别。在概率抽样中,抽样误差是一种随机
误差。
对抽样误差的估计
➢ 决定抽样误差的因素
S
2
ys YC
SE s1
Fra Baidu bibliotek
S
样本量 总体的差异性 抽样设计
相关文档
最新文档