数据处理与分析PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
.wenku.baidu.com
下面几种方法可以提高数据录入的效率:
采用计算机辅助数据收集方法; 对纸张式问卷进行光电扫描; 对纸张式问卷进行预先编码。
.
3.审核
审核是应用各种检查规则来辨别缺失、无效或 不一致的录入,这些会导致数据记录的潜在错 误。审核的目的就是要保证调查最后所得的数 据的完整性、一致性和有效性(包括逻辑性)。 审核主要可分为三类:即有效性审核、一致性 审核与分布审核。有效性审核和一致性审核是 对单张问卷进行的审核;分布审核则是对全部 问卷或部分问卷的数据一起进行审核。
均值插补通常在没有辅助信息可用或只有少量 记录需要作插补处理时,才被采用。
.
4.3 比(率)或回归插补
比率或回归插补是使用辅助信息及其它记录中 的有效回答建立一个比率或回归模型,该模型 表明了两个或多个变量之间的关系。 例如,比率插补所使用的模型为:
yi Rixi
其中:yi是变量y的第i个单元值; xi是与变量y相关的变量x的第i个单元值; R是直线的斜率(即每变动一个单位,
.
对大多数审核失效都应该加以标示, 留待作插补处理。 对于有些项目,我们可以用特殊代码 标示的方法,对确认为审核失效而不 可接受的值或无效的空白加以保留。
.
选择性审核
选择性审核基于这样一种思想:即只有 那些“关键”的审核失效,而不是所有 的审核失效,才需要采取相应的处理措 施。选择性审核一般适于定量数据。 对审核失效进行选择性审核时,可能需 要对被调查者进行再访,但对于那些需 要进一步处理和插补的记录的审核失效 除外。
平均变动的数值); 是模型的随机误差项,均值为0、方差为。
.
i
这时,y i 的插补值按如下公式计算:
~y i
y x
xi
式中:
~y i x
是变量y第i个记录的插补值; 是插补类中记录的x值的均值;
y 是插补类中记录的y值的均值。
数据处理
(数据)处理就是把调查中收集到的数 据转换为适合汇总制表和数据分析的形 式。 数据收集完毕之后,估计之前对数据进行 加工处理的所有活动:主要包括数据的编 码、录入、审核、插补、离群值的检测 和处理等。最后生成一个为进一步分析 用的数据库。
.
1.编码
编码是给问题的每项答案赋予一个数值 代码,以便于数据录入和作进一步处理 的过程。 编码具体方法很多,包括:
.
插补方法可以归为两类—随机插补和确 定性插补。 确定性插补,对于特定的被调查的数据, 可能的插补值只有一个。 随机插补则含有随机因素因此,每次得 出的插补值可能会不一样。
.
几种确定性插补方法如下:
- 推理插补; - 均值插补; - 比(率)/回归插补; - 序贯热平台插补; - 序贯冷平台插补; - 最近邻值插补。 每一种确定性的插补方法都对应着一种随机插 补方法。插补定量数据时,用确定性的方法得 出一个插补值,加上从某个适宜的分布或模型 产出的一个残差作为最后的插补值,就成为随 机插补。
.
通常,审核规则的确定基于以下几个方面: 关于调查主题的专业知识; 问卷和问题的结构; 其它相关的调查或数据; 统计理论(如离群值的检测方法)。
.
数据收集完毕后,对审核失效,通常按 下列方法进行处理:
将其剔除; 进行插补; 设立特殊代码。
.
有些时候,一条记录(或整份问卷)不 符合多条审核规则的要求,或者不符合 少数几条关键审核规则的要求,从而使 得后续的处理失去意义。 在这种情况下,通常可以将这些记录剔 除,作为无回答处理,同时将赋予各被 调查单元的权数进行调整。
.
审核的指导方针
审核的目标是: - 更好地理解数据和数据处理过程; - 检查问卷; - 回访被调查者; - 检出错填或漏填的数据; - 删除无效记录; - 分离需要插补的记录。
.
审核的准则:
审核不仅对整理数据有用,而且审核失效发生 率不论是对当前调查的质量度量,还是对将来 调查的改进都很有用,它能提供调查中有关数 据处理的信息; 不论什么时候,开始一项调查时,总是要对数 据做一些假定,审核时可以检验这些假定的合 理性。例如,可能很明显,有些领域的审核规 则太严,或者有些类型的审核失效太频繁,这 些情况表明审核规则可能不太合适(或问卷可 能存在问题);
.
4.2 均值插补
用均值插补,缺失或不一致的值可用插补类的 均值来代替。对缺失数据,用均值插补相当于 对同一插补类中的所有被调查者使用相同的无 回答权数进行调整。
均值插补会得到较好的点估计,但由于在插补 类均值这一点形成一个人为的“峰值”,从而 破坏了分布状态和变量之间的关系。因此,如 果用常规的抽样方差公式进行计算,就会低估 最终的方差。
.
随机插补能更好地保持数据集的频数结 构,保持比确定性插补方法更真实的变 异性。 除供者插补方法外,下面介绍的方法可 逐项进行插补。 所谓的供者插补方法,就是用一个供者 来插补一个受者的所有缺失的或不一致 的数据。
.
4.1推理插补
推理插补:缺失的或不一致的数据能通 过推断确定。通常,这种推理是根据问 卷上其它回答项的模式来进行的。 下面简述一些常用的插补方法。对所有 这些插补方法,最好是把类似的记录归 为一组,就象进行无回答权数调整时一 样,这些组称为插补类。
问卷中已预先编码; 在数据收集完毕之后进行手工编码; 通过文本识别软件进行自动编码(即借助软
件给一串字符赋予一个代码)。
.
2)数据录入
数据录入是将回答转化成可机读的形式。 采用纸张式收集数据的方法时,数据录 入是在数据收集完毕之后(通常是在对 问卷进行一些“梳理”和初步审核之后) 进行。 采用计算机辅助数据收集方法时,数据 录入是在数据收集的同时完成的。
.
审核应该分阶段进行; 审核工作应由对本次调查的主题、问卷的设 计和数据分析有专业知识、并且有类似调查 经验的人员来进行; 各阶段所进行的审核不应与其它阶段的审核 相抵触; 应该将审核的信息和审核工作对调查数据的 影响通知数据的用户。
.
4.插补
插补就是解决在审核过程中辨别出来的 数据缺失、无效与不一致等问题的过程。 插补是对审核过程中发现的所有缺失信 息的记录进行补充或用合适的数值进行 替代,确保得出内在一致的记录。
下面几种方法可以提高数据录入的效率:
采用计算机辅助数据收集方法; 对纸张式问卷进行光电扫描; 对纸张式问卷进行预先编码。
.
3.审核
审核是应用各种检查规则来辨别缺失、无效或 不一致的录入,这些会导致数据记录的潜在错 误。审核的目的就是要保证调查最后所得的数 据的完整性、一致性和有效性(包括逻辑性)。 审核主要可分为三类:即有效性审核、一致性 审核与分布审核。有效性审核和一致性审核是 对单张问卷进行的审核;分布审核则是对全部 问卷或部分问卷的数据一起进行审核。
均值插补通常在没有辅助信息可用或只有少量 记录需要作插补处理时,才被采用。
.
4.3 比(率)或回归插补
比率或回归插补是使用辅助信息及其它记录中 的有效回答建立一个比率或回归模型,该模型 表明了两个或多个变量之间的关系。 例如,比率插补所使用的模型为:
yi Rixi
其中:yi是变量y的第i个单元值; xi是与变量y相关的变量x的第i个单元值; R是直线的斜率(即每变动一个单位,
.
对大多数审核失效都应该加以标示, 留待作插补处理。 对于有些项目,我们可以用特殊代码 标示的方法,对确认为审核失效而不 可接受的值或无效的空白加以保留。
.
选择性审核
选择性审核基于这样一种思想:即只有 那些“关键”的审核失效,而不是所有 的审核失效,才需要采取相应的处理措 施。选择性审核一般适于定量数据。 对审核失效进行选择性审核时,可能需 要对被调查者进行再访,但对于那些需 要进一步处理和插补的记录的审核失效 除外。
平均变动的数值); 是模型的随机误差项,均值为0、方差为。
.
i
这时,y i 的插补值按如下公式计算:
~y i
y x
xi
式中:
~y i x
是变量y第i个记录的插补值; 是插补类中记录的x值的均值;
y 是插补类中记录的y值的均值。
数据处理
(数据)处理就是把调查中收集到的数 据转换为适合汇总制表和数据分析的形 式。 数据收集完毕之后,估计之前对数据进行 加工处理的所有活动:主要包括数据的编 码、录入、审核、插补、离群值的检测 和处理等。最后生成一个为进一步分析 用的数据库。
.
1.编码
编码是给问题的每项答案赋予一个数值 代码,以便于数据录入和作进一步处理 的过程。 编码具体方法很多,包括:
.
插补方法可以归为两类—随机插补和确 定性插补。 确定性插补,对于特定的被调查的数据, 可能的插补值只有一个。 随机插补则含有随机因素因此,每次得 出的插补值可能会不一样。
.
几种确定性插补方法如下:
- 推理插补; - 均值插补; - 比(率)/回归插补; - 序贯热平台插补; - 序贯冷平台插补; - 最近邻值插补。 每一种确定性的插补方法都对应着一种随机插 补方法。插补定量数据时,用确定性的方法得 出一个插补值,加上从某个适宜的分布或模型 产出的一个残差作为最后的插补值,就成为随 机插补。
.
通常,审核规则的确定基于以下几个方面: 关于调查主题的专业知识; 问卷和问题的结构; 其它相关的调查或数据; 统计理论(如离群值的检测方法)。
.
数据收集完毕后,对审核失效,通常按 下列方法进行处理:
将其剔除; 进行插补; 设立特殊代码。
.
有些时候,一条记录(或整份问卷)不 符合多条审核规则的要求,或者不符合 少数几条关键审核规则的要求,从而使 得后续的处理失去意义。 在这种情况下,通常可以将这些记录剔 除,作为无回答处理,同时将赋予各被 调查单元的权数进行调整。
.
审核的指导方针
审核的目标是: - 更好地理解数据和数据处理过程; - 检查问卷; - 回访被调查者; - 检出错填或漏填的数据; - 删除无效记录; - 分离需要插补的记录。
.
审核的准则:
审核不仅对整理数据有用,而且审核失效发生 率不论是对当前调查的质量度量,还是对将来 调查的改进都很有用,它能提供调查中有关数 据处理的信息; 不论什么时候,开始一项调查时,总是要对数 据做一些假定,审核时可以检验这些假定的合 理性。例如,可能很明显,有些领域的审核规 则太严,或者有些类型的审核失效太频繁,这 些情况表明审核规则可能不太合适(或问卷可 能存在问题);
.
4.2 均值插补
用均值插补,缺失或不一致的值可用插补类的 均值来代替。对缺失数据,用均值插补相当于 对同一插补类中的所有被调查者使用相同的无 回答权数进行调整。
均值插补会得到较好的点估计,但由于在插补 类均值这一点形成一个人为的“峰值”,从而 破坏了分布状态和变量之间的关系。因此,如 果用常规的抽样方差公式进行计算,就会低估 最终的方差。
.
随机插补能更好地保持数据集的频数结 构,保持比确定性插补方法更真实的变 异性。 除供者插补方法外,下面介绍的方法可 逐项进行插补。 所谓的供者插补方法,就是用一个供者 来插补一个受者的所有缺失的或不一致 的数据。
.
4.1推理插补
推理插补:缺失的或不一致的数据能通 过推断确定。通常,这种推理是根据问 卷上其它回答项的模式来进行的。 下面简述一些常用的插补方法。对所有 这些插补方法,最好是把类似的记录归 为一组,就象进行无回答权数调整时一 样,这些组称为插补类。
问卷中已预先编码; 在数据收集完毕之后进行手工编码; 通过文本识别软件进行自动编码(即借助软
件给一串字符赋予一个代码)。
.
2)数据录入
数据录入是将回答转化成可机读的形式。 采用纸张式收集数据的方法时,数据录 入是在数据收集完毕之后(通常是在对 问卷进行一些“梳理”和初步审核之后) 进行。 采用计算机辅助数据收集方法时,数据 录入是在数据收集的同时完成的。
.
审核应该分阶段进行; 审核工作应由对本次调查的主题、问卷的设 计和数据分析有专业知识、并且有类似调查 经验的人员来进行; 各阶段所进行的审核不应与其它阶段的审核 相抵触; 应该将审核的信息和审核工作对调查数据的 影响通知数据的用户。
.
4.插补
插补就是解决在审核过程中辨别出来的 数据缺失、无效与不一致等问题的过程。 插补是对审核过程中发现的所有缺失信 息的记录进行补充或用合适的数值进行 替代,确保得出内在一致的记录。