现场调查问卷的数据管理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
现场调查问卷的数据管理
Survey Data Management
主要内容
问卷录入前的核查 数据编码 常用数据管理软件介绍 数据的录入与管理
研究设计 实施调查 分析资料 结果解释 撰写论文
……
设计“问卷” 收集数据 分析数据
数据录入 数据管理
问卷录入前的核查
• 核查的内容
– 真实性:无伪造和失真,无乱答 – 准确性:有无前后矛盾、相关问题逻辑一致 – 完整性:整体完整性和单份完整性。 – 标准性:调查结果中数据的计量单位要统一
问卷录入前的核查
• 核查方法
– 计算法:利用数学公式检查相关结果的一致性 – 逻辑检查:检查问题是否符合逻辑 说明:目前人工逻辑核查已经被计算机核查所代替,计算机可以实
现输入时和输入后的数据检查,可以及时更正或审校,如Epidata.
数据的编码与赋值
数据编码的概念 数据编码的原则 数据编码 数据的重新赋值
数据编码的概念
• 数据编码是指把资料信息转换成计算机能识别的 某些特定的符号和数码的过程,它直接关系到数 据处理和分析的繁复程度和真实性。
• 大规模的流行病学调查需要编制一份编码手册 (也称编码簿)发给编码员,每个编码员则按编 码手册的要求,统一进行编码。将调查数据转换 成代码数据,代码数据应尽可能保留原始调查数 据的形态及包含的信息。
数据编码的原则
• 唯一性原则:
– 每一编码与所代表的信息呈一一对应关系;
• 简单性原则:
– 编码的位数要尽可能少,编码的符号要尽可能简单, 一般编码都使用阿拉伯数字;
• 概括性原则:
– 对信息进行分门别类,然后用少数几个符号代表不同 的类。
数据编码
• 定量变量的编码:
– 定量变量的编码最为简单,一般只需把变量数值直接写成代码数据, 而不需要任何转变。
– 有时为了降低录入难度,避免录入错误,人们常把定量资料认为的 转 变 为 等 级 编 码 , 如 先 对 年 龄 进 行 分 组 , 即 1 ~ 19=1 , 20 ~ 39=2,……,>80=5,然后再将这些分组的年龄代码数据1,2,3, 4,5输入到计算机数据文件。
数据编码
• 定性变量的编码:
– 二分类变量的编码:常用0和1来编码,因此也可以称为0-1变量。 由于对阳性事物设立高次代码有助于调查者在分析时获得正的参数 估计值,所以一般情况下常用“1”代表“有 、正或阳性”;用“0” 代表“无、负或阴性”。
数据编码
• 定性变量的编码:
– 多分类变量的编码:季节一般分为春、夏、秋、冬。通 常的做法是用英语字母(如A、B、C、D)或阿拉伯数字 (1,2,3,4)依次对其进行编码。
• 值得注意的是,这里季节是个名义变量,其取值1、2、3、4只是 为了数据记录的便利而设定的代码,不能由其平均数作为该分类 变量的平均水平对资料进行描述,也不能直接参与回归分析等计 算。因为“1”不能理解为“较低水平”,“4”也不能理解为 “较高水平”,它们之间不存在自然的等级变化,如果直接参与 回归分析只能会造成结果无法解释。
数据编码
• 定性变量的编码: – 多分类变量的编码:季节一般分为春、夏、秋、冬。通 常的做法是用英语字母(如A、B、C、D)或阿拉伯数字 (1,2,3,4)依次对其进行编码。
数据编码
• 定性变量的编码:
– 有序变量的编码:临床体检或实验室检验常用−、±、+和+ +等来表示测量结果,属于有序变量。
• 有序变量的取值称为水平,如果有理由认为各水平之间是等距离 或近似等距离,则可把各水平取值依次记作 1、2、3、4。例如, 患者术后出血量分为少、一般、偏多、过多,分别按这个顺序编 码为1、2、3、4。如果把“1”理解为“较低水平”,代表较少 出血量,把“4”理解为“较高水平”,代表较多出血量,完全可 以和医学实际意义相吻合。
数据编码
• 问卷中多复选题的编码:
– 所谓复选题,也称多项选择题, 即题目的答案不止一个, 答案的选项可以根据研究需要多重选择。
– 复选题主要包括两种情况:
• 一种是被调查人员从选项集中任意选择符合自身情况的选项,没有其他 附加要求;
• 另一种是被调查人员从选项集中选择最重要的3项(或5项),并按照程 度大小排序。
数据编码
• 问卷中多复选题的编码:
– 1. 多重二分法:将复选题的多个选项分别当作独立的变量来看待,根 据选项的个数分别定义为若干个子变量。对于每一选项的赋值,选定 义为“1”,不选为“0”。
– 如例1按照多重二分法进行编码时,就会产生5个新的且相 互独立的变量,分别用A1、A2、 A3、A4、 A5表示,假 设某位调查对象选择了“1、2、5”,编码的结果便为 A1=1、A2=1、A3=0、A4=0、A5=1。
数据编码
• 问卷中多复选题的编码:
– 2.随机编码法:当变量选项比较多,而题目只要求从多个选 项中选择最重要的3或5项时,仍然使用多重二分法录入显 然不方便。为了减少录入“0”的次数,常选用另一种编 码方法-随机编码法。
如例2,这时候只要定义3个子变量即可(如B1,B2, B3),每个子变量的备选项可以分别定义为1-10,也可 以理解为每个子变量为被访者的一次选择。假设某位调查 对象选择了“1、2、5”,编码的结果便为B1=1、B2=2、 B3=5。
数据编码
• 问卷中多复选题的编码:
– 3.组合编码法:运用了排列组合的方法,把所有符合例3条 件的组合定义为一种类型,并分别用阿拉伯数据对其进行 编码。然后在数据录入时,只需要把某一类型的代码录入 一个变量(C)即可。
• 由于这种方法只需定义一个变量,因此可以有效减少了数据容量, 提高录入速度,便于数据的检查。而且用单选题的编码方式用于 复选题的数据编码,也必然增加了可选择的统计分析手段。
• 存在着因备选项增加而造成的组合类型多样化、类型识别困难的 弊端。
数据编码
• 漏失数据的编码 :
– 失访数据(又称漏失数据):是指应该调查而未被调查到的数据,例如 调查对象回答不准确、调查员记录不清、项目遗漏或随访过程中调查 对象失访等原因,都会导致漏失数据的产生。
– 空白数据:是在调查对象不具有某些项目的情况时产生,它属于不必 调查的数据,例如男性中学生月经初潮的调查项目一定呈空白状态。
Survey Data Management
主要内容
问卷录入前的核查 数据编码 常用数据管理软件介绍 数据的录入与管理
研究设计 实施调查 分析资料 结果解释 撰写论文
……
设计“问卷” 收集数据 分析数据
数据录入 数据管理
问卷录入前的核查
• 核查的内容
– 真实性:无伪造和失真,无乱答 – 准确性:有无前后矛盾、相关问题逻辑一致 – 完整性:整体完整性和单份完整性。 – 标准性:调查结果中数据的计量单位要统一
问卷录入前的核查
• 核查方法
– 计算法:利用数学公式检查相关结果的一致性 – 逻辑检查:检查问题是否符合逻辑 说明:目前人工逻辑核查已经被计算机核查所代替,计算机可以实
现输入时和输入后的数据检查,可以及时更正或审校,如Epidata.
数据的编码与赋值
数据编码的概念 数据编码的原则 数据编码 数据的重新赋值
数据编码的概念
• 数据编码是指把资料信息转换成计算机能识别的 某些特定的符号和数码的过程,它直接关系到数 据处理和分析的繁复程度和真实性。
• 大规模的流行病学调查需要编制一份编码手册 (也称编码簿)发给编码员,每个编码员则按编 码手册的要求,统一进行编码。将调查数据转换 成代码数据,代码数据应尽可能保留原始调查数 据的形态及包含的信息。
数据编码的原则
• 唯一性原则:
– 每一编码与所代表的信息呈一一对应关系;
• 简单性原则:
– 编码的位数要尽可能少,编码的符号要尽可能简单, 一般编码都使用阿拉伯数字;
• 概括性原则:
– 对信息进行分门别类,然后用少数几个符号代表不同 的类。
数据编码
• 定量变量的编码:
– 定量变量的编码最为简单,一般只需把变量数值直接写成代码数据, 而不需要任何转变。
– 有时为了降低录入难度,避免录入错误,人们常把定量资料认为的 转 变 为 等 级 编 码 , 如 先 对 年 龄 进 行 分 组 , 即 1 ~ 19=1 , 20 ~ 39=2,……,>80=5,然后再将这些分组的年龄代码数据1,2,3, 4,5输入到计算机数据文件。
数据编码
• 定性变量的编码:
– 二分类变量的编码:常用0和1来编码,因此也可以称为0-1变量。 由于对阳性事物设立高次代码有助于调查者在分析时获得正的参数 估计值,所以一般情况下常用“1”代表“有 、正或阳性”;用“0” 代表“无、负或阴性”。
数据编码
• 定性变量的编码:
– 多分类变量的编码:季节一般分为春、夏、秋、冬。通 常的做法是用英语字母(如A、B、C、D)或阿拉伯数字 (1,2,3,4)依次对其进行编码。
• 值得注意的是,这里季节是个名义变量,其取值1、2、3、4只是 为了数据记录的便利而设定的代码,不能由其平均数作为该分类 变量的平均水平对资料进行描述,也不能直接参与回归分析等计 算。因为“1”不能理解为“较低水平”,“4”也不能理解为 “较高水平”,它们之间不存在自然的等级变化,如果直接参与 回归分析只能会造成结果无法解释。
数据编码
• 定性变量的编码: – 多分类变量的编码:季节一般分为春、夏、秋、冬。通 常的做法是用英语字母(如A、B、C、D)或阿拉伯数字 (1,2,3,4)依次对其进行编码。
数据编码
• 定性变量的编码:
– 有序变量的编码:临床体检或实验室检验常用−、±、+和+ +等来表示测量结果,属于有序变量。
• 有序变量的取值称为水平,如果有理由认为各水平之间是等距离 或近似等距离,则可把各水平取值依次记作 1、2、3、4。例如, 患者术后出血量分为少、一般、偏多、过多,分别按这个顺序编 码为1、2、3、4。如果把“1”理解为“较低水平”,代表较少 出血量,把“4”理解为“较高水平”,代表较多出血量,完全可 以和医学实际意义相吻合。
数据编码
• 问卷中多复选题的编码:
– 所谓复选题,也称多项选择题, 即题目的答案不止一个, 答案的选项可以根据研究需要多重选择。
– 复选题主要包括两种情况:
• 一种是被调查人员从选项集中任意选择符合自身情况的选项,没有其他 附加要求;
• 另一种是被调查人员从选项集中选择最重要的3项(或5项),并按照程 度大小排序。
数据编码
• 问卷中多复选题的编码:
– 1. 多重二分法:将复选题的多个选项分别当作独立的变量来看待,根 据选项的个数分别定义为若干个子变量。对于每一选项的赋值,选定 义为“1”,不选为“0”。
– 如例1按照多重二分法进行编码时,就会产生5个新的且相 互独立的变量,分别用A1、A2、 A3、A4、 A5表示,假 设某位调查对象选择了“1、2、5”,编码的结果便为 A1=1、A2=1、A3=0、A4=0、A5=1。
数据编码
• 问卷中多复选题的编码:
– 2.随机编码法:当变量选项比较多,而题目只要求从多个选 项中选择最重要的3或5项时,仍然使用多重二分法录入显 然不方便。为了减少录入“0”的次数,常选用另一种编 码方法-随机编码法。
如例2,这时候只要定义3个子变量即可(如B1,B2, B3),每个子变量的备选项可以分别定义为1-10,也可 以理解为每个子变量为被访者的一次选择。假设某位调查 对象选择了“1、2、5”,编码的结果便为B1=1、B2=2、 B3=5。
数据编码
• 问卷中多复选题的编码:
– 3.组合编码法:运用了排列组合的方法,把所有符合例3条 件的组合定义为一种类型,并分别用阿拉伯数据对其进行 编码。然后在数据录入时,只需要把某一类型的代码录入 一个变量(C)即可。
• 由于这种方法只需定义一个变量,因此可以有效减少了数据容量, 提高录入速度,便于数据的检查。而且用单选题的编码方式用于 复选题的数据编码,也必然增加了可选择的统计分析手段。
• 存在着因备选项增加而造成的组合类型多样化、类型识别困难的 弊端。
数据编码
• 漏失数据的编码 :
– 失访数据(又称漏失数据):是指应该调查而未被调查到的数据,例如 调查对象回答不准确、调查员记录不清、项目遗漏或随访过程中调查 对象失访等原因,都会导致漏失数据的产生。
– 空白数据:是在调查对象不具有某些项目的情况时产生,它属于不必 调查的数据,例如男性中学生月经初潮的调查项目一定呈空白状态。