B2-EpiData一致性检验报告文本转换成结构化数据格式的实现方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

职业
1.7
other
其他
1.7
A卷
B卷
20
三、结果
函数的运用 VLOOKUP是一个查找函数,给定一个查找的目标,它就
能从指定的查找区域中查找返回想要查找到的值。 LEFT函数用于从一个文本字符串的第一个字符开始返回
指定个数的字符。
21
三、结果
表6 转换后的一致性检验结果数据格式(A卷)
0
23
四、结论
(1)运用EpiData 结合Word、Excel 软件可以快速定位 到出错的纸质问卷,甚至还能直接定位到题号,可明显缩 短定位查找纸质问卷的时间,便于精准快速核对,以达到 提高效率和准确率的目的。
24
四、结论
(2)通过这一方法,对结构化的数据按照定位信息进行 排序,可以使多个校对者有序进行校核工作,也能大大提 高校核效率。
26
27
EpiData一致性检验报告文本转换成 结构化数据格式的实现方法
南华大学公共卫生学院 报告人:唐艳明 导 师: 张天成
目录
一、研究背景 二、资料来源与方法 三、结果 四、结论
2
一、研究背景
问卷调查 问卷整理 数据录入 数据校核
3
小巧实用 简单易学 功能齐全
一、研究背景
• 采用EpiData双录入建立数据库必须进行一致性检验来筛 选录入误差,一致性检验是指对双录入后的两个数据库进 行差异比对的过程。为保证数据的准确性,录入误差应控 制在5‰以内。
6
二、资料来源与方法
1.1资料来源
衡阳市空气污染对人群健康影响监测项目(国家卫生计生委 发起的全国空气污染对人群健康影响监测项目的子项目)
7
二、资料来源与方法
调查时间
调查形式
2017 年 7 月 4 日 —2017 年 7月13日
入户调查
7
调查内容
《家庭生活居住 环境调查表(A 卷)》 《社区居民个人 健康调查表(B 卷)》 《社区居民疾病 和症状调查表 (C卷)》
12 03302 330 none

纺织新村 37 1 201 2.1.1
1
0
13 03302 330 asthma
哮喘
纺织新村 37 1 201 2.1.2
0
14 03302 330 copd
慢阻肺 纺织新村 37 1 201 2.1.2
0
15 03302 330 otherp
其他呼吸 纺织新村 37 1 201 2.1.2
二、资料来源与方法
1.1资料来源
• 每个家庭共用一份A卷,户内成员采用B、C卷进行调查。 • 问卷经楼栋清盘式整理和查重比对后,收集有效问卷:A卷
共518份;B、C卷共1045份。
9
二、资料来源与方法
1.2 方法
EpiData 3.1:建立数据库 并进行双录入和一致性检 验。
Word:利用替换功能将一 致性检验报告的文本进行 转换。
杀虫剂
纺织新村 32
1 102 2.10
1
0
14 121
other1
其他填空 纺织新村 34
1
101
2.1
为公厕无人 公厕无人处
清理

15 537 income
收入
纺织新村 43
4 501 1.4
5
4
22
三、结果
表7 转换后的一致性检验结果数据格式(B卷)
序 个人码 户码 字段名(英) 字段名(中) 社区 楼栋 单元 房号 题号 第一次录入 第二次录入
1 33401 334 birthdate
出生
纺织新村 03 1 307
1.3
1957/7/1
2 10604 106 surveydate 调查日期 纺织新村 04 3 202 调查日期 2017/7/4
2017/7/6
3 11601 116 surveydate 调查日期 纺织新村 04 4 401 调查日期 2017/7/4
序 户码 字段名(英) 字段名(中) 社区
楼栋 单元 房号 题号 第一次录入 第二次录入
1 334
traffic
交通干道
纺织新村 03
1 307
2.2
0
1
2 156 cookingfue
燃料
纺织新村 14
1 101 2.7
0
2
3 398 investigat
调查员
纺织新村 16
2 203 调查员 丁某某
none
10 303
sewer
11 303 trashstati
12 303
noise
13 303
coal
14 303
other
15 398 investigat
REC文件A
5 0 1 0 为公厕无人清理 3 2 0 0 0 0 0 0 丁某某
REC文件B 0 4 2 0 1
公厕无人处理 2 3 1
7 10604 surveydate 2017/07/04 2017/07/06
8 41501 recheck
马某某
杨某
9 41401 otherdieas
1
0
10 41401 investigat
马某某
李某某
11 41401 recheck
陈某某
杨某
12 22101 personalco 430406l2C 430406L2C
Excel:将一致性检验报告 文本转换成结构化数据格 式,再利用VLOOKUP函数、 LEFT函数更新定位信息。
10
三、结果
表1 一致性检验报告原始表(A卷)
11
三、结果
表2 一致性检验报告原始表(B卷)
12
三、结果
2.2利用Word将文本整理成半结构化变形表
(1)文档转换:将两次录入数据比对产生的一致性检验报告结果文本复制 到一个新建的Word文档中; (2)将空格替换成空白; ( 3 ) 将 “ |^p ” 替 换 成 “ & ” ( “ ^p ” 是 段 落 标 记 符 , “ & ” 的 作 用 是 为 Excel表格中分列所需要的); (4)将“^p”替换成“^p&” (5)A卷将“&no1”替换成空白,B卷将“&personalc1=”替换成空白; (6)将 “&&”替换成“&”; (7)A卷和B卷经上述步骤得到的结果如表3和表4所示。
9 room
房号
1.1
10 postcard
邮编
1.1
字段名(英) 字段名(中) 题号
personalco
区位码 区位码
personalc1
个人码 个人码
name
姓名
1.1
sex
性别
1.2
birthdate
出生
1.3
weight
体重
1.4
hight
身高
1.5
education
文化
1.6
occupation
4
一、研究背景
特点1
特点2
特点3
调查样本量大
问卷设计字段多
一致性检验报告 定位难
一致性检验报告进行校核纸质问卷效率低下!
4
一、研究背景
• 问题的提出
EpiData的一致性检验报告校核问卷费时且易出错 更高效地进行查找和校核纸质问卷 运用EpiData与Word、Excel结合
提出一种高效的精准定位校核录入数据与纸质问卷的方法
19
三、结果
表5 A卷与B卷主要字段信息对应表
序 字段名(英) 字段名(中) 题号
1
no
区位码 区位码
2
no1
户码
户码
3 cityconuty
城市
1.1
4 district

1.1
5 community 社区
1.1
6 subdistric
小区
1.1
7 building
楼栋
1.1
8
unit
单元
1.1
13 67701 investigat
黄凤某
黄风某
14 03302
none
1
0
15 03302 asthma
0
18
三、结果
2.4利用录入库的关联字段更新定位信息
通过关联字段更新定位信息
A卷有定位信息
B卷无定位信息
Vlookup函数
Left函数 +Vlookup函数
题号用Vlookup函数在数据结构表找出
16
三、结果
EpiData一致性检验报告转换表(A卷)
序 户码 字段名
1 211 airpurif
2 537 income
3 156 cookingfue
4 133 pesticide
5 334
traffic
6 121
other1
7 659 heatsupply
8 659 cookingfue
9 303
张某
17
三、结果
EpiData一致性检验报告转换表(B卷)
序 个人码 字段名 REC文件A REC文件B
1 53701
other2
棉絮
2 16101
name
符求英
符球英
3 16101
otherh
1
0
4 16101 otherdieas
0
1
5 33401 birthdate 1957/07/01
6 11601 surveydate 2017/07/04 2017/07/06
纺织新村 30
3 602
2.1
0
9 303 trashstati
垃圾站
纺织新村 30
3 602 Biblioteka Baidu.1
0
10 303
noise
噪音
纺织新村 30
3 602 2.1
0
11 303
coal
供暖
纺织新村 30
3 602 2.1
0
12 303
other
其他
纺织新村 30
3 602 2.1
0
13 133 pesticide
2017/7/6
4 16101 161 name
姓名
纺织新村 14 2 502
1.1
符求某
符球某
5 16101 161 otherh 其他心血管 纺织新村 14 2 502 2.1.3
1
0
6 16101 161 otherdieas 其他疾病 纺织新村 14 2 502 2.1.4
0
1
7 41401 414 otherdieas 其他疾病 纺织新村 20 2 501 2.1.4
13
三、结果
14
三、结果
户码为537,户内成员编码为01
15
三、结果
2.3用Excel将导入的Word文本转换成结构化数据
(1)在最左侧插入一列,并加上序号; ( 2 ) 将 B 列 进 行 升 序 排 序 , 并 删 除 “ &------ ” 和 “ & 记 录 键 字 段:(Rec.#……”的列; (3)重新按列A的序号升序,并定位到B列的空值,填充户码或个人码; (4)将列B进行分列(以“&”为分隔符号,列数据格式设为“文本”); (5)将列C进行分列(以“|”为分隔符号,两列的列数据格式设为“文 本”); (6)REC文件A和REC文件B这两列以“|”分列,并保留一个字段码和两次 的录入结果。
1
0
8 41401 414 investigat 调查员 纺织新村 20 2 501 调查员
马某某
李某某
9 41401 414 recheck
复核员 纺织新村 20 2 501 复核员
陈某某
杨某
10 41501 415 recheck
复核员 纺织新村 20 3 102 复核员
马某某
杨某
11 22101 221 personalco 区位码 纺织新村 33 1 402 区位码 430406l2C 430406L2C
张某
4 659 heatsupply
取暖
纺织新村 19
1 102 2.6
3
2
5 659 cookingfue
燃料
纺织新村 19
1 102 2.7
2
3
6 211
airpurif
空气净化器 纺织新村 27
2 302 2.11
0
7 303
none

纺织新村 30
3 602 2.1
0
1
8 303
sewer
臭水沟
(3)这一方法可以对出现的错误进行分类统计,对进行 下一次校对工作提供重要的参考,也能为以后的问卷设计 提供思路。
25
四、结论
• 总之,针对EpiData一致性检验报告对查找、校核纸质问 卷费时且易出错的痛点,利用EpiData结合Word、Excel 软件能便捷实现问卷原始数据库和纸质问卷的精准定位校 核,为进行流行病学调查的研究人员提供了一种较为高效 便捷的数据校核方案。
相关文档
最新文档