流行病学数据的分析处理方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

10
山东大学公共卫生学院
五、数据的整理
(一)数据分组 分类变量:
按其原有的分类进行分组,若有必要,可将性质 相近或差别不大的类别进行合并。如教育程度。 数值变量:
按照实际的生理、病理或临床意义分组,如体重 指数:低体重、正常体重、超重和肥胖
11
山东大学公共卫生学院
按使用的方便程度和专业上惯用的方法分 组,如年龄在某一个合适的范围内每5岁或10岁 分成一组。
(不是对原始数据检验)如:秩和检验 (是对 原始数据的秩次检验)
➢ 检验:正态性检验、方差齐性检验 ➢ 方法:对数变换;平方根变换;倒数变换
13
山东大学公共卫生学院
2、分类变量转换成哑变量
原理:
分类变量是二分类尺度及顺序尺度,则可 直接应用其原有的数量化数值。
名义尺度因为各类别间没有顺序关系,在 进行不同分析(包括多元分析、logistic回归、 Cox回归等)时,不能使用原始的计算机录入 数值,必经进行变量转换。即将该变量转换 成(水平数-1)个哑变量,再将这些新转换的 变量放入多因素模型中。
4
山东大学公共卫生学院
变量数量化
如果调查表的设计是编码式的,则此步骤可省略, 直接将变量取值编码的结果输入计算机。
若不是编码式的调查结果,则需要对变量的取值 结果进行编码(数量化)。
5
山东大学公共卫生学院
常见变量的类型
1、字符型(character type): 输入字符如中文或英文
2、数值型(numerical type): 以数值的形式输入
(二)检查各变量的取值情况 查看变量取值范围,有无逻辑错误:如性别应有两个 取值,若有2个以上的取值,说明存在错误 。
对数据变量要检查其最小值(minimum)、最大值 (maximum)、均数(mean)、中位数(median),并查 看是否有异常取值(outlier),如极小值及极大值。
异常值若影响显著时应删除
14
山东大学公共卫生学院
方法: 例如:将种族原始取值转换成哑变量(新变量)
表1.
分类变量转换成哑变量的方法
种族 原始取值(x1)
白人
1
黑人
2
亚太裔
3
西班牙裔人 4
其它种族 5
新变量
.
x1-1 x1-2 x1-3 x1-4
0000
1000
01 0 0
00 1 0
00 01
(3)分类变量(categorical variable)及有 序变量(ordinal variable)则可将其取值进行 量化,然后再输入计算机
7
山东大学公共卫生学院
如:分类变量——种族
白人—1
黑人—2
西班牙裔人—3 亚太裔—4
其它种族—5
注意:
分类变量在进行多因素分析时,必须转换成哑变量
(dummy variable),不能直接将前述的取值1、2、
常用的数据分析软件
SAS(Statistical Analysis System)和SPSS (Statistical Package for Social Science), 它们均具有很强的数据分析和数据管理的功能
2
山东大学公共卫生学院
三、数据的计算机录入
(编号、定义变量名、变量数量化)
编号:给每一个调查表或调查对象一个编号 以识别录入的数据与调查表或调查对象的对应 关系(唯一性)
流行病学数据分析前的准备工作
一、原始数据的检查
在数据分析前需要对原始的流行病学调查研究数据进行一 次审查,发现可能存在的错误、遗漏的研究变量取值和其他问 题,并采取相应的措施进行处理。
若在调查表中发现有缺失的数据,可以通过电话再次询问 研究对象、查阅有关的记录、应用储存的血液标本重新检 测或再次取样等措施进行补充。
3、4、5放入方程中进行分析。
8
山东大学公共卫生学院
有序变量的数量化顺序合理,则可以直接进行分析 如:教育程度 文盲:0 小学:1 中学:2 高中及中专:3 大学:4 硕士及以上:5
9
山东大学公共卫生学院
四、数据的检查与核对
(一)检查数据库结构 数据库样本数(观测数)、变量数、变量名称及定义 等。
若发现逻辑错误,也要及时改正。需要对调查问卷进行编 码或者对已编码的问卷进行核查,避免重复和遗漏。
1
山东大学公共卫生学院
二、选择合适的数据管理和数据分析软件
常用的数据管理软件
Microsoft FoxPro、Microsoft Access、 Microsoft Excel 这些数据管理软件也具有简单 的数据分析功能,Excel的数据分析功能更强,不 仅可实现描述性统计,还可以做t检验、方差分析、 相关回归分析等
3、日期型(data type): 按照规定的格式输入日期数值
4、逻辑性(logical type):
Biblioteka Baidu
6
山东大学公共卫生学院
变量数量化时应注意:
(1)除日期型变量外尽量使用数值型变量
(2)某些数值变量(numerical variable)可 直接输入变量的取值,如研究对象的身高、 体重、血压水平等。
使用阿拉伯数字1、2、3…等给每份调查表按照顺 序编号,这样有利于以后对输入的数据进行检查、 核对与修改错误。
可以给编号以时间、地区、单位、调查对象编号等, 如:200501(济南)02(历下)0001(调查对 象)
3
山东大学公共卫生学院
定义变量名称:
命名:可以应用中文、拼音、也可以应用英文,但以 使用拼音或英文为好,这样可以方便输入。
注意:
变量名应简短、易懂易记:如对性别、年龄、身高、体重可 以使用gender, age, height 和weight进行命名。对名称较 长的变量,可以使用简写,如wt表示weight、ht表示height。
标记或说明:有些数据管理和分析软件可变量进行标记或说 明,避免时间长久了而忘记数据库中的变量名字,如对上述 Wt可标记为“weight”。
按分位数分组,即首先找出四分位数
(quartile)或五分位数(quintile)的界值, 然后应用这些界值将研究对象平均分成4组(每 组25%的研究对象)或5组(每组20%的研究对 象)。
12
山东大学公共卫生学院
(二)数据的转换
1、非正态数据的变量转换 ➢ 原理:
正态分布 ——参数检验(parametric test) 非正态数据——非参数检验(non-parametric test)
相关文档
最新文档