流行病学数据统计分析策略
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2016/2/3 8
四、流行病学数据分析的内容
描述研究对象的数量变动; 变量分类和数据整理; 描述和比较组间基线资料; 估计结局事件发生频率; 估计效应大小及其可信区间; 识别和控制混杂; 识别和测量效应修饰作用; 识别和测量剂量反应关系; 其他分析。
9
2016/2/3
13
2016/2/3
四、结局事件发生的频率
一般要求用率表示,如发病率。发病率由三个因素决定: 观察时间、可能发病的总人数和实际发病人数。 一般情况下,发病率的分子是在一定时间内发病的总人数。 分母则因研究设计不同而异。当发病率较低,且每个人的 观察时间长短基本一致,可用研究开始时该组人数作分母 计算发病率,叫做累积发病率(cumulative incidence)。 当结局事件发生率较高(如晚期癌症治疗试验中的死亡) 或每个人的观察时间相差较大时,这时可用人时数(如人 年数,person-years)做分母计算发病率,称作人时发病 率(person-time incidence rate或发病密度(incidence density),
2016/2/3 16
六、估计效应可信区间
由于随机误差,各效应指标的点估计不能代表 效应的真实值,可信区间(Confidence Interval,CI)可用来表达由随机误差引起的 效应估计值的不确定性。实践中一般采用95% 可信区间,可以将其理解为真实效应值有95% 的可能在这个区间之内。若效应指标的点估计 值为X,标准误为SE,该效应指标的95%可信 区间:95%CI =X±1.96SE,其中,(X- 1.96SE)为其下限,(X+1.96SE)为其上限。
基线资料就是有关研究对象代表性和混杂因素 的信息资料。 基线资料描述的基本目的:一是交待研究对象 的特征,提供其代表人群的信息,据此判断结 果的外推人群和外推性;二是评估暴露组和非 暴露组之间混杂因素的可比性,检查存在混杂 的可能性。 描述基线资料时,通常在总体描述基础上,对 暴露组和非暴露组还要分别进行描述。
27
研究设计最重要的三个因素是时间、人群和变 量。时间因素包括时点还是时间段,如何定义 起始时间、时间走向、变量间的时间关系;人 群因素包括人群特征,选择过程,及比较组的 形成;变量因素包括测量指标、何时测量、测 量的准确性。 通过比较常规数据收集的“设计框架”和最佳 研究设计,可以发现常规数据的设计缺陷,判 断可能引起的偏倚。在时间、人群和变量特征 上与最佳设计的差异,就是常规数据的缺陷所 在,也是偏倚可能出现的地方。 主要缺陷是非随机,失访或变量缺失。
21
九、识别和测量剂量反应关系
识别和测量剂量反应关系的分析方法主要有 分层分析和回归分析。
表 20-5 吸烟量与肺癌的剂量反应关系 每日吸烟支数 RR 0 1.0 15.0 108.5 2010.2 3013.5 4015.7 合计 9.8
2016/2/3
22
第三节 常规收集的 流行病学数据的分析
2016/2/3 18
混杂的控制就是控制混杂的第三个条件, 办法有: 设计阶段有三种方法:限制、匹配和随 机分组; 数据分析阶段也有三种方法:直接标化 法、分层分析和多元回归分析。
2016/2/3
19
八、交互作用
交互作用不同于混杂。混杂是粗效应值估计时 的一种偏倚,需要控制和消除;交互作用是效 应大小随第三因素暴露强度或剂量变化而变化 的现象。 区别交互作用和混杂的方法是一致性检验。如 果层间差异无显著性(P>0.05),说明不存在 交互作用,这时可按混杂处理,可以用一个加 权平均效应值来表达,如果平均效应值与粗效 应值一致,说明无混杂。
2016/2/3
25
二、形成研究问题
根据数据的变量特征,可以初步形成可研究问题的范 围。 欲进行诊断准确性研究,数据库里必须有检查结果和 疾病诊断信息。 研究副作用,基线资料中必须有治疗信息,随访资料 中须有副作用的信息。 评估疗效,基线资料中须有治疗的信息,随访资料中 须有结局信息。 研究危险因素,基线资料中须有可疑病因的信息,随 访资料中须有有关疾病的信息。 对研究者最大的挑战不是如何进行分析,而是如何形 成研究问题?
2016/2/3 28
四、估计相应的指标
根据研究目的以及最佳研究设计,就能够确定 需要估计的指标。 现况研究中,只需要估计有关变量的均数和百 分数; 评估治疗效果时,主要估计治疗对结局作用的 大小; 评估诊断的准确性,主要估计灵敏度和特异度; 研究副作用,主要估计治疗对不良结局的作用 大小值。
2016/2/3
5
流行病学数据分析的目的
估计有关统计学指标,如相对危险度; 估计该统计学指标的可信区间; 控制可能的混杂因素; 分析剂量反应关系; 分析可能的效应修饰因子; 分析可能存在的偏倚。
2016/2/3
6
三、流行病学数据中的变量分类
典型的流行病学研究中变量可根据其用 途分为五类: 暴露变量:因,自变量,可以有多个 结局变量:果,因变量,是数据分析的 核心 混杂因素:需要控制 效应修饰因素:需要描述 其他变量:
常规数据分析的特殊性有三点: 第一,对研究问题的设定和对分析结果真实性 的评估; 第二,由于没有预先设定研究问题,可研究的 问题取决于资料内容和性质; 第三,设计框架不清楚或不完善,存在多种偏 倚,结果真实性较差或不确定。 本节将以医院的病人资料为例,说明常规数据 分析的目的、方法、步骤和注意事项。
2016/2/3 17
七、识别和控制混杂
混杂是由于同一个研究里暴露对某疾病的作用 与其他病因的作用交织在一起导致暴露效应估 计上的误差。 混杂必须同时具备三个条件:其一,是疾病确 定的病因或危险因素;其二,不是暴露和疾病 间的中间因素;其三,可疑的混杂因素在暴露 组和非暴露组的分布不均衡。如性别可能就是 吸烟与肺癌关系中的一个混杂因素。
2016/2/3 26
三、常规数据“研究设计”的缺陷
表 20-7 研究目的 治疗的效果 诊断的准确性 预后和预后因素 病因和危险因素 罕见的病因 罕见的药物副作用 病人和服务现状 总结现有的研究证据
2016/2/3
常见临床问题的最佳研究设计 流行病学最佳设计 随机对照试验 现况研究 前瞻性研究 前瞻性研究 病例对照研究 病例对照研究 现况研究 系统综述
(二)变量的特征和分类
按照临床特征可将常规数据中的变量分为治 疗措施、诊断结果、病因/危险因素、预后因 素、结局、服务相关因素(如药价、医疗保 险等)。 变量决定可能的研究问题。例如,数据中无 治疗信息,则无法研究疗效和副作用;无诊 断结果,则无从研究诊断准确性。无结局信 息,则不能研究疗效、预后因素、危险因素。
2016/2/3 15
例如,某项吸烟和肺癌关系的前瞻性研究,纳入无肺癌的吸烟者 10,000 人, 无肺癌的非吸烟者 20,000 人,平均随访 10 年,不同研究对象观察时间的差别不 超过 3 个月。10 年内吸烟组中新发肺癌 50 例,非吸烟组新发肺癌 20 例。吸烟 对肺癌发病的效应测量指标计算如下: 吸烟组 10 年累积发病率 I1=50/10000=0.005 非吸烟组 10 年累积发病率 I0=20/20000=0.001 相对危险度 RR=I1/I0=0.005/0.001=5.0 率差 RD=I1-I0=0.005-0.001=0.004 归因危险度百分数 ARP=(I1-I0)/I1=(0.005-0.001)/0.005=0.004/0.005=80% 比值比 OR=[I1(1-I0)]/[I0(1-I1)]=[0.005(1-0.001)]/[0.001(1-0.005)]=5.02 需治疗人数 NNT=1/0.004=250
2016/2/3 14
五、估计效应值
效应就是暴露或治疗对结局作用或影响的大 小,多用暴露组与非暴露组或治疗组与对照 组间发病率的差别来表达。
流行病学研究中常见的效应测量指标有:①相对危险度 RR=I1/I0;②归因危 险度百分数 ARP=(I1-I0)/I1;③相对危险减少度 RRR=(I1-I0)/I0;④比值比 OR=ad/bc;⑤率差 RD=I1-I0;⑥需治疗人数 NNT=1/RD。
20
2016/2/3
交互作用模型及其相对性
决策应基于相加模型
表 20-3 肺癌发病率—交互作用与效应指标的关系(1/10 万) 吸烟史 有 吸烟者 非吸烟者 率比 率差 50 5 10 [=50/5] 45 [=50-5] 石棉接触史 无 10 1 10 [=10/1] 9 [=10-1]
2016/2/3
一、流行病学研究与流行病学数据
狭义的流行病学数据(epidemiological data)指任何来自针对明确研究目的而 开展特定流行病学研究所收集的资料。 广义的流行病学数据还包括出于其他目 的和用途而收集的、可以用来定量地探 索疾病健康或医疗卫生服务其他问题的 资料。 即一切可为流行病学所用的数据。目前 的临床大数据是个宝库。
2016/2/3 30
五、评估数据中的偏倚
分析常规数据时,针对偏倚需考虑以下问题:
设计框架中,是否具有病因(或治疗)、结局和 混杂因素的信息,结局的测量是否发生在病因或 治疗发生后的一段时间内; 是否存在选择偏倚:数据代表性及失访率等; 是否存在信息偏倚; 是否存在混杂偏倚:有关混杂因素的基线信息是 否完整。
4
2016/2/3
二、流行病学数据分析的目的
流行病学数据分析是针对明确研究问题、具有 明确目的、采用特定方法对流行病学数据进行 统计整理、统计描述、统计推断和总结。 流行病学研究的问题涉及疾病分布、病因与危 险因素、诊断、预防和治疗效果评价等。 数据分析的根本是正确地回答有意义的问题, 而不是统计学数字游戏。
2016/2/3
29
常规数据分析的具体步骤
分析数据的时间框架和变量的特征; 提出可探索的问题,确定最终研究的问题; 与最佳研究设计比较,检查数据的“研究设计” 缺陷; 估计必要的指标及其可信区间与其它必要的分 析; 分析数据中可能存在的其他偏倚,例如选择偏 倚、信息偏倚和混杂偏倚; 综合设计缺陷、偏倚和结果,对研究问题做出 结论。
第二节 流行病学专题研究的数据分析
一、描述研究对象的数量变动 数据分析的第一步须对研究对象数 量随时间的变动进行描述,这是判断选 择偏倚是否存在及其大小的主要依据; 对选样、抽样和筛选都应交代原则和方 法;对退出和失访都应记录数量和原因 。
2016/2/3
10
2016/2/3
11
二、流行病学变量的分类与数据转换
7
2016/2/3
按统计Байду номын сангаас分类
定性:二分类和多分类(无序多分类) 定量:在多数流行病学研究中被转化为分类变 量 半定量(分级,有序多分类) 同一个研究中,因变量和自变量的关系应该是 固定的、不能互换。但在不同的研究中,一个 变量在这个研究中可能是果,在另一个研究中 也可能是因。例如,高血压可能是遗传的结果, 血压也可能是心脑血管事件的原因。
转换目的: 习惯、专业考量、模型限制 转换类型:定量转定性或分级,定性转 定量 转换常用原则:借鉴既往同类研究的分 级方法;按照通用的分级标准,如年龄 可按国际通用的婴儿、幼儿、青少年、 青年、中年、老年的年龄切点来分级; 把研究人群分成每组人数均等的3~5组等。
12
2016/2/3
三、描述基线资料
流行病学数据统计分析策略
中南大学湘雅公共卫生学院 谭红专 教授
主要内容
概述 专题研究的数据分析 常规收集的流行病学数据的分析
2016/2/3
2
第一节 概述
流行病学研究与流行病学数据 流行病学数据分析的目的 流行病学数据中的变量分类 流行病学数据分析的内容
2016/2/3
3
2016/2/3 23
一、常规数据的特征
(一)数据的时间框架和分类 时间框架指数据的时间特征,主要分为 随访数据(队列数据)和非随访数据 (现况数据)。 现况数据主要探索病人现况、服务状况 和诊断准确性,偶尔用于初步探索病因、 疗效和不良反应。队列数据可用于大多 数临床问题的探索。
2016/2/3 24
四、流行病学数据分析的内容
描述研究对象的数量变动; 变量分类和数据整理; 描述和比较组间基线资料; 估计结局事件发生频率; 估计效应大小及其可信区间; 识别和控制混杂; 识别和测量效应修饰作用; 识别和测量剂量反应关系; 其他分析。
9
2016/2/3
13
2016/2/3
四、结局事件发生的频率
一般要求用率表示,如发病率。发病率由三个因素决定: 观察时间、可能发病的总人数和实际发病人数。 一般情况下,发病率的分子是在一定时间内发病的总人数。 分母则因研究设计不同而异。当发病率较低,且每个人的 观察时间长短基本一致,可用研究开始时该组人数作分母 计算发病率,叫做累积发病率(cumulative incidence)。 当结局事件发生率较高(如晚期癌症治疗试验中的死亡) 或每个人的观察时间相差较大时,这时可用人时数(如人 年数,person-years)做分母计算发病率,称作人时发病 率(person-time incidence rate或发病密度(incidence density),
2016/2/3 16
六、估计效应可信区间
由于随机误差,各效应指标的点估计不能代表 效应的真实值,可信区间(Confidence Interval,CI)可用来表达由随机误差引起的 效应估计值的不确定性。实践中一般采用95% 可信区间,可以将其理解为真实效应值有95% 的可能在这个区间之内。若效应指标的点估计 值为X,标准误为SE,该效应指标的95%可信 区间:95%CI =X±1.96SE,其中,(X- 1.96SE)为其下限,(X+1.96SE)为其上限。
基线资料就是有关研究对象代表性和混杂因素 的信息资料。 基线资料描述的基本目的:一是交待研究对象 的特征,提供其代表人群的信息,据此判断结 果的外推人群和外推性;二是评估暴露组和非 暴露组之间混杂因素的可比性,检查存在混杂 的可能性。 描述基线资料时,通常在总体描述基础上,对 暴露组和非暴露组还要分别进行描述。
27
研究设计最重要的三个因素是时间、人群和变 量。时间因素包括时点还是时间段,如何定义 起始时间、时间走向、变量间的时间关系;人 群因素包括人群特征,选择过程,及比较组的 形成;变量因素包括测量指标、何时测量、测 量的准确性。 通过比较常规数据收集的“设计框架”和最佳 研究设计,可以发现常规数据的设计缺陷,判 断可能引起的偏倚。在时间、人群和变量特征 上与最佳设计的差异,就是常规数据的缺陷所 在,也是偏倚可能出现的地方。 主要缺陷是非随机,失访或变量缺失。
21
九、识别和测量剂量反应关系
识别和测量剂量反应关系的分析方法主要有 分层分析和回归分析。
表 20-5 吸烟量与肺癌的剂量反应关系 每日吸烟支数 RR 0 1.0 15.0 108.5 2010.2 3013.5 4015.7 合计 9.8
2016/2/3
22
第三节 常规收集的 流行病学数据的分析
2016/2/3 18
混杂的控制就是控制混杂的第三个条件, 办法有: 设计阶段有三种方法:限制、匹配和随 机分组; 数据分析阶段也有三种方法:直接标化 法、分层分析和多元回归分析。
2016/2/3
19
八、交互作用
交互作用不同于混杂。混杂是粗效应值估计时 的一种偏倚,需要控制和消除;交互作用是效 应大小随第三因素暴露强度或剂量变化而变化 的现象。 区别交互作用和混杂的方法是一致性检验。如 果层间差异无显著性(P>0.05),说明不存在 交互作用,这时可按混杂处理,可以用一个加 权平均效应值来表达,如果平均效应值与粗效 应值一致,说明无混杂。
2016/2/3
25
二、形成研究问题
根据数据的变量特征,可以初步形成可研究问题的范 围。 欲进行诊断准确性研究,数据库里必须有检查结果和 疾病诊断信息。 研究副作用,基线资料中必须有治疗信息,随访资料 中须有副作用的信息。 评估疗效,基线资料中须有治疗的信息,随访资料中 须有结局信息。 研究危险因素,基线资料中须有可疑病因的信息,随 访资料中须有有关疾病的信息。 对研究者最大的挑战不是如何进行分析,而是如何形 成研究问题?
2016/2/3 28
四、估计相应的指标
根据研究目的以及最佳研究设计,就能够确定 需要估计的指标。 现况研究中,只需要估计有关变量的均数和百 分数; 评估治疗效果时,主要估计治疗对结局作用的 大小; 评估诊断的准确性,主要估计灵敏度和特异度; 研究副作用,主要估计治疗对不良结局的作用 大小值。
2016/2/3
5
流行病学数据分析的目的
估计有关统计学指标,如相对危险度; 估计该统计学指标的可信区间; 控制可能的混杂因素; 分析剂量反应关系; 分析可能的效应修饰因子; 分析可能存在的偏倚。
2016/2/3
6
三、流行病学数据中的变量分类
典型的流行病学研究中变量可根据其用 途分为五类: 暴露变量:因,自变量,可以有多个 结局变量:果,因变量,是数据分析的 核心 混杂因素:需要控制 效应修饰因素:需要描述 其他变量:
常规数据分析的特殊性有三点: 第一,对研究问题的设定和对分析结果真实性 的评估; 第二,由于没有预先设定研究问题,可研究的 问题取决于资料内容和性质; 第三,设计框架不清楚或不完善,存在多种偏 倚,结果真实性较差或不确定。 本节将以医院的病人资料为例,说明常规数据 分析的目的、方法、步骤和注意事项。
2016/2/3 17
七、识别和控制混杂
混杂是由于同一个研究里暴露对某疾病的作用 与其他病因的作用交织在一起导致暴露效应估 计上的误差。 混杂必须同时具备三个条件:其一,是疾病确 定的病因或危险因素;其二,不是暴露和疾病 间的中间因素;其三,可疑的混杂因素在暴露 组和非暴露组的分布不均衡。如性别可能就是 吸烟与肺癌关系中的一个混杂因素。
2016/2/3 26
三、常规数据“研究设计”的缺陷
表 20-7 研究目的 治疗的效果 诊断的准确性 预后和预后因素 病因和危险因素 罕见的病因 罕见的药物副作用 病人和服务现状 总结现有的研究证据
2016/2/3
常见临床问题的最佳研究设计 流行病学最佳设计 随机对照试验 现况研究 前瞻性研究 前瞻性研究 病例对照研究 病例对照研究 现况研究 系统综述
(二)变量的特征和分类
按照临床特征可将常规数据中的变量分为治 疗措施、诊断结果、病因/危险因素、预后因 素、结局、服务相关因素(如药价、医疗保 险等)。 变量决定可能的研究问题。例如,数据中无 治疗信息,则无法研究疗效和副作用;无诊 断结果,则无从研究诊断准确性。无结局信 息,则不能研究疗效、预后因素、危险因素。
2016/2/3 15
例如,某项吸烟和肺癌关系的前瞻性研究,纳入无肺癌的吸烟者 10,000 人, 无肺癌的非吸烟者 20,000 人,平均随访 10 年,不同研究对象观察时间的差别不 超过 3 个月。10 年内吸烟组中新发肺癌 50 例,非吸烟组新发肺癌 20 例。吸烟 对肺癌发病的效应测量指标计算如下: 吸烟组 10 年累积发病率 I1=50/10000=0.005 非吸烟组 10 年累积发病率 I0=20/20000=0.001 相对危险度 RR=I1/I0=0.005/0.001=5.0 率差 RD=I1-I0=0.005-0.001=0.004 归因危险度百分数 ARP=(I1-I0)/I1=(0.005-0.001)/0.005=0.004/0.005=80% 比值比 OR=[I1(1-I0)]/[I0(1-I1)]=[0.005(1-0.001)]/[0.001(1-0.005)]=5.02 需治疗人数 NNT=1/0.004=250
2016/2/3 14
五、估计效应值
效应就是暴露或治疗对结局作用或影响的大 小,多用暴露组与非暴露组或治疗组与对照 组间发病率的差别来表达。
流行病学研究中常见的效应测量指标有:①相对危险度 RR=I1/I0;②归因危 险度百分数 ARP=(I1-I0)/I1;③相对危险减少度 RRR=(I1-I0)/I0;④比值比 OR=ad/bc;⑤率差 RD=I1-I0;⑥需治疗人数 NNT=1/RD。
20
2016/2/3
交互作用模型及其相对性
决策应基于相加模型
表 20-3 肺癌发病率—交互作用与效应指标的关系(1/10 万) 吸烟史 有 吸烟者 非吸烟者 率比 率差 50 5 10 [=50/5] 45 [=50-5] 石棉接触史 无 10 1 10 [=10/1] 9 [=10-1]
2016/2/3
一、流行病学研究与流行病学数据
狭义的流行病学数据(epidemiological data)指任何来自针对明确研究目的而 开展特定流行病学研究所收集的资料。 广义的流行病学数据还包括出于其他目 的和用途而收集的、可以用来定量地探 索疾病健康或医疗卫生服务其他问题的 资料。 即一切可为流行病学所用的数据。目前 的临床大数据是个宝库。
2016/2/3 30
五、评估数据中的偏倚
分析常规数据时,针对偏倚需考虑以下问题:
设计框架中,是否具有病因(或治疗)、结局和 混杂因素的信息,结局的测量是否发生在病因或 治疗发生后的一段时间内; 是否存在选择偏倚:数据代表性及失访率等; 是否存在信息偏倚; 是否存在混杂偏倚:有关混杂因素的基线信息是 否完整。
4
2016/2/3
二、流行病学数据分析的目的
流行病学数据分析是针对明确研究问题、具有 明确目的、采用特定方法对流行病学数据进行 统计整理、统计描述、统计推断和总结。 流行病学研究的问题涉及疾病分布、病因与危 险因素、诊断、预防和治疗效果评价等。 数据分析的根本是正确地回答有意义的问题, 而不是统计学数字游戏。
2016/2/3
29
常规数据分析的具体步骤
分析数据的时间框架和变量的特征; 提出可探索的问题,确定最终研究的问题; 与最佳研究设计比较,检查数据的“研究设计” 缺陷; 估计必要的指标及其可信区间与其它必要的分 析; 分析数据中可能存在的其他偏倚,例如选择偏 倚、信息偏倚和混杂偏倚; 综合设计缺陷、偏倚和结果,对研究问题做出 结论。
第二节 流行病学专题研究的数据分析
一、描述研究对象的数量变动 数据分析的第一步须对研究对象数 量随时间的变动进行描述,这是判断选 择偏倚是否存在及其大小的主要依据; 对选样、抽样和筛选都应交代原则和方 法;对退出和失访都应记录数量和原因 。
2016/2/3
10
2016/2/3
11
二、流行病学变量的分类与数据转换
7
2016/2/3
按统计Байду номын сангаас分类
定性:二分类和多分类(无序多分类) 定量:在多数流行病学研究中被转化为分类变 量 半定量(分级,有序多分类) 同一个研究中,因变量和自变量的关系应该是 固定的、不能互换。但在不同的研究中,一个 变量在这个研究中可能是果,在另一个研究中 也可能是因。例如,高血压可能是遗传的结果, 血压也可能是心脑血管事件的原因。
转换目的: 习惯、专业考量、模型限制 转换类型:定量转定性或分级,定性转 定量 转换常用原则:借鉴既往同类研究的分 级方法;按照通用的分级标准,如年龄 可按国际通用的婴儿、幼儿、青少年、 青年、中年、老年的年龄切点来分级; 把研究人群分成每组人数均等的3~5组等。
12
2016/2/3
三、描述基线资料
流行病学数据统计分析策略
中南大学湘雅公共卫生学院 谭红专 教授
主要内容
概述 专题研究的数据分析 常规收集的流行病学数据的分析
2016/2/3
2
第一节 概述
流行病学研究与流行病学数据 流行病学数据分析的目的 流行病学数据中的变量分类 流行病学数据分析的内容
2016/2/3
3
2016/2/3 23
一、常规数据的特征
(一)数据的时间框架和分类 时间框架指数据的时间特征,主要分为 随访数据(队列数据)和非随访数据 (现况数据)。 现况数据主要探索病人现况、服务状况 和诊断准确性,偶尔用于初步探索病因、 疗效和不良反应。队列数据可用于大多 数临床问题的探索。
2016/2/3 24