倾向值匹配研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

用途
1、探索疾病的可能危险因素 2、用于药物有害作用的研究 3、探讨影响疾病的预后因素 4、评价某种疫苗在现场使用中的流行病学效果
设计与实施
(一)确定研究目的,提出研究假设 (二)病例的选择 统一诊断标准,规定人口特征和外部特征。 ◆来源:医院病例 社区人群病例 队列内病例 ◆类型:新发病例 现患病例 死亡病例
病例对照研究(case-control study) 倾向值匹配研究(Propensity Matched Study)
定义:病例对照研究是选择患有特定疾病的人群作为病例组,和
未患这种疾病的人群作为对照组,调查两组人群过去暴露于某种 (或某些)可能危险因素的比例,判断暴露危险因素是否与疾病 有关联及关联程度大小的一种观察性研究方法。
(1)首先要对数据进行数据质量核查,鉴别数据类型,考察数据的完整性 和逻辑性,然后根据数据类型和样本量大小来选择相应的倾向得分的分析 方法。
(2)选择纳入模型的协变量。 • 针对试验目的,根据研究者的临床经验筛选混杂因素,并结合倾向得分
变量选择的要求,选择合适合理的混杂因素。
• 然后以处理因素为应变量,混杂因素为自变量来构建模型。根据模型获 得倾向得分的估计值。 • 估计倾向得分可选的模型包括 logistic 回归、Probit 回归、判别分析等, 其中最常用的是 logistic 回归模型。
倾向值匹配研究(Propensity Matched Study)
在大量观察性数据和临床试验研究中,为了估计并评 RCT 在实际应用中却受到了很多方面的限制,例如高昂的 价某种处理效应,选择随机对照试验(randomized 研究费用、伦理学的要求、实际中操作的困难性、不适用 controlled trial,RCT)无疑是最理想的 于发病率很低的疾病研究以及周期较长的科学研究等。
基本步骤:
①根据研究目的确定合适的人群作为研究队列(全队列); ②按照一定的抽样比例在全队列中抽取一部分对象作为对照 组(子队列); ③随访一段预定的时间,随访期全队列中发生的所有患者组
成病例组;
资料分析
抽取所有病例和子队列成员的协变量信息做统计分析: (1)用病例对照研究的分析方法估计OR值; (2)用虚拟危险度估计RR值; (3)用Cox模型进行多因素分析和计算RR值。
c
对照组的比值=
d
m0 b m0
d
ad c OR b bc d
a
四、常见偏倚及控制 1、选择偏倚(selection bias) 由于选择研究对象的方法有问题或缺点,造成病例组和对照组 缺乏均衡可比性。 ◆常见的选择偏倚
入院率偏倚(admission rate bias)
存活病例偏倚(prevalence-incidence bias) 检出症候偏倚(detection signal bias)
随机对照试验(randomized controlled trial,RCT)
在非随机化研究中,由于基线特征在组间的分布不均 衡,使之成为处理效应估计的混杂因素,从而导致处 理效应的估计存在偏倚。
非随机对照试验 (nonrandomized controlled trial,NRCT)
多变量分析模型、Mantel-Haenszel 分层分析、协变量匹配 多变量分析模型在结局发生率很低,而混杂因素较多的情况下却 难以发挥作用;Mantel-Haenszel 分层分析法和协变量匹配法同样 不适用于混杂因子较多,数据维度很高的非随机化数据分析
二.病例-队列研究(case-cohort study)病例参比式研究 (case-base reference study) 原理 研究开始时在队列中随机选取一组样本作为对照,观察 结束时,队列中出现被研究疾病的所有病例作为病例组。 特点 可以同时研究几种疾病,不同的疾病有不同的病例组, 对照组是同一组随机样本。
巢式病例对照研究的优点:
①统计效率高 ②统计方法常用 ③收集资料简便
病例-队列研究的优点:
①对照随机选择,代表性好 ②对照选择不受时间限制,选择快 ③一组对照可同时与几种病例组比较
(8)对数据进行敏感性分析。 在一次试验中,好的匹配方法产生不完整的匹配集是不可避免的,哪怕采
用最大化匹配也不能消除匹配的不精确。因此,如何在匹配的精度和完整
度之间进行选择,值得探讨。在临床实践中,由于匹配数据的不完整导致 严重的偏倚要远远高于由于精度不够导致的偏倚。所以选择一种合适的匹 配算法是十分重要的,因为它影响到处理效应的估计。比较数据集在匹配 前后的精确度和完整度,以此来评价不同的匹配算法的优劣是至关重要的。
定“偏向的”。而基于一个带有选择性的样本,我们得出的结论也会由于选择效应 到哪个组的真正的概率是未知的 的“污染”而出现偏差( Heckman,1979;Heckman & Smith,1995)
倾向值的理论认为,在非随机化对照试验中,处理组试验对象和对照组试 验对象如果具有相近或者相同的倾向得分,则可以认为,这两个试验对象 的协变量特征服从相同的分布,它们被分配到处理组或者是对照组的概率 是相同的,因此可认为组间协变量是均衡的,处理效应的估计也就是无偏 的
一.巢式(套式、嵌入式)病例对照研究(nested case control study)
按队列研究的方式进行,收集每个队列成员的暴露信息及有
关混杂因素,确定随访期内发生的病例作为病例组,对照来自同 一队列,然后进行病例对照研究
巢式病例对照研究的类型: ① 前瞻性巢式病例对照研究(prospective nested casecontrol study): 研究开始时根据一定的条件选择某一人群作为队列,然 后前瞻性地随访一定的时间确定病例组和对照组。 ② 回顾性巢式病例对照研究(retrospective nested case-control study): 研究开始之前的一段特定时间的情况选择某一人群作为 研究队列,根据现在的情况确定病例组和对照组。
◆选择偏倚的控制 随机抽样 保证病例和对照的代表性。
设立对照
提高应答率
两个或多个对照。
明确入组和排除标准。
严格诊断标准
2、信息偏倚(information bias)
收集资料阶段由于观察和测量暴露或结局的方法上有缺陷, 使各比较组所获得的信息产生系统误差。 ◆常见的信息偏倚 暴露怀疑偏倚(exposure suspicion bias)
(3)根据数据结构类型和选定的模型来计算每一个试验对象的倾向得分,倾
向得分在 0~1 之间,表示试验对象被分配到试验组或者对照组的概率。
(4)选择合适的倾向得分应用方法。 • PS 分层法、PS 匹配法和 PS 协变量校正法等。 • 以倾向得分匹配法为例,在估计出试验对象倾向得分之后,需要选择合适 的算法计算出组间倾向得分之间的距离,也就是近似程度。
回忆偏倚(recall bias)
◆信息偏倚的控制 采用盲法收集资料 收集客观指标的资料 广泛收集各种资料
保证研究人员的科学态度
3、混杂偏倚(confounding bias) 由于一个或多个既与疾病有关,又与暴露因素有关的外部
因素的影响,掩盖或夸大了所研究的暴露因素与该病的联系。
◆控制 限制(restriction) 配比(matching) 分层(stratification) 多因素分析(multivariate analysis)
倾向值匹配(Propensity Matching)
• 将相同或相近倾向值的对照与试验组病例进行匹配,从而使两组病例在 接受干预治疗上的概率相等。 • 类似一个非随机化试验在试验结束后进行了随机化中的过程,均衡了组 间的协变量,让两组可以进行统计学比较,从而得出真实的处理效应。
倾向值匹配(Propensity Matching)步骤
倾向值匹配研究(Propensity Matched Study)
• 不再关注每个需要控制的混淆变量的具体取值 • 而是转而关注将这些变量纳入 Logistic 回归方程后预测出来的倾向值取值
• 只要保证倾向值匹配,这些所有需要控制的混淆变量就都考虑到了
( Rosenbaum& Rubin,1983) • 将对多个混淆变量的控制转为对倾向值的控制从而达到“降
针对某个研究项目,不同的个体有不同的参与意愿,或者研究者对于研究个体的选 在一个等比例分组的随机对照试验中,受试者分配到试验组和对照组的概率是相等
择有特定的倾向。这些选择效应 selection effect) 使得研究者真正接触的样本是有一 的,每一个受试者的倾向得分为(0.5 。在一个非随机对照试验中,每一个受试者分配
义。即a/(a+c)和b/(b+d)的比较。
用以下公式
ad bc N 2 n1n0 m1m0

2
3、计算暴露与疾病的关联强度 采用比值比(odds ratio ,OR)来估计。比值(odds)是指某事物 发生的概率与不发生的概率之比。
a
病例组的比值=
百度文库
c b
m1 a m1
两者的比较 相同 对队列中的每个成员进行观察与分析 不同 ①对照是随机选取,不与病例进行匹配 ②对照如发生被研究疾病,既为对照又为病例 ③1个随机对照组可同时和几个病例组比较
两者的优点
按队列研究设计进行,资料收集在发病前,故因果关系清楚, 资料可靠,论证强度高 资料处理与分析按病例对照研究的方式,省时省力省钱 兼有病例对照研究与队列研究两者之优点
(5)根据每个试验对象的倾向得分值,通过选择好的匹配算法进行组 间匹配,匹配结束后得出匹配数据集。
(6)在匹配前后,进行组间均衡性检验。 • 组间基线的均衡性优劣是评价倾向得分方法在实际应用中控制选择性偏倚 及混杂效应的较好的指标。 • 传统上常用的均衡性检验方法是假设检验,但假设检验法存在先天不足, 针对此问题 1986 年由 Flury 和 Reidwyl 提出了标准化差异法,给出了明确 的定义和计算方法 。
(三)对照的选择 采用与病例相同的诊断标准明确排除的非患者作为对照,并
依照病例的人口学特征和外部特征的相同要求选择对照。
医院病例或门诊病人
一般人群
邻居、同事、亲属
(四)样本含量估计 (五)暴露因素的确定与资料收集 ◆暴露因素的确定:与目的有关的变量绝不可少,且尽量 分解、分细。每项变量有明确的规定,尽可能采用国内外统一 的标准。 ◆资料的收集:主要以现场询问的方式进行,应有专门设 计的调查表,要求病例组与对照组均使用同一调查表。尽可能
• 综合了研究对象所有特征的函数,最大限度的概括了所有可观察到的协变量共 同作用的结果。 • 通过倾向值匹配使得处理组和对照组间的基线协变量均衡一致,从而达到控制 偏倚,估计处理效应的目的。
倾向值匹配研究(Propensity Matched Study)
倾向值匹配研究(Propensity Matched Study)理论基础
维”( dimension reduction) 的目的。
• 解决了这个多混淆变量下的“多维”( multiple dimensional) 问题
倾向值是在 1983 年由学者 Rubin 和 Rosenbaum 首次给出了明确的定义: 指在一系列可观察到的协变量条件下,任意一个研究对象被分配到试验 组或者对照组的概率。
选择客观指标。调查人员应统一培训,对待病例组和对照组均
应同样认真,以同样的方式询问。
(六)资料分析
1、资料整理
成组病例对照研究资料整理表 暴露史或特征 病例 有 无 合计 a c 对照 b d 合计 a+b=n1 c+d=n0
a+c=m1 b+d=m0 a+b+c+d=N
2、统计学检验 检验病例组和对照组的暴露率的差异是否有统计学意
(7)对匹配后的数据集,选择合适的统计学分析方法来估计处理效应。 由于匹配后试验组和对照组之间的协变量均已均衡,数据可以看作是近似随 机化的,如果选择了合适的统计学方法则可以得出真实可信的处理效应。经 过匹配,每一个试验组个体都能在对照组找到一个或多个与之匹配的对照个 体,所以我们在统计学处理时,也可以考虑类似配对设计的统计方法来进行 分析。
相关文档
最新文档