病例对照研究(case-control study) 一。基本原理 (一)概念:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章、病例对照研究case-control study
华中科技大学同济医学院
叶临湘
第一节、基本原理
一、概念
选定患有某病和未患某病的人群,分别调查其暴露(如环境因素、遗传因素、内分泌作用以及保护因子的缺乏等)于某个危险因子的情况及程度,以判断暴露危险因子与某病有无关联及关联程度大小的一种观察研究方法。
暴露或特征病例组对照组合计
+ –a
c
b
d
a+b=n1
c+d=n0
合计a+c=m
1b+d= m 0
A+b+c+d
=t
病例对照研究资料整理表
二、特点
✹1、从果到因的研究
✹2、由回顾调查获得暴露资料
✹3、一次病例对照研究可以研究许多因素
✹4、病例对照研究的本质符合队列研究设计原理
第二节、病例对照研究的分类(一)、按目的分类:探索性的、检验性的
(二)、按设计分类:
1、病例对照不匹配:
2、病例对照匹配:
(1)频数匹配(frequency matching)要求配比的因素所占的比例,两组一致。
(2)个体配比(individual matching)以个体为单位匹配。
3、病例对照研究的衍生类型
(1).巢式病例对照研究(nested case-control study)
(2).病例-队列研究(case-cohort study)
(3).单纯病例研究(case only study)(4).病例交叉研究(case-crossover design)。
(5).病例-时间-对照设计(case-time-control design)。
四、用途
1、探索疾病可疑的危险因素。
2、深入检验某个或某几个病因假设。
3、评价防治措施的效果。
4、用于疾病预后因素的比较:
第三节:实例
第四节、病例对照研究的设计与实施
一、提出病因假设:
二、研究类型的选择.
1.配比因素的确定
已知或非常怀疑某种因素为研究中的混杂因子
2、配比方法
三、病例与对照的来源与选择:
(一)病例的选择
1. 病例内外部特征的限制
内部━━患病部位、病理类型、诊断标准。
外部━━年龄、性别、种族。
2. 病例类型的选择
新发、现患、死亡。
3. 病例来源限制
医院确诊、普查。
(二)对照的选择
条件
1. 未患此病的人(可以是其它疾病);
2. 不能有共同危险因素的疾病病人;
3. 除研究因素外其它条件一致;
4. 来自同一人群;
来源
1. 从医院病人中选对照;
2. 从全人口中选对照;
3. 从亲属、同事、邻居中选对照。
四、样本大小的估计
1、有关的影响因素:
(1)、研究因素在对照组中的暴露率;(2)、估计该因素引起相对危险度;
(3)、希望达到的精确度;
(4)、希望达到的检验把握度;
(5)、是单侧还是双侧检验;
2、估计的方法:
样本只是一个估计值,过大、过小都不好,相等时效率最高。
(见下页)
除查表法,还可按分式估计样本含量:
(1)、非配比两组人数相等的样本估计:例:在吸烟与肺癌的病对研究中。
某人群有吸烟史
的人为20%(P
0),假定OR = 2,设α= 0.05,
β= 0.1,求N?
P1=(0.2 ×2)/[1+0.2(2–1)] = 0.333
q1= 1–P1,P = (P0 +P1 )/2 , q = 1–P. 代入公式:单侧:N = 186(人)双侧:N = 228(人)
Z α= 1.645 Z
β
= 1.282, Z
α
= 1.960 Z
β
= 1.282
2
1
2)
/(
)
(
2p
p
U
U
pq
N-
+
=
β
α
)]1
(
1/[
1
-
+
=RR
p
p
p
(2)、非配比两组人群不相等的样本估计
设:病例数:对照数= 1:c
病例数:N= (1+1/c)pq(Z
α+Z
β)
2 / (P0 –P1 )2
P=(P1+c P0) /(1+c)
对照数=CN
例:按上例, 设c 为1.2,
P=(0.33+1.2×0.2)/(1+1.2)= 0.26
q = 1-0.26 =0.74
(单侧) N =(1+1/1.2)×0.26×0.74/(1.645+1.282)2 =186(人)
对照数CN = 223(人)
(3)、1:1配比样本估计:
所需要的总对子数:M = m / (p 0q 1+p 1q 0)
m = [Z α/2+ Z β ^/p (1–p )]2/(p –1/2)
2P = OR/(1+OR) ≈RR/(1+RR)
例:设α= 0.05,β= 0.1, P 0=0.3, RR=2,双侧。
那麽:Z α=1.960, Z β=1.282, P 1 =P 0·RR /[1+P 0(RR –1) =0.46,q 1=1–P 1=0.54,q 0 =1–P 0=0.7,P =2/3 代入公式:m =[1.960+1.282 ^/2/3x1/3]2/(2/3–1/3)2=90 M =90 / (0.3 ×0.54+0.46 ×0.70) ≈186(对)(当RR 从2—4时,样本对子数从186对下降至45对)
(4)、1:R配比样本的估计:
N =(1+1/ R)pq(Z
α+ Z
β
)2/(P1–P0)2
P=(P
1+RP
)/ (1+R)
按上例:设α= 0.05(双侧), β= 0.1,
R(对照)=2 RR=2, Z
α=1.960, Z
β
=1.282,
P =0.35, q=1–0.35=0.65. 代入公式:
N=(1+1/2)×0.35 ×0.65 ×(1.96+1.282)2 /(0.46–0.3)2 = 140
病例140人,对照140 ×2
五、研究因素的确定和资料的收集(一)研究因素的确定
1、变量的选定
2、变量的标准
3、变量的测量
4、变量的可靠性
(二)调查表的编制
(三)调查员的培训
第五节、资料的整理与分析
一、资料整理
资料的分组、归纳、编码、输机。
二、资料分析
(一)、描述性分析
1、描术研究对象的一般特征:研究对象人
数及各种特征的构成、如性别、年龄、职业、疾病类型的分布等.
2、均衡性检验:比较两组某些基本特征是
否相似或齐同.目的是检验病例组与对照组是否有可比性。
(二)、统计性分析
1.不匹配、未分层资料的分析.
病例对照研究资料整理表
暴露或特征病例组对照组合计
+ –a
c
b
d
a+b=n1
c+d=n0
合计
a+c=m1b+d=m
A+b+c+d=
t
(1)显著性检验
(2)联系强度
比值比(odds ratio,OR )
bc
ad d b c a d b d d b b c a c c a a OR ==++++=//)]/(/[)]/([)]/(/[)]/([
RR(relative risk)称为相对危险度,
表示暴露组与非暴露组发病率之比,分析疾病与暴露之间联系强度,是一种概率。
病例对照秒研究中不能计算概率,只能用OR代替RR。
RR = 暴露组的发生率/非暴露组的发生率.
(表示E组的发生率是非E组的多少倍)RR=1(无意义)RR>1(正相关)(危险因素)RR<1(负相关)(保护因素)
OR的含义与RR均同。
疾病率小于5%时,OR是RR 的极好近似值。
例题:X2=(ad–bc)2t/m
1m0n
1
n0 = 7.70 ,
P< 0.01,
OR = ad/ bc = 2.20. OR95%CI = OR (1±1.96 / )= 1.26-3.84
口服避孕药与心肌梗死的病对研究
OC D D合计
+–39(a)
114(c)
24(b)
154(d)
63n
1
268n0
合计153m
1
178m0331t x2
Woolf方法求Z:
Z=InOR/√(1/a+1/b+1/c+1/d)
=0.7885/0.2874 =2.74
·: Z=2.77>2.58 ׃.P<0.01 如X2判断结果一致
Woolf求OR95%CI:
Var(InOR)= 1/a+1/b+1/c+1/d = 0.0826 lnOR95%CI = InOR±1.96√Var(InOR)
= 1.3218—0.2250 exp(1.3218,0.2252) = 3.75,1.25. 即OR95%CI=1.25-3.75 如前类同。
2、非配比的分层分析
分层分析的目的是排除混杂因素的干扰。
分层就是把研究人群按其特征分为不同层次然后分别分析各层中暴露与疾病的关联性。
年龄
例:肺癌年龄可能是混杂因素
吸烟
混杂因素—是指与研究因素和研究疾病均有关。
若在比较人群组中分布不均,可以歪曲因素与疾病之间真正联系的因素。
分层分析的步骤如下
(1)按归纳表整理资料,先不分层,计算X2和OR;
(2)按估计的混杂因素分层,并计算各层X
i 2和Or
i
(3)判断分层因素与研究因素和疾病的关系;(4)计算X2MN , OR
MN和
95%CI ;
(5)判断分层因素是否为混杂因素:
OR(分层前)≈OR MH无混杂存在。
OR(分层前)>OR
MH
正相关。
OR(分层前)<OR
MH
负相关。
可采用Mantel –Haenszel分式计算X2MH. OR MH和95%CI :
= [∑a i–∑E(a i)]2 / ∑v(a i) i 为第n 层∑ X2
MH
E(a i) = ∑( M li N li/T i)
∑ Var(a i) = ∑ M li M oi N li/ T i(T i-1)2
OR MH= ∑(a i d i/T i)/ ∑(b i c i/T i)
OR MH95%CI =OR MH(1±1.96/^/¯X2)
例题:(1)分层前:OC 与MI的关系OC D D 合计+ 39 24 63–114 154 268合计153 178 331 X2=7.70 P<0.01 OR=2.20 OR95%CI=1.25—3.75
(2)按年龄分层OR
1=2.80 OR
2
=2.78
暴露特征<40岁合≥ 40岁合
D D计 D D 计
服OC 21
a117b138n1118a27b2 25n12
未服OC 26
c159d185n0188c2 95d2183n02
合计47
m11
76m01123t1106m12102m02208t2
(3)、判断分层因素与研究因素和疾病的关系
年龄与OC
<40岁≥ 40岁X2= 8.99 OC(+)17 7 OR=3.91
OC(-)59 95 年龄与口服避孕有关年龄与MI的关系
<40岁≥ 40岁X2=7.27
MI 26 88 OR=0.48
非MI 59 95 年龄与心肌更死有关
(小年龄有保护作用)
所以年龄具有混杂因素的条件,可能为混杂因素。
(4)、计算X
MH 2,OR
MH
和OR
MH
的95%可信限
∑E(a i)=27.26,∑V(a i)=11.77,
X MH 2=[∑a
i
—∑E(a
i
)]2/ ∑V(a
i
)=11.79(有统计学联系),
OR
MH = ∑(a
i
d
i
/t
i
)/ ∑(b
i
c
i
/t
i
)
=2.79(联系强度为2.79),
OR
MH
95%CI=2.22—3.80(不包括l,有显著性水平)
(5)、判断年龄是否为混杂因素
因为OR
分层前=2.20, OR
MH
=2.78,
OR
分层前< OR
MH
(为负相关),
由于年龄的混杂作用,使得暴露因素避孕药与心肌梗死的关联性趋向l,即减弱了它们之间的关联性。
3、分级资料的分析
X2=N[∑(a2/n
R
×n c)—1]=43.15,df=3,P
〈0.01,OR
1=a
l
d/cb
l
=33 ×27/2×55=8.10
各级之间有显著性差异。
OR值随着吸烟量的增加,呈现明显的剂量反应关系。
吸烟与肺癌分级资料归纳表
组别
每日吸烟支数0——1——5——15——合计
病例对照
2(c)
27(d)
3(a
1
)
55(b
1
)
250(a
2
)
293(b
2
)
364(a
3
)
274(b
3
)
649(n
R
)
649
合计OR 29nc
1
88
8.10
543
11.52
638
17.93
4、配比资料的分析:
配比研究是在设计阶段消除混杂因素干扰研究因素与疾病关系的一种方法。
1:1配比病例对照研究:
X2=(b-c)2/(b+c)或X2=(∣b-c∣-1)2/(b+c),OR=c/b,OR95%Cl=OR(1±1.96/^/¯X2)
整理表
对照组
病例组合计对子
数+—
+—a
c
b
d
a+b
c+d
合计对子数a+c b+d t D D
+
—
+
—
+
+
—
—
a
b
c
d
例:X2=(lb-c1-1)2/(b+c)=34.23, P<0.01, OR=c/b=39,OR95%CI=14.3—106.5,
说明脑动脉管炎与患有钩体病有密切联系,其联系强度为39.
钩体病与脑动脉管炎的1:1病对研究
补体结合试验
病例组
合计对子数+-
对照组+
-
4(a)
39(c)
1(b)
19(d)
5
58
合计对子数432063
(5)归因分值(attributable fraction,AF)也叫病因分值(etiologic fraction,EF)、暴露人群的归因分值:
AF
e =(I
e
-I
u
)/I
e
=(OR-1)/OR
人群归因分值记为AF
P
AF
P =(I
p
-I
u
)/I
p
=P
e
(OR-1)/1+P
e
(OR-1)
归因分值是具有公共卫生意义的指标,它
同时还代表人群中随机抽取一个病例可能因该暴露引起的概率。
其他方法
✹如果暴露是分等级的,可按不同暴露等级计算OR值,作剂量-反应关系的分析。
✹Logistic回归等统计分析方法在病例对照研究资料分析中应用颇为广泛。
第四节偏倚和控制
一、常见的偏倚
(一)选择性偏倚
由于研究对象与非研究对象间的特征有系统区别而产生的误差。
可分为:
1. 住院偏倚
2. 存活病例偏倚
3. 选择性转诊偏倚
4. 检诊偏倚
5. 无应答偏倚
(二)信息偏倚
在收集整理资料过程中由于测量暴露或结局的方法有缺陷造成的系统误差。
可分为:
1. 回忆偏倚
2. 因果倒置偏倚
3. 调查偏倚
(三)错误分类偏倚
将一个调查对象或一个特征错误地分到不是它所属的类别中。
(四)混杂偏倚:
基本特点:
1. 混杂因子必须是所研究疾病的独立危险因子;
2. 在非暴露组中,它必须是一危险因子;
3. 混杂因子不应是疾病因果链上的中间变量;
4. 在人群中的分布与所研究的暴露的分布相关;
5. 对混杂因素可用分层分析、标准化处理;
6. 对明显偏倚下结论应慎重。
排除方法:可用分层分析。
二、偏倚的控制
1.认识其重要性,并预防其发生或进行适
当的处理。
2.在预防上应加强科学设计,如随机原则、
双盲及指标的客观性等。
3.资料处理中应注意两组均衡性。
4.分析偏倚发生的原因。
第五节优点与局限性
一、优点
1. 可用于对罕见病的研究;
2. 较快地估计慢性病的危险因素;
3. 省时、省钱、省人力,并易于组织;
4. 可检验有明确假设的危险因素,又可广泛探索尚不够明确的众多因素。
二、局限性
1. 对暴露比例低的疾病的因素,需样本太大;
2. 易造成选择偏倚;
3. 难以避免回忆偏倚;
4. 混杂的影响较难控制;
5. 难以判断疾病与时间的先后。
Thank you。