队列研究 (1)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七章队列研究
第一节第一节概述
一.定义及原理
(一) 定义
队列研究(cohort study)也称前瞻性研究(prospective study)、发病研究(incidence study)、随访研究(follow study)、纵向研究(longitudinal study)。
队列研究是选定暴露及未暴露于某因素的两种人群,追踪其各自的发病结局,比较两者发病结局的差异,从而判定暴露因子与发病有无因果联系的一种观察研究方法。
(二) 原理及结构模式
队列研究方法与病例对照研究方法是分析流行病学中的两种重要方法,它与病例对照研究一样,主要用于检验病因假设。
使用这种方法可以直接观察到人群暴露于可疑病因因素后疾病的变化规律及其结局,通过比较暴露和非暴露人群发病率和死亡率的差别来确定危险因素与疾病的关系。
队列研究的结构模式见图1。
图7-1 队列研究的结构模式
从模式图中可以部分的体现出队列研究有以下几个基本特点:
1. 属于观察法暴露不是人为给予的,而是在研究开始前就已客观存在,这一点根本
区别于实验研究。
2. 设立对照队列研究作为一种分析流行病学研究方法区别于描述流行病学的根本特点就是设立对照组以利于比较。
对照组的选择有多种方法。
3. 由“因”及“果”在研究过程中先确知其因(暴露因素),再纵向前瞻观察而究其果(发病或死亡)。
这一点与实验研究方法一致。
4. 能确证暴露与疾病的因果联系由于队列研究能够得到确切数目人群中的发病人数(发病率),并通过比较暴露与非暴露人群发病率的差异而确定暴露对发病率的影响。
二.目的和用途
1.检验病因假设多数时候,队列研究用来研究一种暴露与一种疾病的关联,但它也
可同时观察某种暴露因素对人群健康的多方面影响,检验多个假说。
2.描述疾病自然史队列研究可观察到疾病的自然史,即疾病从易感期、潜伏期、临床前期、临床期到结局的整个自然发展过程。
3.预防、治疗及预后研究有时在随访人群中研究对象可能受各种因素的影响而自行采取一种与暴露致病作用相反的措施,出现预防效果,这种现象称为“人群的自然实验”。
此外,队列研究还可研究某种疾病的长期变动趋势,为制订新的预防规划、治疗方案或康复措施提供依据。
三.队列研究的种类
(一)(一)?? 三种基本的队列研究
根据怎样取得资料,队列研究可分为三种,三种方法的示意图见图2。
(历史性) 研究开始 (前瞻性)
追溯收集资料追踪收集资料
(双向性队列研究)
追踪收集资料
过去现在将来
图7-2 历史性与前瞻性队列研究示意图
1.前瞻性队列研究(prospective cohort study) 研究开始时暴露因素已经存在,但疾病尚未发生,研究的结局要前瞻一段时间才能得到,这种设计模式称为前瞻性队列研究,也叫同时性或即时性(concurrent)队列研究。
它所需观察时间往往很长,要对研究对象进行定期随访。
这是队列研究的基本形式,见图7-2的右半部分。
前瞻性队列研究最大的优点在于不论暴露或结局资料,研究者都可以亲自监督获得一手资料,偏倚较小,而且可根据在随访期间暴露的变动情况选用适当的新的检测方法和观察指标。
这种研究设计类似于干预试验,在因果关系推断上作用较大。
但前瞻性队列研究属于规模巨大的研究,需要观察大量人群并长期随访以获得相对稳定的发病率,经费开支巨大,整个研究的组织与后勤工作也很复杂。
2.历史性队列研究(retrospective cohort study) 研究开始时暴露和疾病均已发生,即研究的结局在研究开始时已从历史资料中获得,研究对象的确定与分组是根据研究开始已掌握的历史资料,这种设计模式即为历史性队列研究,也称为非同时性或非即时性(nonconcurrent)队列研究。
这种研究方法无需等待疾病的发生,暴露和结局资料可在短时间内搜集完,并且可以同时进行,但应注意其观察性质仍属前瞻观察。
见图7-2的左半部分。
历史性队列研究在研究开始时,暴露和疾病均已发生,可迅速得到研究结果,大大节省了时间、人力和物力。
因此这种研究适宜于诱导期长和长潜伏期的疾病,并且也常用于具有特殊暴露的职业人群的研究。
但因资料积累时未受到研究者的控制,内容未必符合要求,所以历史性队列研究仅在具备详细、准确而可靠的文字资料的条件下才适用。
譬如具备医院的病历、出生记录、工厂的档案和车间的工作记录等资料。
3.双向性队列研究(ambispective cohort study) 也称混合性队列研究,即在历史性队列研究之后,继续进行一段时间的前瞻性队列研究。
见图7-2的上半部分。
这种研究方法兼有上述两种方法的优点,在一定程度上弥补了二者的不足,在实际工作中常常用到,适用范围较广。
例7-1 Cornfild(1962)应用队列研究方法,观察研究血清胆固醇水平对冠心病的影响。
作者根据血清胆固醇水平,将1329名40~59岁的男性人群分为两组。
一组756人,为暴露组,胆固醇水平等于或高于220mg/dl;一组573人,为非暴露组,胆固醇水平低于220mg/dl。
对两组人群随访观察6年,并记录该期间内两组人群冠心病发病人数,结果如下(表7-1)。
表7-1 冠心病与血清胆固醇关系
血清胆固醇发病未发病合计
≥220mg/dl <220mg/dl
72
(a)
20
(c)
684
(b)
553
(d)
756
573
合计921237
132
9
6年观察结果:高血清胆固醇组(暴露组)发病72人,低血清胆固醇组(非暴露组)发病20人,两组的冠心病发病率分别为:高血清胆固醇组%(72/756),低血清胆固醇组%(20/573),u=,P<,两组冠心病发病率有极显着性差异。
RR=,说明暴露组发生冠心病的危险度是非暴露组的倍。
例7-2 肝病与肝癌关系的历史性队列研究。
江苏省启东县人民医院,将1964~1972
年所有的门诊病例中诊断为肝炎、肝硬化的病人进行了登记,各形成一个群组,并以未患肝病的呼吸系统病人为对照组,各组病例除了所患疾病不同外,其它各种因素(年龄、性别、文化程度等)要尽量齐同。
然后在群组中回顾性调查1964~1972年8年间的肝癌发生情况,并前瞻了1974~1976年2年期间肝癌发病情况。
8年历史性队列研究结果提示,肝病病人发生肝癌的危险性明显高于呼吸道病人,相对危险度为,其中慢性肝炎相对危险度为,肝硬化为,急性肝炎为与(黄胆型与无黄胆型)。
2年前瞻性队列研究结果提示,肝炎病人发生肝癌的相对危险度为,其中急性肝炎为,肝硬化为。
由该例看出,8年的历史性队列研究结果与2年前瞻性队列研究取得的结果相比较,除肝硬化组肝癌发生率有差异外,其余各组均接近,说明历史性队列研究所获得的资料是可信的(表7-2)。
表7-2 启东县人民医院肝炎、肝硬化病人与呼吸道病人中肝癌发病率
疾病类型
1964~1972年1974~1976年
人年肝癌发病率
(‰)
RR人年
肝癌发病率
(‰)
RR
呼吸系统
疾病
105213769全体肝病87443800急性黄疸
型肝炎
3999
3510急性无黄
疸型肝炎
2870
慢性肝炎19178 0
肝硬化1684212
(二)(二)?? 在队列研究基础上发展的新的研究方法
1.巢式病例对照研究(nested case-control study)是Mantel于1973提出的一种将队列研究和病例对照研究结合起来的方法,即在队列研究中插入一个病例对照研究,特别适用于研究因素包括有复杂生化分析的队列研究。
其基本方法是首先进行队列研究,收集所有观察对象的暴露信息及有关的混杂资料,随访结束后以队列中的病例为病例组,并按一定条件在同一队列中选择对照,进行病例对照研究。
2.病例队列研究(case cohort study)是1975年Kupper提出的。
其基本方法是在随访开始时,按一定的比例选择一个简单随机样本,组成研究对象。
全队列中的病例无论是否被选进随机样本,均将他们作为研究对象。
研究对象由两部分组成,即最初选择的随机样本和全部病例。
第二节队列研究的原则与实施
一.研究方法选择的指征
队列研究能证实疾病的因果联系,但实施起来较为复杂,难度较大,因此应事先周密考虑一些问题,以提高工作质量和效率。
(一)前瞻性队列研究应考虑:
1.是否有明确的假设供检验,暴露因素是否已找准。
2.所研究疾病的发病率或死亡率是否不很低,如不低于5‰。
3.是否明确规定了暴露因素,有无把握获得观察人群的暴露资料。
4.是否明确规定了结局变量,如发病或死亡,有无确定结局的简便而可靠
的手段。
5.5.? 无把握获得足够的观察人群并将其清楚地分成暴露组与非暴露组。
6.6.? 观察人群能否大部分被长期随访下去并取得完整可靠的资料。
有无足够
的人、财、物力支持此长期工作。
(二)历史性队列研究应考虑的问题,除上述前五点外,还应考虑是否有足够数量的完整可靠的记录或档案材料。
对于一些不符合要求的记录,有无办法进行弥补或补充。
二.暴露问题
(一) 暴露的定义
队列研究是根据是否暴露于危险因素而对研究对象进行分组的,因此弄清楚暴露的涵义才能准确把握队列研究。
在流行病学研究中,暴露是指研究对象接触过某种致病因素或具备某种特征或行为。
病例对照研究也用到这个概念,它是分析流行病学所使用的术语。
(二) 暴露因素的规定
暴露因素是泛指各种会影响人体健康的具体的物理、化学和生物因素。
通常把导致疾病事件增加的暴露因素称为危险因素(或致病因素),把导致疾病事件降低的暴露因素称为保护因素。
暴露因素的含义是相对的,它既可以是某种疾病的致病因素或保护因素,也可以是另一暴露因素的后果,即疾病。
例如,高血压是脑血管病的暴露因素,但它也可能是
遗传或营养等其它暴露因素所产生的疾病事件。
这种暴露因素的相对性取决于研究目的和研究者对暴露因素的认识水平。
因此,在研究开始前应详细了解所要研究的暴露因素,并给予明确定义,定义越具体越好。
例如,成年人高血压的标准是年龄大于等于18岁,舒张压大于95mmHg()或收缩压大于等于150mmHg(20kPa)连续半年。
总之,暴露因素须有明确的规定,包括暴露因素的性质、暴露的时间、频率、强度等。
若将暴露因素定量,则应明确其单位。
如不易获得准确的定量资料,可将暴露水平粗略地分级。
三.研究对象的选择
队列研究根据受暴露与否,将研究对象分为暴露组与对照组。
研究对象的选择是关键步骤,要根据一定的原则进行。
(一) 暴露人群的选择
通常将暴露人群分为三类:一般人群、职业人群和特殊暴露人群。
1.一般人群即一个范围明确的地区的全体人群或其样本,由具有不同暴露因素的个体组成;适用于同时观察多种暴露和多种疾病间的关系,若着眼于研究一般人群的发病情况,或暴露因素和疾病在人群中常见,不需要或没有特殊暴露人群,就可以选择一般人群作为暴露人群。
如Framingham地区心脏病研究,该研究的主要目的,是在一般人群中前瞻性的观察冠心病的发病率及年龄、性别、家族史、职业、文化水平、国籍、血压、血脂、体力活动、吸烟、饮酒等因素在冠心病发生发展中的作用。
实际工作中,常选择有组织的人群团体,如机关、团体、学校或详细可靠的人群资料作为一般人群的特殊形式,提高收集随访资料的效率。
2.职业人群某些职业中常存在特殊暴露因子,使职业人群的发病或死亡率远远高于一般人群,选择职业人群进行研究,便于证实暴露与疾病的联系。
如研究联苯胺的致癌作用,选择染料厂工人;研究石棉致肺癌的作用,选择石棉作业工人等。
3.特殊暴露人群指具有特殊暴露经历的人群。
如研究电离辐射的危险性选择原子弹爆炸后的存活者、铀矿工人或医疗过程中的暴露者(放疗后的人)。
(二) 对照人群的选择
队列研究结果的真实性依赖于是否正确选择了对照人群。
选择对照组的基本要求是尽可能高的可比性,即对照人群除未暴露于所研究的因素外,其余各因素的影响或人群特征(年龄、性别、职业、民族、文化程度等)都应尽可能与暴露组相同,这称为齐同。
对照人群大致可分为四种:
1.内对照在同一研究人群中的非暴露人群或具有最低暴露剂量的人群即为内对照。
如研究某人群中吸烟与疾病的关系,不吸烟者或少吸烟者就是内对照。
这是最理想的对照,除暴露因素本身外,其他因素可比性较强,研究偏倚较小。
2.外对照选择人口学特征与暴露组相似的另一个非暴露人群作对照,称为外对照。
在以职业人群或特殊暴露人群为暴露组时,常需选择外对照。
如以放射科医生为研究射线致病作用的暴露对象时,可以不接触或极少接触射线的五官科医生为外对照。
3.总人口对照用暴露人群所在地区的一般人群的发病率、死亡率或其他结局与暴露组相比较。
这种对照统计资料容易得到,但比较粗糙,有时暴露与疾病的联系会被低估。
实际应用时,常采用间接标化比(即用暴露组发病或死亡数与用总人口率算出的期望发病或死亡数求标化比)来代替两组率的直接比较。
4.多重对照即用上述两种或两种以上的形式同时作对照,以减少只用一种对照所带来的偏倚。
四.样本大小的确定
(一) 样本含量计算的数学模型
在得到了四个确定的参数(即非暴露人群发病率P 0、暴露人群发病率
P 1、显着性检验水平α和检验效能1-β)后,可用下列公式计算样本量(N )。
式中Z α,Z β为α,β所对应的标准正态差。
例5-3 某队列研究欲分析放射线暴露与白血病的关系。
已知一般人群白血病发病率是万分之一,放射线暴露者发病率为千分之一。
设α=(双侧),β=(单侧),求样本量。
代入公式
=≈14247人
即暴露组和非暴露组各需观察14247人,共28494人。
除了计算,还可以通过查表的方法获得样本含量,只要具备上述四个基本数据,即可从参考书的相应附表中查出所需的样本含量。
(二) 确定样本量大小的四个因素
从上述计算样本含量的数学模型中可见样本量的大小主要取决于四个因素:
1.非暴露人群的发病率(P 0) P 0越接近0 .50,所需样本越小。
2.暴露人群的发病率(P 1) 暴露人群与对照人群两发病率之差越大,所需样本量越
小。
若暴露人群发病率P 1不易获得,可设法得到相对危险度(RR )的数值,由P 1=RR×P 0
2
012
1100)()2(P P Q P Q P Z Q P Z N -++=
βα999.0,001.0,9999.0,0001.0,28.1,96.11100======Q P Q P Z Z βα99945.000055
.01,00055.0)001.00001.0(21=-==+=Q P 22)
0001.0001.0()999.0001.09999.00001.028.199945.000055.0296.1(-⨯+⨯+⨯⨯=N
求得P。
1
3.显着性水平α即假设检验时的第Ⅰ类错误。
要求假阳性错误出现的概率越小(即α越小),需样本量越大。
通常α取或。
4.检验效能1-β即检验假设时能够避免假阴性出现的能力,β为检验假设时出现第Ⅱ类错误的概率。
若要求1-β越大,即β越小,所需样本量也越大。
通常β取。
(三) 样本量确定应注意的问题
1.抽样方法队列研究往往要从实际人群中抽取一定数量的样本。
抽样方法与以前介绍的方法相同,即单纯随机抽样、系统抽样、分层抽样、整群抽样。
要根据样本估计值和实际情况选择恰当的抽样方法,以提高样本的代表性。
具体方法可参考有关章节,此处不重述。
2.暴露组与非暴露组的样本比例二者等量还是对照多于暴露何者为优尚无定论,通常采用等量的做法。
一般说来,对照组样本含量不宜少于暴露组。
3.失访率由于队列研究观察随访时间长,研究对象的失访在所难免。
因此计算样本量时,应预先估计一下失访率,以扩大样本量,防止在研究后期因样本量不足而影响结果的分析。
通常按10%来估计失访率。
以计算出来的样本量再加10%作为实用样本量。
上例中实用样本量应为14247/=15830。
五.队列研究基本信息的收集
在队列研究开始实施阶段,必须获得三方面充分细致的基本信息,即与暴露有关的信息、与结局(疾病或死亡)有关的终点材料和与产生混杂作用有关的因素,为研究对象的分组、研究结局的判定以及各项资料的分析比较打下基础。
获取这三方面基本信息的方式主要有:
1.查阅记录或档案如医院的病案,工厂的工作档案,工作日志等。
2.访问研究对象或其他能够提供信息的人了解对象的暴露史和疾病史及其他有关资料。
3.对研究对象进行测定或检查如测血压、尿糖、血脂、或作体格检查和结局疾病的检查等,后者是为了剔除已患结局疾病的不合格对象。
4.有时需对环境作调查与检测目的是确证一项暴露,如对水质进行化验,环境污染的检测,及食物成分的测定等。
六.随访
队列研究资料的收集包括两个主要方面,即基础资料的收集和随访。
随访期间由于种种原因某些研究对象脱离了观察,研究者无法继续随访他们,这种现象叫失访。
失访会对研究结果产生影响。
当失访率大于10%时,应采取措施对其可能产生的影响做进一步估计。
若失访过多,如失访率达20%以上,则研究的真实性会受到严重怀疑。
因此保证随访成功是队列研究成功的关键之一。
一般说来,随访有三个目的:①确定研究对象是否仍处于观察之中;②确定研究人群中的各种疾病事件;③进一步收集有关暴露和混杂因素的资料。
由此可以看出,随访的对象是所有研究对象;随访内容应与取得基本信息时的完全一样,其具体项目可视研究目的与设计而不同。
由于涉及到人时数和发病密度的计算,每个研究对象开始随访和终止随访的日期都应明确规定。
随访期的确定应以暴露因素作用于人体至产生疾病结局的一般潜隐期为依据。
在随访中会碰到两种情况:即某研究对象出现了预期的结果(称为观察终点),此时就不再对该对象继续随访。
而有的研究对象没有出现结局疾病,则对其坚持随访,直到规定的观察期结束(观察终止时间)。
另一个应该确定的指标是随访的间隔。
如果观察时间较短,在观察终止时一次搜索资料即可。
反之需多次随访,其间隔与次数视具体情况而定。
如
Framingham地区冠心病随访研究每两年随访一次,历时24年。
英国以医生为对象进行的吸烟与肺癌的队列研究,历时20余年,分别于1957,1966和1972年进行三次随访。
随访的方法有:①利用常规登记的人群和疾病资料随访。
在某些发达国家,每个公民都有一个全国计算机连网的个人识别号,可查到有关就业、医疗、死亡等情况。
在我国,可利用职工人事登记资料、肿瘤及传染病报告卡、死亡证明等;②进行特殊安排的随访,如定期家庭访视、电话访问或信访等。
必要时也可以进行健康检查、采样检测。
随访人员应经过严格培训和考核。
第三节队列研究资料的分析
一.分析前的工作
象其它科学研究一样,队列研究在现场获得的一手资料往往不能作为直接分析的资料,须先检查调查表上的数据和资料是否准确和完整,并进行一定的加工、处理,使其便于分析研究。
主要包括:
1.所选的研究对象及其选择方式是否符合研究设计,凡不符合者,应予剔除。
2.是否调查了调查表上的全部项目并填写了结果,遇有缺项和漏项应补充调查和填写。
3.调查表中所填写的调查资料是否有逻辑性错误,若遇有这类错误应予更正;不合乎要求又无法纠正的表格应剔除。
4.对资料分组、归纳或编码、输入计算机,并抽查核对数据输入过程的正确性。
如发现有较大的输入错误,应检查核对输入的全部数据并加以改正。
二.资料的整理
由于队列研究观察时间较长,观察人数常处于变动中(例如迁移、失访或不合作、死
亡等)有时研究对象进入队列的时间也不一致,因此,我们常需根据不同情况,将资料整理成不同的形式。
主要有如下两种:
(一) 累积发病率的资料整理
当研究时间不长,研究人群的数量较多,人口比较稳定,资料比较整齐时,可用固定人口作分母来计算发病率,称之为累积发病率(cumulative incidence)。
如从某年1月1日开始观察至该年底12月31日截止,全年内某疾病发病的累积总数除以该研究人群数,即得出某病的年累积发病率。
当我们以累积发病率为指标来分析资料时,其资料整理模式见表5-3。
(二) 发病密度资料整理
如果观察时间较长,难以作到人口稳定,如:观察对象进入队列的时间不一致;由于迁移、死亡或其他原因造成失访等,则应以人时为单位来计算发病率。
以人时为单位计算出来的率带有瞬时频率的性质,因此区别于累积发病率而称之为发病密度(incidende density)。
对于应计算发病密度的队列研究资料,其资料整理和率的计算,除了将每个观察对象折算成“人年”以代替“人”,其余均与累积发病率相同。
其资料整理模式如表7-3、4所示:
表7-3 累积发病率资料整理表
发病未发病合计
发病率
暴露组 a b a+b=n
1
a/n
1
非暴露组 c d c+d=n
c/n
合计 a+c=m
1 b+d=m
a+b+c+d=t
表7-4 发病密度资料整理表发病数人时数(人年/月)发病密度
暴露组 a N
1 a/N
1
非暴露组 b N
0 b/N
合计 a+b=M N
1+N
=T
三.资料的分析
队列研究中资料的分析包括以下三部分:⑴计算不同研究队列的发病率或死亡率及其差别的显着性检验;⑵计算暴露因素与发病的关联强度,即发病或死亡危险度分析;⑶剂量反应关系的分析。
现分述于下。
(一) 常用测量指标的定义及计算
1.发病率在资料的整理中已分别叙述了累积发病率和发病密度的概念及其计算方法,不再赘述。
值得注意的是这两个指标是队列研究资料分析的基础,应牢固掌握。
2.标化(发病)死亡比(SMR)
队列研究最基本的测量指标是疾病发病或死亡专率。
直接用病例数与总人时数相除得到的粗发病率反映的是随访人群实际的疾病频度。
但由于暴露组和对照组人群在人口构成(特别是年龄构成)上的差别,不能直接比较粗率,必须对其标准化。
在队列研究中通常是用标准化的发病或死亡的比值来代替率,即以标准年龄发病率或死亡率计算该观察人群的理论发病(死亡)数,再求实际发病(死亡)数与此预期数的比
值,即得标化发病比或标化死亡比(SMR standard morbity ratio 或
standard mortality ratio )。
当研究对象数目较少,发病率较低时,无论观察时间长短,都不宜计算率,而以SMR 来代替。
式中∑Y 1i 是暴露组总的观察发病(或死亡)数;N 1I 是暴露组各年龄段人年数;R 0i 是非暴露组按年龄分布的标准发病率或死亡率。
例7-4 表7-5 某地按不同年龄分布的研究人群发病率资料
年龄类型 一般社会人群 A 暴露人群 B 暴露人群
青 病例 50 50 5
人年数 100000 10000 1000
年 发病率(‰) 5 5
老 病例 400 4 40
人年数 200000 1000 10000
年 发病率(‰) 2 4 4
A 暴露人群SMR 为:
数
总期望发病(或死亡)数
总观察发病(或死亡)=⨯=∑∑)(011i i i R N Y SMR 公式。