流行病学超大规模队列研究_开启21世纪人类复杂性疾病病因研究的钥匙
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
同时,超大规模所带来的执行管理、成本控制和资源配置等多方面的挑战也不容忽视。
【关键词】 队列研究; 患病率; 危险因素
【中图分类号】R181. 23; R821. 35
【文献标识码】A
【文章编号】1674-3679( 2013) 01-0066-06
Mega cohort: a powerful tool for etiologic research on complex human diseases in 21st century SUN Dian-jian-yi, LV Jun,LI Li-ming. Department of Epidemiology and Biostatistics,School of Public Health,Peking University,Beijing 100191,China
表 2 前瞻性队列研究时间估计( 以探索基因-环境交互作用的巢式病例对照研究设计研究) Table 2 Time needed for matched pairs using“nested case-control”design in prospective cohort studies
5 年 10 年 20 年
2
4ຫໍສະໝຸດ Baidu
7
23
42
74
228
424
737
11
21
37
114
212
367
1 141 2 118 3 672
23
42
73
228
423
731
2 279 4 227 7 313
45
84
145
455
842 1 450
4 550 8 418 14 503
113
208
354
1 131 2 078 3 535
【基金项目】“十二五”国家科技支撑计划( 2011BAI09B01) 【作者单位】北 京 大 学 公 共 卫 生 学 院 流 行 病 与 卫 生 统 计 学
系,北京 100191 【作者简介】孙点剑一( 1987 - ) ,男,湖北荆州人,在读博士
研究生。主要研究方向: 慢性流行病学。 【通讯作者】李立明,E-mail: lmlee@ vip. 163. com
·66·
Chin J Dis Control Prev 2013 Jan; 17( 1)
◇综 述◇
流行病学超大规模队列研究 ———开启 21 世纪人类复杂性疾病病因研究的钥匙
孙点剑一,吕筠,李立明
【摘要】 随着现代病因理论对于人类常见疾病“遗传-环境交互作用”的共识,流行病学超大规模队列研究在
近 20 年来得到了快速发展,并逐渐成为 21 世纪开展人类复杂性疾病病因研究最有利的工具和平台之一,但与此
11 309 20 780 35 354
646 1 123 1 734
6 464 11 231 17 339
64 644 112 315 173 391
注: 假定每年的损耗率( 失访率) 为 3% ; 来源于美国发病率患病率数据库。
·68·
Chin J Dis Control Prev 2013 Jan; 17( 1)
中华疾病控制杂志 2013 年 1 月第 17 卷第 1 期
·67·
第一,人类复杂性疾病,潜隐期长,共享一定的 危险因素( 如吸烟、肥胖和少体力活动等) ,不仅包 括高血压、白内障等发病率或患病率较高的一类常 见疾病,也包括帕金森氏病、精神分裂症等发病率或 患病率较低的一类罕见疾病。对此,Mega Cohort 研 究以其超大的样本规模在提高研究效能的同时,也 能弥补传统队列研究在罕见疾病研究中难以获取病 例或获取足够病例的劣势。如表 1 所示,以帕金森 氏病和 / 或精神分裂症为例,一个随访 10 年样本量 为 5 000的队列在结束时理论上仅能发现 4 例,但 一个随访 10 年样本量为 50 万的队列研究却能累积 424 例。此时不仅可以通过传统队列研究设计进行 效应估计,还能通过衍生病例对照研究设计 ( 如巢 式病例对照研究、病例队列研究和两阶段病例对照 研究[20]等) 的方式计算效应值。
第二,人类复杂性疾病病因机制复杂,其发生和 流行往往是多个危险因素综合作用的结果,如 2002 年美国 Framingham Heart Study 证实了多种危险因 素对高血压病 发 生 的 协 同 作 用[21] 以 及 脂 肪 摄 入 与 肝脂肪酶缺陷( hepatic lipase deficiency,LIPC) 基因 型对于高密度脂蛋白胆固醇 ( high density lipoprotein-cholesterol,HDL-C) 水平的交互作用[22]。因此, 作者针对不同发病率的疾病,假定其发生是基于一 定的基因-环境交互作用,通过 QUANTO 软件[23]可 以计算出所需的理论病例数,最终估算出不同样本 量队列研究随访所需的最小年数,见表 2。( 1) 以 发病率最高 ( 约为 3. 00 /10 万人 / 年) 的白内障、高 血压为例,假定某基因型频率与某环境暴露率均为 0. 15,为了识别效应值为 3. 0 的基因-环境交互作用 ( 乘法模型) ,理论上需要累计病例至少 1 173 例。 此时,样本量为 20 万、50 万和 100 万的队列均可在 1 年内 获 取 足 够 病 例; ( 2 ) 以 发 病 率 居 中 ( 约 为 0. 20 /10 万人 / 年) 的糖尿病、卒中、心力衰竭为例,
1 流行病学超大规模队列研究的产生
20 世纪后半期,基于人类复杂性疾病( 特别是 恶性肿瘤) 病因研究的客观需求,最初的一批流行 病学超大规模队列研究( 以下简称为 Mega Cohort) 诞生,如美国的 Nurses’Health Study[15]、日本的 The JACC Study[16]以及欧洲的 EPIC 研究[17],样本规模 均超过 10 万。Mega Cohort 最重要的特点即是超大 的队列样本规模,从传统流行病学的理论出发,大规 模队列研究设计是针对多结局最好的观察性研究方 法[18],统计分析把握度更高,可重复性更强,并可根 据不同的结局和暴露进行选择性抽样以开展嵌入式 研究[19]。然而,从当今研究的实际出发,Mega Cohort 的产生却是基于 21 世纪人类复杂性疾病病因 研究的客观需求,主要体现在以下两点:
2 流行病学超大规模队列研究的发展
西班牙学者 Kogevinas[24]于 2002 年最早提出了 整合欧洲出生队列的想法,并于 2004 年在其发表的 一篇学术论文中最早使用了“Mega Cohort”一词[19], 呼吁将 7 个既存的以及规划中的欧洲出生队列整合 成一个超过 50 万规模的超大出生队列。2005 年美 国学者 Foster 和 Sharp[25]也认可流行病学超大规模 队列研究在识别罕见遗传和环境因素对于复杂性疾 病弱效应的优势。2010 年,JAMA 同一期刊登了 2 篇关于 Mega Cohort[26,27]的文章,从产生原因、研究 设计、招募 对 象 和 结 局 确 定 等 方 面 做 了 具 体 介 绍。 但至今为止,Mega Cohort 依然停留在字面意义上, 样本量究竟多大才能被称为 Mega Cohort 并没有明 确的规定,导致几万、几十万或上百万的队列均可称 为 Mega Cohort。结合之前所介绍 Mega Cohort 的产 生原因,本研究以 20 万人群样本量为最低标准列举 了部分国内外 Mega Cohort,见表 3,并就其构建方式 及优缺点进行一定的归纳和探讨。
疾病
帕金森氏病、精神分裂症 结肠直肠癌症、肾功能衰竭 乳腺癌、髋部骨折 糖尿病、卒中、心力衰竭 心肌梗塞、癌症 白内障、高血压
不同样本量( S) 队列在不同观察时间点( 年) 的估计发病数
S1 = 5 000
S2 = 50 000
S3 = 500 000
5 年 10 年 20 年
5 年 10 年 20 年
人类复杂性疾病主要以慢性非传染性疾病和心 理、精神类疾病为主,具有病程长、预后差和致残高 的生物医学特点,以及负担重、影响广和耗资大的社 会经济学特点[9-13],已成为并将长期成为 21 世纪威 胁人类健康的首要原因[14]。此外,基于全民预防和 个体化治疗的需要,人类复杂性疾病的病因研究也 将注定是 21 世纪生物医学领域的核心。
【Key words】 Cohort study; Prevalence rate; Hazard ( Chin J Dis Control Prev 2013,17( 1) : 66-71)
复杂性疾病( complex disease) ,于 1784 年完整 出现在医生 Ware[1]的病例记录中,但特指患者症状 和体征的复杂性。直到 20 世纪 60 ~ 80 年代,随着 一系列疾 病 概 念 的 提 出[2-7],复 杂 性 疾 病 的 意 义 才 逐渐由临床特征转变到病因机制上来。20 世纪 80 年代末期,病因研究迈入微观层面,人类复杂性疾病 ( complex human disease) 一词开始在遗传学领域被 提出。20 世纪 90 年代初至今,随着人类基因组计 划( human genome project,HGP) 的完成和对于基因 功能的不断认识,以及基因-环境交互作用( gene-environment interactions) 和表观遗传学( epigenetics) 的 提出和发展,研究者发现大部分人类常见疾病并不 是单纯基于环境暴露或遗传变异而发生的,而更可 能是基因与环境的交互作用所致[8],所以最终形成 了“基因、环境、基因-基因、环境-环境、基因-环境交 互作用”为现代病因理论基础的人类复杂性疾病这 一概念。
其他条件相同,样本量为 20 万、50 万和 100 万的队 列获取足够病例需分别随访 4 年、2 年和 1 年; ( 3) 以发病率最小( 约为 0. 01 /10 万人 / 年) 的帕金森氏 病,精神分裂症为例,相同条件下,100 万的队列需 要随访 15 年,而样本量为 20 万和 50 万的队列即使 随访 50 年也不能获取足够病例以发现基因 - 环境 交互作用; ( 4) 以上一种情况为例,其他条件不变, 若改为识别效应值为 1. 5 的基因-环境交互作用,则 需要累积病例至少 8 743 例,此时即使是 100 万的 队列在 50 年内也难以获取足够病例。因此,相比以 往较为单一的基于环境因素或遗传因素的流行病学 病因研究而言,为识别人类复杂性疾病的基因-环境 交互作用,队列研究的样本量需达到数以万计、十万 计,甚至是百万计的规模。
表 1 前瞻性队列研究发病估计[18] Table 1 Estimated disease incidence rates in prospective cohort studies[18]
发病数 [率( /10 万人 / 年) ] 10( 0. 01) 50( 0. 05) 100( 0. 10) 200( 0. 20) 50( 0. 50) 3 000( 3. 00)
【Abstract】 In light of the modern etiological consensus on gene-environment interactions that contribute to human common diseases,great progress has been made during the last two decades in mega cohort studies. Thus,it has gradually become one of the most powerful tools and useful platforms for etiologic research on complex human diseases in 21st century. However,it is much more attention that we should pay to the big challenges brought by the mega sample size,such as execution,management,cost control,resources optimization,etc.