基于拷贝数变异的遗传关联研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

评述
的致病基因寄予了很高的期望. 与关联研究发展的大背景一致, CNV 关联研究也分为常见和罕见 CNV 两条路线. 常见 CNV(亦称拷贝数多态, CNP)的关联研究同样基于 CDCV 假设, 依赖已知的 CNP 图谱(包括 CNP 的基因组位置、人群中不同拷贝数的出现频率、与周围 SNPs 的 LD 关系等), 需要能区分 CNP 拷贝数目的实验技术. 此外, 对 CNP 的全基因组关联研究还需要一整套完备的数据分析方法. 本文中, 我们将类比 SNP 来总结 CNV 的遗传特性, CNP 关联研究的现状和问题, 并探讨基于 CNP 全基因组关联研究的实验设计和数据分析的策略. 罕见 CNV 的关联研究实际是高通量测序技术普及之前研究罕见变异对疾病贡献的主要手段. 传统的染色体组型分析可发现导致出生缺陷的大规模染色体异常, 著名案例包括 21 号染色体的三体性导致唐氏综合征 (Down’s syndrome). 某些单基因遗传病也被报道是由基因的缺失或加倍导致, 如 PMP-22 基因的扩增可导致 Charcot-Marie-Tooth 病 1A 型[15]. 近年来的大规模关联研究表明, 罕见 CNV 能解释一些神经发育类疾病的遗传异质性[16], 也是部分散发疾病尤其是先天缺陷的致病原因之一[17]. 本文中, 我们将总结罕见 CNV 关联研究的常见策略, 并讨论如何利用该领域目前的进展指导未来关联研究的实验设计.
评述
2011 年第 56 卷第 6 期：370 ~ 382 www.scichina.com csb.scichina.com
《中国科学》杂志社
SCIENCE CHINA PRESS
基于拷贝数变异的遗传关联研究
周雪崖①, 张学工①②
① 清华大学生物信息学教育部重点实验室, 清华信息科学与技术国家实验室(筹)生物信息学研究部, 清华大学自动化系, 北京 100084; ② 清华大学医学院, 北京 100084 E-mail: xy-zhou09@mails.tsinghua.edu.cn
位同源重组一样, NAHR 的发生频率在染色体上的分布存在高度异质性[19]. NAHR 热点就是产生 CNV 的突变热点区, 其中包含多个已知的出生缺陷综合征的致病位点[20]. NAHR 热点区的 CNV 突变频率可以利用精子分型直接度量[21], 或者根据出生缺陷综合症的发生频率间接估算[17]. 在已知突变热点区内, CNV 产生频率在每代每个位点 10−6 到 10−4 之间, 为单核苷酸替换频率(每个碱基对每代约 2.5×10−8[22])的上千倍, 是目前已知的频率最高的可遗传的突变形式. 在非 NAHR 热点区域, LCR 也被发现在常见 CNV 的边界富集[23,24], 说明 NAHR 是产生 CNV 的主要机制. LCR 序列除了能导致 NAHR 之外本身也可以是 CNV. 基于基因芯片等 DNA 杂交的实验技术无法检测重复序列的拷贝数目, 因为探针的设计通常避开重复序列. 人们还发现, 高通量芯片上映射到 LCR 区域内的探针会降低 CNV 检测的敏感度、增加假阴性率, 利用基因芯片进行 CNV 检测之前应考虑滤除定位到 LCR 区域的探针[25].
人们对 DNA 毁坏的不完全修复产生 CNV 的分子机制还知之甚少, 现有模型包括非同源末端连接 (non-homologous end joining, NEHJ)、复制叉停滞和模板转换(fork stalling and template switching, FoSTeS) 等[26]. 尽管有多种 DNA 基序被发现在 CNV 边界富集[27], 非 NAHR 产生的 CNV 的边界没有可预测的序列特征. 最近 Conrad 等人[28]利用靶向序列捕获结合高通量测序技术获取了部分高精度非 NAHR-CNV 的边界序列. 他们发现多数缺失变异的边界存在微同源序列, 但插入变异的边界则少有微同源序列; 还有少数 CNV 边界存在复杂的序列重排. 这表明存在多种产生 CNV 的 DNA 损坏修复机制. 在这类机制下, 同一位点处重复突变产生的 CNV 具有不同的分界点, 因而可能对表型产生不同的影响. 在关联研究中, 精细定位 CNV 边界并寻找病例共享的 CNV 区域可以帮助缩小致病基因的位置 (在 PelizaeusMerzbacher 病例中检测到的 PLP1 位点的多种序列扩增模式便是一个例证[29]).
1 CNV 的遗传特性
1.1 产生 CNV 的突变机制
关联研究和遗传标记的群体遗传特性关系密切, 而后者是由多态性的突变机制和群体进化历史决定的. 相比由历史上单个碱基对替换产生的 SNP, CNV 源自进化历史上发生的 DNA 片段的缺失、扩增, 可以由多种突变机制产生. 目前认为 CNV 的产生和减数分裂时期的重组、DNA 毁坏后有缺损的修复、DNA 移动元件的活动等有关[18].
在减数分裂前期同源染色体联会时, 非等位同源 DNA 序列之间会因高度的序列相似而发生配对. 如果交叉重组发生在非等位配对区域, 就被称为非等位同源重组(non-allelic homologous recombination, NAHR), 重复序列之间的区域会产生拷贝数目变异甚至染色体结构重排. 散布于染色体上的低拷贝重复序列(low copy repeats, LCR; 亦称片段重复, segmental duplication)是导致 NAHR 的主要原因. 和等
1.2 CNV 的群体特征
CNV 在群体中出现的拷贝数及其频率、CNV 与 SNP 的连锁不平衡(LD)关系对关联研究的实验设计和结果分析有着重要影响.
和其他分子标记(如 SNP、微卫星等)不同, 目前的实验技术只能得到个体 CNV 的拷贝数而非基因型. 双等位 CNV 最多具有 3 种不同的拷贝数目, 可根据个体的拷贝数推断其基因型. 例如, 具有正常/ 缺失两种等位的 CNV 在人群中可能出现的拷贝数目是 0, 1, 2, 分别对应纯合缺失、杂合缺失和正常; 基因型频率应符合 Hardy-Weinberg 平衡. 多于 3 种拷贝数目的 CNV 由历史上重复发生的缺失或扩增产生, 不同的拷贝片段可能具有不同边界, 或散布在染色体不同位置. DNA 微阵列技术可以在全基因组范围内检测 CNV[32]. 存在拷贝数差异的样本 DNA 和探针的杂交强度会在对应的 CNV 区域产生差异, 比较基因组杂交芯片(array comparative genomic hybridization, array-CGH)可用来检测这种差异并发现 CNV. DNA 片段缺失可导致常见 SNP 位点的杂合度缺失, 而扩增会使杂合 SNP 位点的等位偏离 1:1 的信号强度; 基于 SNP 芯片的检测方法还可以利用和等位有关的信息. 对那些已知具有拷贝数多态的 DNA 片段可通过定量 PCR、多重连接依赖式探针扩增(multiplex ligation-dependent probe amplification, MLPA)等方法量化其拷贝数目[14]. 上述检测 CNV 的方法都是基于 DNA 杂交技术, 它们所推断出的拷贝数目都是和某个基准比较的相对值, 且 DNA 和探针的反应强度会随着拷贝数的增加而趋于饱和[25].
3Hale Waihona Puke Baidu1
2011 年 2 月第 56 卷第 6 期
组杂交等)只能检测内源 DNA 片段插入产生的 CNV 且不能推断它们的基因组位置. 对全基因组 CNP 的计算分析表明, 不少扩增序列并非位于原始序列附近, 而是散布到远离原始序列的其他位置[27]. 这将给关联研究定位致病基因带来困难, 因为扩增序列可通过扰乱插入区域的基因产生效应, 只有得到实际的插入位置才能定位致病基因. 目前的实验手段中只有荧光原位杂交技术(fluorescence in situ hybridization, FISH)可粗略定位插入序列的染色体位置. 相比之下, 在 SNP 关联研究中致病基因通常在关联位点附近.
2010-11-19 收稿, 2010-12-09 接受国家自然科学基金资助项目(30625012, 61021063)
摘要存在于自然群体中 DNA 片段的拷贝数变异(copy number variations, CNVs)是基因组结构性差异的常见形式. 人们早已意识到它在人群中普遍存在, 并设计出多种实验方法对其进行检测和量化. 近年来, 伴随着实验技术的进步, 人群的 CNV 图谱被不断完善、细化; 许多 CNVs 和疾病的相关性被陆续报道. 对复杂疾病的 CNV 关联研究已成为当前医学遗传学研究的重要内容. 本文将总结和关联研究有关的 CNV 遗传特性, 分析 CNV 与疾病关联研究的进展与问题, 并探讨实验设计和数据分析策略.
英文引用格式: Zhou X Y, Zhang X G. Copy number variation based genetic association studies (in Chinese). Chinese Sci Bull (Chinese Ver), 2011, 56: 370−382, doi: 10.1360/972010-1759
另一方面, 从 2004 年开始, 人们逐渐意识到染色体结构性差异在人群中普遍存在[11~13]. 拷贝数变异(CNV)是其中一种形式, 它通常指基因组上长度在几千到几兆碱基对的连续 DNA 片段的个体间差异. CNV 可通过改变基因的份数从而影响其表达剂量、打乱基因的编码区结构、改变基因调控序列的位置或长度、暴露隐性突变等方式影响个体的表型[14]. 因而人们对利用拷贝数与表型的关联发现新
关键词
拷贝数变异复杂疾病关联研究实验设计数据分析
寻找导致个体表型差异(尤其是疾病易感性)的 DNA 分子水平差异及其对应的基因是遗传学研究的重要目标. 关联研究(association study)是实现这一目标的策略之一, 它通过直接检验分子标记的基因型与个体表型的相关性来定位易感基因. 分子标记本身可直接影响表型, 但很多情况下是通过连锁不平衡(linkage disequilibrium, LD)和致病变异相关. 单核苷酸多态(SNP)是近年来关联研究中使用最为广泛的分子标记, 也被认为是人与人之间最常见的 DNA 多态性. 通过将不同个体的 DNA 片段比对到参照基因组, 可以发现 SNPs 并建立它们的位置图谱 [1]. 人群单倍型图谱计划 (The Haplotype Map Project) 详细揭示了全基因组尺度上不同人群中常见 SNP 之间的 LD 关系[2~4]. 这一资源为基于 SNP 关联研究的标记选择、结果比较和统合分析 (meta-analysis)等奠定了基础[5]. 同时 SNP 芯片技术的成熟使得高通量 SNP 分型的成本大大降低. 从 2007 年至今, 已有超过 500 篇全基因组关联研究 (genome-wide association study, GWAS)的报道建立起上千个染色体区域与疾病易感的相关性(见 http:// www.genome.gov/26525384); 数据分析流程也基本
DNA 片段还可跳变到基因组的其他位置产生 CNV, 插入序列也可能不存在于参照基因组序列中. 通过 fosmid 质粒文库的双端测序[30]或对新一代测序技术产生的短读段进行重头拼装 (de novo assembly)[31]可以发现并定位这类外源 DNA 片段, 而依靠参照基因组序列的实验技术(如 SNP 芯片、比较基因
标准化[6]. 由于 SNP 标记及与其相关联的其他变异主要为常见多态, 因而 SNP 关联研究建立在“常见疾病常见变异”(common disease-common variants, CDCV)的假设之上[7]: 即认为致病变异是存在自然人群中的常见多态, 它们和环境共同作用增加携带者的患病风险. 在目前已知的复杂疾病易感位点中, 绝大多数的效应量都很小, 它们的累加作用只能解释复杂疾病很小一部分的遗传度[8]; 剩下的那部分未被归因的遗传度可以部分地由罕见变异的作用来解释[9]. 某些具有遗传异质性的性状可受到多个位点上大效应量的罕见变异影响[10]. 由于罕见变异不能被常见 SNP 标记, 关联研究需要直接检测所有的 DNA 变异.