基于拷贝数变异的遗传关联研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
评述
的致病基因寄予了很高的期望. 与关联研究发展的 大背景一致, CNV 关联研究也分为常见和罕见 CNV 两条路线. 常见 CNV(亦称拷贝数多态, CNP)的关联 研究同样基于 CDCV 假设, 依赖已知的 CNP 图谱(包 括 CNP 的基因组位置、人群中不同拷贝数的出现频 率、与周围 SNPs 的 LD 关系等), 需要能区分 CNP 拷贝数目的实验技术. 此外, 对 CNP 的全基因组关 联研究还需要一整套完备的数据分析方法. 本文中, 我们将类比 SNP 来总结 CNV 的遗传特性, CNP 关联 研究的现状和问题, 并探讨基于 CNP 全基因组关联 研究的实验设计和数据分析的策略. 罕见 CNV 的关 联研究实际是高通量测序技术普及之前研究罕见变 异对疾病贡献的主要手段. 传统的染色体组型分析 可发现导致出生缺陷的大规模染色体异常, 著名案 例 包 括 21 号 染 色 体 的 三 体 性 导 致 唐 氏 综 合 征 (Down’s syndrome). 某些单基因遗传病也被报道是 由基因的缺失或加倍导致, 如 PMP-22 基因的扩增可 导致 Charcot-Marie-Tooth 病 1A 型[15]. 近年来的大规 模关联研究表明, 罕见 CNV 能解释一些神经发育类 疾病的遗传异质性[16], 也是部分散发疾病尤其是先 天缺陷的致病原因之一[17]. 本文中, 我们将总结罕 见 CNV 关联研究的常见策略, 并讨论如何利用该领 域目前的进展指导未来关联研究的实验设计.
评述
2011 年 第 56 卷 第 6 期:370 ~ 382 www.scichina.com csb.scichina.com
《中国科学》杂志社
SCIENCE CHINA PRESS
基于拷贝数变异的遗传关联研究
周雪崖①, 张学工①②
① 清华大学生物信息学教育部重点实验室, 清华信息科学与技术国家实验室(筹)生物信息学研究部, 清华大学自动化系, 北京 100084; ② 清华大学医学院, 北京 100084 E-mail: xy-zhou09@mails.tsinghua.edu.cn
位同源重组一样, NAHR 的发生频率在染色体上的分 布存在高度异质性[19]. NAHR 热点就是产生 CNV 的 突变热点区, 其中包含多个已知的出生缺陷综合征 的致病位点[20]. NAHR 热点区的 CNV 突变频率可以 利用精子分型直接度量[21], 或者根据出生缺陷综合 症的发生频率间接估算[17]. 在已知突变热点区内, CNV 产生频率在每代每个位点 10−6 到 10−4 之间, 为 单核苷酸替换频率(每个碱基对每代约 2.5×10−8[22])的 上千倍, 是目前已知的频率最高的可遗传的突变形 式. 在非 NAHR 热点区域, LCR 也被发现在常见 CNV 的边界富集[23,24], 说明 NAHR 是产生 CNV 的主 要机制. LCR 序列除了能导致 NAHR 之外本身也可 以是 CNV. 基于基因芯片等 DNA 杂交的实验技术无 法检测重复序列的拷贝数目, 因为探针的设计通常 避开重复序列. 人们还发现, 高通量芯片上映射到 LCR 区域内的探针会降低 CNV 检测的敏感度、增加 假阴性率, 利用基因芯片进行 CNV 检测之前应考虑 滤除定位到 LCR 区域的探针[25].
人们对 DNA 毁坏的不完全修复产生 CNV 的分 子机制还知之甚少, 现有模型包括非同源末端连接 (non-homologous end joining, NEHJ)、复制叉停滞和 模板转换(fork stalling and template switching, FoSTeS) 等[26]. 尽管有多种 DNA 基序被发现在 CNV 边界富 集[27], 非 NAHR 产生的 CNV 的边界没有可预测的序 列特征. 最近 Conrad 等人[28]利用靶向序列捕获结合 高通量测序技术获取了部分高精度非 NAHR-CNV 的边界序列. 他们发现多数缺失变异的边界存在微 同源序列, 但插入变异的边界则少有微同源序列; 还有少数 CNV 边界存在复杂的序列重排. 这表明存 在多种产生 CNV 的 DNA 损坏修复机制. 在这类机 制下, 同一位点处重复突变产生的 CNV 具有不同的 分界点, 因而可能对表型产生不同的影响. 在关联 研究中, 精细定位 CNV 边界并寻找病例共享的 CNV 区 域 可 以 帮 助 缩 小 致 病 基 因 的 位 置 (在 PelizaeusMerzbacher 病例中检测到的 PLP1 位点的多种序列扩 增模式便是一个例证[29]).
1 CNV 的遗传特性
1.1 产生 CNV 的突变机制
关联研究和遗传标记的群体遗传特性关系密切, 而后者是由多态性的突变机制和群体进化历史决定 的. 相比由历史上单个碱基对替换产生的 SNP, CNV 源自进化历史上发生的 DNA 片段的缺失、扩增, 可 以由多种突变机制产生. 目前认为 CNV 的产生和减 数分裂时期的重组、DNA 毁坏后有缺损的修复、DNA 移动元件的活动等有关[18].
在减数分裂前期同源染色体联会时, 非等位同 源 DNA 序列之间会因高度的序列相似而发生配对. 如果交叉重组发生在非等位配对区域, 就被称为非 等位同源重组(non-allelic homologous recombination, NAHR), 重复序列之间的区域会产生拷贝数目变异 甚至染色体结构重排. 散布于染色体上的低拷贝重 复序列(low copy repeats, LCR; 亦称片段重复, segmental duplication)是导致 NAHR 的主要原因. 和等
1.2 CNV 的群体特征
CNV 在群体中出现的拷贝数及其频率、CNV 与 SNP 的连锁不平衡(LD)关系对关联研究的实验设计 和结果分析有着重要影响.
和其他分子标记(如 SNP、微卫星等)不同, 目前 的实验技术只能得到个体 CNV 的拷贝数而非基因 型. 双等位 CNV 最多具有 3 种不同的拷贝数目, 可 根据个体的拷贝数推断其基因型. 例如, 具有正常/ 缺失两种等位的 CNV 在人群中可能出现的拷贝数目 是 0, 1, 2, 分别对应纯合缺失、杂合缺失和正常; 基 因型频率应符合 Hardy-Weinberg 平衡. 多于 3 种拷 贝数目的 CNV 由历史上重复发生的缺失或扩增产 生, 不同的拷贝片段可能具有不同边界, 或散布在 染色体不同位置. DNA 微阵列技术可以在全基因组 范围内检测 CNV[32]. 存在拷贝数差异的样本 DNA 和探针的杂交强度会在对应的 CNV 区域产生差异, 比较基因组杂交芯片(array comparative genomic hybridization, array-CGH)可用来检测这种差异并发现 CNV. DNA 片段缺失可导致常见 SNP 位点的杂合度缺 失, 而扩增会使杂合 SNP 位点的等位偏离 1:1 的信 号强度; 基于 SNP 芯片的检测方法还可以利用和等 位有关的信息. 对那些已知具有拷贝数多态的 DNA 片段可通过定量 PCR、多重连接依赖式探针扩增(multiplex ligation-dependent probe amplification, MLPA)等 方法量化其拷贝数目[14]. 上述检测 CNV 的方法都是 基于 DNA 杂交技术, 它们所推断出的拷贝数目都是 和某个基准比较的相对值, 且 DNA 和探针的反应强 度会随着拷贝数的增加而趋于饱和[25].
3Hale Waihona Puke Baidu1
2011 年 2 月 第 56 卷 第 6 期
组杂交等)只能检测内源 DNA 片段插入产生的 CNV 且不能推断它们的基因组位置. 对全基因组 CNP 的 计算分析表明, 不少扩增序列并非位于原始序列附 近, 而是散布到远离原始序列的其他位置[27]. 这将 给关联研究定位致病基因带来困难, 因为扩增序列 可通过扰乱插入区域的基因产生效应, 只有得到实 际的插入位置才能定位致病基因. 目前的实验手段 中只有荧光原位杂交技术(fluorescence in situ hybridization, FISH)可粗略定位插入序列的染色体位 置. 相比之下, 在 SNP 关联研究中致病基因通常在 关联位点附近.
2010-11-19 收稿, 2010-12-09 接受 国家自然科学基金资助项目(30625012, 61021063)
摘要 存在于自然群体中 DNA 片段的拷贝数变异(copy number variations, CNVs)是基因组结构 性差异的常见形式. 人们早已意识到它在人群中普遍存在, 并设计出多种实验方法对其进行检 测和量化. 近年来, 伴随着实验技术的进步, 人群的 CNV 图谱被不断完善、细化; 许多 CNVs 和疾病的相关性被陆续报道. 对复杂疾病的 CNV 关联研究已成为当前医学遗传学研究的重要 内容. 本文将总结和关联研究有关的 CNV 遗传特性, 分析 CNV 与疾病关联研究的进展与问题, 并探讨实验设计和数据分析策略.
英文引用格式: Zhou X Y, Zhang X G. Copy number variation based genetic association studies (in Chinese). Chinese Sci Bull (Chinese Ver), 2011, 56: 370−382, doi: 10.1360/972010-1759
另一方面, 从 2004 年开始, 人们逐渐意识到染 色体结构性差异在人群中普遍存在[11~13]. 拷贝数变 异(CNV)是其中一种形式, 它通常指基因组上长度 在几千到几兆碱基对的连续 DNA 片段的个体间差 异. CNV 可通过改变基因的份数从而影响其表达剂 量、打乱基因的编码区结构、改变基因调控序列的 位置或长度、暴露隐性突变等方式影响个体的表 型[14]. 因而人们对利用拷贝数与表型的关联发现新
关键词
拷贝数变异 复杂疾病 关联研究 实验设计 数据分析
寻找导致个体表型差异(尤其是疾病易感性)的 DNA 分子水平差异及其对应的基因是遗传学研究 的重要目标. 关联研究(association study)是实现这 一目标的策略之一, 它通过直接检验分子标记的基 因型与个体表型的相关性来定位易感基因. 分子标 记本身可直接影响表型, 但很多情况下是通过连锁 不平衡(linkage disequilibrium, LD)和致病变异相关. 单核苷酸多态(SNP)是近年来关联研究中使用最为 广泛的分子标记, 也被认为是人与人之间最常见的 DNA 多态性. 通过将不同个体的 DNA 片段比对到 参照基因组, 可以发现 SNPs 并建立它们的位置图 谱 [1]. 人 群 单 倍 型 图 谱 计 划 (The Haplotype Map Project) 详 细 揭 示 了 全 基 因 组 尺 度 上 不 同 人 群 中 常 见 SNP 之间的 LD 关系[2~4]. 这一资源为基于 SNP 关联研究的标记选择、结果比较和统合分析 (meta-analysis)等奠定了基础[5]. 同时 SNP 芯片技术 的成熟使得高通量 SNP 分型的成本大大降低. 从 2007 年至今, 已有超过 500 篇全基因组关联研究 (genome-wide association study, GWAS)的报道建立 起上千个染色体区域与疾病易感的相关性(见 http:// www.genome.gov/26525384); 数 据 分 析 流 程 也 基 本
DNA 片段还可跳变到基因组的其他位置产生 CNV, 插入序列也可能不存在于参照基因组序列中. 通过 fosmid 质粒文库的双端测序[30]或对新一代测序 技 术 产 生 的 短 读 段 进 行 重 头 拼 装 (de novo assembly)[31]可以发现并定位这类外源 DNA 片段, 而依靠 参照基因组序列的实验技术(如 SNP 芯片、比较基因
标准化[6]. 由于 SNP 标记及与其相关联的其他变异 主要为常见多态, 因而 SNP 关联研究建立在“常见疾 病常见变异”(common disease-common variants, CDCV)的假设之上[7]: 即认为致病变异是存在自然人群 中的常见多态, 它们和环境共同作用增加携带者的 患病风险. 在目前已知的复杂疾病易感位点中, 绝 大多数的效应量都很小, 它们的累加作用只能解释 复杂疾病很小一部分的遗传度[8]; 剩下的那部分未 被归因的遗传度可以部分地由罕见变异的作用来解 释[9]. 某些具有遗传异质性的性状可受到多个位点 上大效应量的罕见变异影响[10]. 由于罕见变异不能 被常见 SNP 标记, 关联研究需要直接检测所有的 DNA 变异.