全基因组高分辨率中国(东亚)人群遗传变异图谱的绘制

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

项目名称:全基因组高分辨率中国(东亚)人群遗

传变异图谱的绘制

首席科学家:王俊深圳华大基因研究院

起止年限:2011.1至2015.8

依托部门:深圳市科技局

二、预期目标

本项目的总体目标:

全基因组高分辨率中国(东亚)人群遗传变异图谱的绘制项目旨在集中顶尖基因组中心的测序和数据分析能力,基于新一代测序技术平台,通过对400 个人类个体黄种人低深度全基因组重测序并结合少数个体和家系高深度测序的方法,绘制一张黄种人的人类遗传变异图谱,建立起一套基于重测序技术构建重大疾病分子标记集的研究思路和技术路线,极大加速人类常见复杂疾病的研究。本计划目标包括检测基因组非基因区内几乎所有在人群中的出现频率不低于1 %的单核苷酸变异,基因区内几乎所有出现频率不低于0.5 %的单核苷酸变异,以及全基因组上的拷贝数变异、结构性变异等大片段变异。这一数据资源将完全成为一个开放的公共资源,为各种疾病的关联分析提供详细的基础数据;为解释人类重大疾病发病机理、开展个性化预测、预防和治疗打下基础。此外,该项目还将加深人类群体遗传学的理解,促进人类进化历史研究。

五年预期目标:

在本项目中,我们将针对不少于400 个亚洲个体,共计不少于3Tb 的全基因组重测序数据,完成东亚代表人群频度低至1%的高分辨图谱,同时绘制包括拷贝数变异、倒位变化的遗传变异图谱。设计可用于全基因组扫描的精细至1%频度的基因分型芯片。建立起一套针对大规模重测序数据、低频度变异分析和结构性变异的分析流程和方法。预计将申请5 个以上软件著作权,发表10 篇以上SCI 文章,其中包括Nature、Science 级别文章,培养20名研究生

和一支年轻的、国际一流团队(百人以上),其中30名技术骨干。

1.制定规范化的大规模样品收集流程,表型定义清楚、收集方法规范统一、个人信息记录完整且保密。为今后类似的大规模样品收集工作提供典范。

2.在目前已有测序生产平台的基础上,能够以较高的产量和稳定的质量,日产200Gb 数据,产出适用于不同研究目的的各类测序数据。

3.建立完善的数据质量控制系统,定义规范的数据格式,提供针对超大规模数据采集、传输、存储、分析的高性能计算解决方案。

4.开发识别基因组变异的生物信息学工具并完成相应变异多态性的检出,包括SNPs、CNV(拷贝数变异)、插入、删除以及其它结构性变异。由于在人类单体型计划(HapMap)已经识别了许多常见的SNPs,该计划将重点挖掘在人群中发生频率较低的稀有多态性和基因组的结构变异,并估计各种变异的等位基因型的频率,确定稳定遗传的单体型结构,以及各变异之间的连锁遗传(LD)模式,最终提供更有代表性、更全面的SNP 集合,供基因分型芯片的探针设计作参考。

5.通过千人基因组计划研究和分析结果,完善现有公共数据库中人类基因组的参考序列。

6.为个体间、群体间的基因组变异研究提供支持。进一步揭示人类基因组突变和遗传重组发生的内在机理。

7.提供大规模群体个人基因组重测序数据展示方案,构建公众可免费访问的数据库,提出具有可扩展性的大规模数据共享方案。

三、研究方案

1)总体思路:

人类基因组计划和人类单体型计划的完成,构建了第一代人类基因组遗传多态性图谱,并推动了基因分型技术的发展,为全基因组关联分析奠定了数据基础,极大地推动了复杂常见疾病的基因组学研究。然而,由于当前遗传多态性标记的密度较低,全基因组关联性分析仍然只能解决一小部分与疾病相关联的多态性位点,且所找到的目标区域范围较大,需要大量额外验证工作。唯有通过对更大的样本群体进行大量全基因组测序工作,进行科学探索,发现新的在人群中更加稀有的遗传多态性标记,构建高密度人类基因组遗传多态性精细图谱,才能突破当前复杂疾病研究的瓶颈。

自2006 年开始的测序技术革命使得基因组测序成本大幅降低,使得对大量人类个体进行测序并大规模发现遗传多态性位点成为可能。通过模拟计算证明,对亚洲人随机选取不少于400个样本,这样的样本容量可以保证90%以上在人群中频率为0.5%-1%的多态性位点的出现。如果对每个样本进行4倍基因组深度测序,在考虑测序错误率,序列比对错误率及分布均匀性等实际因素的情况下,仍然能够准确发现在人群中频率为1%的多态性位点;在基因区所能有效检测到的最低频率甚至可达0.5%。在基本的群体基因组学结构的假定下,预期将发现至少1500 万例以上的单核甘酸多态性位点和100 万例以上的插入删除多态性位点。这一精度可以大幅提高遗传多态性标记的密度,将当前分子标记密度从每一千碱基一个提高到每200bp 一个,从而发现与疾病关联性更强,风险更高的稀有位点,极大降低了医学基因组学研究的成本和技术门槛,对复杂疾病

研究具有重大的推动作用。

通过对多个个体大量测序,还将发现大量基因组结构性变异,而这些结构性变异的特征和意义目前研究刚刚起步,属于未知领域。利用当前的测序技术,可从预计在进一步深入探索疾病关联多态性位点的同时,还将首次获得基因组结构性多态特征及其与疾病之间的关系。

此外,通过对亚洲人族群的群体基因组学研究,对人类进化生物学和群体遗传学的理解也有着重大的作用。

2)技术途径:

3)可行性分析:

在测序技术获得历史性突破的2008 年,国际千人基因组计划顺时而生,我国作为发起国之一,将在其中承担黄种人的测序和数据分析工作。经过本课题小组参与的前期先导实验的工作,证实了整个项目在数据产出,数据同步,数据分析及实现最终目标的可行性。另一方面,2008 年11 月,本课题小组在世界著名的Nature 杂志上,以封面文章的形式发表了第一个亚洲人基因组的重测序和数据分析工作,发现了超过300 万SNP 位点13 万插入删除位点及2682 例结构性变异位点,也进一步证实了使用这一技术对人类个体进行测序并检出多态性的可行性。通过第一个亚洲人基因组重测序项目(即“炎黄一号”)的顺利开展,目前我们课题组已经建立了一套针对新一代测序仪的数据产生、数据分析平台。高通量的数据产出能力确保了该项目所需数据能够顺利产生,强大的数据分析能力为Tb 级别的数据处理和分析提供了保障。先期发表的炎黄一号数据库也将作为数据展示的模型,添加入新的数据,成为一个中国人群基因组数据的展示平台,共各国科学家共享。

4) 创新点:

本项目最大的创新之处在于利用新一代测序技术高速发展的契机,推出了针对中国人群的全基因组重测序计划,研究成果将极大的提升我国在国际基因组学研究领域的地位、深入理解和保护我国丰富的遗传资源、并为针对中国人群的疾病相关研究提供基础数据。这一重大研究从规模和深度上都是史无前例的,是科研工作者对人类基因组学研究最大的一次努力。

相关文档
最新文档