文章翻译

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基因组序列变化群体遗传推理
群体遗传学已从带有极少的经验数据的理论领域演变到以数据为依据的学科,该学科基因组数据测试受有效模式和计算分析方法的限制。

在人类和少数模式生物中,全基因组序列多态性数据的分析当前正在进行中。

在下一代测序技术降低花费的情况下,这样的研究在许多其他生物体中也变得普遍起来。

在此,我们评估了对全基因组序列多态性数据的挑战并讨论了这些数据产生的关于种群历史和基因组盛行的自然选择的见解的可能性。

群体遗传学起源于20世纪上半叶,作为一个拥有理论见解和极少经验数据的领域,其几十年的理论仍对有效数据具有预测性。

这一形势随着蛋白质电泳变化的出现而开始改变(例如,e.g., Harris 1966; Hubby and Lewontin 1966; Lewontin and Hubby 1966; Lewontin 1972)。

自从引进聚合酶链式反应(PCR)技术,数据规模以指数级方式进行增加,而碎片长度多态性、微卫星DNA和小规模DNA测序的限制拓展了实证调查问题的范围。

最近随着单核苷酸多态性(SNP)数据的泛滥、现在基因组群体样品完全测序的出现,群体遗传学已成为从根本上依据数据处理的学科。

因为群体遗传学产生数据的能力的增长,所以在相关学科中具有重要性。

群体遗传学在分子生态学和保护生物学中处于核心分析地位。

在此,群体遗传学为理解群体中的遗传变异分布和从分子数据推理自然群体的人口历史提供了框架。

它在分子进化研究中处于中心地位,在基因和基因组中为理解突变、遗传漂变、和自然选择的贡献提供了基础。

最后,随着人类遗传学聚焦于关联作图、混合作图、亲缘作图和相关技术,作为核心分析学科,群体遗传学已找到通向医学遗传学的道路。

当前,大规模下一代测序工程已应用于一些生物体,包括人类、果蝇和拟南芥。

在这样的数据可应用前,一些基因组研究已通过Sanger测序法(如Bustamante et al. 2005; Begun et al. 2007)或单核苷酸多态性(Hinds et al. 2005; The International HapMapConsortium 2005, 2007; Jakobsson et al. 2008; JZ Li et al. 2008)完成。

Begun et al. (2007)完成的果蝇simulans 六基因组低覆盖范围测序是群体遗传学的意义重大的一步,然而今天高通量测序仪(Illumina Genome Analyzer)运行能大量的获得比这一研究更多的数据。

最近这种扩展产生数据的能力已导致超过40篇关于黑腹果蝇基因组()的论文的公开发表,随后又有40篇关于蚕基因组的已发表的分析(Xia et al. 2009)。

与通过基因型获得的单核苷酸多态性数据相关的挑战在别处受到讨论(e.g., Kuhner et al. 2000; Nielsen 2000, 2004; Marth et al. 2004)但不是这篇文章回顾的焦点。

相反,我们聚焦于下一代测序数据的分析,这可能是许多未来群体遗传学研究的基础。

这些数据分析正处于初期。

而且,如果下一代测序的费用持续下降,全基因组群体遗传数据不仅对人类和主要模式生物而且对遗传学、生态学甚至进化中被实施积极研究的大多数生物体都可能有效。

获得样品和提出好的生物学问题的能力将成为限制性因素——而不是测序费用。

在对未来的期望中,我们回顾了一些与全基因组群体遗传数据相关的基本问题。

下一代测序
大规模测序(for review, see Shendure and Ji 2008)现在可能使用的平台,如Illumina sequencing (Bentley et al. 2008), 454 Life Sciences (Roche) pyrosequencing (Margulies et al. 2005), Applied
Biosystems SOLiD sequencing (Fu et al. 2008), and cPAL sequencing (Drmanac et al. 2009). 产生这些数据的正在下降的费用改变了群体遗传学领域,使得大量基因组的数据对大多数研究员可利用。

当这一技术被研究员用于人类和主要模式生物的研究时,下一代测序也作为从其他生物体的自然群体中产生群体遗传数据的另一方法的经济选择而出现。

各种各样的减少代表的鸟技术被用于选择测序用的基因组的子集(Altshuler et al. 2000; Baird et al. 2008)。

当与标记阅读技术结合,以便源于多个个体的DNA能在同样的混合的测序反应中被分析,减少代表的鸟枪法测序(RRSS)使用下一代测序为获得群体遗传数据提供愈来愈多的负担得起的方法。

下一代测序在诸如保护遗传学和分子生态学领域有可能成为获得群体遗传数据的标准选择,但它将对计算的基础设施、统计学的和生物信息学的训练提出了新的要求。

然而下一代测序也许不能抹去遗传的模式生物体的每一个优势,它通过从实验室交叉或相关的捕获的野生型个体收集序列数据来考虑遗传图谱结构。

这一策略意味着额外的资源投资,但关于重组率的知识对许多群体遗传推理是关键的(e.g., Thornton and Andolfatto 2006; Becquet and Przeworski 2007; O’Reilly et al. 2008; Pool and Nielsen 2009) 。

重组不是这篇文章的焦点,因为它在其他地方已经回顾了(Coop and Przeworski 2007)。

通过下一代测序平台获得的数据的特殊性质可能会承受一系列的群体遗传学参数的不偏估计的挑战。

与传统方法相比,在此有定义的碎片通过PCR扩增后再测序,源于个体DNA 分子的序列从下一代测序技术项目中读出且随机分布于基因组中(尽管带有非常高或者非常低的GC含量的区段可能不具代表性)(Ossowski et al. 2008)。

通过这些技术获得的数据最能与单程全基因组鸟枪法测序相比,它存在三个基本问题:序列误差、组装误差、丢失数据。

这些严重的问题部分有赖于带有较高的覆盖范围的潜在性的最小化很多误差的深度测序(e.g., Bentley et al. 2008)。

但对于带有大基因组的生物体,覆盖范围与费用和样品数量相对的权衡也许能公正的处理低覆盖范围的数据集的统计复杂性(至少直到测序的进一步改善和\或者费用降低)。

这一权衡也许有赖于特殊的研究目的(例如,聚焦于连锁不平衡的研究比依赖于等位基因频率的研究的最优化覆盖范围高),但进一步的工作需要报告实验设计的这个方面。

测序误差
因为下一代序列阅读源于单程DNA分子,在测序中的误差归因于DNA的损伤,在扩增和测序误差中产生错误。

产生误差的阶段将在DNA测序池中决定该误差的频率。

然而假设误差仅产生于单程阅读,非随机误差的证据已被报道(Keightley et al. 2009),因此,误差概率的统计分析甚至对高覆盖范围数据集也很重要。

如果未加解释,误差将扩充核苷酸多样性和投向稀有等位基因频率谱,这将作为单一序列的过量而可见(e.g., Johnson and Slatkin 2008)。

迄今,测序数据的加工,特别是单核苷酸多态性(SNP)的应用已通过引进严格的质量标准而聚焦于使可能发生的误差率最小化(e.g., Altshuler et al. 2000)。

Johnson and Slatkin (2006, 2008)记下的SNP应用的严格标准将通过从数据中排除许多正确的SNPs(尤其是稀有等位基因)使多样性估计存在偏见。

因此,他们建议把质量价值直接并入多样性的评估而不是只用其作为过滤器。

如果测序误差的可能性是测序质量价值的已知功能,然而,这只是一种可能。

这种关系已被ABI-Sanger测序(Ewing and Green 1998)所调查,但对下一代测序法知之甚少。

在阅读中体现测序关系和位置的新测序平台的经验实证误差模式能提高品质评分和误差概率的相互关系。

一旦误差概率能够准确估计,那么统计学上纠正测序出现的误差就相对容易些(e.g., Hellmann et al. 2008; Jiang et al. 2009) 。

Lynch(2008)描述了一种在混合程序中估计误差率和核苷酸多态性的方法,在该混合程序中,误差率和核苷酸多态性通过高覆盖范围用最大似然方法首次被估计,然后用于基因组核苷酸多态性的片刻估计的一种方法。

Lynch (2009)扩展了该方法,此方法也用于纠正等位基因频率谱(AFS)的数据丢失和误差,或者假设哈温定律或已知的近交系数。

当上述的方法在全基因组水平聚焦于基本的群体遗传学推理时,在未来,他们也许会被推广到更复杂的人口学的模型或适合在多样性或者等位基因频率方面探究局部改变。

装配误差
至今,下一代测序阅读比传统的Sanger测序短(Illumina目前已达约75bp,454生命科学测序约450),这就形成了严峻的装配阅读挑战(e.g., Sundquist et al. 2007; Chaisson and Pevzner 2008; Zerbino and Birney 2008; Bryant et al. 2009),参考基因组图谱阅读也一样(e.g., H Li et al. 2008; R Li et al. 2008; Langmead et al. 2009)。

via ‘‘paired-end’’测序能部分地解决这些问题,该方法涉及特定大小级DNA碎片的每一侧面的短序列阅读。

然而,装配任然挑战重复或高多态性基因组区域,考虑有不足的装配引起的潜在偏差是有意义的。

对一些带有超过一个或俩个源于参考基因组的偏差的图谱算法、序列阅读将不被放置(e.g., H Li et al. 2008)。

这使不同于推理基因组的等位基因的图谱比与推理基因相匹配的等位基因可能性小,这在推理序列中发现的等位基因的等位频率产生了偏差。

这额外的减少了发现的SNPs的数目和具有较小值的核苷酸多态性的估计偏差。

此外,如果推理基因组本身是源于多倍体的公共基因组,这种方法将扭曲高频等位基因的等位基因频率谱。

推理序列误差的问题将通过较高多态性的对比工具和合并已知的多态性以及他们在推理序列中的频率来解决。

通常装配将考虑转座子在推理序列中的位置并允许变化。

在具有含糊位置的事例中,舍弃这些阅读是常有的事。

因此,重复的和重叠的区域也许有较低的覆盖范围。

最后,共生同源序列的错误调整将提高核苷酸多态性,并能使等位基因频率谱更加接近中间等位频率。

改善的装配和作图法仍然具有重要性并活跃于研究领域,但最重要的改善也许源于测序技术:更长的阅读长度和从每一个具有特定大小的碎片的末尾采集数据的尾部配对阅读。

最重要的是,对群体遗传学而言,这些相同的进步及基因重组的鉴定(Korbel et al. 2007),包括复制突变体数目,将增加能从二倍体决定的单链的信息(Bansal et al. 2008; Kidd et al. 2008; Long et al. 2009)。

缺失数据
分析全基因组序列多态性的另一挑战是缺失数据。

因为基因组序列阅读的随机位置,在抽样染色体的的任意特殊位点都不可能包括所有的个体(Figure 1)。

除非所有的样品测序都具有很高的基因覆盖范围(i.e., >303) (Bentley et al. 2008),否则,二倍体的个别等位基因的测定是不清楚的。

因此,染色体样品的大小将是变化的和不确定的。

如果个体抽样阅读未知(i.e., for pooled samples),这种不确定性将会增加并随个体范围而减少。

在群体遗传参数的估计中,忽略缺失数数据将产生误差。

然而,这个问题可通过统计所有可能的染色体样品大小而忽略(Hellmann et al. 2008; Lynch 2008; Jiang et al. 2009)。

在综合研究中,从附近的晶格中寻找缺失数据是常有的事(Marchini et al.。

2007; Servin and Stephens 2007)。

如果目的是确定产生SNPs的假设疾病,这种技术是有用的。

然而,在群体遗传学分析中,归因法可能产生误差。

例如,单一的多态性不能归因,使用该法可能导致偏向核苷酸的多态性在AFS单个误差。

如果抽样等位基因仅是群体的单一多态性的一个子集,那么可能导误差增加(as found for human ‘‘tag-SNPs’’ by Bhangale et al. [2008])。

下一代测序技术发展迅速,但适当分析工具的发展是滞后的。

全方位的特化核苷酸内容的测序错误和误差的产生是需要时间的,发展适当的估测工具同样需要考虑这些问题。

因为群体基因组推理是特别易受测序错误和缺失数据的影响,使用人口统计和选择推理的下一代
测序数据的研究员必须将这些问题牢记在心。

所幸的是,很多因测序错误和缺失数据产生的误差能通过适当的统计修正来减少。

全基因组序列多态性的人口统计学的推理前景
人口历史的推理是群体遗传学研究的中心目标,无论是这种认识本身的原因还是加强积极选择的或者基因型与表现型的联系的全基因组略读的结论。

现在,全基因组SNP数据集的人口统计学的分析常常聚焦于分配个体基因组到一个或者多个群体的成簇的方法,或者分析个体之间或群体之间的基因的距离的方法(e.g., Jakobsson et al. 2008 JZ Li et al. 2008; Novembre et al. 2008)。

从某种意义上说,这种方法比传统的基于单个或少数几个基因座(e.g., Kuhner et al. 1998; Nielsen and Wakeley 2001;Beaumont et al. 2002) 而不是直接估计人口统计学的参数方法更少雄心壮志,他们仅仅旨在没有群体遗传模式或清楚的人口统计学的内容的情况下量化个体间的关系。

从大量数据集中推论人口参数的方法往往聚焦于AFS或总结统计学的遗传学意义和他们在基因组中的变异。

然而,许多提供独特信息的全基因组数据的很多方面--如较大范围的单一晶格—并未被充分利用。

全基因组测序多态性的分析是清楚至少是以计算机方式的精深的,但与SNP数据相比,它在人口统计学推理方面的优势包括较好的单元信息、含有稀有群体和特殊区域突变体、没有偏见的AFS。

源于等位频率和总结统计法的历史的推理
总结群体遗传学数据的最简单的方法之一就是通过AFS。

Nielsen (2000), Wooding and Rogers (2002), Polanski and Kimmel (2003), Marth et al. (2004), and Williamson et al. (2005)为人口统计学的推理使用SNP等位频率数据提供了例子,他们都在群体数量不断变化的不同模式下模式化预期的AFS。

这些方法也可通过所谓的多维频率谱而应用于多余一个群体和更复杂的人口统计学的模式(e.g., Caicedo et al. 2007; Gutenkunst et al. 2009; Nielsen et al. 2009)。

尽管早期的一些分析受相对较小的数据集的限制,对较大的分析,依赖于AFS的推理也是以计算机方式而易处理的。

例如,Williamson et al. (2005)使用全基因组数据集直接测序人类编码蛋白质的区域。

然而,尽管AFS确实含有在群体数量中过去发生的改变的有意义的信息,但它却不能从群体遗传学数据中捕捉到更多的相关信息且不能在较复杂的模式中为历史的推理确定充足的信息(Adams and Hudson 2004; Myers et al. 2008)。

一些研究已使用复杂的统计学将正在变化的人口统计学的历史和反模式的经验数据相比较。

例如,Schaffner et al. (2005)已用一些总结的统计资料(基于等位频率、连锁不平衡和群体分化)来联合地为人类群体推理历史的和重组的模式。

Voight et al. (2005) and Thornton and Andolfatto (2006)各自用三种不同的统计资料来为非非洲人和D. melanogaster配合群体瓶颈模式。

检查模式的不同类型—通过后天迁徙形成的群体--Becquet and Przeworski (2007)用了一些量群体间的共同突变体,私有等位基因并混合不同点以估计猿类群体的人力统计学的参数。

除了应用一些不同的总结的统计资料外,研究还引用了上述的不同方法,用以比较经验和模拟数据与总结统计资料,包括一些与原始方法一致的错误方法(Schaffner et al. 2005),与总结统计资料p值相结合(V oight et al. 2005),近似的Bayesian排斥抽样方法(Thornton and Andolfatto 2006),和一种近似Bayesian Markov chain Monte Carlo的相似方法(Becquet and Przeworski 2007)。

这些方法中没有一种适用于大规模基因组多态性数据,且可测量性的关键将是计算的效率。

另一问题是从短而独立的基因座到全基因组范围的转变。

最简单地说,
这将通过把染色体断裂成随机长度的独立的小片段;更可取的是通过统计地校正自动校正p 值的效率来考虑序列变化的非独立的特性和置性区间(e.g., Keinan et al. 2007)。

当大规模基因组多态性数据可用时,历史推理能通过常染色体和不同的与X相连的模式来说明而提高。

X染色体特有的不同效率的群体数,而常染色体没有,因此,将控制不同群体遗传学的时间规模。

因为X染色体将受如群体大小改变这样的事件的不同程度的影响(Fay and Wu 1999; Hey and Harris 1999; Wall et al. 2002; Pool and Nielsen 2007),它为人口统计学的推理信息提供了一种互补的资源。

例如,尽管瓶颈模式适合于非非洲D. mela- nogaster (e.g., Thornton and Andolfatto 2006)的X相连的多样性数据,Hutter et al. (2007)发现不是单一的瓶颈方案就能解释X相连的和常染色体数据,后来Pool and Nielsen (2008)提出了一种可选择的人口统计学的模式,该模式较适合于X相连和常染色体多样性水平。

相对较少的全基因组人口统计学的分析已综合了X相连和常染色体变化,但在上面少量例子中,联合考虑这些数据资源将产生更精确的群体历史的推理。

单模式群体结构和历史推理
群体遗传学分析的目标之一就是鉴别存在于一系列基因型个体中的遗传学结构,这将有助于洞悉群体关系和最小化由关联作图研究引起的错误。

主要成分分析法(PCA)于30年前引进,Patterson et al.在接下来的应用中使其推理结构在统计学中得到确认。

PCA计算的易处理化使它适用于大规模数据集,这已为Novembre et al. (2008)所证明。

Novembre et al.从全基因组SNP的欧洲地理图重构的数据中推理出了主要成分。

然而,在群体历史中的主要成分的解释还是不清楚的(Novembre and Stephens 2008)。

因此PCA是典型的第一个旨在确定群体中遗传学关系的分析。

群体结构也能有成簇方法如STRUCTURE (Pritchard et al. 2000b; Falush et al. 2003)来分析。

STRUCTURE相对以计算机方式而精确,注意覆盖结果的证实,但它适用于大规模数据集。

分析遗传学结构的Faster-converging MCMC methods,现在是可用的(Huelsenbeck and Andolfatto 2007; Corander et al. 2008; Alexander et al. 2009)。

在全世界的人类群体中Jakobsson et al. (2008)应用STRUCTURE到超过500,000的SNPs。

支持连锁信息在人口统计学中的应用,这一研究发现在地理区域特性方面单模式比个体SNPs更有可能,单模式的STRUCTURE分析促使非洲额外遗传学结构的检出。

STRUCTURE (Falush et al. 2003)的连锁模式使用“混合连锁不平衡”预测祖先染色体,且近代方法也解释了当地的连锁不平衡。

这种信息类型为人口统计学的推理提供了新的可能性,这已被古老染色体和与近代混合史(e.g. Hoggart et al. 2004; Patterson et al. 2004) 相关的参数法和用于在迁徙率(Pool and Nielsen 2009)中测试近代改变的迁徙的DNA的区段长度。

通过延伸,推理个体间的相互关系的基因区段的方法(e.g., Purcell et al. 2007; Albrechtsen et al. 2009; Gusev et al. 2009),也可能为推理近代人口统计学事件提供相关的信息。

Hellenthal et al. (2008) 也用连锁模式来推理群体关系,基于Li and Stephens (2003) 的方法的应用于估计人类群体的祖先资源。

不是直接建立祖先在重组染色体中提高单一模式步骤,而是复制模式(also referred to as the ‘‘product of approximate conditionals’’ or the PAC likelihood model)是通过复制存在染色体的片段来建立样品。

PAC的第二种人口统计学的应用是被Davison et al. (2009)提高的,他应用它来估计群体断裂模式的参数。

因它处理不好遗传重组图的复杂度,这一复制模式比基于结合的带有重组的方法更快。

然而,对通过这种方法(Davison et al. 2009)获得的正确估计参数的需要强调PAC模式是近似的,这也许与真正的进化过程具有明显的不同。

Davison et al. (2009)的研究也解释道连锁模式携带的历史信息超出了近代迁徙事件。


二个例子也被Lohmueller et al. (2009)提供,他使用单模式的联合分布和源于人类SNP数据的经验和模拟数据中的主要单模式频率来估计群体大小的改变。

此外,Plagnol and Wall (2006)用变异的连锁簇来预测在人类群体中的古代的结构信号。

因为大范围的单模式携带的唯一的关于近代迁徙历史的信息,因此,小范围单模式具有更古老的基因漂变和其它人口统计学事件的强信号。

在这些研究中,通过下一次测序数据提供的单模式信息将在SNP数据方面为预测历史群体事件和有益的群体结构提供有意义的优势。

预测稀有群体或特有区域的多态性的能力也许也改善了这样的推理。

潜在的人口统计学的单模式信息资料的最后解释已与Box1所示。

已在欧洲和非洲人之间的长的单模式的特殊富集反映出了大陆之间的近代迁徙的相对高的频率。

然而,类似于所有的群体遗传学的总结,我们指出单模式受其他的进化过程如选择和重组的潜在的影响。

在联合分析自然选择和群体历史中取得了许多进步(e.g., Williamson et al. 2005; Wright et al. 2005; Li and Stephan 2006) ,但现实的群体遗传学的分析进化模式仍然还有大量没有解决的问题。

鉴别选择的地方特色和全基因组影响
全基因组多态性数据最令人兴奋的前景之一是不仅增加特化了自然群体的近代适应史而且增加特化了积极和消极的自然选择的遗传学的普遍性的力量。

消极选择在基因组中通过除去某些突变、保持其它的低频突变、导致有害等位基因(background selection)的丢失来减少突变(Charlesworth et al. 1993)。

在遗传多样性中积极选择通过Smith and Haigh (1974)的“genetic hitchhiking”影响而导致地方的减少。

群体中的有利突变频率的增加和中立突变中的任何一个要么适合要么从群体中丢失。

受如“选择淘汰”的影响基因区域的大小主要由选择长度和重组率决定(Smith and Haigh 1974; Hudson and Kaplan 1988; Stephan et al. 1992)。

以导致选择性清除的预期的多态性模式为特征大量文献资料已出现—从突变缺陷和围绕选择位点(Hudson and Kaplan 1988; Tajima 1989; Braverman et al. 1995; Fu 1997) 的稀有等位基因的过量到源于邻近区域(Fay and Wu 2000)的等位基因的高频过量在到连锁不平衡的变化(e.g., Przeworski 2002; Kim and Nielsen 2004; McVean 2007)。

这些信号已被融合于因基因座而受近代选择清除影响的略读群体遗传学数据的方法中。

例如,几项研究(e.g., Carlson et al. 2005; Williamson et al. 2007; Nielsen et al. 2009)已用于染色体组中人类SNP频率分布以略读已完成的清除。

全基因组测序多态性数据将包含很多稀有从以前的数据集中缺少的SNPs,这样,检测选择的这些方法的力量将会增强。

下一代测序数据提高的单模式信息也将为检测选择增加成就。

选择清除产生了也许代表了搭便车的唯一信号的连锁不平衡(Stephan et al. 2006)的明显的空间模式正和源于群体瓶颈的随机模式相反(for example, see Jensen et al. 2007)。

连锁模式也能提供部分有赖于在同一样品(Sabeti et al. 2002; V oight et al. 2006) 中的偏好等位基因种和其它突变体间单模式同性接合的不平衡的选择清除的清楚的信号。

通过比较样品间的单模式同性接合,这种方法也可鉴定特定群体的选择清除(Sabeti et al. 2007)。

对物种内多态性的种间分散数据的增加能用循环选择装置的检测。

例如,在同义与非同义位点,多态性和分散性的比较已用于鉴定从属于周期性的积极选择的编码序列(e.g., Bustamante et al. 2005) 和在适合的进化(e.g., Andolfatto 2005)中建立调控序列的重要性。

源于多倍体的相关物种的全基因组多态性数据的可用性将扩展可能分析的范围和提高我们对分子进化的基本理解。

特化基因组参数的适应性。

相关文档
最新文档