全基因组复制文献(最终翻译版)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

种子植物的全基因组复制事件

Angiosperms 被子植物

Polyploidy 多倍体

Orthogroup 纯正群

WGD全基因组的复制

phylogenomics种系基因组学

同义现场发散(KS)

Eudicots 双子叶植物

MLT最大似然树

unigene是Universal Gene的英文缩写,意为广泛通用的基因数据库

全基因组的复制( WGD ),或多倍体,伴随着基因的损失和二倍化,长期以来被认为是动物,真菌和其他生物,尤其是植物一个重要的进化动力。被子植物的成功归功于在某种程度上,与基因或全基因组复制相关的革新,在保存的基因序列的分析中找到了能阐明单子叶植物和双子叶植物分化时间、同时更为古老的基因组复制的证据,但这些证据仍然模棱两可。在这里,我们用测序的植物基因组的全面的系统发育基因组分析和系统发育,基因举足轻重的谱系超过12.6万个新的表达序列标签序列阐明两组古老的基因重复一中现存种子植物的共同祖先和其

他在现存被子植物的共同祖先。基因复制事件进行了强烈集中在3.19

亿年前和1.92亿年前,暗示在祖先谱系两次全基因组复制在现存种子植物和被子植物分别多样化前不久。显著,这些祖先全基因组复制导致调节基因重要的种子和花发育的多样化,这表明他们参与了重大创新,最终促成种子植物和被子植物的兴起和最终的霸主地位。

被子植物是目前陆生植物中最大的群体,拥有超过300,000的生物物种。显著,大多数开花植物谱系反映了一轮或多轮古多倍体。例如,对拟南芥进行的完整基因组序列分析支持了最近的两次全基因组复制(命名为a和b),在这期间,十字花科植物(十字花科)的直系和一个三重事件(c),可能由所有核心双子叶植物共享。毛果杨基因组显示了核心双子叶植物三重证据以及更近的全基因组复制。在单子叶植物(R和S)两个多倍体事件被推定为已经先于谷物和其他草(禾本科)的多元化。一些研究暗示,一个古老的全基因组复制事件比被子植物进化还早。然而,这些古老事件的存在和时间,和他们的长期影响,仍然不明朗。

这里我们使用了严格的种系基因组学办法(补充图1;补充方法里的详细信息),以测试单子叶植物和真双子叶植物的分化之前发生的一个或多个古老的基因组复制的假设。由重复的事件映射到系统进化树,我们判断旁系同源物是否在一个给定的物种事件(图1a)之前或之后复制。虽然单个基因可能会丢失一些系统发育,但从很多或者全部的基因家族来同时考虑,一张广阔的蓝图可以绘制。

我们使用同种完全测序的基因组(补充表1 ,两个单子叶植物(水稻和高粱)和五个真双子叶植物(拟南芥,番木瓜,毛果,黄瓜和葡萄))来构建基因科或亚科。当给基因重复和在单子叶植物、双子叶植物分化之前发生的潜在全基因组复制测定年份时一种lycophyte (卷柏moellendorffii )和一种苔藓(小立碗藓)作为外类群(对照组)。总体而言,所有基因组测序中的蛋白质编码基因的77.03 %被分成31,433个多基因'核心纯正群' 。我们定义纯正群是发源于中心类群的有共同祖代单个基因的同源基因簇,并参考纯正群九个测序的基因组为核心纯正群。其中, 7470个核心纯正群包含至少一个单子叶植物,一个双子叶植物,一个卷柏和/或小立碗序列。这些核心纯正群在我们推算单子叶植物双子叶植物分化的复制事件的调查中被用到。

我们为每个核心纯正群的指示共享重复的拓扑结构(图1a ,分析I)查询最大似然树( MLTS )。我们筛选了基因树(补充方法),要求七个核心品种中至少一个保留两个旁系,紧随一个单子叶植物、双子叶植物的共同祖代所推断出来的基因复制事件其后(见补充资料1纯正群的列表)。例如,纯正群1711(DEADbox RNA解旋酶)的最大似然树(包含在单子叶和真双子叶植物而MLTS为纯正群 2312 (亚精胺合酶)重复基因和纯正群 396 (功能未知)表明,无论是单子叶植物或双子叶植物旁系同源物之一是丢失后单子叶植物和真双子叶植物的分歧(见典范树补充图2a , 3a和4 )。在这个保守的标准的基础上,我们发现了大量的核心纯正群与单子叶植物和真双子叶植物(共享重复重复829 799核心纯正群与引导支持( BS)大于或等于50 % ; 474重叠在451核心纯正群符合BS>=80% ;补充资料2 )。的C三重(它可被限制在真双子叶植物)之前发生的这些重复。正如所料,取样双子叶植物谱系中的许多年轻的重复也观察到在这些树上( 1,146 纯正群存活至少一个双子叶宽一式三份( c)条),但在本研究中,我们专注于该单子叶植物

的分化之前发生的古老的重复和真双子叶植物。

和裸子植物(松属,云杉属, Zamia ,柳杉等;补充表2 ),从基部被子植物(补充表2马兜铃,鹅掌楸, Nuphar和Amborella )额外的同系物中加入799芯纯正群以形成扩大纯正群。这些关键系统发育谱系增加基因采样,并提供更好的分辨率古代重复的时机。由“基本被子植物”我们的意思是开花植物单子叶植物和真双子叶植物分离之前出现的最

早分支谱系。在重新估算的扩大纯正群基因树,我们又增加了质量控制步骤,除去短期或高度分散的基因数据库(从表达序列标签数据集组

件中所产生的序列;补充方法)。过滤后,仍然有540和338 纯正群与

基因数据库一起分别从基部被子植物和裸子植物采样。这其中, 322 纯正群含有由基底被子植物和裸子植物(图1b)个单一。

对于540纯正群从基部被子植物个基因数据库,树木的数量中,我们发现了一个重复祖先被子植物起源之前(图1a ,分析第IIa )大大超过

了我们被子植物起源后,确定了共同的重复数(图1a,分析IIb)中。

一个重复的推论预先约会基底被子植物(祖先被子植物重复)的多样化是由262 ( BS>=80%)的支持或343 ( BS>=50%)纯正群,而只有一个(BS>=80%)或五个( BS>=50%)纯正群支持一个基因复制的推断只是被子植物冠组(图1b ,分析II)的由来之后。我们还发现,只有五个与幸存的重复使用一些共享纯正群,但不是全部,采样基础

被子植物。虽然基底被子植物是一个档次的(而不是一个分支),我

们代表他们与图一行。 1A因为重复信号是包括所有基础被子植物。

338个纯正群填充裸子植物基因数据库额外的分析鉴定62 (BS>=80%)或147 ( BS>=50%),其中包含一个种子植物全基因复制和59

( BS>=80%)树木或110 ( BS>=50%)树木以后的复制只能通过共享被子植物(图1b ,分析三)。此外,分析了322 纯正群扩大了与来

自基底被子植物和裸子植物直系同源物也检测到了两个古老的共享重

复类似的信号: 65 ( BS>=80%)或130 ( BS>=50%)的树木呈现一个祖先的种子植物的重复(见典范树补充图2b ),和54 ( BS>=80%)或88 ( BS>=50%)树木支撑被子植物的祖先重复(补充图3b和图1b ,分析四)。

总之,我们的保守滤波程序确定的799棵有适合有关古代重复的存在假

相关文档
最新文档