分子系统学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分子系统学
分子系统学是指通过对生物大分子(蛋白质、核酸等)的结构、功能等的进化研究,
来阐明生物各类群(包括已绝灭的生物类群)间的谱系发生关系.
相对于经典的形态系统分类研究,由于生物大分子本身就是遗传信息的载体,含有庞
大的信息量,且趋同效应弱,因而其结论更具可比性和客观性.尤为重要的是,一些缺乏形态性状的生物类群(如微生物和某些低等动、植物)中,它几乎成为探讨其系统演化关系的唯一手段.
由于分子系统学的上述特点,自其诞生之日起,就逐渐在各种生物类群的系统发生研
究中得到了广泛的应用.总的说来,迄今分子系统学的研究所获得的生物类群间亲缘关系的结果,大多都和经典的形态系统树相吻合.但是,在一些生物进化谱系不明或模糊关键环节上,它得出的结果却往往和形态系统学的推测大相径庭.
1研究步骤
分子系统学研究的主要方法是根据分子生物学数据构建生物类群的谱系发生树.它一
般包括以下程序:
1.首先确定所要分析的生物类群,选择该类群中相关亚类群的一些代表种类;确定所
要分析的目的生物大分子(包括DNA序列、蛋白质序列等)或它们的组合;
2.设法获得它们的序列数据或其它相关数据(如限制性内切酶(I LP)、随机扩增多态
DNA( )、DNA序列等),DNA序列的数据可以通过GenBank获得,也可以通过实验室的研究(设计特异引物进行PCR扩增和序列测定)而获得;
3.对获得的相关数据进行比对(pairwisealignment)或其它的数学处理,如转变成遗传距离数据矩阵;通过一些遗传分析软件(常用的计算机软件如:PHYLIP J、PAI J、MEGA[J 等)对这些处理后的数据,并基于一定的反映DNA序列进化规律的数学模型构建分子系统树;
4对构建的系统树做相应的数学统计分析以检验系统树的可靠性等.
值得注意的是,在分析具体的研究对象时,上述各个环节是紧密联系的一个整体,要获得一个正确的结论,必须综合考虑每一环节之间的内在联系.比如目的基因的选择、数据处理和分析的分类群之间、构树方法和分析软件的选择之间都有密切的联系.
2涉及议题
基因树和物种树
分子系统学的目的就是通过基因树来推测物种树.基因树是根据生物大分子的序列数据(主要为DNA序列数据)构建的谱系树,物种树则是反映物种实际种系发生的谱系树.人们期待着得到的基因树和物种树相一致,然而实际情况往往并非如此.
Nei(1987)描绘了二种谱系树之间所有可能的关系,认为二种谱系树之间至少存在二个方面的差异:
一是基因树的分化时间早于物种树,
二是基因树的拓扑结构可能与物种树不一致(二个或多个基因树之间存在着差异)
如何将由多个基因或基因组建立的基因树综合成一个物种树,是分子系统学面临的一个主要难题.Maddison(1997)认为:基因重复所导致的并源而非直源关系的产生,不同生物类群问基因的水平转移,系统演化分歧事件发生后产生的分子性状的多型性引起的谱系选择等生物学因素是造成二者不一致的主要原因.
相应地,分子系统学研究中一定要选择直源基因而非并源基因,选择水平转移事件较少的树,采用基于大量独立进化的基因位点进行分析等等,都不失为一种行之有效的方法,更有利于获得一个可靠的树.
分类群的选择
分子系统学研究中如何选择所研究的对象——内类群的选择是一个非常值得注意的
问题.
内类群选择(内类群的数目及选择依据等)的科学性与否直接影响到所得结论的可靠性.关于内类群的数目,目前大多数分子系统学家认为,当所分析的序列长度一定时,尽量选择较多的分类群有助于获得更准确的结论,而内类群选择的依据主要体现在:
(1)结合古生物学,形态学等各方面证据,尽量保证所选择的分类群确为一个单系发生的类群;
(2)分类群的选择并非是随机的,尽量使其在所研究的生物类群中具有代表性;
(3)在某些因具有明显长枝效应(或短枝效应)而导致的系统关系不确定的分支间增加分类群有助于减弱或消除这种效应.
另外,在构建分子系统树中,同样需要选择外类群以确定系统发生树的基部位置,从而确定进化的方向.外类群的选择可以是单个(单一外类群),也可以是多个(复合外类群).在所研究的内类群数目不多且二者之间的极性关系十分确定的情况下,单个外类群足以说明问题.而在较为复杂的分析中,通常选择复合外类群以保证所得结论的可靠性[11].随机选择的外类群,极有可能因为亲缘关系较远,导致所得结果的不确定性增大.因此,在选择外类群时,必须结合其它分类学上的证据,或者在做详细的系统发育研究之前,首先对所研究的内、外群的关系进行初步探讨,以便于选择较为理想的外类群.最理想的外类群应该是该内群的姐妹群,因为二者间拥有较多的共近裔性状.
目的基因的选择
分子系统学研究中目的基因的选择也是一个至关重要的问题.一般来说,要根据所研究的具体分类群选择适宜的基因:
在高级分类阶元(科级以上)间的系统发生分析中,选择一些在进化中较为保守的基因或基因片段(如核编码的蛋白质(酶)基因、核糖体基因(18S rRNA基因、28S rRNA基因)等);
在较低级的分类阶元间,可以选择进化速率较快的基因或基因片断(如某些核编码基因的内含子或转录间隔区(ITS)以及一些细胞器基因(线粒体基因和叶绿体基因)等).当然,每一个具体的研究对象,可以选择的基因数目可以是多个的,至于哪些是最有效的,这通常要依据具体情况做比较分析后才能得出结论.条件允许的话,可以作多基因或多基因组合分析后寻求一致树来加以解决.有时针对某些涉及到多种层次分类阶元的复杂分类群时,还可以采取组合分析的方法:即推断位于系统树基部的深层次的谱系发生时,运用较保守的基因作为目的基因;推断位于系统树中段的谱系发生时,采用进化速率较为适中的基因;在系统树顶端的终端分类单元时,采用进化速率较快的基因.这样可以在不同阶层的演化关系中都获得可信的结果.
基因序列数据的比对
选择了适宜的目的基因并通过基因的扩增(PCR技术)和序列测定后,就获得了各个目标生物类群的DNA序列数据,对所获得的同源DNA序列进行比对是分析中的关键环节.
所谓比对是指通过插入间隔(gaps)的方法,使不同长度的序列对齐达到长度一致,并确保序列中的同源位点都排列在同一位置.其中间隔的处理对后续的系统学分析有明显的影响.序列比对目前通常基于以下二种原理:点标(dot plot)法和记分距阵(scoring ma仃ix)法.
基因树的构建方法
目前,构建基因树的方法很多,常用的主要有二大类:
距离法(distancemethod):是将序列数据转变成数据(遗传距离)矩阵,然后通过此数据矩阵构建系统树、
具体性状法(dis—cretecharacter method):直接分析序列上每个核苷酸位点所提供的信息构建系统树,它又包括最大简约法(MP)和最大似然法以及由ML法延伸的贝叶斯法(Bayesianmetl-,od).
距离法
该方法基于这样一种假设,即只要获得一组同源序列间的进化距离(遗传距离),那么就可以重建这些序列的进化历史.距离法中以邻接法(NJ)最为常用.邻接法是由Saitou和Nei(1987)提出,其原理是逐步寻找新的近邻种类(序列),使最终生成的分子树的遗传距离
总长度为最小.该法虽并不检验所有可能的拓扑结构,但在每阶段诸物种(序列)聚合时都要应用最小进化原理,故而被认为是ME的一种简化方法.
最大简约法
该方法源于形态学的分支系统学研究,而最早被Fitch(1971)用于核苷酸数据研究.它是一种最优化标准,遵循“奥卡姆剃刀(Ockharn’S razor)原理,即假设由一祖先位点替换为另一位点时,发生的替换数目最少的事件为最可能发生的事件.在实际应用中,由于MP法只考虑所谓的“信息位点”,所得的进化树是最短的、也是变化最少的进化树.因而,简约法的“最小核苷酸替换数目”原则也意味着“异源同型事件(homoplastic event)(即平行替换、趋同替换、同时替换和回复突变等)最少.
最大似然法
该法最早由Felsenstein(1981)提出,其原理是以一个特定的替代模型分析一组既定的序列数据,使获得的每一个拓扑结构的似然率均为最大,再挑出似然率值最大的拓扑结构作为最终树这里所分析的参数是每个拓扑结构的枝长,并对似然率的最大值来估算枝长.迄今的研究表明,在分类群数目较大、序列长度较长的复杂分析中,ML法的分析结果优于其它任何方法。
名词解释:
系统发生树:(英文:phylogenetic tree或evolutionary tree)是表明被认为具有共同祖先的各物种相互间演化关系的树,又被译作系统发育树、系统演化树、系统进化树、种系发生树、演化树、进化树、系统树。
它用来表示系统发生研究的结果,用它描述物种之间的进化关系。
基因树:表示一组基因或一组DNA顺序进化关系的系统发生树。
和进化树相似,揭示各基因的亲缘关系远近。
“长枝吸引”(长枝效应):是指在用系统发育分析方法分析一个有限数据集时, 由于高频率的相似变化(如趋同、平行进化)和加速的进化速率等因素的存在使序列达到相同状态而人为地将这些不是来自于共同祖先的序列的代表分类元聚在一起, 使这些分类元之间相互“吸引”。
因此, 在进行系统发育分析时, 应尽可能避免“长枝吸引”假象的产生, 从而构建出可靠的系统发育树。
短枝效应:
基因同源性:许多不同的物种间都具有同源性。
现代分子生物学中的同源性描述的是基因与基因之间相似关系,它表明的是两个相比较的序列之间的匹配程度。
一般来说,如果两条基因序列相似性达80%,就可以把它们称为“同源基因(homologousgene)”。
为了便于研究,Fitch又把同源基因分为直向同源基因、横向同源基因和异源同源基因
直向同源基因(orthologous gene):又译为“垂直同源基因”、“正同源基因” 或“定向进化同源基因”、“直系同源基因”,是指从同一祖先垂直进化而来的基因。
或者说,一个祖先物种分化产生两种新物种,那么这两种新物种共同具有的由这个祖先物种继承下来的基因就称为直向同源基因。
直向同源基因通常是编码生命必需的酶、辅酶或关键性的调控蛋白的基因,具有功能保守,进化缓慢,变化速度可覆盖整个进化历史,且序列变化速度与进化距离相当等特征。
横向同源基因(paralogous gene):又译为“旁系同源基因”、“并系同源基因”或“平行进化同源基因”,是指由于基因重复而产生的同源基因例如人γ一珠蛋白基因和β一珠蛋白基因。
基因重复后,进化选择压力变小、其中一条基因丢失或发生沉默都是促使横向同源基因分化产生新特性或新功能的原因。
然而,虽然某些横向同源基因转录区序列相似度不高,但它们的操纵子却仍然具有较高的保守度
异源同源基因(xenologous gene):是由于基因在不同物种间的横向转移(horizontal transfer)而产生的。
异源同源基因在原核生物中研究比较多。
最近研究表明,异源同源基因的原位取代xenolo—gous gene displacement in situ)是细菌进化的强大推动力。
另外,在比较真核基因组和原核生物基因组时发现,小部分脊椎动物基因在细菌中有同源序列,而在其他真核生物中却没有发现同源序列。
一种解释认为,这些基因从细菌直接水平地转移到脊椎动物的祖先,也是异源同源基因;另外一种解释则认为,是由于其他的真核生物丢失了这些基因。