系统发育树构建方法优劣

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1.邻接法邻接法(neighbor-joiningmethod,NJ)由Saitou和Nei(1987)提出,NJ法是基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。在重建系统发生树时,它取消了UPGMA法所做的假定,认为在进化分支上,发生趋异的次数可以不同。最近的计算机模拟已表明它是最有效的基于距离数据重建系统树的方法之一。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。它的特点是重建的树相对准确,假设少,计算速度快,只得一棵树。其缺点主要表现在将序列上的所有位点等同对待,且所分析序列的进化距离不能太大。故NJ法适用于进化距离不大,信息位点少的短序列。邻接法在距离建树中经常会用到,而不用理会使用什么样的优化标准。完全解析出的进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续不断地在最接近(实际上是最孤立的)的序列对中插入树枝,而保留进化树的终端。于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重复。这个方法相对而言很快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更少。

2.最大简约法最大简约法(maximum parsimony method,MP)最早是基于形态特征分类的需要发展起来的,具体的算法有许多不同版本,其中有些已被广泛地应用于分子进化研究中。利用MP方法重建系统发生树,实际上是一个对给定OTUs其所有可能的树进行比较的过程。对某一个可能的树,首先对每个位点祖先序列的核苷酸组成做出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度(常青和周开亚,1998)。MP法是一种优化标准,这种标准遵循“奥卡姆剃刀原则(Occam’S Razor principle)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。MP法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树,也就是通过比较所有可能树,选择其中长度最小的树作为最终的系统发生树,即最大简约树(maximum parsimony tree)。与其他建树方法相比,MP法无需引入处理核苷酸或者氨基酸替代时所必需的假设(替代模型)。同时,MP法对于分析某些特殊的分子数据(如插入序列和插入/缺失)有用。在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,MP法能够获得正确的(真实)系统树。但MP法推导的树不是唯一的,在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会出现建树错误。故MP法适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。

3.最大似然法最大似然法(maximum likelihood method,MI。)是20世纪60年代末期由于对地生物信息学分析实践震波和水声信号等处理的需要而发展起来的一种非线性谱估计方法。最早由凯佩用这种方法对空间阵列接收信号进行频率波数谱估值,后来推广到对时问信号序列的功率谱估值。

最大似然法最早应用于系统发育分析是在对基因频率数据的分析上。其原理是考虑到每个位点出现残基的似然值,将每个位置所有可能出现的残基替换概率进行累加,产生特定位点的似然值。MI。法对所有可能的系统发育树都计算似然函数,似然函数值最大的那棵树即为最可能的系统发育树。利用最大似然法来推断一组序列的系统发生树,需首先确定序列进化的模型,如Jukes—Cantor模型、Kimura二参数模型及一般二参数模型等。在进化模型选择合理的情况下,MI。法是与进化事实吻合最好的建树算法。其缺点是计算强度非常大,极为耗时。

4.贝叶斯法

贝叶斯法(Bayesianmethod,BI)是近年来发展起来的一种新的利用贝叶斯演绎法预测种系发生史的系统进化分析方法,它既保留了最大似然法的基本原理,又引进了马尔科夫链的蒙特卡洛方法(markovchainmontecarloprocess),来模拟演化树的较晚期可能性分布,并使计算时间大大缩短。贝叶斯法根据多种分子进化模型,利用马尔科夫链的蒙特卡洛方法产生所有参数的后验概率(posteriorprobability)估计值,这些参数包括拓扑结构、分支长度和替代模型各参数的估计。该方法不仅可以对模型的参数进行直接量化,而且可以分析很大的数据集,因其以后验概率来表示各分支的可信性而不需用自引导法(bootstrap)进行检验(徐广等,2003)。Huelsenbeck等(2001)认为贝叶斯法的优点在于:推导系统树、评估系统树的不确定性、检测选择作用、比较系统树、参考化石记录计算分歧时间和检测分子钟。贝叶斯法得到的系统进化树不需要利用自引导法进行检验,其后验概率直观地反映了系统进化树的可信程度,是一种系统进化分析的好方法,它既能根据分子进化的现有理论和各种模型用概率重建系统进化关系,又克服了最大似然法计算速度慢、不适用于大数据集样本的缺陷。贝叶斯法可以选择适当的模型来拟合数据,它和最大似然法相似,都是选定一个进化模型,然后通过程序搜索模型和序列数据一致的最优系统树。但二者基本的不同在于,最大似然法是以观察数据的最大概率来拟合系统树,贝叶斯法是通过系统树对数据及进化模型的最大拟合概率而得到系统树;最大似然法给出的是数据的概率,而贝叶斯法给出的是模型的概率;最大似然法搜索单一的最相似系统树,贝叶斯法得到的是具有大致相等似然的系统树集合。另外,通过贝叶斯法分析得到的结果很容易解释,系统树分支上的数值就表明了该分支的概率,而且通过贝叶斯法,我们可以利用复杂的碱基替代模型快速而有效地分析大的数据(徐广等,2003)。

5.常用构树方法的比较甄选从上述我们可以了解到,重建系统发生树的方法有很多,也各有优缺点。因此在实际操作中,往往需要根据自己的研究需要联合使用不同的构树方法以获得最佳分析结果。比较以上几种主要的构树方法,一般情况下,若有合适的分子进化模型可供选择,用最大似然法构树获得的结果较好;对于近缘物种序列,通常情况下使用最大简约法;而对于远缘物种序列,一般使用邻接法或最大似然法。对于相似度很低的序列,邻接法往往出现I.BA(10ng—branchattraction,长枝吸引)现象,有时严重干扰进化树的构建。对于各种方法重建进化树的准确性,Hall(2005)认为贝叶斯法最好,其次是最大似然法,然后是最大简约法。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。邻接法和最大似然法是需要选择模型的。蛋白质序列和DNA序列的模型选择是不同的。蛋白质序列的构树模型一般选择Poissoncorrection(泊松修正),而核酸序列的构树模型一般选择Kimura2-parameter(Kimura一2参数)。如果对各种模型的理解并不深入,最好不要使用其他复杂的模型。参数的设置推荐使用缺省的参数。在重建进化树过程中,均需选择bootstrap进行树的检验。一般bootstrap的值>70,则认为重建的进化树较为可靠。如果bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。因此,一般推荐用两种以上不同的方法构建进化树,如果所得到的进化树类似,且bootstrap值总体较高,则得到的结果较为可靠。通常情况下,只要选择了合适的方法和模型,构出的树均是有意义的,研究者可根据自己研究的需要选择最佳的树进行分析。

相关文档
最新文档