分子进化树

合集下载

系统进化树的解读

系统进化树的解读
系统进化树，也称为分子进化树，是生物进化研究中的一个重要工具。

它通过分析不同生物的基因或蛋白质序列，揭示了生物之间的亲缘关系和进化顺序。

系统进化树的基础是假设所有生物都共享一个共同的祖先，并且随着时间的推移，这个祖先的子孙后代发生了分歧和变化。

这些变化体现在他们的基因或蛋白质序列上，因此可以通过对这些序列进行分析，来构建一个表示生物进化历程的树形图。

解读系统进化树需要一定的专业知识。

首先，你需要了解树中的各个物种是如何被分类的，以及它们在进化树中的位置。

这通常需要参考一些专业的生物学资料或数据库。

其次，你需要理解树中的分支长度和分支角度的含义。

分支长度通常表示从一个共同祖先到两个物种之间的进化距离，而分支角度则表示了这些物种之间的亲缘关系。

例如，如果两个物种在树的同一分支上，说明它们之间的亲缘关系较近；如果它们在不同的分支上，则说明它们之间的亲缘关系较远。

此外，你还需要考虑树的可靠性。

一些因素，如样本数量、采样范围和数据质量等，都会影响树的可靠性。

因此，解读系统进化树时需要谨慎对待，避免过度解读或误
导。

总的来说，系统进化树是一种强大的工具，可以帮助我们理解生物之间的亲缘关系和进化历程。

然而，解读系统进化树需要一定的专业知识和谨慎的态度。

只有这样，我们才能从这些树中获取准确的信息，并对生物进化有更深入的理解。

分子进化树构建方法

MP法建树流程
Sequence1 Sequence2 Sequence3
Sequence4
Position 1
Position 1 2 3 T G C T A C A G G A A G
If 1 and 2 are grouped a total of four changes are needed.
5
genetic change
系统发生树术语
Rooted tree vs. Unrooted tree
无 A 有根根树 B 树 two major ways to root trees:
A
10 3 2 5
C D
By midpoint or distance
d (A,D) = 10 + 3 + 5 = 18 Midpoint = 18 / 2 = 9
Distance Uses only pairwise distances Minimizes distance between nearest neighbors Very fast Easily trapped in local optima Good for generating tentative tree, or choosing among multiple trees Maximum parsimony Uses only shared derived characters Minimizes total distance Maximum likelihood Uses all data Maximizes tree likelihood given specific parameter values Very slow Highly dependent on assumed evolution model Good for very small data sets and for testing trees built using other methods

分子进化树构建方法

C B
2
D
outgroup
外群、外围支
Rooted tree vs. Unrooted tree
plant animal
plant
plant animal
Unrooted tree
fungus
animal
bacterium
plant plant plant
animal
Rooted tree
Monophyletic group
Cat Dog Rat Cow 3 4 6 5 7 6 Dog Dog Rat Cat
1
2 2 1 4
计算序列的距离，建立距离矩阵
Rat
通过距离矩阵建进化树
Cow
Step1. 计算序列的距离，建立距离矩阵
对位排列，去除空格（选择替代模型）
Uncorrected “p” distance (=observed percent sequence difference) Kimura 2-parameter distance (estimate of the true number of substitutions between taxa)
A
节点 Node
祖先节点/树根
Root
内部节点/分歧点
该分支可能的祖先 HTU
系统发生树术语
A clade（进化支） is a group of organisms that includes an ancestor and all descendents of that ancestor. 分支树
Step2. 通过矩阵建树由进化距离构建进化树的方法有很多，常见有：
1. Unweighted Pair Group Method with Arithmetic mean (UPGMA)

生物竞赛-生物信息学部分-分子进化树

三种不同的Homologs
基因平移与网状树
越来越多的细菌和动植物的基因测试显示，基因并不是简单遗传给生命树上的个别枝条，它们还在物种之间以不同的进化路径转换，其结果是一个杂乱无章的“生命网”。
水平基因转移是指在不同生物个体间或单个细胞内部细胞器之间，遗传物质的交流。早在1993 年，就有生物学家提出细菌的基因排序不是树状，而是网状。1999年，美国《科学》杂志发表言论说：“生命进化树并不是真实存在于自然界中的，而是人类用来规划自然界的一个理论。”但是，有研究者运用更多的研究捍卫达尔文的观点，认为所谓网状的进化论是理想化、不切实际的想法。
有根树与无根树
有根树反映了树上物种或者基因进化的时间顺序,通过分析有根树的树枝的长度，可以了解不同的物种或者基因以什么方式和速率进化。
无根树只反映分类单元之间的距离,而不涉及谁是谁的祖先问题。
做有根树需要指定outgroup。所谓outgroup，就是你所分
通析的过东外西类之外群的一个group。比如你分析人类的不同人种，就来选总个之确c保h定i证mp树它an在根ze你e，要你分要析分的析gr哺ou乳p之动外物，，但就又选不个太鳄远鱼就乌行龟了之。类，将
达尔文与《进化论》
达尔文主义
优胜劣汰，适者生存理论：生物都有繁殖过剩的倾向，而生存空间和食物是有限的，所以生物必须
“为生存而斗争”。在同一种群中的个体存在着一定程度的变异，那些具有能适应环境的有利变异的个体将存活下来，并繁殖后代，并把有利变异遗传给后代，不具有有利变异的个体就被淘汰。如果自然条件的变化是有方向的，则在历史过程中，经过长期的自然选择，微小的变异就得到积累而成为显著的变异。由此可能导致亚种和新种的形成。以长颈鹿为例：一群长颈鹿，脖子长长短短的都有，但自然环境中较低处的树叶都吃完了，只有那些脖子长的能够到更高处叶子的鹿才能吃饱并繁衍后代，而那些脖子不够长的饿死了，也就没有了后代。

分子进化中的树状图结构研究

分子进化中的树状图结构研究随着科学技术的不断发展以及实验技术的日益成熟，分子进化成为当前生物学研究中的一个重要领域。

而树状图结构则是分子进化研究中不可或缺的工具。

本文将从分子进化的基本概念出发，讲述树状图结构的概念、分类以及在分子进化中的应用。

一、基本概念分子进化指的是将分子水平上的遗传信息转换为演化关系的一种过程。

在分子进化中，分子遗传学家主要通过分析基因或蛋白质序列的差异来推断生物之间的进化关系。

而这些差异可以反映出不同物种之间的亲缘关系以及演化的历史。

二、树状图结构的分类以分子序列的差异为基础推断出物种间亲缘关系的方法有很多，其中最常见的是基于树状图结构的方法。

在这种方法中，通过构建一棵进化树来表达分子序列之间的相对关系，从而推断出物种之间的进化关系。

树状图结构可分为两大类：系统进化树和种系进化树。

系统进化树旨在描述不同生物之间的进化关系，并根据这些关系将生物组织起来。

而种系进化树则主要用于描述生物之间的分类关系，它可以帮助我们更好地理解不同生物之间的关系以及它们之间的共同祖先。

三、树状图结构在分子进化中的应用在分子进化中，树状图结构被广泛应用于分析基因或蛋白质序列之间的亲缘关系。

通过基于序列比对的方法，可以推断出不同序列之间的演化关系，并进而构建进化树。

在这个过程中，不同的技术和算法被用来构建出树状图结构，如距离法、最大拟合法、贝叶斯网络等。

这些算法可以采用不同的评估准则以及树的假设模型，从而得到不同的进化树模型。

不同的模型具有不同的优缺点，因此在选择时需要考虑多个因素。

总之，树状图结构是分子进化研究中不可或缺的工具。

通过建立进化树，我们可以更直观地了解生物的进化历史，同时还可以为其他生物学研究提供有力的支持。

随着技术的不断提升，相信未来树状图结构在分子进化研究中的应用会越来越广泛。

分子系统发育树构建的简易方法

分子系统发育树构建的简易方法
分子系统发育树的构建是根据分子序列的差异来推断不同物种之间的进化关系。

下面是一个简易的分子系统发育树构建方法：
1. 选择目标基因序列：选择与所研究物种相关的基因序列（如核糖体RNA或蛋白质编码基因）作为目标序列。

2. 数据收集：收集各个相关物种的目标基因序列数据。

可以通过公共数据库（如NCBI）或研究文献中的已有数据进行获取。

3. 序列比对：使用序列比对软件将收集到的序列进行比对，找出相同和不同的碱基或氨基酸位置。

常用的比对软件有CLUSTALW和MAFFT。

4. 构建进化树：根据序列比对结果，使用进化树构建软件（如MEGA）进行系统发育树的构建。

常用的进化树构建方法包括最大简约法（UPGMA）和最大似然法（ML）。

5. 进化树评估：对构建的系统发育树进行评估，可以使用Bootstrap方法进行支持值分析，提高树的可靠性。

6. 结果解读：根据构建的系统发育树，可以解读不同物种之间的进化关系和群体间的分化程度。

需要注意的是，分子系统发育树是基于目标基因序列的进化关系推断，仅仅代表目标基因的进化历史，并不一定能完全反映
整个物种的进化历史。

因此，在研究中还需要综合考虑其他重要因素，如形态特征和生态行为等。

分子进化树算法

分子进化树算法分子进化树算法是一种用于研究生物进化关系的计算方法。

通过分析DNA、RNA或蛋白质序列的差异和相似性，可以构建出生物物种的进化树。

本文将介绍分子进化树算法的原理、应用和局限性。

一、原理分子进化树算法的原理基于遗传变异和进化。

生物个体的遗传信息通过DNA、RNA或蛋白质序列传递给后代，而在这个过程中会出现突变和重组等变异事件。

这些变异事件积累起来，形成了不同物种之间的差异。

分子进化树算法通过比较不同物种之间的序列差异和相似性，来推断它们之间的进化关系。

具体而言，分子进化树算法首先收集不同物种的DNA、RNA或蛋白质序列数据，然后利用计算方法计算它们之间的差异和相似性。

常用的计算方法包括序列比对、距离计算和进化模型推断。

通过这些计算，可得到一个差异矩阵或距离矩阵，它描述了不同物种之间的关系。

接下来，算法会利用这个矩阵来构建进化树，常见的构建方法有最小进化树、最大似然法和贝叶斯推断等。

二、应用分子进化树算法在生物学研究中有着广泛的应用。

首先，它可以帮助研究者揭示不同物种之间的进化关系。

通过构建进化树，可以了解物种的亲缘关系、起源时间和地理分布等信息。

这对于研究物种的进化历史和生态演化具有重要意义。

分子进化树算法可以用于物种鉴定和系统学研究。

在分类学中，鉴定物种是一个基础性任务。

通过分析物种的分子序列，可以判断它们是否属于同一物种，进而指导分类学的研究和实践。

分子进化树算法还可以用于研究基因功能和基因家族的进化。

通过比较不同物种中的基因序列，可以推断基因的功能和进化过程。

这对于深入理解基因的演化和功能具有重要意义。

三、局限性尽管分子进化树算法在生物学研究中有广泛应用，但也存在一些局限性。

首先，算法的结果受到数据质量和选择的进化模型的影响。

如果数据质量不高或选择的进化模型不合适，可能会导致结果的不准确性。

分子进化树算法无法解决样本不完整或有限的情况。

如果物种样本有限或者存在缺失数据，算法可能无法准确地构建进化树。

进化树分析

Â功能上重要的大分子或大分子的局部在进化速率上明显低于那些在功能上不重要的大分子或者大分子局部。 (引起表型发生显著改变的突变发生的频率要低于无明显表型发生显著改变得突变发生的频率）
V 氨基酸
Â 例：血红蛋白分子的外区的功能要次于内区的功能，外区的进化速率是内区进化速率的10倍。
V 核苷酸
Â 例：DNA密码子的同义替代频率高于非同义替代频率；内含子上的核苷酸替代频率较高。
分子钟: 进化时间的估计
1. 遗传距离d的计算：
V A. 氨基酸序列：p-距离，d-距离，Γ-距离； V B. DNA序列： Jukes-Cantor距离，Kimura距离；
2. 物种分歧点：使用考古数据确定共有祖先；确定分化时间T; 3. 计算分子的分化/进化的速率：r=d/2T; 4. 对新的序列，计算分化时间： Tnew=dnew/2r
系统发育分析术语
直系同源(orthologs): 同源的基因是由于共同的祖先基因进化而产生的. 旁系同源(paralogs): 同源的基因是由于基因复制产生的.
以上定义源自Fitch, W.M. (1970) Distinguishing homologous from analogous proteins. Syst. Zool. 19, 99–113
系统发育树：三种类型
分支图
Taxon B Taxon C Taxon A Taxon D
1 1
进化树
6
时间度量树
Taxon B Taxon B Taxon C Taxon A Taxon D
Taxon C
Taxon A Taxon D
只用分支信息，无支长信息
遗传变化
时间

分子进化学中的进化树构建方法

分子进化学中的进化树构建方法随着科技的进步和生物技术的广泛应用，分子生物学的研究逐渐深入，成为生物学、生物技术和医药学等领域的重要研究方向。

而分子进化学作为分子生物学中的一个重要分支，研究物种间的分子差异和进化关系。

其中，构建进化树是分子进化学研究中的重要工作，下面我们来了解一下进化树构建的方法。

一、进化树的基本概念进化树是描述不同物种、不同基因或不同蛋白质之间进化关系的图形化表示。

在进化树中，每一个分支代表了一个物种、一个基因或一个蛋白质序列，分支的长度表示了物种、基因或序列的进化距离，而进化距离则是衡量不同物种或不同序列之间关系的基本参数。

而构建进化树的过程则是根据分子序列数据的重构得到物种或基因的进化树。

二、进化树的构建方法构建进化树有多种方法，主要有距离矩阵法、系统发育学法、最大似然法和贝叶斯法等。

下面我们逐一介绍这些方法的基本原理。

1.距离矩阵法距离矩阵法是最早采用的一种构建进化树的方法，它基于序列之间的距离矩阵计算和聚类方法来得到进化树。

该方法首先计算所有分子序列之间的距离（距离可由序列相似性计算得出），然后根据聚类方法构建进化树。

聚类方法包括单链接聚类、均链接聚类和最大链接聚类等。

距离矩阵法的优点是构建速度快、适用性广，但是对于高变异的序列来说，该方法可能会产生误导性的结果。

2.系统发育学法系统发育学法是基于系统学原理，采用系统发生学的理论和方法来构建进化树。

该方法主要是通过分子序列的相似性构建系统发育分析矩阵，然后利用不同的计算方法（如UPGMA、NJ和ML等）推断进化树。

系统发育学法的优点是能够更准确地反映分子序列的演化，并且可以通过不同的方法比较结果，但是该方法需要大量的计算资源和长时间的计算。

3.最大似然法最大似然法是一种统计学上的方法，通过最大化序列数据与观测数据的相似度，来推断出最可能的进化树。

该方法需要整合进化模型和数据，然后计算不同进化模型下数据的似然函数，最终选择似然度最大的进化树。

分子进化树

(2)-(3)+(1)
d=4,e=6
dD eE
=> C最接近DE！
分成三组：C, DE, 以及AB
c+g+(e+d)/2=19 (1) c+f+(a+b)/2=40 (2) (e+d)/2+(a+b)/2+f+g=41 (2) (1)+(2)-(3) => c=9 => g=5
由：(a+b)/2+f+g+(d+e)/2=41 得：f=20 由：a+f+c=39 得：a=10，则b=12
最大简约法(maximumparsimony,MP)
根据信息位点提供的各序列间的替换情况，在所有可能的树中筛选含最小替换数的树的方法。
最大简约法（MP）
该方法的理论基础是奥卡姆剃刀原理，即如无必要，勿增实体（解释一个过程的最好的理论是所需假设数目最少的那一个）。
主要思想：构造一个反映分类单元之间最小变化的系统发育树，即选择核苷酸序列全部位点最小核苷酸替代数之和最小的树作为最优树。
– 可用于任何相关序列集合
• 计算速度：
– 距离法 >最大简约法 >最大似然法
2.1 距离法
• 又称距离矩阵法，首先通过各个物种之间的比较，根据一定的假设（进化距离模型）推导得出分类群之间的进化距离，构建一个进化距离矩阵。再依据进化距离，分别依次将序列合并聚类，构建进化树。
简单的距离矩阵
• Tree 1最为简约 • MP tree的最优结果为tree 1
最大简约法
如：用最大简约法构建下面4组序列的系统树 AAG AAA GGA AGA

进化的分支物种形成与进化树

进化的分支物种形成与进化树进化是生物界中最基本和最重要的进程之一，它形成了地球上丰富多样的生物物种。

在进化的过程中，物种会分化为不同的分支，形成进化树，展示出物种之间的亲缘关系和演化历史。

本文将讨论进化的分支物种形成和进化树的重要性。

1. 进化的分支物种形成进化的分支物种形成是指一个物种分化为两个或更多个不同的物种。

这种分化一般发生在某个物种面临环境变化或者适应不同生态位时。

进化的分支物种形成主要由以下几个过程驱动：1.1 隔离隔离是分支物种形成的关键步骤之一。

当一个种群的一部分分离出来，不再与原种群交流基因时，就会发生隔离。

隔离可以通过地理隔离、生态隔离或行为隔离等方式实现。

1.2 遗传漂变一旦物种发生隔离，原种群和新分支种群就会面临不同的选择压力和环境条件。

这将导致遗传漂变，即基因频率在两个种群之间发生变化。

随着时间的推移，遗传漂变将导致两个种群的基因组差异越来越大。

1.3 自然选择自然选择是进化的驱动力之一。

在两个或更多个分支物种形成的过程中，适应环境的基因型和表型将能够更好地生存和繁衍后代，这将导致新分支物种的形成。

2. 进化树的构建与重要性进化树是通过分析不同物种的遗传数据和形态特征来构建的一种树状图。

它显示了物种之间的亲缘关系和演化历史，为我们理解生物多样性的起源和演化提供了重要的线索。

2.1 分子进化树分子进化树是通过比较物种基因组中的遗传信息来构建的。

通过分析DNA序列或蛋白质序列的变化，可以确定不同物种之间的遗传距离，并推断它们的亲缘关系和演化历程。

2.2 形态进化树形态进化树是通过比较物种的形态特征来构建的。

通过观察物种的外部形态、骨骼结构或其他形态特征的差异，可以推断它们之间的亲缘关系和进化历史。

2.3 进化树的重要性进化树为我们理解物种的进化历史提供了框架。

它们揭示了物种之间的演化关系及其共同祖先，在研究物种的起源和进化过程中起着关键的作用。

进化树还可以帮助我们预测物种的演化趋势和适应性，对生态学和保护生物学等领域具有重要意义。

分子进化树构建及数据分析的简介

分子进化树构建及数据分析的简介开始动笔写这篇短文之前，我问自己，为什么要写这样的文章？写这样的文章有实际的意义吗？我希望能够解决什么样的问题？带着这样的疑惑，我随手在丁香园（DXY）上以关键字“进化分析求助”进行了搜索，居然有289篇相关的帖子（2006年9月12日）。

而以关键字“进化分析”和“进化”为关键字搜索，分别找到2,733和7,724篇相关的帖子。

考虑到有些帖子的内容与分子进化无关，这里我保守的估计，大约有3,000~4,000篇帖子的内容，是关于分子进化的。

粗略地归纳一下，我大致将提出的问题分为下述的几类：1．涉及基本概念。

例如，“分子进化与生物进化是不是一个概念”，“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”，等等。

2．关于构建进化树的方法的选择。

例如，“用boostrap NJ得到XX图，请问该怎样理解？能否应用于文章？用boostrap test中的ME法得到的是XXX树，请问与上个树比，哪个更好”，等等。

3．关于软件的选择。

例如，“想做一个进化树，不知道什么软件能更好的使用且可以说明问题，并且有没有说明如何做”，“拿到了16sr RNA数据，打算做一个系统进化树分析，可是原来没有做过这方面的工作啊，都要什么软件”，“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”，“请问有做过进化树分析的朋友，能不能提供一下，做树的时候参数的设置，以及代表的意思。

还有各个分支等数值的意思，说明的问题等”，等等。

4．蛋白家族的分类问题。

例如，“搜集所有的关于一个特定domain的序列，共141条，做的进化树不知具体怎么分析”，等等。

5．新基因功能的推断。

例如，“根据一个新基因A氨基酸序列构建的系统发生树，这个进化树能否说明这个新基因A和B同源，属于同一基因家族”，等等。

6．计算基因分化的年代。

例如，“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近，具体推算出他们之间的分歧时间”，“如何估计病毒进化中变异所需时间”，等等。

利用mega构建树原理

利用mega构建树原理
Mega构建树的原理主要基于系统发育树（又称分子进化树）的概念。

这是一种描述一群有机体发生或进化顺序的拓扑结构，用于在生物信息学中描述不同生物之间的相关关系。

拓扑结构将讨论范围内的事物之间的相互关系表示出来，将这些事物之间的关系通过图表示出来。

Mega软件可用于序列比对、进化树的推断、估计分子进化速度、验证进化假说等。

在构建系统发育树时，它采用了一系列的算法和模型，如邻接法（NJ）、最大似然法（ML）、最大简约法（MP）和贝叶斯法（Bayes）等。

这些方法和模型的选择取决于具体的数据和研究目标。

构建系统发育树的一般过程包括以下几个步骤：
1. 数据准备：收集需要研究的物种的基因或蛋白序列，并进行比对，以确保它们的同源性。

比对的结果可以保存为特定的格式，如FASTA。

2. 模型选择：根据数据的特性，选择一个合适的进化模型。

例如，对于DNA序列，可以选择GTR、TN93、HKY等模型；对于蛋白序列，可以选择JTT、WAG、LG等模型。

3. 树的构建：使用选择的模型和方法，构建系统发育树。

这个过程可能包括搜索最优的树结构、计算分支长度等。

4. 树的评估和优化：通过一些统计方法，如自展值（Bootstrap）等，对构建的树进行评估和优化，以提高其可靠性。

需要注意的是，构建系统发育树是一个复杂的过程，需要一定的专业知识和经验。

同时，由于生物进化的复杂性，构建的树可能并不完全准确，需要结合其他证据进行解释和验证。

怎样使用MEGA建立进化树

怎样使用MEGA建立进化树在进行生物信息学研究中，建立进化树是一项非常重要的任务。

MEGA （分子进化遗传学分析）是一款常用的软件，专门用于进行进化树和多序列分析。

下面将详细介绍如何使用MEGA建立进化树。

安装完成后，打开MEGA软件。

在MEGA的主界面上，有几个常用的功能选项，包括「File」、「Edit」、「View」、「Tools」、「Align」、「Phylogeny」和「Help」。

我们主要关注「Phylogeny」（进化树）选项。

在新窗口中，我们需要选择构建进化树的方法。

MEGA支持多种构建进化树的方法，包括Neighbor Joining、Maximum Parsimony、Maximum Likelihood和Bayesian等。

在这里，我们以Neighbor Joining方法为例进行演示。

在Neighbor Joining方法中，我们需要先选择计算进化距离的方法。

MEGA支持许多计算进化距离的方法，如P-distance、Kimura 2-parameter、Tamura 3-parameter等。

在这里，我们选择P-distance方法。

在选择了计算进化距离的方法后，我们还需要选择树的标准。

MEGA支持Bootstrap（Bootstrap方法是统计学中一种用于评估统计性信号和树的可靠性的方法）和Nearest-Neighbor Interchange等标准。

在这里，我们选择Bootstrap标准。

在选择了进化距离的方法和树的标准后，我们需要选择输入序列数据的文件格式。

MEGA支持多种格式的序列文件，如FASTA、PHYLIP和MEGA 等。

选择相应的格式后，我们需要导入序列数据。

可以通过从文件中导入或从剪贴板中粘贴来导入序列数据。

MEGA是一款非常强大的进化树分析软件，但对于初学者来说，可能需要一些时间去了解其中的各种选项和功能。

因此，建议在使用MEGA之前，先阅读相关文档和教程，以便更好地使用MEGA进行进化树的构建和分析。

分子进化树构建的简要步骤（以蛋白为例）

分⼦进化树构建的简要步骤（以蛋⽩为例）PhyML利⽤氨基酸序列建树步骤（核酸建树也可以作为参考）前⾔：本⽂阅读对象适合建树新⼿，⽣物信息学⾼⼿请勿嘲笑，其中有什么错误还恳请指点。

为什么要建树及其你要解决什么问题这⾥不做讨论，只是⼀个纯粹的建树过程，前期的序列收集过程⾃⼰费⼼，根据⾃⼰的需要来做。

这⾥主要是最⼤似然法来建树，NJ法像mega这些软件中都有集成，最新的mega7也集成ML法，不过模型及各种参数不⼀定适合你，所以学习多种多种⽅法也是有⽤的，PhyML速度较慢，如果数列数量较多、步长检验次数多，等待时间会很长，有可能达到⼏⼗⼩时，也与电脑配置有关，⼀般时间都是以⼩时计数，所以要有⼼理准备，如果数据量⼤，推荐⽤RaxML或其他⽅法建树，它处理速度要⽐PhyML 快，不过RaxML是纯命令操作，对不熟悉命令及参数意义的⼈有⼀定难度，我只在linux 下操作过，在win下没有使⽤过。

本⽂是⽤氨基酸建树过程，如果你是⽤核酸序列建树，也可以参考这个过程，核酸替代模型请⽤jmodeltest或其他同功软件计算。

由于PhyML计算过程⽐较长，做⼀遍⽐较耗时，推荐你⽤其他软件⽤NJ法先⾏试验建树，看看你选择的序列是否有效及符合你的预期结果，调整好序列后再⽤PhyML跑⼀遍看结果是否符合⾃⼰的要求。

PhyML有线上版本，只需要提交序列⽐对结果，设置模型参数，留下邮箱等待就会给你返回结果，不过时间不可控，根据⾃⾝情况选择线上还是本地⾃⼰建树。

⽔平有限，如有错误遗漏恳请各位指点。

如果在⽂库不能下载，可以去⽹盘下载，见⽂末。

●建树过程：序列准备-模型选择-建树及树的验证。

●环境准备：电脑^-^Windows或者Linux都可以（没试过mac，如果是mac环境，请参考具体的操作⼿册）、ProtTest、PhyMl及序列⽐对的软件，线上或本地都可以。

1.序列准备：在⾃⼰熟悉的数据库中（我⾃⼰⽐较熟悉Ncbi）上做blast，选取跟要建树蛋⽩同源的各物种序列，下载到本地，整合到⼀个fasta⽂件中，注意修改物种名称，字数最好不要太长，序列⽐对后.phy格式⽂件对⽂件名长度有限制（这个可能跟软件有关系，只要⾃⼰知道是什么物种，不⾄于混淆就⾏），注意规范性，fasta⽂件中最好除了>头标，字母及下划线不要有其他不相关的字符，因为如果后⾯你要⽤软件分析.phy⽂件的时候这些软件对.phy的格式要求⽐较变态，有其他多余字符它都会报错的（你如果在dos 下⽤命令合并⽂件请注意⽂件中最后⼀⾏的字符，请删除）。

一文读懂进化树（图文详解）

⼀⽂读懂进化树（图⽂详解）⽬录Content⼀、什么是进化树⼆、进化树的构成1. 根 (Root)2. 结点 (Node)3. 进化⽀ (Branch)4. 外群5. 进化分⽀长度6. 距离标尺7. Bootstrap value三、进化树评估1. Bootstrap检验2. 重复取样值3. Bootstrap value 阈值4. Bootstrap value 与分⽀四、⼏种进化树图1.经典树图（Traditional）Rectangle Tree2.圈图（Circle Tree）3.辐射树（Radiation Tree）什么是进化树系统发育进化树 (Phylogenetic tree)：⼀般也叫系统进化树，进化树。

它可以利⽤树状分⽀图形来表⽰各物种或基因间的亲缘关系。

建进化树的过程，⽤术语讲：分⽀系统发育分析 (Molecular phylogenetic analysis)：是⽤来研究物种或序列进化和系统分类的⼀种⽅法。

⼀般研究对象是碱基序列或氨基酸序列，通过数理统计算法来计算⽣物间进化关系。

最后，根据计算结果，可视化为系统进化树。

进化树的构成我们模拟⼀个项⽬，使⽤⼈和⿏的各两个基因做进化树，结果如下：可以看到上⾯有⼀堆标注，下⾯来看看它们代表什么意义：1. 根 (所有分⽀的共同祖先叫做根根据有⽆根可分为：有根树：上⾯的图就是有根树，可以从树中找到共同的祖先。

⽆根树：顾名思义，没有根，也就找不到共同的祖先。

⽐如后边会提到的 Straight Tree2. 结点 (每个结点代表⼀个分类单元，物种上可以是属，种群等，基因上可以是基因家族，同源物等。

这⾥需要注意，有的⼈会把 node 翻译为节点，但是节点与结点有着不⼀样的含义：节点：通常被认为是⼀个实体，⽐如互联⽹上的每台计算机，蛋⽩互作⽹络的每个蛋⽩质。

结点：只是⼀个交叉点，指交汇点，并不代表⼀个实体或事物但是，也有另外⼀种解释：这种解释将 node 分为外部节点与内部节点：外部节点⼜叫叶节点，也就是最外层的⼈基因1，⼈基因2等，代表参与分析的序列样本内部节点，也就是我们使⽤蓝⾊标注的位置，代表假定祖先。

进化树分析软件MEGA的用法

进化树分析软件MEGA的用法MEGA（Molecular Evolutionary Genetics Analysis）是一款功能强大的分子进化遗传学分析软件，用于构建进化树、进行序列比对、计算基因组变异等。

它提供了丰富的功能和易于使用的界面，使用户能够对生物序列进行详细的进化分析。

下面是MEGA软件的用法详解。

1.安装和启动MEGA软件2.导入序列数据在MEGA软件中，可以导入多种类型的序列数据，如DNA序列、蛋白质序列等。

您可以通过"File"菜单下的"Open"选项来导入已有的序列文件，或通过粘贴操作将文本格式的序列数据直接粘贴到MEGA软件中。

3.序列比对MEGA提供了多种序列比对方法，如ClustalW、MUSCLE等。

您可以通过"Align"菜单下的"Multiple Sequence Alignment"选项选择适当的方法进行序列比对。

在比对完成后，软件将显示每个位置的序列相似性信息。

4.进化树构建MEGA支持多种进化树构建方法，如NJ法（Neighbor-Joining）、ML法（Maximum Likelihood）等。

您可以通过"Phylogeny"菜单下的"Construct/Inference Phylogenetic Trees"选项选择适当的方法进行进化树构建。

MEGA还支持Bootstrap分析，用于评估构建的进化树的可靠性。

6.进化分析MEGA提供了多个工具用于进一步研究和分析进化树上的数据。

通过"Phylogeny"菜单下的"Tree Explorer"选项，您可以对进化树进行多种分析，如比较进化树的拓扑结构、计算进化树的分支长度、分析基因组变异等。

7.分支针对性分析MEGA还提供了一些工具用于对进化树上的特定分支进行分析。

分子进化：系统树的构建_图文(精)

计：ˆ1 + v ˆ 2 = K 12 v ˆ1 + v ˆ3 = K 13 v ˆ2 + v ˆ3 = K 23 v 估值为 1 ( K 12 + K 13 − K 23 2 1 ˆ2 = ( K 12 + K 23 − K 13 v 2 1 ˆ3 = (K 13 + K 23 − K 12 v 2 实际序列并非具有相等的碱基频率，因而 Jukes-Cantor 距离不会使似然值最大，但它们的确为迭代法提供了很好的初始值。

Newton-Raphson 迭代法为找 -vi 到最大似然值的数值解提供了直接的方法，且从寻求 pi=1-e 的估值来看，这一方法在描述上是最为简单的。

表 5.7 给出了图 5.4 中人类(1、大猩猩(2、长臂猿(3线粒体序列收敛过程的例子。

三个序列间的平均碱基频率用作模型中的概率项πi。

ˆ1 = v 表 5.7 图 5.4 中人类、大猩猩和长臂猿线粒体序列非约束型最大似然树分枝长度的连续迭代 v2 v3 迭代 v1 初始值 0.0423 0.0174 0.2215 1 0.0420 0.0196 0.2230 2 0.0420 0.01990.2299 3 0.0420 0.0199 0.2299 标准差 0.0297 0.0218 0.0600 用几个序列作为树端来构建系统树时，可采用以上所述的一般方法。

先指定一种系统树，然后对来自该系统树似然函数的方程进行 Newton-Raphson 迭代来估计分枝长度。

在理论上，应研究所有可能的系统树来寻找具有最大似然值的系统树。

Fukami 和 Tateno(1989证实至多存在一组对于 L 给出平稳值的分枝长度，且这组分枝长度提供了所需的最大似然估计。

将这一方法应用于图 5.4 所列的 5 种线粒体序列，获得了图 5.16 所示的无根树状图。

117人类 0.015 0.030 1 0.000 黑猩猩大猩猩 0.000 0.051 0.045 2 3 0.138 猩猩长臂猿图 5.16 利用 Felsenstein 的 PHYLIP 软件构建的图 5.4 线粒体序列资料的最大似然树四．对系统树 Bootstrap 抽样在任一特定的树状拓扑结构内，已知最大似然值提供了分枝长度的一致估计值，这意味着随着资料量的增加，估计值逐渐接近真值。

生物竞赛-生物信息学部分-分子进化树42页PPT

66、节制使快乐增加并使享受加强。 ——德谟克利特 67、今天应做的事没有做，明天再早也是耽误了。——裴斯泰洛齐 68、决定一个人的一生，以及整个命运的，只是一瞬之间。 ——歌德 69、懒人无法享受休息之乐。——拉布克 70、浪费时间是一桩大罪过。——卢梭
生物竞赛-生物信息学部分-2、任何法律的根本；不，不成文法本身就是讲道理 ……法律，也 ----即明示道理。— —爱·科克
3、法律是最保险的头盔。——爱·科克 4、一个国家如果纲纪不正，其国风一定颓败。—— 塞内加 5、法律不能使人人平等，但是在法律面前人人是平等的。 ——波洛克

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二、方法的选择
First of all, I have no intention to be offensive, please take my apology if you feel like that. I am not sure about the purpose of this draft, is it only for watering in or something else? Simply ignore my suggestions when you think it's reasonable. 首先是方法的选择。基于距离的方法有UPGMA、ME（Minimum Evolution，最小进化法）和NJ（NeighborJoining，邻接法）等。其他的几种方法包括MP（Maximum parsimony，最大简约法）、ML（Maximum likelihood，最大似然法）以及贝叶斯（Bayesian）推断等方法。其中UPGMA法已经较少使用。一般来讲，如果模型合适，ML的效果较好。对近缘序列，有人喜欢MP，因为用的假设最少。MP一般不用在远缘序列上，这时一般用NJ或ML。对相似度很低的序列，NJ往往出现Long-branch attraction（LBA，长枝吸引现象），有时严重干扰进化树的构建。(All tree-reconstruction methods suffer from long branch attraction including ML, the situation is the worst for MP. Better mention it is not only for NJ.)贝叶斯的方法则太慢。(MP can also be extremely slow if we have a large number of sequences because of all the possible “equally parsimonious trees”)对于各种方法构建分子进化树的准确性，一篇综述（Hall BG. Mol Biol Evol 2005, 22 (3):792-802）认为贝叶斯的方法最好，其次是ML，然后是MP。其实如果序列的相似性较高，各种方法都会得到不错的结果，模型间的差别也不大。(Maybe it is worthwhile to list another two review papers, Trends in Genetics 17:262–272 (2001), Nature Rev. Genet. 4:275–284(2003). They were not branch newly published in 2005 or 2006, but they comprehensive and actually the basic ideas never changed.) 对于NJ和ML，是需要选择模型的。(For distance methods like NJ, the single most important thing is the distance matrix while we do not have to obtain this matrix under a specific substitution model. )对于各种模型之间的理论上的区别，这里不作深入的探讨，可以参看Nei的书。对于蛋白质序列以及DNA序列，两者模型的选择是不同的。以作者的经验来说，对于蛋白质的序列，一般选择Poisson Correction（泊松修正）这一模型。而对于核酸序列，一般选择Kimura 2-parameter（Kimura-2参数）模型。(I am really confused by these recommendations because there are tons of works to show reasonably more complicated models perform
三、软件的选择
表1中列出了一些与构建分子进化树相关的软件。构建NJ树，可以用PHYLIP（写得有点问题，例如比较慢，并且Bootstrap检验不方便）或者MEGA。MEGA是 Nei开发的方法并设计的图形化的软件，使用非常方便。作者推荐MEGA软件为初学者的首选。虽然多雪列比对工具ClustalW/X自带了一个NJ的建树程序，但是该程序只有p-distance模型，而且构建的树不够准确，一般不用来构建进化树。(The guide tree in ClustalX takes the distance matrix based on the scoring matrix, this kind of measure for evolutionary distance is sloppy, I guess that's why it is called “guide tree”.) 构建MP树，最好的工具是PAUP，但该程序属于商业软件，并不对学术免费。因此，作者并不建议使用PAUP。而MEGA和PHYLIP也可以用来构建进化树。这里，作者推荐使用MEGA来构建MP树。理由是，MEGA是图形化的软件，使用方便，而PHYLIP则是命令行格式的软件，使用较为繁琐。对于近缘序列的进化树构建，MP方法几乎是最好的。构建ML树可以使用PHYML，速度最快。或者使用Tree-puzzle，速度也较快，并且该程序做蛋白质序列的进化树效果比较好。而PAML则并不适合构建进化树。ML的模型选择是看构出的树的likelihood值，从参数少，简单的模型试起，到likelihood值最大为止。ML也可以使用PAUP或者PHYLIP来构建。这里作者推荐的工具是BioEdit。 BioEdit集成了一些PHYLIP的程序，用来构建进化树。Tree-puzzle是另外一个不错的选择，不过该程序是命令行格式的，需要学习DOS命令。PHYML的不足之处是没有win32的版本，只有适用于64位的版本，因此不推荐使用。(It is not true, PhyML has compiled executables for standard PC running windows.)值得注意的是，构建ML 树，不需要事先的多序列比对，而直接使用FASTA格式的序列即可。(This is not true. As I know, all the evolutionary models incorporating indels are not practical at this stage and they are not widely implemented at all.) 贝叶斯的算法以MrBayes为代表，不过速度较慢。(It is not true. ML can be even slower when the surface of likelihood is very flat, the optimization procedure will almost never get to that peak. Th power of taking into account the uncertainty in tree reconstruction Bayesian framework should anyway be mentioned somewhere due to popularity of Bayesian methods.)一般的进化树分析中较少应用。(No, I don't agree)由于该方法需要很多背景的知识，这里不作介绍。
分子进化树构建及数据分析的简介
Page 1 of 5
豆瓣社区豆瓣读书豆瓣电影豆瓣音乐豆瓣同城豆瓣FM 更多首页浏览发现
成员、小组、音乐人、主办方
大肠杆君的日记
大肠杆君的主页广播树构建及数据分析的简介 2010-05-28 10:27:11
分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover[1], klaus, oldfish, yzwpf
一、引言
开始动笔写这篇短文之前，我问自己，为什么要写这样的文章？写这样的文章有实际的意义吗？我希望能够解决什么样的问题？带着这样的疑惑，我随手在丁香园（DXY）上以关键字“进化分析求助”进行了搜索，居然有 289篇相关的帖子（2006年9月12日）。而以关键字“进化分析”和“进化”为关键字搜索，分别找到2,733和 7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关，这里我保守的估计，大约有3,000~4,000篇帖子的内容，是关于分子进化的。粗略地归纳一下，我大致将提出的问题分为下述的几类： 1．涉及基本概念。例如，“分子进化与生物进化是不是一个概念”，“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”，等等。 2．关于构建进化树的方法的选择。例如，“用boostrap NJ得到XX图，请问该怎样理解？能否应用于文章？用 boostrap test中的ME法得到的是XXX树，请问与上个树比，哪个更好”，等等。 3．关于软件的选择。例如，“想做一个进化树，不知道什么软件能更好的使用且可以说明问题，并且有没有说明如何做”，“拿到了16sr RNA数据，打算做一个系统进化树分析，可是原来没有做过这方面的工作啊，都要什么软件”，“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”，“请问有做过进化树分析的朋友，能不能提供一下，做树的时候参数的设置，以及代表的意思。还有各个分支等数值的意思，说明的问题等”，等等。 4．蛋白家族的分类问题。例如，“搜集所有的关于一个特定domain的序列，共141条，做的进化树不知具体怎么分析”，等等。 5．新基因功能的推断。例如，“根据一个新基因A氨基酸序列构建的系统发生树，这个进化树能否说明这个新基因A和B同源，属于同一基因家族”，等等。 6．计算基因分化的年代。例如，“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近，具体推算出他们之间的分歧时间”，“如何估计病毒进化中变异所需时间”，等等。 7．进化树的编辑。例如生成的进化树图片，如何进行后续的编辑，比如希望在图片上标注某些特定的内容，等等。由于相关的帖子太多，作者在这里对无法阅读全部的相关内容而致以歉意。同时，作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念，作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar 所撰写的《分子进化与系统发育》（Molecular Evolution and Phylogenetics）一书，以及相关的分子进化方面的最新文献。对于问题7，作者之一lylover一般使用Powerpoint进行编辑，而Photoshop、Illustrator及Windows 自带的画图工具等都可以使用。这里，作者在这里对问题2-6进行简要地解释和讨论，并希望能够初步地解答初学者的一些疑问。