分子进化与系统发育分析

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

无根树，有根树，外围支
archaea archaea archaea eukaryote eukaryote eukaryote eukaryote
无根树
通过外围支来确定树根
bacteria outgroup
archaea
外围支
archaea archaea
有根树
eukaryote
根
eukaryote eukaryote eukaryote

进化及遗传模型

1、序列有指定的来源并且正确无误。
2、序列是同源的，而序列不是“paralog“的混合物。

3、序列比对中，不同序列的同一个位点都是同源的
4、在接受分析的一个序列组中，序列之间的系统发
育史是相同的。

5、样本足以解决感兴趣的问题。
进化及遗传模型

6、样本序列之间的差异代表了感兴趣的宽组。 7、样本序列之间的差异包含了足以解决感兴趣的问题的系统发育信号。 8、样本序列是随机进化的。
生物信息学
分子进化与系统发育分析
内容提要

分子进化分析介绍系统发育树重建方法 Phylip软件包在分子进化分析中的应用 PAUP*在分子进化分析中的应用 MEGA分子进化树分析软件
分子进化研究的目的
从物种的一些分子特性出发，从而了解物种之间的生物பைடு நூலகம்统发生的关系。
蛋白和核酸序列通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。
(e+d)/2+(a+b)/2+f+g=41 (2)
c+g+(e+d)/2=19
(e+d)/2=5,c=9,则g=5
由：(a+b)/2+f+g+(d+e)/2=41 得：f=20
由：a+f+c=39 得：a=10，则b=12
NJ法/邻接法

Neighbor-JoiningMethod (NJ法/邻接法)：邻接法 (Neighbor-joiningMethod)由Saitou和Nei(1987) 提出。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点 (node)相连。通过循序地将相邻点合并成新的点，就可以建立一个相应的拓扑树。

UPGMA法
d=e=10/2=5
c=19/2=9.5
g=c-d=9.5-5=4.5
A B (CDE)
A -
B 22 -
(CDE) 39.5 41.5 -
a=b=22/2=11
(AB) (CDE)
(AB) -
(CDE) 40.5 -
f1+a=f2+c=40.5/2=20.25 f1=9.25 , f2=11.75
分子钟理论
从一个分歧数据可以推测其他
y 序列分歧度
x
分歧时间
速率恒定的证据：血色素
中性理论

“在生物分子层次上的进化改变不是由自然选择作用于有利突变引起的，而是在连续的突变压之下由选择中性或非常接近中性的突变的随机固定造成的，中性突变是指对当前适应度无影响的突变。” 否认自然选择在生物进化中的作用，认为生物大分子的进化的主要因素是机会和突变压力
Tree 1长度1，Tree 2 & 3长度2

3. Tree 1更为简约
2. 距离法

又称距离矩阵法，首先通过各个物种之间的比较，根据一定的假设（进化距离模型）推导得出分类群之间的进化距离，构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系
计算序列的距离，建立距离矩阵

9、序列中的所有位点的进化都是随机的。
10、序列中的每一个位点的进化都是独立的。
直系同源与旁系同源

直系同源(orthologs):同源的基因通过物种
形成的事件而产生，或源于不同物种的最近的共同祖先的两个基因，或者两个物种中的同一基因，一般具有相同的功能。

并系同源(paralogs):同源基因在同一物种
最大似然法 (ML)

1. 最大似然法(maximum likelihood, ML): 最早应用于对基因频率数据的分析上
2. 选取一个特定的替代模型来分析给定的一组序列数据，使得获得的每一个拓扑结构的似然率都为最大值，然后再挑出其中似然率最大的拓扑结构作为最优树 3. 在最大似然法的分析中，所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长，并对似然率求最大值来估计枝长 4. 缺点：费时，每个步骤都要考虑内部节点的所有可能性 5. 改进：启发式算法
邻居关系法
AB组合出现3次，DE组合出现3次，CD、AC、BC组合各一次，则AB和DE各为两对关系最近的邻居。(关系最近的邻居作为邻居的次数最多)，将邻居看成一个新的复合序列，重复这个过程
UPGMA法

称为 (应用算术平均数的非加权成组配对法，unweighted pair-group method using anarithmetic average)。该法将类间距离定义为两个类的成员所有成对距离的平均值，广泛用于距离矩阵。Nei等模拟了构建树的不同方法，发现当沿树上所有分枝的突变率相同时，UPGMA法一般能够得到较好的结果。但必须强调有关突变率相等(或几乎相等)的假设对于UPGMA的应用是重要的。另一些模型研究(如Kim 和Burgman)已证实当各分枝的突变率不相等时，这一方法的结果不尽人意。当各分枝突变率相等时，认为分子钟 (molecularclock)在起作用。
NJ/邻接法
1. 与FM方法非常类似 2. 保证总的支长最短

总支长：a+b+c+d+e=314/4=78.5
找到距离最近的两个点

1.任意两个节点选为相邻序列的总支长计算公式:

2.计算SAB, SBC, SCD, SDE…等数值

3.该例中， SAB最小
计算A, B的分支长度
把A、B看成一个新的复合序列，构建一个新的距离表，重复以上过程
D
C
F
G A
B
E†
分子进化研究的基础（假设）

核苷酸和氨基酸序列中含有生物进化历史的全部信息。
分子进化研究的基础（理论）

在各种不同的发育谱系及足够大的进化时间尺度中，许多序列的进化速率几乎是恒定不变的。（分子钟理论， 1965 ）
分子进化研究的基础（实际）

虽然很多时候仍然存在争议，但是分子进化确实能阐述一些生物系统发生的内在规律。

2. 距离法 (distance)
3. 最大似然法 (maximum likelihood, ML)

最大简约法 (MP)

1. 理论基础为奥卡姆剃刀 (Ockham)原则：计算所需替代数最小的那个拓扑结构，作为最优树 2. 在分析的序列位点上没有回复突变或平行突变，且被检验的序列位点数很大的时候，最大简约法能够推导获得一个很好的进化树 3. 优点：不需要在处理核苷酸或者氨基酸替代的时候引入假设 (替代模型) 4.缺点：分析序列上存在较多的回复突变或平行突变，而被检验的序列位点数又比较少的时候，可能会给出一个不合理的或者错误的进化树推导结果
以上两个概念代表了两个不同的进化事件
用于分子进化分析中的序列必须是直系同源的，才能真实反映进化过程。
趋同进化的基因(Convergent evolution )
通过不同的进化途径获得相似的功能，或者功能替代物
(genes have converged function by separate evolutionary paths)
信息位点 (Sites are informative)

1. 信息位点，必须在至少2个taxa中具有相
同的序列性状

2. 信息位点是指那些至少存在2个不同碱基 /氨基酸且每个不同碱基/氨基酸至少出现两次的位点
上例

1. Position 5, 7, 9为信息位点 2. 基于position 5的三个MP树:
Species tree
b
D c We often assume that gene trees give us species trees
系统发育树重建分析步骤
多序列比对（自动比对，手工比对）建立取代模型（建树方法）建立进化树进化树评估
系统发育树重建的基本方法

1. 最大简约法 (maximum parsimony, MP)
中，通过至少一次基因复制的事件而产生。
paralogs
orthologs
paralogs
orthologs
Erik L.L. Sonnhammer Orthology,paralogy and proposed classification for paralog subtypes TRENDS in Genetics Vol.18 No.12 December 2002 http://tig.trends.co m 0168-9525/02/$ – see front matter © 2002 Elsevier Science Ltd. All rights reserved.
(4) Unweighted Pair Group Method (UPGMA法)
Fitch-Margoliash方法（FM法）
1.找出关系最近的序列对，如A和B 2.将剩余的序列作为一个简单复合序列，分别计算A、B到所有其他序列的距离的平均值 3.用这些值来计算A和B间的距离 4.将A、B作为一个单一的复合序列AB，计算与每一个其他序列的距离，生成新的距离矩阵 5.确定下一对关系最近的序列，重复前面的步聚计算枝长 7.从每个序列对开始，重复整个过程 8.对每个树计算每对序列间的预测距离，发现与原始数据最符合的树
异源基因或水平转移基因
(xenologous or horizontally transferred genes)
由某一个水平基因转移事件而得到的同源序列
2.进化分支图，进化树
Bacterium 1 Bacterium 2 Bacterium 3 Eukaryote 1 Eukaryote 2 Eukaryote 3 Eukaryote 4 Bacterium 1 Bacterium 2 Bacterium 3 Eukaryote 1
无根树和有根树：潜在的数目
#Taxa 3 4 5 6 7 … 30 无根树 1 3 15 105 945 ~3.58X1036 有根树 3 15 105 945 10,395 ~2.04X1038
Taxa增多，计算量急剧增加，因此，目前算法都为优化算法，不能保证最优解
4.基因树，物种树
Gene tree a A B
通过距离矩阵建进化树
简单的距离矩阵
通过距离矩阵建树的方法

由进化距离构建进化树的方法有很多，常见有：
(1) Fitch-Margoliash Method (FM法): 对短支长
非常有效
(2) Neighbor-Joining Method (NJ法/邻接法):求
最短支长，最通用的距离方法
(3) Neighbors Relaton Method(邻居关系法)
Cladograms show branching order branch lengths are meaningless 进化分支图，只用分支信息，无支长信息。
Phylograms show branch order and branch lengths 进化树，有分支和支长信息
Eukaryote 2 Eukaryote 3 Eukaryote 4
系统发育树是什么？
对一组实际对象的世系关系的描述（如基因，物种等）。
系统发育树: 术语
分支/世系末端节点代表最终分 B 类，可以是物种，群体 C ，或者蛋白质、DNA、 D RNA分子等内部节点/分歧点，该分支可能的祖先结点
E
A
祖先节点/ 树根
树只代表分支的拓扑结构
A BC D F E† G
Fitch-Margoliash方法 (FM法)
D和E最接近！
分成三组：D, E, 以及ABC
DE距离=d+e (1) D到ABC间的平均距离=d+m (2)
E到ABC间的平均距离=e+m (3)
(2)-(3)+(1)
d=4,e=6
C最接近DE！
分成三组：C, DE, 以及AB
c+g+(e+d)/2=19 (1) c+f+(a+b)/2=40 (1)+(2)-(3) 得：c=9 (2)

构建进化树的一般原则
选择外围支 (Outgroup)

1. 选择一个或多个已知与分析序列关系较远的序列作为外围支