08 构建进化树 17-18

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1,简约类方法; 2,统计类方法; 3,距离类方法。
4,进化树评估
7.3.1 最大简约法(Maximum Parsimony)
最少
最节约
简约法的基本假设:生物序列总是采用某种“最节约成 本”、“最经济”的方法来完成进化过程(转换次数少)。
G
G
简约法的算法思想: 1 ,按照分类单元,罗列所有的拓扑 结构; 2 ,在拓扑结构中寻找最“简约”的序列指派方式。
7.3.2 最大似然法(Maximum likelihood)
似然法完全是基于统计的方法:在特定的模型下,统计每 个序列位点替换的概率,概率大的事件在一次进化事件中 最容易发生(概率大)。 似然度的计算完全依赖于在特定模型下的观测概率
案例:
似然法的优缺点:
优点:ML法充分考虑了不同进化模型下的序列突变的概率 问题,因此,推导出的进化树的可靠度比较高。
7.3.3.1 UPGMA法构建进化树
1,比较5条DNA序列。
2,构建5条DNA序列的距离矩阵,找到距离矩阵中最小值 ,然后把距离最小的一组聚到一个分枝中。
A B C D E 9 8 12 15 B 11 15 18 C 10 13 D 5
图中数值为两两比对中失配的核苷酸数目,如dAB=9
D
E
(D,E)
•简约法的优缺点:
优点:MP法中没有直接引用分子进化模型,从而避免任何 模型所产生的误导性结论,这是MP法最大的优势。 缺点: 1, MP主要用于推测进化树最可能的拓扑结构,而不会 对分支长度进行估计。 2, 对于序列差异较大,序列较长的分类单元,由于 拓扑结构庞大,序列指派方式复杂,MP法的时间开销将 是巨大的。
7 构建进化树
•树是图论中的一个概念,它是描述生物物种及基 因之间各种进化关系的一种图形化手段。 •进化分析都是根据现有的各种证据去推测真实的 进化历史,进化树构建的更准确说法是“进化树 推断/估计”。
•推断并构建进化树是进化分析中最重要的研究内 容之一。
背景知识:分子进化与物种形成的关系
基因分化事件发生 在物种形成前后。
案例:
假定已知三条DNA序列如下:
S1:CGA S2:CTG S3:CTA
利用MP法可得到3个简约程度相同的拓扑结构
CTA
CTA CTA
CTA
CTA
CTA
1
1
S2:CTG S3:CTA
1
1
S1:CGA
1
S1:CGA
1
S3:CTA S2:CTG
S2:CTG S3:CTA S1:CGA
MP法可以产生不同的树,但成本相同
缺点: ML法需要计算所有的可能拓扑结构下的概率值,从中 得到概率最大的拓扑结构,因此该算法时间开销较大, 同时生成的树不一定是唯一的。
7.3.3 距离法(Distance Method)
距离法:根据距离模型,推导分类单位之间的进化距离, 构建一个进化距离矩阵。 1,UPGMA 非加权算术平均法 (unweighted pair-group method using arithmetic average) 2,邻接法 (neighbor-joining method)
距离法的优缺点:
优点:1,运算速度快;2,可以得到单一的最优树
缺点: 只考虑序列之间的差异,没有考虑序列差异产生的难 易程度。故适用于序列较短,序列进化距离不大的分析。
总结:
7.4 构建进化树的相关软件
7.4.1 MEGA的使用
1,含有n(n>=3)个待分类单元的二叉无根树,内部节点数目为 n-2,分支总数为2n-3,不同拓扑结构的数目为(2n-5)!/2n-3(n-3)!
2
1 3 2 2 2 1 4 3
1
3
1
4 3
4
2,含有n(n>=3)个待分类单元的二叉有根树,内部节点数目为 n-1,分支总数为2n-3,不同拓扑结构的数目为(2n-3)!/2n-2(n-2)!
区别于基于化石等 生物形态的进化分 析的—分子进化。
直系同源(Orthologs)和旁系同源(Paralogs)
1,伴随物种分化而产生基因分歧,但拥有共同功能,这些 基因之间为直系同源。 2,伴随基因复制在同一物种内产生基因分歧,产生功能上 改变,这些基因之间为旁系同源。
7.1 树与二叉树
根节点与两个分支 相连接,为二叉树。
• 复杂的无根树
7.2.1 系统发育树的解析
(分支)
(operational taxonomic units)
(分类/分枝)
(节点)
进化树中,分支的长度具有什么意义?
将分支长度带有时间信息的称为标度树;否则称为拓扑树。
7.2.2 系统发育树的不同形状
7.2.3 系统发育树的拓扑结构
树的分叉模式称为树的拓扑结构。
7.2 系统发育树 Phylogenetic tree
系统发育树(Phylogenetic tree):指一种二叉树结构。 由一系列节点(node)和分支(branch)组成。每个节点 代表一个分类单位(物种或序列),而节点之间的连接 线代表物种之间的进化关系。
•有根树和无根树
ห้องสมุดไป่ตู้
注:无根树不包含进化方向的信息,仅展示了所有 待分类单元之间的相对关联性。
3,重新计算新的距离矩阵,并找到最小的距离组,做 进一步的合并 。
A B C DE 9 8 13.5 B 11 16.5 C 11.5
d(DE)A=(dAD+dAE)/2, 即d(DE)A=(12+15)/2=13.5, 依此类推
A
C
A
C D
E
(A,C)
(A,C) (D,E)
4,重新计算新的距离矩阵,并找到最小的距离组,做 进一步的合并 。
1 2 3 3 1 2 1
3
2
7.2.4 系统发育树的形成
7.3 系统发育树的构建
1,序列的选择 优先选择“进化信号”比较强的序列(亲缘性/同源性比 较高的序列 )。序列差异过大,进化树的可靠程度降低。
2,多序列比对
有时为了后续分析的简化,通常在序列比对后要去除带 空位的比对列。 3,进化树的推导 首先获得拓扑结构;确定分支长度;根据需要,定根。
B AC DE 10 16.5 AC 12.5
d(AC)(DE)=(dADE+dCDE)/2=(13.5+11.5)/2=12.5, 依此类推
A
C D B
E
((A,C),B ) (D,E)
7.3.3.2 邻接法 Neighbor-joining method
邻接法的距离衡量是近似距离函数: δij=(n-4).dij-∑k≠i,j (dik+djk)
相关文档
最新文档