距离法构建进化树

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

d kt =
dik + d jk − dij 2
• 6.从叶子结点集合 L 中删除结点i和j,并在集合中添 加t结点,N的值减去1。 • 7.如果叶子结点集合L中剩余的叶子结点个数大于 2, 则重复步骤2继续计算直到叶子结点个数为2,即进化树 完全建成
• 邻接法的一般步骤如下
• 1.采用了Jukes-Cautor单参数模型,计算出第i条和 第j条序列距离 dij 计算公式:
3 4 d = − log(1 − p ) 4 3
• 其中 q 为两个序列中相应位置上相同碱基的 概率
Neighbor joining method
• 2.计算第i个叶子结点(即第i个序列)的 净分歧度 ri
• 4.挑选出最小的速率校正距离Mij • 5.定义一个新的结点t,t的左、右孩子分别是第i 个和第j个结点。结点t到i,j的距离为:
dit =
dij
2 2( N − 2) d jt = dij − dit
+
ri − rj
Neighbor joining method
• 结点t与进化树其他结点k的距离为 dtk
dij + d mn , dim + d jn , din + d jm
算法
• 用NJ方法构建一棵星状树,这就是假设 不存在聚合群 • 如果估计一棵星状树的分支长度并计算 出所有分支的总和(S0),那么这个数 目应该比真实树或最终的树的Sf要大
Neighbor joining method
d ij = diD − diD −
'
d jd 2
+ dD
• 这里dij是变形距离
• i=A,B 或C, d =(dAD+dBD+dCD)/3 • d项的引入是为了保证所有dij的值都是正的
• 在我们的例子里d =37/3 而新距离矩阵中关于 分类单位A、B和C的值为
• 所以A 和B 最先被聚类在一起,然后,C 再加入 到该树中。
• OUT:operational taxonomic units • 分类学单位
变形距离法
• 如果假定速率恒定在各谱系间不成立则 UPGMA法可能会给出错误的拓扑图
• 不过该拓扑图错误也许能用被称为变形 距离法(transformed distance method) 的校 正方法来订正。 • 简单地说此法是用一个组外单位out group 作参照物来对被研究谱系间进化速 率不等的情况作一些校正,然后对新得 到的距离矩阵应用UPGMA法从而推测出 该树的拓扑图。
• 组外单位是一个我们对其有外在认识的(OTU)。 • 这些外在认识,如分类学的或古生物学的知 识能清楚地表明该(OTU)已先于所有其他被研 究的(OTU)而从其共同祖先分岐出来。 • 在现在的例子中,我们假定分类单位对所有 别的分类单位来说是一个组外单位,那么即 可当作参照物,并用下式来变换距离。
ri = ∑ dik
k =1
N
• 其中N是叶子结点的个数,dik为叶子结点i 和叶子结点k之间的距离
Neighbor joining method
• 3.计算任意两两结点 i 和 j 之间的速率校正距离 (rate-corrected distance)Mij:
M ij = dij −
ri + rj N −2
分支长度的估计
• 有时某一被估出的枝长可能 会是负的由于实际枝长绝不 可能是负的所以最好用来代 替这样的估值
最小进化(EM)法
• 原理
在本方法中,所有分支长度估计的和为:S
= ∑ bi
i
T

所有可能的拓扑结构都要计算S值,具有最小S值的拓扑结构被挑 选作为最优树 我们已提及分支长度的LS估计是由距离估计dij 的函数给出的,即
ˆ b = Ld
Fra Baidu bibliotek S = yd = ∑ yi di
i =1
r
Neighbor joining method
• 在一个无根两分叉树中,如果两个OTU通过一个 内部节点联结,则它们就被说成是近邻 (neighbors) • 比如4个OTU,i、j、m、n。、 • 假定第一个和的值最小,那么我们把i和j对以 及m和n对都记1分,其余对记0分。 • 在对所有可能的四单位组都评过分以后,得总 分最高的对子即被选为第一个近邻对
Least-squares method
• 最小二乘法(LS) 包括一般LS法和加权LS法 • 容许各个分支核苷酸替代速率有所不同 • 算法: • 实践中,可能的拓扑结构非常多,逐个 计算不可能。一般采用计算一个拓扑结 构,然后利用分支交换法搜索。
在标准的LS法中,所有可能的拓朴结 构的 相比后, 最小的拓朴 结构即为最终的树
相关文档
最新文档