生物信息学多序列比对

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

全局序列比对
动态规划算法 (Dynamic Programming Algorithm) 分而治之方法 (Divide and Conquer Methods) SP方法 (Sum of Pairs Methods) 累进方法 (Progressive Methods) 迭代方法 (Iterative Methods) 遗传算法 (Genetic Algorithms)
多序列比对与进化研究例子
图中NYLS为树根
多序列比对方法
全局序列比对
动态规划算法 (Dynamic Programming Algorithm) 分而治之方法 (Divide and Conquer Methods) SP方法 (Sum of Pairs Methods) 累进方法 (Progressive Methods) 迭代方法 (Iterative Methods) 遗传算法 (Genetic Algorithms)
Alignment ) 计算每一对双序列比对的最大权重ε 计算比对的空间位置以达到最佳比对 完成最佳比对 输出与最大权重ε比较所获得的ε 慢且消耗大量内存 最大可以比对8-9 个长约250的氨基酸残基
累进算法(Progressive Methods)
•针对基于动态规划算法的MSA程序比对序列数目有限, Feng & Doolittle(1987)发明了累进算法
(Stoye,et al,1997)
将MSA的空间复杂度减小
DCA在线MSA
http://bioweb.pasteur.f r/seqanal/interfaces/dc a-simple.html
So in effect …
Sequence 1
Sequence 2
SP(Sum of Pairs)方法
为了找到最佳比对,并解决解决动态 规则算Biblioteka Baidu的计算复杂问题,Carrillo & Lipman (1988)建立了SP(Sum of Pairs)方法
SP方法通过对一个随机数据矩阵中氨 基酸对的所有可能组合的记分求和来 获得矩阵记分
SP 方法例子
-IK SI K SSE
-8 - 8 + 4 = -12
动态规划算法(Dynamic Programming)
序列长度为 n 的双序列比对 n2 比对
比对数目成指数增长 例如:序列长度为n,序列数为N 的多序列
比对数目是nN
对于数目较少且较短的序列来说都不切实际
多维的动态规划算法
Sequence 1
Sequence 2
分而治之方法
分而治之 (Divide and Conquer, DCA)方法
• T-Coffee 是一种新的基于CLUSTAL的程序, 它在比对关系较远的系列上较CLUSTAL更具优势, 但速度较CLUSTAL 要慢
累进算法原理
Scerevisiae [1]
Celegans
[2] 0.640
Drosophia [3] 0.634 0.327
Human
[4] 0.630 0.408 0.420
• 逐渐加入关系较远的序列进行比对 • 构建多序列比对
一般的累进比对方法
d
1
3
1 3 2 5
1 3 2 5
root
1 3
2
5
4
果仁糖累进方法
(Praline progressive strategy)
d
1
3
1 3 2
1 3 2 5 4
1 3 2 5 4
累进算法的一些问题
比对的准确性高度依赖于开始选择的双 序列比对 序列关系越远发生的错误可能越高 选择合适的打分矩阵和罚分准则较困难
ClLUSTALW/X简介
ClLUSTAL是用于MSA分析的最为流行的软件 用来多序列比对、概形(Profile)分析和创建进 化树 ClLUSTAL最初初由Higgins等于1988年创立 并不断完善 ClLUSTAL分为ClLUSTALW和CLUSTALX两 种类型,这两种软件核心功能完全相同,区别 在于ClLUSTALX为图形界面,而ClLUSTALW 保留以前的非图形平台 ClLUSTAL有用于WINDOWS和 UNIX/LINUX的各种版本
使用 BLOSUM62 矩 阵, 空位罚分为 -8 在第一列, 有三种两 两比对组合方式:
-,S
-,S
S,S 每一列有k(k-1)/2 个双序列比对
基于SP方法的MSA 程序
计算所有双序列比对的分数 用这些分数构建进化树 基于进化树计算双序列比对权重 基于进化树构建一个启发式多序列比对(Heuristic
多序列比对
(Multiple Alignments)
我们为什么做多序列比对?
分析多个序列的一致序列,识别蛋白质家族的序列 模式
辅助预测新序列的二级或三级结构,相似的蛋白质 序列往往具有相似的结构与功能
PCR 引物设计
用于进化分析,是用系统发育方法构建进化树的 初使步骤,寻找同源基因
一个多序列比对例子
Mouse
[5] 0.619 0.405 0.469 0.289
1 对所有序列做双序列比对, 构建距离矩阵计算相似性分数值
Human Mouse Dmel Cele Scer
Multiple alignment
2 基于双序列距离矩阵, 构建一个进化树
3 依据进化树进行渐进比对 • 依据进化树,开始对关系较近的序 列进行两两比对
局部序列比对
概形分析 (Profile Analysis) 区块分析 (Block Analysis)
统计学方法 (Statistical Methods)
多序列比对总体思路
在多序列比对前要考虑的问题
比对的优劣与序列条数正相关 避免在比对中包括相似度差异过大的序列 每个亚群应分别先比对,然后再整体比对
VTISCTGSSSNIGAG-NHVKWYQQLPG VTISCTGTSSNIGS--ITVNWYQQLPG LRLSCSSSGFIFSS--YAMYWVRQAPG LSLTCTVSGTSFDD--YYSTWVRQPPG PEVTCVVVDVSHEDPQVKFNWYVDG-ATLVCLISDFYPGA--VTVAWKADS-AALGCLVKDYFPEP--VTVSWNSG--VSLTCLVKGFYPSD--IAVEWWSNG--
•主要思想:通过双序列比对构建进化关系,并通过这种关系来构建 序列比对
• CLUSTAL 和 PILEUP 是目前常用的基于累进算法的比对软件
• CLUSTAL 是免费软件,目前应用非常广泛。 分为基于文本的CLUSTALW和图形用户界面的CLUSTALX http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html
相关文档
最新文档