多序列比对
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
17 /93
曼哈顿悬日
18 /93
2-D vs 3-D 比对网格
source V
W
2-D 矩阵
3-D 矩阵
sink
19 /93
2-D cell versus 3-D Alignment Cell
In 2-D, 3 edges in each unit square In 3-D, 7 edges in each unit cube
4. 用于描述一个同源基因之间的亲缘关系的远近,是分子进化分 析中构建进化树的必须步骤。
5. 其他应用,如构建profile,PSSM矩阵,打分矩阵等。
6. 参考《生物信息学与功能基因组学》p305。
7 /93
一个例子
This insertion could be due to alternative splicing
6 /93
多序列比对的意义(部分)
1. 比较基因组学研究,不同物种中,许多基因的功能保守,序列 相似性较高,通过多条序列的比较,发现保守与变异的部分, 以便了解一个基因家族的基本特征,如motif,保守区域等。 (GXW[YF][EA][IVLM]) 2. 共表达基因的共有调控序列。 3. 寻找同物种个体之间单核苷酸多态性(SNPs)
0 1 A 0 1 A 1 -2 A 2 T 3 T 3 G 3 -4 C 4 C
x coordinate y coordinate
--
A
T
G
C
•
13 /93
Alignment Paths
• Align 3 sequences: ATGC, AATC,ATGC
0 1 A 0 1 A 0 0 1 -2 A 1 2 T 3 T 2 3 G 3 -3 4 C 4 C 4
格图),每个坐标轴代表一 个序列。
• 对于全局比对,就是从起点
到终点的一条曲线。
source
15 /93
双序列比对的曼哈顿网格
16 /93
Manhattan Tourist Problem(曼哈顿游客问题)
Manhattan represented as a graph with weighted edges。
20 /93
3-D 比对单元的结构
(i-1,j-1,k-1) (i-1,j-1,k) (i-1,j,k-1)
(i-1,j,k)
(i,j,k-1) (i,j-1,k-1) (i,j-1,k) (i,j,k)
21 /93
Multiple Alignment: Dynamic Programming
si-1,j-1,k-1 + (vi, wj, uk) si-1,j-1,k + (vi, wj, _ ) si-1,j,k-1 + (vi, _, uk) si,j-1,k-1 + (_, wj, uk) si-1,j,k + (vi, _ , _) si,j-1,k + (_, wj, _) si,j,k-1 + (_, _, uk)
9 /93
从双序列比对引入多序列比对的概念
• 双序列比对可以用两行的矩阵来表示。 • 同理,3个序列的比对可以用3行的矩阵表示。 A T _ G C G _ A _ C G T _ A A T C A C _ A
10 /93
比对 = 。。。路径
• Align 3 sequences: ATGC, AATC,ATGC
A
--
T
G
C
A
A
T
--
C
--
A
T
G
C
11 /93
比对路径
• Align 3 sequences: ATGC, AATC,ATGC
0 1 A 1 -2 T 3 G 4 C
x coordinate
A
A
T
--
C
--
A
TLeabharlann Baidu
G
C
12 /93
比对路径
• Align 3 sequences: ATGC, AATC,ATGC
• si,j,k = max
• (x, y, z) 是 3-D 打分矩 阵中的元素。 如果比对k条蛋白质序列,记分矩阵是?迭 代公式的方程个数是?
22 /93
多序列比对运行时间
• 对于3条长n的序列,算法的时间复杂度是7n3;
O(n3) • 对于k条序列,时间复杂度是(2k-1)(nk); O(2knk) • 结论: 动态规划法虽然可以直接从2维问题推广到 高维问题,但是算法是指数复杂度的。
x coordinate y coordinate z coordinate
--
A
T
G
C
• 比对结果在(x,y,z) 空间中的路径:
(0,0,0)(1,1,0)(1,2,1) (2,3,2) (3,3,3) (4,4,4)
14 /93
比对三条序列
sink • 与比对两条序列相同的策略 • 使用一个三维矩阵(三维网
8 /93
二、多序列比对的算法
• • • • Progressive (ClustalW)——累进法 Iterative (MUSCLE) Consistency (ProbCons) Structure-based (Expresso)
http://www.ebi.ac.uk/Tools/msa
• 之前进行的是双序列比对
• 如果多个序列进行比对呢? 如何进行?
4 /93
Multiple Alignment versus Pairwise Alignment
• 之前进行的是双序列比对 • 如果多个序列进行比对呢? 如何进行?
• 多序列比对会比双序列比对 更敏感,揭示更多的信息。 (Multiple alignments can reveal subtle similarities that pairwise alignments do not reveal)
Multiple Sequence Alignment
1
Outline
• 一、多序列比对的基本概念与意义 • 二、多序列比对的算法(clustalW)
• 三、软件应用:ClustalW的使用
2 /93
一、多序列比对的基本概念与意义
• 多序列比对与双序列比对
• 之前进行的是双序列比对
3 /93
多序列比对与双序列比对
GXW[YF][EA][IVLM]
复习一下该表达式的含义。
5 /93
多序列比对
• 多序列比对(multiple sequence alignment):把2条以上可 能有系统进化关系的序列(相似度不一定很高)进行比对 的方法。相同或者相似的氨基酸残基排在同一列上,这些 对齐的残基在进化意义上是同源的:来自共同的祖先。并 且从结构角度,这些残基也是同源的。