序列分析(一)一一序列比对
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蛋白质矩阵三
PAM矩阵:通过统计氨基酸的相互替换
率得到的矩阵,最早是由Dayhoff等研究了 71个相关蛋白家族的1572个突变。
BLOSUM矩阵:也是通过统计氨基酸
的相互替换率。
二者区别:
前者Dayhoff模型,假设蛋白质序列各部位进化的 速率是均等的。
但事实上并非如此,因为保守区的进化速率 显然 低于非保守区。
后者由Henikoff算法得到,对不同家族蛋白质序 列片段进行比对,不加入gaps,这些序列区间对 应于高度保守的区域。 氨基酸匹配率可通过各区 间可能的匹配率得到。再将这 些匹配率计入匹配 率表。
PAM矩阵(Point Accepted Mutation)
序列相似度 = 14% - 27% 40% 50% 60%
=5 由于序列长度不同,因此相对长度的得分更有意义:
Sim(s,t)=2×Score/(m+n)=2×5/(9+8)=0.588
注意:
不同类型的字符替换,其 代价是不同的。
核酸矩阵一
BLAST矩阵
A
T
C
G
A
5
-4
-4
-4
T
-4
5
-4
-4
C
-4 -4
5
-4
G
-4 -4
-4
5
目前最流行的序列比较程序BLAST使用的矩阵
Paralog (旁系同源):
指相同的基因组内因 基因复制 形成的多个具有不同功 能的基因。
Xenolog (异同源):
由某一个 水平基因转移 事件而得到的同源序列。
Convergence(趋同):
序列的相似性是由 随机因素 产生。
第一节、双序列比对
点阵分析 动态规划
1. 点阵分析
用途:
1. 寻找两条序列间所有可能的比对; 2. 寻找蛋白质、DNA序列上正向或反向的重复序列; 3. 发现RNA上可能存在的互补区域。
核酸矩阵二
转移矩阵
A
T
C
G
A
1
-5
-5
-1
T
-5
1
-1
-5
C
-5 -1
1
-5
G
-1 -5
-5
1
基于颠换、转换原理。
蛋白质矩阵一
遗传密码矩阵:通过计算一个氨基酸变
化为另一个氨基酸,所需密码子中碱基的变 换数目而得到。 例如:苯丙氨酸M=>色氨酸W
(ATG) (TGG) 替换值为:2
蛋白质矩阵二
疏水矩阵:利用氨基酸的疏水性
Gap V D S C Y
Gap 0 4 -11 -22 -33 -44 -55
V -11 4 2 -7 -18 -29 -40
E -22 -7
6 4 -5 -16 -27
S -33 -18 -5 10 -1 -1 -12
L -44 -29 -16 -1 9 -2 -2
C -55 -40 -27 -12 9 8
PAM1矩பைடு நூலகம்,除以10000
2. 动态规划算法
动态规划往往被用于一个复杂的空间中寻找 一条最优路径。
全局优化比对:Needleman-Wunsch 局部优化比对:Smith-Waterman
为什么要设计动态规划算法?
直接的序列比对,要分别计算所有 比对情况的分值,以求得最大分值(或 最小分值)。但两序列比对数是序列长 度的指数函数,计算量很大,因此必须 设计高效的算法。
对全局比对策略稍作修改可得到局部最 优比对算法。
比对的路径不需要到达搜索图的尽头 ,如 果某种比对的分值不会因为增加比对的 数量而增加时,这种比对就是最佳的。
依赖于记分系统的性质:因为某种路径 的记分会在不匹配的序列段减少 ,当分值 降为零时,路径的延展将会终止,一个 新的路径就会产生。
局部优化比对 (1)
BLOSUM62替代矩阵
以两序列VDSCY和VESLCY为例 空位罚分d=-11
全局比对 (5)
Gap V D S C Y
Gap 0 -11 -3 -22 -33 -44 -55 -11
V -11 4 -11 -7
E -22
S -33
L -44 C -55
VD: -3
Y -66
全局比对 (6)
|
|
|
|
打分矩阵 = PAM250 PAM120 PAM80 PAM60
BLOSUM: BLOSUM60:序列相似度为 60%左右的序列使用; BLOSUM80:序列相似度为 80%左右的序列使用。
Replacement amino acid
Original amino acid
AR A 9867 2 R 1 9913
Sequence 2#
m
寻找两条序列的最佳比对,实际 上就是寻找在矩阵标记图中找非 重叠平行斜线最长的组合。
实例
序 列 对于较长的 序列,有很 多匹配的字 符,点阵图 变得非常复 杂和模糊。
→ 2→
→ 序列1 →
点阵法的滑动窗口技术:
使用滑动窗口代替一次一个位点的比较,是解 决这个问题的有效方法。
例5:不同序列的比对
P KD F CKA LV
P1 0 0 0 0 0 0 0 0
K 10001000
F
0100000
T
00000
K1
1000
A
100
I
00
V
1
PKDFCKALV PK - FTKAIV
字符的关系: 1. 匹配 2. 删除或插入 3. 替换
对于例五中的情况:
PKDFCKALV PK – FTKA I V 1 1 -11 0 1 1 0 1 Score=1+1+(-1)+1+0+1+1+0+1
序列分析(一)
一一序列比对
生物信息学研究的三个层面
初级层面:
基于现有的生物信息数据库和资源,利用成熟的生 物信息学工具(专业网站、软件)解决生物信息学 问题
——生物信息数据库(NCBI、EBI、DDBJ、UniProt等) ——基因组序列分析、序列比对软件(BLAST、CLUSTAL 等) ——系统发育树构建软件的简单使用(PHYLIP、PALM等) ——搜集、整理有特色的生物信息学数据库
Gap Gap 0
G0 E0 S0 L0 C0 K0
LD S CH 00000
Sij
gap: -11,线性罚分模型。
Smith-Waterman算法;
Si-1, j-1 + σ(xi, yj) Sij = max of Si-1, j +d (从上到下)
Si, j-1 +d (从左到右) 0
BLOSUM62替代矩阵
以两序列VDSCY和VESLCY为例 空位罚分d=-11
动态规划算法:全局比对(1)
Gap V D Gap 0 1gap 2gap
V 1gap E 2gap S… L C Y
S CY …
本例:线性罚分
r(g) gd
全局比对 (2)
Gap V D S C Y
Gap 0 -11 -22 -33 -44 -55
假设窗口大小为10,相似度阈值为8,则每 次比较取10个连续的字符,如相同的字符超 过8个,则标记,
基于滑动窗口的点矩阵方法可以明显地降低 点阵图的噪声,并且明确无误的指示出了两 条序列间具有显著相似性的区域。
(a)
(b)
(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β 球蛋白基因序列进行比较的完整点阵图。(b)利用滑动窗口对 以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为 10个核苷酸,相似度阈值为8。
优点:
1. 可以找到两个序列间所有可能的残基匹配; 2. 简单、易懂 3. 直观、整体性强
工具:
http://www.ebi.ac.uk/Tools/emboss/index.html
例1:自身的比对
AKG F KC A D E
A1 0 0 0 0 0 1 0 0
K 10010000
G
1000000
7
Y -66 -51 -38 -23 -3 7 15
比对结果:
Gap V Gap 0 -11
V -11 4 E -22 -7 S -33 -18 L -44 -29 C -55 -40 Y -66 -51
VDS–CY VESLCY
D S CY -22 -33 -44 -55 -7 -18 -29 -40 6 -5 -16 -27 -5 10 -1 -12 -16 -1 9 -3 -27 -12 8 7 -38 -23 -3 15
点阵序列比对的缺点
滑动窗口和阈值的选择过于经验化, 信噪比较低 , 不适合进行高通量的数据分析, 对长序列,计算时间长。
作为双序列比对的第一步,点阵图提供了 一个大尺度的轮廓信息
http://www.ebi.ac.uk/Tools/emboss/align/
序列相似性打分矩阵
简单的得分函数: p(a, a)=1 p(a, b)=0 p(a, -)=p(-, b)=-1
V -11 Sij
E -22 要求解Sij的分数,我们必须先知道
S -33
L
-44
Si-1, j-1, Si-1, j, Si, j-1的分数,这种方法叫 做递归算法;
C -55 采用这种方法,可以把大的问题分割 Y -66 成小的问题逐一解决,即动态规划算
法;需要存储如何得到Sij分数的过程。
全局比对 (3)
中级层面:
利用数理统计方法和相关的工具,研究生物信息学 问题
——概率、数理统计基础 ——现有的数理统计和科学计算工具(EXCEL、SPSS等)
高级层面:
提出有重要意义的生物信息学问题;自主创新, 发展新方法,开发新工具,引领生物信息学领域研 究方向。
——面向生物学领域,解决重要生物学问题 ——利用数学、物理、化学、计算科学等思想和方法 ——建立模型,发展算法 ——自行编程,开发软件
是指序列们是由共同祖先进化而来,讲两条序列
的同源关系,只有两种情况:同源、不同源。
相似性:指序列间的差别,是一个度量。
同源与相似的关系:一般认为序列相似性达到一 定程度,即可认为是同源,但不绝对。
Ortholog (直系同源):
两个基因通过 物种形成 的事件而产生,或源于不同物 种的具有共同祖先的两个基因,或者两个物种中的同一基因, 一般具有相同的功能。
基于蛋白质疏水矩阵的全局比对
课后作业 以两序列VDSCY和VESLCY为例 空位线性罚分d=-20
结论:
1.比对结果与构建的打分矩阵和罚分 函数有关
2.构建合理的矩阵和罚分函数才能进 行最佳比对
3.目前较为公认的是BLOSUM和PAM 矩阵
局部优化比对
下例:局部优化打分 两条序列如下:
LDSCH GESLCK 目标:使用局部优化算法寻找最佳比对的 结果
F
100000
K
10000
C
1000
A
100
D
10
E
1
例2:重复序列
AKGF DKGF E
A1 0 0 0 0 0 0 0 0
K 10001000
G
1000100
F
100010
D
10000
K1
1000
G
1
100
F
1
10
E
1
例3:反向重复/回文
AUGCACGUC
A1 0 0 0 1 0 0 00
U 10000010
P1 0 0 0 0 0 0 0 0
K 10001000
F
0100000
T
00000
K1
1000
A
100
I
00
V
1
PKDFCKALV PK - FTKAIV
字符的关系: 1. 匹配 2. 删除或插入 3. 替换
点阵法的序列比对
Sequence 1#
1
n
1
“-” Insertion
“-” Insertion
BLOSUM62替代矩阵
全局比对 (4)
Gap V D S C Y
Gap 0 4 -11-11 -22 -33 -44 -55 V -11 4 -11 E -22
S -33 L -44 C -55 Y -66
Needleman-Wunsch算法;
Sij = max of
Si-1, j-1 + σ(xi, yj) Si-1, j +d (从上到下) Si, j-1 +d (从左到右)
G
1000100
C
101000
A
10000
C
1 1001
G
1
100
U1
10
C
1
例4:RNA stem/loop
AUGUAGCAU
A1 0 0 0 1 0 0 10
U 10100001
G
1001000
C
000001
U
00001
A
0010
C
100
A
10
U
1
例5:不同序列的比对
P KD F CKA LV
j
i
Gap V D S C Y
Gap 0 -11 -22 -33 -44 -55
V -11 Sij E -22
S -33 L -44 C -55 Y -66
Needleman-Wunsch算法;
Sij = max of
Si-1, j-1 + σ(xi, yj) Si-1, j +d (从上到下) Si, j-1 +d (从左到右)
序列分析内容
与DNA和protein序列相关的研究都可称为 序列分析。
主要包括:
1.序列比对 2.基因组序列分析 3.蛋白质序列分析 4.综合序列分析
为什么要进行序列比对???
序列拼接 数据库搜索方面 进化方面 功能方面
与进化相关的几个概念
同源性与相似性:极易被混淆的两个概念!!!
同源性(homology):