生物信息学应用:序列比对与数据库搜索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
PAM(point accepted mutation)可为进化时间单位
假设同一位点不会发生二次以上的突变,则1PAM等 于100个氨基酸多肽 链中预期发生一次替换所需的时间。 1PAM相当于所有的氨基酸平均有 1%发生了变化,经过 100PAM的进化,并非每个氨基酸的残基均发生变 化:有 一些可能突变多次,甚至又变成原来的氨基酸,而另一 些氨基酸 可能根本没有发生过变化。因此利用大于 100PAM的时间间隔可能达到区 分同源性蛋白质的目的。
分析物种的进化
48条染色体〔24对) 黑猩猩细胞色素C的氨基酸顺序与人类的相同
Pan troglodytes chr22
神经功能相关基因NCAM2和GRIK1黑猩猩中大片段DNA缺失
语言能力相关基因FOXP2序列在人-黑猩猩间存在两个氨基酸的差异
Homo Sapiens chr21 46条染色体〔23对)
最佳匹配: 1. AGCT_
A_ _TG
2. A_GCT ATG_ _
局部比对工具
Smith-Waterman算法:执行局部比对的动 态规划算法。适用于亲缘关系较远、仅具 有局部区域相似性的序列。(JMB, 147, 195197, 1981)MPSrch程序
SSearch
速度慢
NeedlemBiblioteka Baidun-Wunsch算法的改造
序列比对的类型
序列数目
双序列比对 (pairwise alignment) 多序列比对 (multiple sequences alignment)
序列种类
核酸序列比对 蛋白质序列比对
比对方式
全局比对 ( Needleman-Wunsch ) 局部比对 ( Smith-Waterman )
序列比对搜索程序
序列比对程序基于启发式算法,用于数据
库搜索(Heuristic database search),
可保证搜索快速且敏感度高,但不能保 证最佳
典型程序
FastA系列 Blast系列
在数据库中查询新序列
提交新序列进行数据库搜索以确定:
不同氨基酸之间的替换率是不一样的,原因有密码子突变,
氨基酸间理化性质的相似性等。另一种遗传密码子打分矩阵则是
直接基于实际氨基酸之间的替换率,比如Blosum矩阵
矩阵元素通常为比对中的一对字符(氨基酸或碱基)随机发生 的概率(每个氨基酸出现的独立概率)与其实际出现的概率 之比
Dayhoff的PAM矩阵
BLOSUM62 (lower part)
PAM矩阵和BLOSUM矩阵的比较
PAM矩阵的突变率来自一个明确的进化模型,该模型中氨基 酸的替换可从近亲蛋白质的系统发生树分支得知,而远亲蛋 白质的关系则可用外推过程建立模型,但BLOSUNM矩阵 却是通过直接观测保守区域中氨基酸的替换几率建立的
PAM矩阵基于序列全局比对观测到的突变,包括了保守区域 和可变区域,而BLOSUM矩阵仅基于高度保守的序列,不允 许有空位的出现
一般情况下PAM120矩阵和BLOSUM62矩阵是最好的选择
打分系统---空位罚分
序列的改变不仅可由点突变造成,也可 因残基的插入和缺失引起。所以引入空 位以产生序列比对是有生物学基础的。 引入空位罚分来代表比对中加入空位的 有效性
ACTACGT
A_ _ _CGT
空位罚分的计算:
k: 空位长度; r: 开放空位罚分值; δ: 扩展空位罚分值, δ<r
其它基于DP的实现方法
结构-遗传矩阵
C S T P A G N D E Q H R K MI
L V F YW
64222321012202222
3 33
C
6545553333331222
3 32
S
645242332343323
1 21
T
65322333322233
2 22
P
6534432232225
常用术语
比对常用语
插入, Insertion 缺失, Deletion 替换, Substitution 插入缺失, Indel
序列相同 两序列所有比对位置上的元素(核酸或氨基酸)完全相同
序列相似性
两序列比对位置上的元素(核酸或氨基酸)大部分相同 两序列比对位置上的元素(氨基酸)相似
20个氨基酸残基的单字母。
序列比对指将两个或多个序列排列在一起,标明最相 似的排列方式,计算其相似度。
除匹配外,序列间可以有错配,还可以插入间隔,通
常用短横线“-”表示。
序列比对用途
基因预测、基因注释(annotation)、蛋白质结构和功能预测等
基因和蛋白序列的进化分析
在比对中,错配与突变相应,而空位与插入或缺失对应 根据物种间基因(或蛋白)序列的比对结果构建系统发生树,从分子层次
第三章 序列比对
序列比对概念 序列比对用途 常用术语 序列比对的类型 序列比对的策略 打分系统---打分矩阵 比对算法 -全局比对Needleman-Wunsch算
法 -局部比对Smith-Waterman算法 序列比对搜索程序
序列比对概念
序列中的符号在核酸中是A, T/U, C, G,在蛋白质中则是
Y
6
W
VEDQK L S K CN VENK L TRPKCD
对齐:
VEDQKLS
KCN
VEN KLTRPKCD
VEDQK L SKCN V6 4 3 2 3 5 2 3 2 2 E4654413403 N2 3 5 3 4 1 5 4 2 6 K3434623604 L5112262221 T3323425424 R2 2 2 3 5 2 3 5 2 2 P3323234222 K3434623604 C2 0 1 1 0 2 4 0 6 2 D3 5 6 4 3 1 3 3 1 5
显然低于非保守区。
对不同家族蛋白质序列片段的区间(blocks)进行比 对,不加入
gaps,这些序列区间对应于高度保守的区域。 氨基酸匹配率可通 过各区间可能的匹配率得到。再将这 些匹配率计入匹配率表。其 进化相关机率的计算方法与 Dayhoff矩阵相似。
矩阵名中的数字代表产生矩阵所用序列集的相似度
VEDQK L SKCN V 50 46 40 35 30 26 19 14 8 2 E 42 44 42 37 31 22 20 15 6 3 N 35 36 38 36 31 22 20 15 7 6 K 33 34 32 31 33 23 20 17 5 4 L 34 30 30 29 25 27 19 13 7 1 T 29 29 28 29 27 23 22 15 7 4 R 23 23 23 24 26 23 20 16 7 2 P 20 20 19 20 19 20 21 13 7 2 K 14 15 14 15 17 13 14 17 5 4 C 8 0 1 1 0 2 4 5 11 2 D3 5 6 4 3 1 3 3 1 5
必需通过回溯当前位置的得分
的来源确定。
例:
步骤1: 初始化打分矩阵:
S0,0 = 0 S0,j = -j * gap Si,0 = -i * gap Sm,n = optimal score
步骤2: 计算Si,j
步骤3: 回溯最佳对齐路径
打分: Match +2分 mis-match -3分 Gap (insertion & deletion) -1分
9 match
Key point 2,打分方式
序列1(待测序列): 序列2(目标序列):
ATCTG ATCAG
Match 2, mismatch -1, gap 0
8分
Match 2, gap -1, mismatch 0
序列1(待测序列): 序列2(目标序列):
ATC_TG ||| | ATCA_G
N PAM表示对原始PAM矩阵N次方
250PAM突变概率矩阵(Dayhoff等,1979)
*表中数值均乘以了100;
BLOSUM矩阵
BLOSUM( Blocks substitution matrix)矩阵
Dayhoff模型假设基于全序列,且蛋白质序列各部位进化的 速率 是均等的。但事实上并非如此,因为保守区的进化速率
序列1(待测序列): 序列2(目标序列):
ATCTG ||| | ATCAG
序列比对目的和实现方法
目的:通过寻找序列间的最佳匹配,判断序列间 的相似性程度
实现方法:依据打分系统,利用算法寻找最佳匹配
打分系统
打分矩阵 空位罚分
寻找最佳匹配的算法
打分系统---打分矩阵
打分矩阵(scoring matrix)
比对方法
最初采用点阵分析法
1950年由Bellman描述的一种优化算法,后被Needlman和 Wunsch引
入生物序列比较计算,即动态规划算法
全局比对 局部比对
全局比对---局部比对
全局比对
局部比对
全局比对
Needleman & Wunsch算法:适用于整体相似性 程度较高的序列(JMB, 48,443-453, 1970)的
Global vs. Local
序列比对中的两个关键点
Key point 1,对齐方式
序列1(待测序列): 序列2(目标序列):
AGGVLIIQVG 6match |||||| AGGVLIQVG
序列1(待测序列): 序列2(目标序列):
AGGVLIIQVG | ||||| ||| AGGVLI QVG
动态规划算法
全局比对算法:两条核酸/蛋白质序列具有最多 匹配碱基/残基定义为最佳匹配,允许插入与缺
失
速度慢
Needleman-Wunsch算法
动态规划算法思路:将多级问题划分成多个有 联系的单级问题,并逐级解决
对于序列比对而言,将整条序列的比对,划分为
从序列一端逐个位置比对到另一段的过程
2 22
A
634421321224
1 23
G
65334241212
1 30
N
6543230113
1 20
D
642241114
0 11
E
64342122
1 21
Q
6431131
2 31
H
652222
1 12
R
62223
0 11
K
6454
2 23
M
655
4 32
I
65
4 34
L
6
4 33
V
6 53
F
63
序列同源性
两序列来自一个共同的祖先序列
序列比较
• Dot matrix 分析 (intuitive) • 序列比对计算DP algorithm (exact) • Word or k-tuple (FASTA, BLAST)
(heuristic)
Dot Matrix
The amino acid sequences of the phage λcI (horizontal sequence) and phage P22 c2 (vertical sequence) repressors. The window size and stringency are both 1.
VEDQK L SKCN V6 4 3 2 3 5 2 3 2 2 E4654413403 N2 3 5 3 4 1 5 4 2 6 K3434623604 L5112262221 T3323425424 R2 2 2 3 5 2 3 5 2 2 P 3 3 2 3 2 3 21 2 2 2 K 3 4 3 4 6 2 3 17 5 4 C 2 0 1 1 0 2 4 5 11 2 D3 5 6 4 3 1 3 3 1 5
描述比对字符间(氨基酸或碱基)的相似性
单一打分矩阵(核酸,氨基酸)
相同(1) 不同(0)
A
G
C
T
A
1
0
0
0
G
0
1
0
0
C
0
0
1
0
T
0
0
0
1
遗传密码子矩阵 (氨基酸) 所有的氨基酸突变都产生于核苷酸的变化,故氨基酸 替
换的分值应取决于由一个密码子转变为另一密码子所 必需的突变
的数量。一种遗传密码子打分矩阵根据导致密码子改变所需改变 核苷酸的数量来定义两个 氨基酸之间的距离,比如PAM矩阵
A B
实现算法
两序列开端的位置, 但不一定是序列第一个字母的位置
??AG?? ??A_??
1. 将求解最佳匹配映射成矩阵模 型;
2. 矩阵中横行竖列各多一个,表
示序列开端;
3. 矩阵中每个数值表示到当前位
置的最佳匹配分值,但单从这
??C_??
个数值只能知道当前位置的匹
??AT?? 配情况;
4. 当前位置之前的最佳匹配方式
假设同一位点不会发生二次以上的突变,则1PAM等 于100个氨基酸多肽 链中预期发生一次替换所需的时间。 1PAM相当于所有的氨基酸平均有 1%发生了变化,经过 100PAM的进化,并非每个氨基酸的残基均发生变 化:有 一些可能突变多次,甚至又变成原来的氨基酸,而另一 些氨基酸 可能根本没有发生过变化。因此利用大于 100PAM的时间间隔可能达到区 分同源性蛋白质的目的。
分析物种的进化
48条染色体〔24对) 黑猩猩细胞色素C的氨基酸顺序与人类的相同
Pan troglodytes chr22
神经功能相关基因NCAM2和GRIK1黑猩猩中大片段DNA缺失
语言能力相关基因FOXP2序列在人-黑猩猩间存在两个氨基酸的差异
Homo Sapiens chr21 46条染色体〔23对)
最佳匹配: 1. AGCT_
A_ _TG
2. A_GCT ATG_ _
局部比对工具
Smith-Waterman算法:执行局部比对的动 态规划算法。适用于亲缘关系较远、仅具 有局部区域相似性的序列。(JMB, 147, 195197, 1981)MPSrch程序
SSearch
速度慢
NeedlemBiblioteka Baidun-Wunsch算法的改造
序列比对的类型
序列数目
双序列比对 (pairwise alignment) 多序列比对 (multiple sequences alignment)
序列种类
核酸序列比对 蛋白质序列比对
比对方式
全局比对 ( Needleman-Wunsch ) 局部比对 ( Smith-Waterman )
序列比对搜索程序
序列比对程序基于启发式算法,用于数据
库搜索(Heuristic database search),
可保证搜索快速且敏感度高,但不能保 证最佳
典型程序
FastA系列 Blast系列
在数据库中查询新序列
提交新序列进行数据库搜索以确定:
不同氨基酸之间的替换率是不一样的,原因有密码子突变,
氨基酸间理化性质的相似性等。另一种遗传密码子打分矩阵则是
直接基于实际氨基酸之间的替换率,比如Blosum矩阵
矩阵元素通常为比对中的一对字符(氨基酸或碱基)随机发生 的概率(每个氨基酸出现的独立概率)与其实际出现的概率 之比
Dayhoff的PAM矩阵
BLOSUM62 (lower part)
PAM矩阵和BLOSUM矩阵的比较
PAM矩阵的突变率来自一个明确的进化模型,该模型中氨基 酸的替换可从近亲蛋白质的系统发生树分支得知,而远亲蛋 白质的关系则可用外推过程建立模型,但BLOSUNM矩阵 却是通过直接观测保守区域中氨基酸的替换几率建立的
PAM矩阵基于序列全局比对观测到的突变,包括了保守区域 和可变区域,而BLOSUM矩阵仅基于高度保守的序列,不允 许有空位的出现
一般情况下PAM120矩阵和BLOSUM62矩阵是最好的选择
打分系统---空位罚分
序列的改变不仅可由点突变造成,也可 因残基的插入和缺失引起。所以引入空 位以产生序列比对是有生物学基础的。 引入空位罚分来代表比对中加入空位的 有效性
ACTACGT
A_ _ _CGT
空位罚分的计算:
k: 空位长度; r: 开放空位罚分值; δ: 扩展空位罚分值, δ<r
其它基于DP的实现方法
结构-遗传矩阵
C S T P A G N D E Q H R K MI
L V F YW
64222321012202222
3 33
C
6545553333331222
3 32
S
645242332343323
1 21
T
65322333322233
2 22
P
6534432232225
常用术语
比对常用语
插入, Insertion 缺失, Deletion 替换, Substitution 插入缺失, Indel
序列相同 两序列所有比对位置上的元素(核酸或氨基酸)完全相同
序列相似性
两序列比对位置上的元素(核酸或氨基酸)大部分相同 两序列比对位置上的元素(氨基酸)相似
20个氨基酸残基的单字母。
序列比对指将两个或多个序列排列在一起,标明最相 似的排列方式,计算其相似度。
除匹配外,序列间可以有错配,还可以插入间隔,通
常用短横线“-”表示。
序列比对用途
基因预测、基因注释(annotation)、蛋白质结构和功能预测等
基因和蛋白序列的进化分析
在比对中,错配与突变相应,而空位与插入或缺失对应 根据物种间基因(或蛋白)序列的比对结果构建系统发生树,从分子层次
第三章 序列比对
序列比对概念 序列比对用途 常用术语 序列比对的类型 序列比对的策略 打分系统---打分矩阵 比对算法 -全局比对Needleman-Wunsch算
法 -局部比对Smith-Waterman算法 序列比对搜索程序
序列比对概念
序列中的符号在核酸中是A, T/U, C, G,在蛋白质中则是
Y
6
W
VEDQK L S K CN VENK L TRPKCD
对齐:
VEDQKLS
KCN
VEN KLTRPKCD
VEDQK L SKCN V6 4 3 2 3 5 2 3 2 2 E4654413403 N2 3 5 3 4 1 5 4 2 6 K3434623604 L5112262221 T3323425424 R2 2 2 3 5 2 3 5 2 2 P3323234222 K3434623604 C2 0 1 1 0 2 4 0 6 2 D3 5 6 4 3 1 3 3 1 5
显然低于非保守区。
对不同家族蛋白质序列片段的区间(blocks)进行比 对,不加入
gaps,这些序列区间对应于高度保守的区域。 氨基酸匹配率可通 过各区间可能的匹配率得到。再将这 些匹配率计入匹配率表。其 进化相关机率的计算方法与 Dayhoff矩阵相似。
矩阵名中的数字代表产生矩阵所用序列集的相似度
VEDQK L SKCN V 50 46 40 35 30 26 19 14 8 2 E 42 44 42 37 31 22 20 15 6 3 N 35 36 38 36 31 22 20 15 7 6 K 33 34 32 31 33 23 20 17 5 4 L 34 30 30 29 25 27 19 13 7 1 T 29 29 28 29 27 23 22 15 7 4 R 23 23 23 24 26 23 20 16 7 2 P 20 20 19 20 19 20 21 13 7 2 K 14 15 14 15 17 13 14 17 5 4 C 8 0 1 1 0 2 4 5 11 2 D3 5 6 4 3 1 3 3 1 5
必需通过回溯当前位置的得分
的来源确定。
例:
步骤1: 初始化打分矩阵:
S0,0 = 0 S0,j = -j * gap Si,0 = -i * gap Sm,n = optimal score
步骤2: 计算Si,j
步骤3: 回溯最佳对齐路径
打分: Match +2分 mis-match -3分 Gap (insertion & deletion) -1分
9 match
Key point 2,打分方式
序列1(待测序列): 序列2(目标序列):
ATCTG ATCAG
Match 2, mismatch -1, gap 0
8分
Match 2, gap -1, mismatch 0
序列1(待测序列): 序列2(目标序列):
ATC_TG ||| | ATCA_G
N PAM表示对原始PAM矩阵N次方
250PAM突变概率矩阵(Dayhoff等,1979)
*表中数值均乘以了100;
BLOSUM矩阵
BLOSUM( Blocks substitution matrix)矩阵
Dayhoff模型假设基于全序列,且蛋白质序列各部位进化的 速率 是均等的。但事实上并非如此,因为保守区的进化速率
序列1(待测序列): 序列2(目标序列):
ATCTG ||| | ATCAG
序列比对目的和实现方法
目的:通过寻找序列间的最佳匹配,判断序列间 的相似性程度
实现方法:依据打分系统,利用算法寻找最佳匹配
打分系统
打分矩阵 空位罚分
寻找最佳匹配的算法
打分系统---打分矩阵
打分矩阵(scoring matrix)
比对方法
最初采用点阵分析法
1950年由Bellman描述的一种优化算法,后被Needlman和 Wunsch引
入生物序列比较计算,即动态规划算法
全局比对 局部比对
全局比对---局部比对
全局比对
局部比对
全局比对
Needleman & Wunsch算法:适用于整体相似性 程度较高的序列(JMB, 48,443-453, 1970)的
Global vs. Local
序列比对中的两个关键点
Key point 1,对齐方式
序列1(待测序列): 序列2(目标序列):
AGGVLIIQVG 6match |||||| AGGVLIQVG
序列1(待测序列): 序列2(目标序列):
AGGVLIIQVG | ||||| ||| AGGVLI QVG
动态规划算法
全局比对算法:两条核酸/蛋白质序列具有最多 匹配碱基/残基定义为最佳匹配,允许插入与缺
失
速度慢
Needleman-Wunsch算法
动态规划算法思路:将多级问题划分成多个有 联系的单级问题,并逐级解决
对于序列比对而言,将整条序列的比对,划分为
从序列一端逐个位置比对到另一段的过程
2 22
A
634421321224
1 23
G
65334241212
1 30
N
6543230113
1 20
D
642241114
0 11
E
64342122
1 21
Q
6431131
2 31
H
652222
1 12
R
62223
0 11
K
6454
2 23
M
655
4 32
I
65
4 34
L
6
4 33
V
6 53
F
63
序列同源性
两序列来自一个共同的祖先序列
序列比较
• Dot matrix 分析 (intuitive) • 序列比对计算DP algorithm (exact) • Word or k-tuple (FASTA, BLAST)
(heuristic)
Dot Matrix
The amino acid sequences of the phage λcI (horizontal sequence) and phage P22 c2 (vertical sequence) repressors. The window size and stringency are both 1.
VEDQK L SKCN V6 4 3 2 3 5 2 3 2 2 E4654413403 N2 3 5 3 4 1 5 4 2 6 K3434623604 L5112262221 T3323425424 R2 2 2 3 5 2 3 5 2 2 P 3 3 2 3 2 3 21 2 2 2 K 3 4 3 4 6 2 3 17 5 4 C 2 0 1 1 0 2 4 5 11 2 D3 5 6 4 3 1 3 3 1 5
描述比对字符间(氨基酸或碱基)的相似性
单一打分矩阵(核酸,氨基酸)
相同(1) 不同(0)
A
G
C
T
A
1
0
0
0
G
0
1
0
0
C
0
0
1
0
T
0
0
0
1
遗传密码子矩阵 (氨基酸) 所有的氨基酸突变都产生于核苷酸的变化,故氨基酸 替
换的分值应取决于由一个密码子转变为另一密码子所 必需的突变
的数量。一种遗传密码子打分矩阵根据导致密码子改变所需改变 核苷酸的数量来定义两个 氨基酸之间的距离,比如PAM矩阵
A B
实现算法
两序列开端的位置, 但不一定是序列第一个字母的位置
??AG?? ??A_??
1. 将求解最佳匹配映射成矩阵模 型;
2. 矩阵中横行竖列各多一个,表
示序列开端;
3. 矩阵中每个数值表示到当前位
置的最佳匹配分值,但单从这
??C_??
个数值只能知道当前位置的匹
??AT?? 配情况;
4. 当前位置之前的最佳匹配方式