序列比对基础与BLAST入门(打分矩阵)

合集下载

NCBI中Blast序列比对小总结

NCBI中Blast可以用来进行序列比对、检验引物特异性Blast导航主页面主体包括三部分BLAST Assembled Genomes选择你要对比的物种，点击物种之后即可进入对比页面BasicBLAST包含5个常用的Blast，每一个都附有简单介绍SpecializedBLAST是一些特殊目的的Blast，如Primer-BLAST、IgBLAST根据需要做出选择本学期学习了最基本的核苷酸序列的比对点击BasicBLAST部分的nucleotide链接到一个新的页面，打开后的页面特征：大体上包括三个部分EnterQuerySequence部分可以让我们输入序列，其中的JobTitle部分可以为本次工作命一个名字ChooseSearchSet部分可以选择要与目的序列比对的物种或序列种类。

其中的EntrezQuery可以对比对结果进行适当的限制。

ProgramSelection部分可以选择本次对比的精确度，种内种间等等。

其次Blast按钮下面有一个“Algorithmparameters”算法参数，可设置参数。

点击Blast后，出现的页面大体上包括四个部分一．"所询问和比对序列的简单信息1．"询问序列的简单信息——名称、描述、分子类型、序列长度2．"所比对数据库的名称、描述和所用程序二．"GraphicSummary——blast结果图形显示相似度颜色图（黑、蓝、绿、粉红、红，相似度由低到高）三．"Descriptions——blast结果描述区1．"到其他数据库的链接2．"描述以表格的形式呈现（以匹配分值从大到小排序）(1)Accession下程序比对的序列名称，点击相应的可以进入更为详细的mapviewer(2)Descriptions下是对所比对序列的简单描述接下来是5个结果数值：(3)Max score匹配分值，点击可进入第四部分相应序列的blast的详细比对结果(4)Total score总体分值(5)Query coverage覆盖率(6)E value——E（Expect）值，表示随机匹配的可能性。

如何运用BLAST进行序列比对、检验引物特异性

如何运用BLAST进行序列比对、检验引物特异性序列比对，绝大多数战友都会想到BLAST，但BLAST的使用确实又是一个很大的难题，因为他的功能比较强悍，里面涉及到的知识比较多，而且比对结束后输出的结果参数（指标）又很多。

如果把BLAST的使用详细的都讲出来，我想我发帖发到明天也发不完，更何况我自己也不是完全懂得BLAST的使用。

所以我在这里也就“画龙点睛”——以比对核酸序列为例来给大家介绍一下BLAST的使用，也算是BLAST 的入门课程吧。

请看帖的战友好好体会，如果你用心看，在看帖完毕之后BLAST的基本使用（包括其他序列的比对）应该没有问题了。

一、打开BLAST页面，打开后如图所示：（缩略图，点击图片链接看原图）对上面这个页面进行一下必要的介绍：BLAST的这个页面主体部分（左面）包括了三部分：BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。

相信大家可以看懂这三个短语的意思，我就不多说了；我要说的是，可以认为这是三种序列比对的方法，或者说是BLAST的三条途径。

第一部分BLAST Assembled Genomes就是让你选择你要比对的物种，点击相应物种之后即可进入比对页面。

第二部分Basic BLAST包含了5个常用的BLAST，每一个都附有简短的介绍。

第三部分Specialized BLAST是一些特殊目的的BLAST，如IgBLAST、SNP等等，这个时候你就需要在Specialized BLAST部分做出适当的选择了。

总之，这是一个导航页面，它的目的是让你根据自己的比对目的选择相应的BLAST 途径。

下面以最基本的核酸序列比对来谈一下BLAST的使用，期间我也会含沙射影的说一下其他序列比对的方法。

二、点击Basic BLAST部分的nucleotide blast链接到一个新的页面。

打开后如图所示：=" width=640 height=462 title="Click to iew full ２.JPG (849 X 613)" border=0 align=absmiddle> 介绍一下上述页面：Enter Query Sequence部分是让我们输入序列的，你可以直接把序列粘贴进去，也可以上传序列，还可以选择你要比对的序列的范围（留空就代表要比对你要输入的整个序列）。

序列比对基础与BLAST入门打分矩阵

LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE
|
|.
| : |||| | :
ALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD
1.极性中性氨基酸（亲水，含羟基）
2.碱性氨基酸
alanine valine leucine isoleucine phenylalanine proline methionine
一个算法可能会有多种实现的方法。如果算法的描述或定义明确，那么这些不同的实现方法，即不同的程序应给出同样的结果。
二、打分矩阵( Scoring Matrix )简介
要对两个序列进行比对，必须首先打出其相似性的定量分值,于是需要一个打分矩阵。
矩阵( Matrix ) ：是由m×n个数组成的一个m行 n列的矩形表格。
1、Dayhoff’s 可接受点突变数目（×10）
表示在所研究的同源蛋白中，天冬氨酸被谷氨酸替换，发生了 8310次
Dayhoff (1978)
2、氨基酸出现频率
Gly 8.9% Ala 8.7% Leu 8.5% Lys 8.1% Ser 7.0% Val 6.5% Thr 5.8% Pro 5.1% Glu 5.0% Asp 4.7%
甘氨酸色氨酸丝氨酸酪氨酸半胱氨酸天冬酰氨谷氨酰胺苏氨酸
天冬氨酸谷氨酸
精氨酸组氨酸赖氨酸
氨基酸分类
Ala Val Leu Ile Phe Pro Met
Gly Trp Ser Tyr Cys Asn Gln Thr
Asp Glu
Arg His Lys
A
V
L I
非极性疏水性
F

生物信息学中的序列比对算法使用方法解析

生物信息学中的序列比对算法使用方法解析序列比对在生物信息学中是一项重要的技术，用于寻找DNA、RNA或蛋白质序列之间的相似性和差异性。

它是理解生物学结构和功能的基石之一。

在本文中，我们将解析生物信息学中常用的序列比对算法的使用方法。

序列比对算法主要分为全局比对和局部比对。

全局比对用于比较完整的序列，而局部比对则更适用于在序列中查找相似区域。

在这两个主要类别中，有几种经典的序列比对算法，包括Pairwise Sequence Alignment、BLAST、Smith-Waterman算法和Needleman-Wunsch算法等。

首先，我们来看Pairwise Sequence Alignment（两两序列比对）算法。

这个算法是基本的序列比对方法，通过比较两个序列中的每一个碱基、氨基酸或核苷酸，并根据其相似性和差异性对它们进行排列。

Pairwise Sequence Alignment算法使用动态规划的思想，通过计算匹配、替代和插入/删除的分数，来确定两个序列的最佳匹配方案。

在生物信息学中，常用的实现包括Needleman-Wunsch算法和Smith-Waterman算法。

Needleman-Wunsch算法是一种全局比对算法，用于比较两个序列的整个长度。

它是通过填充一个二维矩阵来计算最佳匹配路径的。

算法的核心思想是，通过评估每个格子的分数，根据路径选择的最佳分数进行全局比对。

这个算法不仅可以计算序列的相似性，还可以计算每个位置的分数，从而获得两个序列的对应二面的对应关系。

Smith-Waterman算法是一种局部比对算法，用于寻找两个序列中的最佳匹配片段（子序列）。

它与Needleman-Wunsch算法的计算思路相同，但不同之处在于允许负分数，这使得算法能够确定具有高分数的局部匹配片段。

通过动态规划计算，Smith-Waterman算法可以寻找到两个序列中的相似片段，并生成比对的结果。

另一种常用的序列比对算法是基本本地搜索工具（BLAST）。

blast原理及过程

-9 2 13 24
-10 -13
-12 -15 -1 10 21 -4 7 18
T -12 -14 -3
T -15 -11 -6
G -18 -7 A -21 -10
-9
1
2
-1
13
10
11
8
21
18
32
29
29
27
Global Alignment vs. Local Alignment

全局比对

Blast：Basic Local Alignment Search Tool 主要过程：

Seeding Extending
Seeding:划分查询序列

去掉Query Sequence的低复杂度或重复区域

将Query Sequence划分成K-letter words
Word Size: Protein : 3 DNA : 11
0 0 0 0 0 0 0 8 5 2 0 0 8 5 5 3 0 0 0 5 3
G 0
2 0 0 0 0 2 0
A 0
0 0 0 8 8 5 2
T 0
0 8 8 5 5 3
C A T 0 0 0
8 5 5 3 2 5 3 2 2 13 11
T
T A A C T
13 10 11 8 7 18
The best score
G
0 -3
A
-6
A
-9
T
C
T
G
C
Match：8 Mismatch：-5 Gap：-3
-12 -15 -18 -21 -24
C A A
-3

如何运用BLAST进行序列比对、检验引物特异性

序列比对，绝大多数战友都会想到BLAST，但BLAST的使用确实又是一个很大的难题，因为他的功能比较强悍，里面涉及到的知识比较多，而且比对结束后输出的结果参数（指标）又很多。

如果把BLAST的使用详细的都讲出来，我想我发帖发到明天也发不完，更何况我自己也不是完全懂得BLAST的使用。

所以我在这里也就“画龙点睛”——以比对核酸序列为例来给大家介绍一下BLAST的使用，也算是BLAST的入门课程吧。

请看帖的战友好好体会，如果你用心看，在看帖完毕之后BLAST的基本使用（包括其他序列的比对）应该没有问题了。

一、打开BLAST页面，http://www.ncbi.nlm.nih.go/BLAST/ 打开后如图所示：（缩略图，点击图片链接看原图）对上面这个页面进行一下必要的介绍：BLAST的这个页面主体部分（左面）包括了三部分：BLAST Assembled Genomes、Basic BLAST、Specialized BLAST。

相信大家可以看懂这三个短语的意思，我就不多说了；我要说的是，可以认为这是三种序列比对的方法，或者说是BLAST的三条途径。

第一部分BLAST Assembled Genomes就是让你选择你要比对的物种，点击相应物种之后即可进入比对页面。

第二部分Basic BLAST包含了5个常用的BLAST，每一个都附有简短的介绍。

第三部分Specialized BLAST是一些特殊目的的BLAST，如IgBLAST、SNP等等，这个时候你就需要在Specialized BLAST部分做出适当的选择了。

总之，这是一个导航页面，它的目的是让你根据自己的比对目的选择相应的BLAST途径。

下面以最基本的核酸序列比对来谈一下BLAST的使用，期间我也会含沙射影的说一下其他序列比对的方法。

二、点击Basic BLAST部分的nucleotide blast链接到一个新的页面。

打开后如图所示：screen.width-333)this.width=screen.width-333" width=640 height=462 title="Click to iew full ２.JPG (849 X 613)" border=0 align=absmiddle> 介绍一下上述页面：Enter Query Sequence部分是让我们输入序列的，你可以直接把序列粘贴进去，也可以上传序列，还可以选择你要比对的序列的范围（留空就代表要比对你要输入的整个序列）。

如何运用BLAST进行序列比对、检验引物特异性

如果把BLAST的使用详细的都讲出来，我想我发帖发到明天也发不完，更何况我自己也不是完全懂得BLAST的使用。

所以我在这里也就“画龙点睛”——以比对核酸序列为例来给大家介绍一下BLAST的使用，也算是BLAST的入门课程吧。

请看帖的战友好好体会，如果你用心看，在看帖完毕之后BLAST的基本使用（包括其他序列的比对）应该没有问题了。

相信大家可以看懂这三个短语的意思，我就不多说了；我要说的是，可以认为这是三种序列比对的方法，或者说是BLAST的三条途径。

第一部分BLAST Assembled Genomes就是让你选择你要比对的物种，点击相应物种之后即可进入比对页面。

第二部分Basic BLAST包含了5个常用的BLAST，每一个都附有简短的介绍。

第三部分Specialized BLAST是一些特殊目的的BLAST，如IgBLAST、SNP等等，这个时候你就需要在Specialized BLAST部分做出适当的选择了。

总之，这是一个导航页面，它的目的是让你根据自己的比对目的选择相应的BLAST途径。

下面以最基本的核酸序列比对来谈一下BLAST的使用，期间我也会含沙射影的说一下其他序列比对的方法。

二、点击Basic BLAST部分的nucleotide blast链接到一个新的页面。

NCBIblast使用教程[1]

E值范围
3.设置结果输出显示格式
选择需要显示的选项以及显示的文件格式
显示数目
Alignment的显
筛选结果
示方式
点击开始搜索
其他一些显示格式参数
NCBIblast使用教程[1]
提交任务
返回查询号（request id）修改完显示格式后点击进入结果界面
可以修改显示结果格式
NCBIblast使用教程[1]
NCBIblast使用教程[1]
Blast程序评价序列相似性的两个数据
Score：使用打分矩阵对匹配的片段进行打分，这是
对各对氨基酸残基（或碱基）打分求和的结果，一般来说，匹配片段越长、相似性越高则Score值越大。
E value:在相同长度的情况下，两个氨基酸残基（或
碱基）随机排列的序列进行打分，得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。
分析过程（一）
1.登陆ncbi的blast主页
2.选择程序，因为查询序列是蛋白序列可以选择blastp，
点击进入
也可以选择tblastn
作为演示，我们这里选blastp
NCBIblast使用教程[1]
分析过程（二）
3.填入序列（copy＋pa索整个序列，不填
w 其他问题：实际使用时选择哪种方式（网络，本地化），参数的选择，结果的解释…
NCBIblast使用教程[1]
Blast资源
1.NCBI主站点：
/BLAST/(网络版) ftp:///blast/ (单机版)
5.选择搜索数据库，这里我们选nr(非冗余的蛋白序列库)。
是否搜索保守区域数据库（cdd），蛋白序列搜索才有。

序列比对基础与BLAST入门

序列比对要考虑的问题

综上所述，序列比对并非简单的事情，比对之前需考虑诸多问题。这些问题的解决依赖于数学及计算机科学的帮助。
三、序列比对的基本原理

提出比对要考虑的问题
算法（构建打分矩阵）编程搜索数据库计算机
专业
数学打分

计算机

给出比对结果（比对分数、显著性检验）
问题

什么是序列比对？
今天你BLAST了吗？
NCBI-BLAST

Basic Local Alignment Search Tool 基本局部比对搜索工具（1990）
The BLAST algorithm is fast, accurate, and web-accessible. （教材 Page 74）
一、BLAST搜索的基本步骤
Step1:选择一个BLAST搜索类型
2、
Protein BLAST ( blastp ) 1、确认一条蛋白质序列的p1:选择一个BLAST搜索类型
Translated nucleotide query vs. protein database ( blastx ) 查询一条DNA序列是否可能编码某种蛋白质
相似性与同源性的关系

注意：序列相似不一定同源（相似可能是偶然的）序列不相似不一定不同源（高级结构相似）
例如：肌红蛋白与β球蛋白是同源蛋白，两者的三维结构非常相似，但氨基酸序列的相似性不到 40%。

β球蛋白
肌红蛋白
相似性与同源性的关系
总结：一般来说序列间的相似性越高的话，它们是同源序列的可能性就越大，所以经常可以通过序列的相似性来推测序列是否同源（统计学推断）。根据经验法则，序列长度大于100（bp或aa）时，蛋白质序列相似性程度需大于25%，核酸序列相似性程度需大于70%，才能判断同源性。

Blast使用入门

• Identify similarities between novel query sequences whose structures and functions are unknown and uncharacterize d and sequences in (public) databases whose structures an d functions have been elucidated
在过去的十年中，Altschul博士在发展评估序列相似性更有效的统计方法方面起到了重要作用，无论是提高
搜索速度，还是加大相似序列间的敏感性上，这些贡献对于 BLAST 的发展是至关重要的，随着 1997 年 PSIBLAST的采用，Altschul博士和他的合作伙伴再一次展示了聪明地使用统计学是如何使得序列搜索变成了一个真实地、令人生畏的科学工具。
Smith-Waterman算法局部比对
Fasta算法
Blast算法
建立评分矩阵
Pam250 blosum62
执行比对
Needleman-Wunsch
（动态规划算法） Smith-Waterman
确定最佳途径
当面向数据之海的时候，该怎么办？
生物信息学：努力在数据的海洋里畅游
BLAST (Basic Local Alignment Search Tool) is a set of similarity search programs that explore all of the available sequence databases for protein or DNA.
在速度上比完全只使用动态规划大约快上50倍左右
引用次数：36501 引用次数：35799

如何做序列的blast分析

2021/6/7
15
具体步骤
➢ 调整可选参数
7. Filter （选择性过滤条件）, 过滤器将锁定诸如组成低复杂序列区(如Alu序列)，用一系列N（任意碱基）替代这些程序
• 过滤对绝大多数序列是有利的，可以帮助避免那些假的数据库匹配
• 但某些情况下可信的匹配也会过滤掉
2021/6/7
16
具体步骤
➢ Blast输出结果
➢ 上部
• BLAST搜索的类型、关于查询内容和所搜索的数据库的描述以及一个分类连接可以将结果按照物种进行分类
➢ 中部
• 数据库中序列与查询序列相匹配的项的列表，分为图像和列表两种描述方式
➢ 下部
• 一系列的两两序列比对， 4种衡量的分数：比特分数、期望分数、一致性百分比、正性(相似性百分比)
2021/6/7
24
谢谢!
2021/6/7
25
部分资料从网络收集整理而来，供大家参考，
感谢您的关注！
2021/6/7
17
具体步骤
➢ Blast输出结果
query
database
program taxonomy
2021/6/7
18
➢ Blast输出结果
具体步骤
每一个条带表示数据库中的一个与查询序列相匹配的蛋白质或核酸序列，被标以不同颜色表示亲缘关系的远近(根据比对的分)，最接近匹配用红色表示。
wordsize字段长度13改变字段长度可以影响搜索精度和速度matrix打分矩阵14compositionaladjustments默认选择一般来说可改善e值的统计计算和提高灵敏度减少返回的假阳性结果的数目15filter选择性过滤条件过滤器将锁定诸如组成低复杂序列区如alu序列用一系列n任意碱基替代这些程序16过滤对绝大多数序列是有利的可以帮助避免那些假的数据库匹配blast搜索的类型关于查询内容和所搜索的数据库的描述以及一个分类连接可以将结果按照物种进行分类一系列的两两序列比对4种衡量的分数

蛋白质序列--基础知识与打分矩阵

137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP
.|
|
| : || .
| || |
136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin
|| ||.
|
:.|||| | .
.|
94 IPAVFKIDALNENKVL........VLDTDYKKYLLFCMENSAEPEQSLAC 135 lactoglobulin
137 RLLNLDGTCADSYSFVFSRDPNGLPPEAQKIVRQRQ.EELCLARQYRLIV 185 RBP
1 MKWVWALLLLAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPEG 50 RBP
. ||| |
. |. . . | : .||||.:| :
1 ...MKCLLLALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin
: | | | | :: | .| . || |: ||
|.
45 ISLLDAQSAPLRV.YVEELKPTPEGDLEILLQKWENGECAQKKIIAEKTK 93 lactoglobulin
136 QCLVRTPEVDDEALEKFDKALKALPMHIRLSFNPTQLEEQCHI....... 178 lactoglobulin
Pairwise alignment of retinol-binding protein and b-lactoglobulin

BLAST相关术语及参数详解

Alignm‎e nt: 序列比对。

将两个或多个‎序列排在一起‎，以达到最大一‎致性的过程（对于氨基酸序‎列是比较它们‎的保守性），这样可以评估‎序列间的相似‎性和同源性。

Algori‎t hm: 算法。

在计算机程序‎中包含的一种‎固定过程。

Bit score: 二进制。

二进制值S＇源于统计性质‎被数量化的打‎分系统中产生‎的原始比对分‎数S。

由于二进制值‎相对于打分系‎统已经被标准‎化，它们常用于比‎较不同搜索之‎间的比对分数‎。

BLOSUM‎:模块替换矩阵‎。

在替换矩阵中‎，每个位置的打‎分是在相关蛋‎白局部比对模‎块中观察到的‎替换的频率而‎获得的。

每个矩阵被修‎改成一个特殊‎的进化距离。

例如，在BLOSU‎M62矩阵中‎，是使用一致性‎不超过62%的序列进行配‎对来获得打分‎值的。

一致性大于6‎2%的序列在配对‎时用单个序列‎表示，以避免过于强‎调密切相关的‎家族成员。

Conser‎v ation‎:保守。

指氨基酸或D‎N A（普遍性较小）序列某个特殊‎位置上的改变‎，并不影响原始‎序列的物理化‎学性质。

Domain‎:结构域。

蛋白质在折叠‎时与其他部分‎相独立的一个‎不连续的部分‎，它有着自己独‎特的功能。

DUST: 一个低复杂性‎区段过滤程序‎。

E value: E值。

期望值。

在一个数据库‎中所搜索到的‎打分值等于或‎大于S的不同‎比对的个数。

E值越低，表明该打分值‎的显著性越好‎。

Filter‎i ng: 过滤，也叫掩蔽（maskin‎g）。

指对那么经常‎产生乱真的高‎分数的核苷酸‎或氨基酸序列‎区域进行隐藏‎的过程。

Gap: 空位。

在两条序列比‎对过程中需要‎在检测序列或‎目标序列中引‎入空位，以表示插入或‎删除。

为了避免在比‎对时出现太多‎的空位，可以在收入空‎位的同时，从比对的打分‎值中减去一个‎固定值（空位值）。

在多余的核苷‎酸或氨基酸周‎围引入空位时‎，也要对比对的‎打分值进行罚‎分。

如何运用BLAST进行序列比对、检验引物特异性

如果把BLAST的使用详细的都讲出来，我想我发帖发到明天也发不完，更何况我自己也不是完全懂得BLAST的使用。

所以我在这里也就“画龙点睛”——以比对核酸序列为例来给大家介绍一下BLAST的使用，也算是BLAST的入门课程吧。

请看帖的战友好好体会，如果你用心看，在看帖完毕之后BLAST的基本使用（包括其他序列的比对）应该没有问题了。

相信大家可以看懂这三个短语的意思，我就不多说了；我要说的是，可以认为这是三种序列比对的方法，或者说是BLAST的三条途径。

第一部分BLAST Assembled Genomes就是让你选择你要比对的物种，点击相应物种之后即可进入比对页面。

第二部分Basic BLAST包含了5个常用的BLAST，每一个都附有简短的介绍。

第三部分Specialized BLAST是一些特殊目的的BLAST，如IgBLAST、SNP等等，这个时候你就需要在Specialized BLAST部分做出适当的选择了。

总之，这是一个导航页面，它的目的是让你根据自己的比对目的选择相应的BLAST途径。

下面以最基本的核酸序列比对来谈一下BLAST的使用，期间我也会含沙射影的说一下其他序列比对的方法。

二、点击Basic BLAST部分的nucleotide blast链接到一个新的页面。

Blast使用技巧解析

29
两个蛋白是否有共同的模体或信号序列. 两个蛋白质是不是一个合理的多序列比对的
一局部两个蛋白质是否共有一个相像的生物学功能. 两个蛋白质是否具有相像的三维构造. PSI-BLAST搜寻
30
BLAST搜寻策略调整
搜寻结果过多状况加Entrez限制条件利用序列的一局部进展搜寻调整记分矩阵调整期望值搜寻结果过少状况去掉Entrez限制提高期望值使用更高PAM值或更低BLOSUM值的记分矩阵高级BLAST搜寻
选择需要显示的选项以及显示的文件格式
显示数目
Alignment的显
筛选结果
示方式
点击开头搜寻
其他一些显示格式参数
15
提交任务
返回查询号〔request id〕修改完显示格式后点击进入结果界面
可以修改显示结果格式
16
结果页面〔一〕
图形示意结果
17
结果页面〔二〕
目标序列描述局部
带有genbank的链接，点击可以进入相应的genbank序列
34
PSI-blast
Position specific iterative BLAST (PSI-BLAST) 位点特异的迭代blast搜寻，主要针对蛋白序列。第一次blast搜寻后，结果中最相像的序列重新构建 PSSM (位点特异性打分矩阵)，然后再使用该矩阵进展其次轮blast搜寻，再调整矩阵，搜寻，如此迭代。
最终高度保守的区域就会得到比较高的分值，而不保守的区域则分数降低，趋近0。这样可以提高blast搜寻的灵敏度，有助于查找远源相关的蛋白。
35
PHI-BLAST
模式识别BLAST〔Pattern hit intiated BLAST〕

如何本地化进行blast序列比对

如何本地化进行blast序列比对1、基本概念相似性(Similarity)是指序列比对过程中用来描述检测序列和目标序列之间相同或相似碱基或氨基酸残基占全部比对碱基或氨基酸残基的比例的高低，属于量的判断。

同源性(Homology)是指从某一共同祖先经趋异进化而形成的不同序列。

只有当两个蛋白质在进化关系上具有共同的祖先时，才可称它们为同源的，属于质的判断。

相似性和同源性的关系当相似程度高于50%时，比较容易推测检测序列和目标序列可能是同源序列；而当相似性程度低于20%时，就难以确定或者根本无法确定其是否具有同源性。

总之不能把相似性和同源性混为一谈。

所谓“具有50%同源性”，或“这些序列高度同源”等说法，都是不确切的，应避免使用。

序列相似性比较和同源性分析序列相似性分析：就是用来计算待研究序列与某序列之间的相似性程度，常用的软件包有BLAST、FASTA等；序列同源性分析：是将待研究与来自不同物种的序列中进行进化分析，以确定该序列与其它序列间的亲源关系。

常用的程序包有Phylip及Mega等进化分析软件；全局比对与局部比对全局比对寻找序列在全长范围内最佳比对。

常用算法如：Needleman-Wunsch algorithm(Needle)在线程序如： Needle局部比对寻找序列在局部区域的最高比对打分。

常用算法如：Smith-Waterman algorithm， blast,fasta等在线程序如： WaterNeedle及Water的在线程序也可以本地安装Emboss执行以上程序局部相似性比对的生物学基础蛋白质功能位点往往是由较短的序列片段组成的，尽管在序列的其它部位可能有插入、删除等突变，但这些关键的功能部位的序列往往具有相当大的保守性。

而局部比对往往比整体比对对这些功能区段具有更高的灵敏度，因此其结果更具生物学意义。

BLAST程序常用的两个评价指标Score：使用打分矩阵对匹配的片段进行打分，这是对各对氨基酸残基（或碱基）打分求和的结果，一般来说，匹配片段越长、相似性越高则Score值越大，结果越可信。

Blast使用技巧解析

35
PHI-BLAST
模式识别BLAST（Pattern hit intiated BLAST） PHI-BLAST能找到与查询序列相似的符合某种模式（pattern）的蛋白质序列
36
Blast的算法基础
基本思想是：通过产生数量更少的但质量更好的增强点来提高速度。 BALST算法是建立在严格的统计学的基础之上的。它集中于发现具有较高的相似性的局部比对，且局部比对中不能含有空位（blast2.0引入了允许插入gap的算法）。由于局部比对的限制条件，在大多数情况下比对会被分解为若干个明显的HSP(Highscore Sequence Pairs)。
设置结果输出显示格式选择需要显示的选项以及显示的文件格式显示数目alignment的显示方式筛选结果e值范围其他一些显示格式参数点击开始搜索16提交任务返回查询号requestid可以修改显示结果格式修改完显示格式后点击进入结果界面17结果页面一图形示意结果18结果页面二目标序列描述部分带有genbank的链接点击可以进入相应的genbank序列匹配情况分值e值19结果页面三详细的比对上的序列的排列情况查询序列和目标序列之间的字母表示两个氨基酸相同加号表示两个氨基酸相似
3
相似性和同源性关系
序列的相似性和序列的同源性有一定的关系，一般来说序列间的相似性越高的话，它们是同源序列的可能性就更高，所以经常可以通过序列的相似性来推测序列是否同源。正因为存在这样的关系，很多时候对序列的相似性和同源性就没有做很明显的区分，造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80％一说。
8
Program
blastn
Input
DNA
Database 1 1 6

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Margaret Dayhoff 等研究了34种蛋白质超家族（85%以上一致性的序列），通过这些同源蛋白序列的比对，总结出一个氨基酸被另一个氨基酸替换的概率，从而构建出PAM矩阵。
谁说女子不如男！
PAM（accepted point mutation）
可接受点突变
同源蛋白质在进化过程中会出现一个氨基酸被另一个氨基酸替换的现象，若此种突变通过自然选择被种群接受，并可见于后代的基因组中，便称为可接受点突变。
LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE
|
|.
| : |||| | :
ALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD
1.极性中性氨基酸（亲水，含羟基）
2.碱性氨基酸
alanine valine leucine isoleucine phenylalanine proline methionine
E 266 0
94 831 0
422
G 579 10 156 162 10 30 112
H 21 103 226 43 10 243 23 10
Dayhoff (1978)
2、氨基酸出现频率
Gly 8.9% Ala 8.7% Leu 8.5% Lys 8.1% Ser 7.0% Val 6.5% Thr 5.8% Pro 5.1% Glu 5.0% Asp 4.7%
glycine tryptophan serine tyrosine cysteine asparagine glutarmine threonine
aspartic acid glutarmic acid
arginine histidine lysine
丙氨酸缬氨酸亮氨酸异亮氨酸苯丙氨酸脯氨酸甲硫氨酸
为了研究方便，在数学中常把表中的说明去掉，将上表简化为如下的矩形数表：
300 250 220 180 320 230 200 200 310 280 210 220
由3×4个数组成的一个3行4列的矩形表格。此表在数学上称为矩阵（纵横排列的二维数据表格）。
----AT--GCAT--GCATGC--ATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC
GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA
KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST
果蝇人类植物细菌酵母古细
果蝇人类植物细菌酵母古细
果蝇人类植物细菌酵母古细
不同物种3磷酸甘油醛脱氢酶多序列比对
GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA GAKKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA
序列比对基础与BLAST入门
提出比对要考虑的问题专业
算法（构建打分矩阵）数学
程序
计算机
打分
搜索数据库
计算机
给出比对结果（比对分数、显著性检验）
算法是指按照一定的方式描述计算过程或处理某个问题的一系列步骤。
程序则是算法的具体实现，也就是用某种计算机语言编写的实现某个算法的一组指令集合。
GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA GAKKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA
KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST
M （芳香族氨基酸
G F、W、Y ）
W
S
Y C
极性中性氨基酸
N
Q
（含硫氨基酸
T
C、M ）
D E
酸性氨基酸
R
H
碱性氨基酸
K
王镜岩编《生物化学》（第三版）第127页
果蝇人类植物细菌酵母古细
果蝇人类植物细菌酵母古细
果蝇人类植物细菌酵母古细
不同物种3磷酸甘油醛脱氢酶多序列比对
1、Dayhoff’s 可接受点突变数目（×10）
A R NDC QE G
Ala Arg Asn Asp Cys Gln Glu Gly
A R 30 N 109 17 D 154 0 C 33 10
532
0

表示在所研究的同源蛋白中，天冬氨酸被谷氨酸替换，发生了 8310次
Q 93 120 50 76 0
可以把这种只考虑碱基同一性的矩阵理解为一个分数值为1和0的分数矩阵，即相同残基的分数值为1，不同残基的分数值为0。
ACGT A1000 C0100 G0 0 1 0 T0001
单一打分矩阵
ACGT A 5 -4 -4 -4 C -4 5 -4 -4 G -4 -4 5 -4 T -4 -4 -4 5
GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA
GXW模体
我们想要衡量氨基酸配对的相似性程度，这就需要有氨基酸相似性的定量标准。
单一打分矩阵满足不了此种需求。
相似性打分矩阵，是基于远距离进化过程中观察到的残基替换率，并用不同的分数值表征不同残基之间的相似性程度。恰当选择相似性分数矩阵，可以提高序列比对的敏感度。
PAM矩阵和BLOSUM矩阵。
一个算法可能会有多种实现的方法。如果算法的描述或定义明确，那么这些不同的实现方法，即不同的程序应给出同样的结果。
某公司生产四种产品A、B、C、D,第一季度的销量分别如下表所示：
产品销量（件）
月份 A B C D
一月 300 250 220 180
二月 320 230 200 200
三月 310 280 210 220
甘氨酸色氨酸丝氨酸酪氨酸半胱氨酸天冬酰氨谷氨酰胺苏氨酸
天冬氨酸谷氨酸
精氨酸组氨酸赖氨酸
氨基酸分类
Ala Val Leu Ile Phe Pro Met