Blast使用技巧PPT课件

合集下载

Blast使用方法文库

Blast使用方法文库

简介Blast,全称Basic Local Alignment Search Tool,即"基于局部比对算法的搜索工具",由Altschul等人于1990年发布。

Blast能够实现比较两段核酸或者蛋白序列之间的同源性的功能,它能够快速的找到两段序列之间的同源序列并对比对区域进行打分以确定同源性的高低。

Blast的运行方式是先用目标序列建数据库(这种数据库称为database,里面的每一条序列称为subject),然后用待查的序列(称为query)在database中搜索,每一条query与database 中的每一条subject都要进行双序列比对,从而得出全部比对结果。

Blast是一个集成的程序包,通过调用不同的比对模块,blast实现了五种可能的序列比对方式:blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。

blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为6种可能的蛋白序列),然后再与蛋白库做比对。

blastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。

tblastn:蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然后进行比对。

tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行比对。

Blast提供了核酸和蛋白序列之间所有可能的比对方式,同时具有较快的比对速度和较高的比对精度,因此在常规双序列比对分析中应用最为广泛。

可以毫不夸张的说,blast是做比较基因组学乃至整个生物信息学研究所必须掌握的一种比对工具。

下载NCBI提供免费下载,网址:ftp:///blast/executables/release/,可根据自己得机器选择相应操作系统的版本。

安装直接解压缩包即可。

解压缩命令:zcat *.tar.gz | tar xvf -使用Blast的运行分为两个步骤:第一,建立目标序列的数据库;第二,做blast比对。

NCBI_blast_使用教程.pptx

NCBI_blast_使用教程.pptx
19
Blast任务提交表单(二)
2.设置各种参数部分
设置搜索的范围,entrez关键词, 或者选择特定物种
一些过滤选项,包括简 单重复序列,人类基因
组中的重复序列等
E值上限
窗口大小 如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数
20
Blast任务提交表单(三)
E值范围
ቤተ መጻሕፍቲ ባይዱ
3.设置结果输出显示格式
蛋白质序列和核酸数据库中的核酸序列6 框翻译后的蛋白质序列逐一比对。
核酸序列6框翻译成蛋白质序列,再和核 酸数据库中的核酸序列6框翻译成的蛋 白质序列逐一进行比对。
10
Blast相关的问题
怎么获得blast服务,怎么使用的问题?
为什么使用blast,可以获得什么样的信息?
其他问题:实际使用时选择哪种方式(网 络,本地化),参数的选择,结果的解 释…
15
本地WEB版的Blast
16
Blast程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打分,这是
对各对氨基酸残基(或碱基)打分求和的结果,一般来 说,匹配片段越长、 相似性越高则Score值越大。
E value:在相同长度的情况下,两个氨基酸残基(或
碱基)随机排列的序列进行打分,得到上述Score值的 概率的大小。E值越小表示随机情况下得到该Score值的 可能性越低。
2.Blast介绍 Blast资源和相关问题
3.Blast的应用 网络版,单机版
4.深入了解Blast(改进程序,算法基础) 5.其他的序列相似性搜索工具(fasta)
3
生物序列的相似性
相似性(similarity): 是指一种很直接的数量关系,比如部

NCBI_BLAST使用

NCBI_BLAST使用

NCBI的BLast最好生物核酸的数据库NCBI是在NIH的国立医学图书馆(NLM)的一个分支。

NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可以建立一个内部的关于计算分子生物学的研究计划。

NCBI的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。

BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。

BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。

NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt。

所有的NCBI数据库和软件工具可以从WWW或FTP来获得。

NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。

NCBI的BLast种类介绍? Gapped BLAST (2.0)—一种BLAST版本,允许在它产生的对齐(alignments)中存在缺口。

统计有效性的评估是基於使用随机序列的优先模拟。

在不久的将来,所有对Gapped BLAST的访问都要通过QBLAST。

? QBLAST —一种新的系统,允许用户以他们方便的方式检索Gapped BLAST结果,并且可以用各种格式选项多次格式化他们的结果。

这个系统也使NCBI更有效的使用计算资源,更好的为大家服务。

到1999年秋季,QBLAST系统用於所有的BLAST搜索。

? PSI-BLAST —位点特异迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。

所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起来。

这个矩阵被用来搜索资料库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。

? PHI-BLAST —模式发现迭代BLAST —用蛋白查询来搜索蛋白资料库的一个程式。

[PPT]BLAST介绍

[PPT]BLAST介绍

子为中心向两边开始延伸,延伸的终 止点就是这个序列的累积得分开始变 小,也就是说出现了负数的匹配得分。

8.必须首先引入一个以经验为主的值S,这 个值称之为切断分(cutoff score),顾名 思义,就是一个给HSPs的阀值,凡低于这 个S的HSPs将无法进入我们的下一步的工作。 相反,我们将所有及格的HSPs列举出来。
3.Method
4.Gapped

9.当我们得到了这些需要的HSPs片段后, 并不能直接将这些所谓的HSPs所在的序列 就这么输出给程序的使用者,因为太多了, 所以必须进一步筛选那些含有HSPs的序列。 为此我们需要引入耿贝尔极值分布的概念 (gumbel extreme distribution):

这个极值分布式给出了一个所谓的概率p, 指cutoff score 不小于x这个预期值的概率。 应用这个p值(因为着重是为了引出下面E 值的概念,所以并不对这个艰难的数学知 识做过多的解释),我们可以引入expect value—E。它的数学表述如下:

动态规划算法
BLAST应用了动态规划的基本思想,引入 启发式算法的思想,节省了时间。启发式的动 态规划算法在精确性上不如纯粹动态规划(如 needle算法)但在速度上却是其的50倍左右。 这一点保证了BLAST比对大规模数据库的可行 性。 动态规划简单的讲就是如果一个问题能够 有最优化的子结构,那么它就能很好的被递归 的方法解决。


6. 对那些筛选出来的高分字符串拿到数 据库中去和包含其中的随机序列去进行覆 盖比对。这个时候只要w-letters里的一个字 符串与目标序列的一个区域发生了一个准 确配对,那么就称bingo(hit),并以此为 启发点(或者种子,seed)进行下一步工 作。

[整理]如何做序列的blast分析幻灯片

[整理]如何做序列的blast分析幻灯片
半左右。
[药理作用]
• 1.对中枢神经系统的作用 • (1)镇静 • (2)保护脑神经细胞 • 2.降压 • 3.抑制血小板聚集和抗血栓形成 • 4.降低心脏兴奋性(抑制)
(1)镇静
• 作用:抑制动物自发活动;对抗咖啡因的 中枢兴奋作用;部分阳性条件反射消失; 大脑皮层兴奋性降低。
• 作用机理:调节不同脑区单胺类递质, (降低NE、增加5-HT的释放)。
High scores low e values
18
具体步骤
➢Blast输出结果
➢Score
• 使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱 基)打分求和的结果,一般来说,匹配片段越长、 相似性越高则Score值 越大。
➢E value
• 在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进 行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到 该Score值的可能性越低。
如何做序列的blast分 析
Blast简介
➢ BLAST 是NCBI中用来将一个蛋白质或DNA序列和各种数据库中 的其他序列进行比对的主要工具。 BLAST搜索是研究一个蛋白质 和基因的最基本的方法之一。
➢ Blast具有非常广泛的运用
➢ 确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列 ➢ 确定哪些蛋白质和基因在特定的物种中出现 ➢ 确定一个DNA或蛋白质序列身份 ➢ 发现新基因 ➢ 确定一个特定基因或蛋白质有哪些已经发现了的变种 ➢ 研究可能存在多种剪切方式的表达序列标签 ➢ 寻找对于一个蛋白质的功能和/或结构起关键作用的氨基酸残基
➢ 调整可选参数
3. Expect threshold:期望值E是得分大于或等于某个分值S的不同的比对 的数目在随机的数据库搜索中发生的可能性。

图解NCBIBlast

图解NCBIBlast

图解NCBIBlast
生物信息的入门史诗级工具NCBI是我们日常接触最多的生物信息综合数据库,基础而不简单,关于它的使用可真是让笔者又爱又恨。

爱其功能强大,恨其复杂。

关于NCBI,笔者也写过其他的短文介绍其使用。

感兴趣的伙伴们自取了不起的NCBI Blast
从NCBI下载基因组数据的N种方式比较
今天又有小伙伴咨询NCBI Blast的使用方法。

借之前的一个ppt 内容,多图详细梳理NCBI blast在线工具的使用方法,希望对大家的工作用所帮助~
(注:以上部分截图内容来自于网络)
微信号:
Mypathogen
微微悦明
科学的乐趣是获得新知识的喜悦
高通量测序、大数据
病原微生物检测和监测
健康大数据行业资讯记录与分享
每一天获得一点微小的收获和进步。

小确幸的科研也很好。

与君共勉!。

Blast使用入门

Blast使用入门
• Identify similarities between novel query sequences whose structures and functions are unknown and uncharacterize d and sequences in (public) databases whose structures an d functions have been elucidated
在过去的十年中,Altschul博士在发展评估序列相似 性更有效的统计方法方面起到了重要作用,无论是提高
搜索速度,还是加大相似序列间的敏感性上,这些贡献 对 于 BLAST 的 发 展 是 至 关 重 要 的 , 随 着 1997 年 PSIBLAST的采用,Altschul博士和他的合作伙伴再一次展示 了聪明地使用统计学是如何使得序列搜索变成了一个真 实地、令人生畏的科学工具。
Smith-Waterman算法 局部比对
Fasta算法
Blast算法
建立评分矩阵
Pam250 blosum62
执行比对
Needleman-Wunsch
(动态规划算法) Smith-Waterman
确定最佳途径
当面向数据之海的时候,该怎么办?
生物信息学:努力在数据的海洋里畅游
BLAST (Basic Local Alignment Search Tool) is a set of similarity search programs that explore all of the available sequence databases for protein or DNA.
在速度上比完全只使用动态规划大约快上50倍左右
引用次数:36501 引用次数:35799

BLAST

BLAST
源自输入网址BLAST
BLAST
核苷酸比对点击这 蛋白质比对点击这
核苷酸 BLAST
点击这里
核苷酸 BLAST
在此处输入核 苷酸序列
核苷酸 BLAST
还是刚刚的页面,有一些相关选项可以选择(我就保持默认),然后点击最后 的BLAST即可。
结果
核苷酸 BLAST 结果
结果保存三张图片,再加上原来使用的序列即可。
蛋白质 BLAST
点击 protein blast,输入蛋白质序列,blast即可,同样保 持三张图片和蛋白质序列。
作业2
本次作业如下: 至少用2条核苷酸序列和1条蛋白质序列进行BLAST相似性 搜索,结果可视化图像和相关序列拷贝作为作业。
BLAST
1,进入BLAST页面,选择Basic BLAST之下的 nucleotide blast或protein blast。 2,输入相关序列,然后BLAST, 3,保存结果,图片或文本形式。
BLAST
进入/ 在页面最后选择BLAST即可

利用BLAST工具寻找新基因

利用BLAST工具寻找新基因

案例分析
搜索结果返回页面 :
图中三项依次是图表摘要、描述和 比对信息,这三项在返回的页面中 默认是展开的,这里为了在同一截 屏显示,把这三项手动折叠了
案例分析
搜索结果返回页面 :
接下页
案例分析
搜索结果返回页面 :
参考文献上说这些匹配的
蛋白质可能: ①在一些数据库中得到的结 果完全匹配或者几乎完全匹 配。这就不是新基因了。 ②一些数据库的结果也非常 匹配,而该数据库中编码这 些蛋白质的DNA还没有被 注释过。这种情况可能是新 基因。 ③一些搜索结果并不是非常 匹配。这就需要依赖经验来 判断哪些数据库中的匹配是 真正的匹配,哪些不是。
参考文献
作 者:不详 作者单位:华中科技大学 生命科学与 技术学院 成稿日期:2011年1月6日 Reference 原文链接: /view/5bfd4c 87bceb19e8b8f6ba28.html
数据库和工具
我采用的数据库为美国国立生物技术信息中 心(The National Center for Biotechnology Information 网址: /)GenBank 数据库。 使用的工具为BLAST (Basic Local Alignment Search Tool 网址: http://blast.ncbi.nlm.nih.go v/)。
个人认为逐个序列的验证
是最经典而有效的方法: 具体来说,就是点击最右边 一列Accession,进入该基 因的详情页面,主要看 FEATURES,如果 FEATURES 下面只有 source(有的还有gap 或 misc_feature等 ),不含 有Protein、Region、Site、 CDS等注释属性,则可初 步判定它是未被注释的新基 因。

Blast使用入门

Blast使用入门
生物信息学第7/8讲
Blast使用入门
于浩
DOE
NIH
lanl
1988年.
NLM
GenBank Pubmed
Blast
NCBI
Entrae
Genome
象 风 暴 一 样 有 力
得分矩阵
Dayhoff Pam矩阵
Pam250
Henikoff blosum矩阵
blosum62
比对算法
Neelleman-Wunsch算法 全局比对
BLAST (基本局部相似性比对搜索工具 ) 是一套用来探索可供使用的序列 数据库中所有DNA或者蛋白质的 相似性搜索程序
Local:局部
研究对象:DNA或者蛋白质
搜多对象:数据库
BLAST Applicationtice
Database Searching
• If sequences are related by divergence from a common ancestor, there are said to be homologous.
• 咨询序列与数据库中所有序列进行比对 • 得分高的序列被认为与咨询序列存在进化相关 • 如果序列都是从同一先祖趋异分化而来,那么它们是同源的
/Web/Newsltr/Spring99/spring99.htm
Dr. Altschul (PhD, M.I.T., 1987) is a Senior Investigator with Computational Biology Branch of the NCBI. The principal author of BLAST, PSI-BLAST and PHI-BLAST Dr. Altschul's contribution to bioinformatics, evolutionary biology and computational biology is almost immeasurable. Today more than 100,000 BLAST searches are performed each day on NCBI servers. Indeed, the original 1990 BLAST paper was far and away the most cited scientific paper of the last decade. Over the past decade, Dr. Altschul has played a critical role in developing robust statistical methods for assessing sequence similarity. These contributions, which were key to the development of BLAST, not only enhanced the speed with sequence searching could be performed, but also greatly improved the sensitivity of sequence searches. With the introduction of PSI-BLAST in 1997, Dr. Altschul and coworkers once again demonstrated how the smart use of statistics can make sequence searching a truly awesome scientific tool.

Blast使用技巧解析

Blast使用技巧解析
35
PHI-BLAST
模式识别BLAST(Pattern hit intiated BLAST) PHI-BLAST能找到与查询序列相似的 符合某种模式(pattern)的蛋白质 序列
36
Blast的算法基础
基本思想是:通过产生数量更少的但质量 更好的增强点来提高速度。 BALST算法是建立在严格的统计学的基础 之上的。它集中于发现具有较高的相似性 的局部比对,且局部比对中不能含有空位 (blast2.0引入了允许插入gap的算法)。 由于局部比对的限制条件,在大多数情况 下比对会被分解为若干个明显的HSP(Highscore Sequence Pairs)。
生物序列的相似性搜索
-blast简介及其应用
生物序列的相似性
相似性(similarity): 是指一种很直接的数量关系,比如部 分相同或相似的百分比或其它一些合适 的度量。比如说,A序列和B序列的相似 性是80%,或者4/5。这是个量化的关 系。当然可进行自身局部比较。
2
生物序列的同源性
同源性(homology): 指从一些数据中推断出的两个基因或蛋 白质序列具而共同祖先的结论,属于质的 判断。就是说A和B的关系上,只有是同 源序列,或者非同源序列两种关系。而说 A和B的同源性为80%都是不科学的。
也可以选择tblastn
作为演示, 我们这里选blastp
22
分析过程(二)
3.填入序列(copy+paste) Fasta格式,或者纯序列 4.选择搜索区域,这里我们要 搜索整个序列,不填 5.选择搜索数据库,这里我们 选nr(非冗余的蛋白序列库)。 是否搜索保守区域数据库 (cdd),蛋白序列搜索才有。 我们选上
详细的比对上的序列的排列情况

DNA序列分析blast法培训课件

DNA序列分析blast法培训课件
查询序列可能具有某种功能
查询序列可能是来源于某个物种
查询序列可能是某种功能基因的同源基因
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
Blast程序评价序列相似性的两个数据
• Score:使用打分矩阵对匹配的片段进行打分,这 是对各对氨基酸残基(或碱基)打分求和的结果, 一般来说,匹配片段越长、 相似性越高则Score值 越大。
检索结果
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
谢谢!
• E value:在相同长度的情况下,两个氨基酸残基(或 碱基)随机排列的序列进行打分,得到上述Score 值的概率的大小。E值越小表示随机情况下得到该 Score值的可能性越低。
序列同源性分析
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
检索结果
匹配序列列表详细比对Fra bibliotek的序列文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
基因编码产物预测分析
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
检索结果
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。
匹配序列列表
BCR/文A档仅B供L参考f,u不s能i作o为n科学p依r据o,t请e勿i模n仿;is如o有不fo当之rm处,请X联系9网[站H或本o人m删除o。 sapiens]
• Blast 是一个序列相似性搜索的程序包,其中包含 了很多个独立的程序,这些程序是根据查询的对象 和数据库的不同来定义的。
文档仅供参考,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。

BLAST使用教程

BLAST使用教程

BLAST (Basic Local Alignment Search Tool)NCBI采用的一套对蛋白质数据库或DNA数据库中进行相似性比较的分析工具(当然很多其它生物学数据库都提供了BLAST检索入口)。

您只需提交您的序列,通过BLAST查询就顷刻间从公开数据库中无数的的序列里找到相似序列。

BLAST结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

如果您想进一步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。

BLAST功能是什么?BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。

BLAST还能发现具有缺口的能比对上的序列。

BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。

从最初的BLAST发展到现在NCBI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。

BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。

所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。

GCG及EMBOSS等软件包中包含有五种BLAST:1、BLASTP是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

BLAST原理及方法(课堂PPT)

BLAST原理及方法(课堂PPT)

.
2
BLAST
BLAST (Basic Local Alignment Search Tool) allows rapid sequence comparison of a query sequence against a database. The BLAST algorithm is fast, accurate, and web-accessible.
accession number
.
13
Example of the FASTA format for a BLAST query 一个FASTA格式的序列以一个单行的说明开始,接下来是 若干个行的序列数据。
在一个BLAST搜索中输入accession number通常要容易 些。BLAST程序可以识别和忽略出现在你的输入序列字母 中间的数字。
几千种蛋白质被确定,其中有多少蛋白质是同源的?从这 里面测出的基因中有多少是在GenBank中找不到显著性同 源物的?
❖ 确定哪些蛋白质和基因在特定的物种中出现。植物中是 否也存在像RBP这样的脂质运载蛋白?鱼类中是否有反转 录酶基因(HIV-1 pol 基因)?
.
6
Why use BLAST?
BLAST 具有非常广泛的应用: ❖ 确定一个DNA或蛋白质序列身份。如可能通过一个负杂 交实验或芯片实验发现一个特殊的DNA序列中你所使用的 实验条件下是被显著调控的,那么就可以通过将这个DNA
.
8
Four components to a BLAST search
(1) Choose the sequence (query) (2) Select the BLAST program (3) Choose the database to search (4) Choose optional parameters Then click “BLAST”

blast验证引物PPT课件

blast验证引物PPT课件
特殊blastblast的页面引物序列输入窗口atgttggggaaatgcttgacc数据库的选择在此我们选择第三个数据库程序的选择显示结果在新的窗口点击此按钮进入结果页面输入方法可先输入上游引物进行blast程序同样方法在进行下游引物的blast程序
blast验证引物
1
一、概述
BLAST是Basic Local Alignment Search Tool 的英文缩写,意即碱基局部对准检索工具,是一种序 列类似性检索工具。它采用统计学记分系统,能将真 正配对的序列同随机产生的干扰序列区别开来;同时 采用启发式算法系统,即采用的是局部对准算法 (Local Alignment Algorithm),而不是全序列对准算 法(Global Alignment Algorithm)。
5
2020/1/15
6
等待若干秒之后,出现results of BLAST的网页。 该网页用三种形式来显示blast的结果。
(1)图形格式 通过点击相应的bar 可以得到匹配情况的 详细信息。
7
(2)结果信息概要:
A
B
C
D
E
从左到右分别为:
A、数据库系列的身份证:点击之后可以获得该序列的信息 B、系列的简单描述 C、高比值片段对(high-scoring segment pairs, HSP)的字符得分。按照得分 的高低由大到小排列。得分的计算公式=匹配的碱基×2+0.1。举例:如果有20个碱 基匹配,则其得分为40.1。 D、E值:代表被比对的两个序列不相关的可能性。E值最低的最有意义,也就 是说序列的相似性最大。设定的E值是我们限定的上限,E值太高的就不显示了 E、最后一栏有的有UEG的字样,其中:
2Байду номын сангаас

第九章_BLAST

第九章_BLAST

第九章 BLAST (Basic Local Alignment Search Tool)Vector NTI BLAST程式可以和NCBI的資料庫相通,使用者只需透過NTI的界面就可以進行BLAST的功能,其搜尋結果和NCBI資料庫的結果完全相同。

使用者可以在NTI的附屬程式(圖9.1)下找到BLAST Search:圖9.1使用附屬程式內的BLAST Search工具也可以從主程式上方Tools的項目進入(圖9.2):圖9.2 使用Vector NTI主程式開啟BLAST Search的功能進入BLAST程式前會出現一個視窗(圖9.3),詢問使用者欲連結至哪一個伺服器進行分析,使用者只要點選上方的NCBI BLAST Sever就可以了,然後按下OK進入BLAST程式:圖9.3 跳出詢問連結至伺服器的視窗,選擇NCBI BLAST Server就可以進入BLAST程式之後使用者可以看見一個操作的視窗,大致上會被分成兩個區塊(圖9.4):上方的欄位是輸入使用者欲分析的序列;下方的欄位是可以顯示分析的結果。

圖9.4 進入BLAST的程式,出現兩個區塊,上方區塊輸入序列,下方區塊為顯示分析結果序列的輸入很簡單,使用者只要把想要分析的序列複製貼上至此區塊就可以了(圖9.5)。

圖9.5 貼上欲分析的序列接下來要進行BLAST相關的設定(圖9.6):圖9.6 BLAST相關設定工具首先使用者要先設定Program(圖9.7)的項目:圖9.7 BLAST中的Program有5個項目,代表不同比對方式這5個項目(圖9.8)所代表的比對方式會有所不同:blastn是指把欲分析的序列和NCBI的核酸資料庫做比對,當使用者欲分析的序列是DNA或者是RNA時適用此項目;blastp是指將欲分析的序列去和NCBI的蛋白質序列資料庫做比對,當使用者欲分析胺基酸序列時適用此項目;blastx是指把使用者的核酸序列轉譯成胺基酸,再和NCBI的蛋白質序列資料庫進行比對(會有六個不同的胺基酸序列,正股三個,反股三個。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
可以修改显示结果格式
16
结果页面(一)
图形示意结果
17
结果页面(二)
目标序列描述部分
带有genbank的链接,点击可以进入 相应的genbank序列
匹配情况,分值,e值
18
结果页面(三)
详细的比对上的序列的排列情况
查询序列和目标序列之间的字母表示两个氨基Байду номын сангаас相同,加号+表示两个氨基酸相似。 空白表示既不相同也不相似。
7
程序名 Blastn Blastp
查询序列 核酸 蛋白质
Blastx
核酸
Tblastn 蛋白质
TBlastx
核酸
数据库
搜索方法
核酸 核酸序列搜索逐一核酸数据库中的序列
蛋白质 蛋白质 核酸 核酸
蛋白质序列搜索逐一蛋白质数据库中的序 列
核酸序列翻译成蛋白质序列后和蛋白质数 据库中的序列逐一搜索。
蛋白质序列和核酸数据库中的核酸序列翻 译后的蛋白质序列逐一比对。
19
一个具体的例子(blastp)
假设以下为一未知蛋白序列
>query_seq
MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFT ALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWY FYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQG TTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALAL LLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFG RRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTW LTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQ KKQPTVTLLPAADMDDFSRQLQNSMSGASADST QA
36
DNA
tblastx将查询DNA以及数据库中的DNA都翻译成6种可能的蛋白质, 然后进行36次蛋白质-蛋白质数据库搜索
9
10
Blast程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打分,这是
对各对氨基酸残基(或碱基)打分求和的结果,一般来 说,匹配片段越长、 相似性越高则Score值越大。
核酸序列翻译成蛋白质序列,再和核酸数 据库中的核酸序列翻译成的蛋白质序 列逐一进行比对。
8
Program Input
blastn
DNA
1
Database
DNA
blastn将一个DNA查询序列的两条链与一个DNA数据库进行比较
blastp
protein
1
protein
blastp将一个蛋白质查询序列与一个蛋白质数据库进行比较
生物序列的相似性搜索
-blast简介及其应用
生物序列的相似性
相似性(similarity): 是指一种很直接的数量关系,比如部
分相同或相似的百分比或其它一些合适 的度量。比如说,A序列和B序列的相似 性是80%,或者4/5。这是个量化的关 系。当然可进行自身局部比较。
2
生物序列的同源性
同源性(homology): 指从一些数据中推断出的两个基因或蛋
组中的重复序列等
E值上限
窗口大小 如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数
14
Blast任务提交表单(三)
E值范围
3.设置结果输出显示格式
选择需要显示的选项 以及显示的文件格式
显示数目
Alignment的显
筛选结果
示方式
点击开始搜索
其他一些显示格式参数
15
提交任务
返回查询号(request id) 修改完显示格式后点 击进入结果界面
键作用的氨基酸残基。
5
Blast简介(一)
BLAST 是由美国国立生物技术信息 中心(NCBI) 开发的一个基于序列相似性的数据库搜 索程序。
BLAST是“局部相似性基本查询工 具”(Basic Local Alignment Search Tool)的 缩写。
6
Blast简介(二)
Blast 是一个序列相似性搜索的程序包, 其中包含了很多个独立的程序,这些程序 是根据查询的对象和数据库的不同来定义 的。比如说查询的序列为核酸,查询数据 库亦为核酸序列数据库,那么就应该选择 blastn程序。 下表列出了主要的blast程序。
正因为存在这样的关系,很多时候对序列的 相似性和同源性就没有做很明显的区分,造成经 常等价混用两个名词。所以有出现A序列和B序 列的同源性为80%一说。
4
数据库搜索目的
确定特定的蛋白质或核酸序列有哪些已 知的直系同源或旁系同源序列。
确定哪些蛋白质和基因在特定的物种中 出现。
确定一个DNA或蛋白质序列身份。 发现新基因。 寻找对于一个蛋白质的功能或结构起关
白质序列具而共同祖先的结论,属于质的 判断。就是说A和B的关系上,只有是同 源序列,或者非同源序列两种关系。而说 A和B的同源性为80%都是不科学的。
3
相似性和同源性关系
序列的相似性和序列的同源性有一定的关系,一 般来说序列间的相似性越高的话,它们是同源序 列的可能性就更高,所以经常可以通过序列的相 似性来推测序列是否同源。
6
blastx
DNA
protein
blastx将一个DNA序列用所有可能的阅读框翻译成6个蛋白质, 然后将它们逐一与一个蛋白质数据库进行比较
tblastn protein
6
DNA
tblastn将一个DNA数据库中的每一条序列翻译成6种可能的蛋白质,然后将 要查询的蛋白序列与翻译的蛋白质逐一进行比较
tblastx DNA
12
Blast任务提交表单(一)
序列范围 (默认全部)
1.序列信息部分
填入查询(query)的序列 选择搜索数据库 如果接受其他参数默认 设置,点击开始搜索
13
Blast任务提交表单(二)
2.设置各种参数部分
设置搜索的范围,entrez关键词, 或者选择特定物种
一些过滤选项,包括简 单重复序列,人类基因
E value:在相同长度的情况下,两个氨基酸残基(或
碱基)随机排列的序列进行打分,得到上述Score值的 概率的大小。E值越小表示随机情况下得到该Score值的 可能性越低。
11
NCBI提供的Blast服务
登陆ncbi的 blast主页
核酸序列
蛋白序列
翻译序列
底下有其他一些针对 特殊数据库的和查看 以往的比对结果等
相关文档
最新文档