上机实习四：BLAST序列相似性搜索工具的使用

合集下载

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解BLAST（Basic Local Alignment Search Tool）是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。

BLAST程序能迅速与公开数据库进行相似性序列比较。

BLAST结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

Blast中常用的程序介绍：1、BLASTP是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。

与BLASTX相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。

此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。

下面是具体操作方法1，进入在线BLAST界面，可以选择blast特定的物种（如人，小鼠，水稻等），也可以选择blast所有的核酸或蛋白序列。

不同的blast程序上面已经有了介绍。

这里以常用的核酸库作为例子。

2，粘贴fasta格式的序列。

选择一个要比对的数据库。

关于数据库的说明请看NCBI在线blast数据库的简要说明。

一般的话参数默认。

3，blast参数的设置。

注意显示的最大的结果数跟E值，E值是比较重要的。

筛选的标准。

最后会说明一下。

4，注意一下你输入的序列长度。

注意一下比对的数据库的说明。

5，blast结果的图形显示。

没啥好说的。

6，blast结果的描述区域。

blast应用实例

blast应用实例Blast是一种常用的生物信息学工具，用于比对和分析生物序列。

它可以将一个或多个查询序列与数据库中的目标序列进行比对，通过比对结果提供有关序列相似性、保守区域和功能注释的信息。

以下是Blast应用的一些实例：1.从NCBI数据库搜索相似序列：Blast可以用于从NCBI的数据库中搜索与给定序列相似的序列。

例如，如果我们有一个未知的蛋白质序列，我们可以使用Blast将其比对到NCBI的非冗余蛋白质数据库上，以找到与之相似的蛋白质序列。

这对于鉴定新的蛋白质家族、推断功能等非常有用。

2.基因注释：Blast可以用于对新的基因序列进行功能注释。

例如，通过比对一个未知的DNA序列到已知的基因组序列数据库，我们可以获得对应的基因区域、编码蛋白质以及可能的功能信息。

这对于基因组学研究和药物研发很重要。

3.遗传多样性分析：Blast也可以用于研究不同物种或个体之间的遗传差异。

通过比对DNA或RNA序列，可以鉴定不同物种或个体之间的变异位点。

这对于研究进化、种群遗传学和物种鉴定具有重要意义。

4.病原体识别：Blast可以用于快速识别和鉴定病原体。

通过比对未知的病原体序列到已知的病原体数据库，可以确定其种类和亚型。

这对于疾病的诊断和流行病学研究非常有帮助。

5.系统发育分析：Blast在系统发育学中也被广泛应用。

通过比对多个物种的DNA或蛋白质序列，可以构建物种间的进化关系树。

这对于研究生物的进化历史和亲缘关系具有重要意义。

6.基因工程：Blast可以用于在已知的基因库中寻找与目标序列相似的基因。

这对于基因工程和生物治疗的设计和优化非常有用。

通过比对获取相关蛋白质、启动子、调控序列等信息，可以进行目标基因的定向改造和调节。

7.基因家族研究：Blast可以用于鉴定和研究特定基因家族。

通过比对已知基因家族的代表性成员，可以找到其他类似的基因序列。

这对于研究基因家族的进化、功能和调控具有重要意义。

8.转录因子结合位点预测：Blast可以用于识别和预测转录因子结合位点。

BLAST数据库相似性搜索

实用生物信息技术课程第4次作业BLAST数据库相似性搜索姓名________ 学号______________ 组号_____ 日期________年___月___日1.以人血红蛋白beta亚基（HBB_HUMAN）为检测序列，搜索Swiss-Prot数据库，找出灵长目动物（Primates）中与HBB_HUMAN序列相似性高于90%（Identity>90%）的beta珠蛋白（beta globin）。

2.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，用BlastP搜索Swiss-Prot数据库，改变种子序列字长（Word size）和计分矩阵（Scoring matrix），找出人珠蛋白家族12个成员。

3.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，用PSI-Blast搜索Swiss-Prot数据库，找出人珠蛋白家族成员脑红蛋白（Neuroglobin）。

4.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，用DELTA-Blast搜索Swiss-Prot数据库，找出人珠蛋白家族成员脑红蛋白（Neuroglobin）。

5.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，用tBlastN搜索RefSeq数据库中人珠蛋白家族mRNA序列，提取其编码区序列，进行多序列比对，分析结果。

6.以人血红蛋白alpha亚基（HBA_HUMAN）为检测序列，搜索RefSeq数据库中人、小鼠和大鼠三个物种珠蛋白家族mRNA序列，提取其编码区序列，进行多序列比对，分析结果。

7.查阅Blast网站帮助文档和相关文献，结合Blast算法，归纳总结Blast数据库相似性搜索的用法8.结合本人课题研究中的实例，说明Blast具体应用。

9.本地BLAST（选做题）1)下载玉米转录因子蛋白质序列和编码区核苷酸序列数据，构建本地BLAST数据库。

2)以拟南芥转录因子SPL3蛋白质序列为检索序列，用BlastP搜索玉米转录因子蛋白质序列中相似序列，用tBlastN搜索玉米转录因子编码区序列中相似序列，分析结果。

BLAST（序列相似性快速搜索工具）

BLAST（序列相似性快速搜索工具）
1. 什么是BLAST？
•BLAST的全称是Basic Local Alignment Search T ool（基本的局部比对搜索工具），基于一种局部最优的比对策略。

•BLAST是生命科学研究中常用的一套在核苷酸数据库或蛋白质数据库中进行序列相似性比对的一套分析工具
•BLAST算法是启发式算法。

首先将query序列打断成子片段，称之为seed words，然后将seed与预先索引好的序列进行比对，选择seed连续打分较高的位置采用动态规划算法进行延伸，延伸过程也会进行打分，当打分低于某一限度这一延伸过程就会被终止抛弃，最后产生了一系列的高得分序列。

最后还要使用E-value对其显著性进行评估，选出比对结果最好的序列。

•BLAST分为在线BLAST和本地化BLAST
IMAGE.png
2. BLAST程序类型
BLAST实际上是综合在一起的一组工具
的统称，它不仅可用于直接对蛋白质数据库和
核酸数据库进行搜索，而且可以将待搜索的核
酸序列翻译成蛋白质序列后再进行搜索，或者
反之，以提高搜索效率。

因此BLAST可以分
为 BLASTp、 BLASTn、 BLASTx、 tBLASTn、
tBLASTx。

IMAGE.jpg
IMAGE.png
3.BLAST 比对结果解读
实际应用中主要看E-value（E值越小越好），同时要求Score大于一定值。

图片来自MOOC。

BLAST序列相似性检索

BLAST序列相似性检索<zt>序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索，找出与之相似的序列，从而评判新测定的序列是重复别人的工作，还是在前人的基础上有所创新，或是发现了新的序列。

现在用于序列类似性检索的软件很多，下面主要介绍GenBank的序列类似性检索工具棗BLAST。

1. BLAST简介BLAST是Basic Local Alignment Search Tool的英文缩写，意即碱基局部对准检索工具，是一种序列类似性检索工具。

它采用统计学记分系统，能将真正配对的序列同随机产生的干扰序列区别开来；同时采用启发式算法系统，即采用的是局部对准算法(Local Alignment Algorithm)，而不是全序列对准算法(Global Alignment Algorithm)。

全序列对准算法是在检索结果中两个被比较序列所有片断均类似；而局部对准算法是找出两个被比较序列的“最类似”片断，并得出可能只包含两个序列的某个部分的对准结果。

在BLAST的基础上，NCBI又开发了BLAST 2.0、Gapped BLAST和PSI-BLAST。

BLAST 2.0•是一种新的BLAST 检索工具，它对BLAST作了改进，运行速度更快，灵敏度更高，同时具有Gapped BLAST和PSI-BLAST两种软件的新功能。

Gapped BLAST允许在对准的序列中引入空位(•碱基缺失或插入)，引入“空位”(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。

这些空位对准的记分系统更能反映相关序列的类似程度。

PSI-BLAST的全称是Position-Specific •Iterated BLAST，意即特殊位置重复BLAST，它提供了自动、易用的概貌(Profile)检索，是查找序列同源(Sequence Homologues)的有效方法。

目前，PSI-BLAST•仅用于比较蛋白质查询序列与蛋白质数据库中的序列的类似程度。

BLAST相似序列的数据库搜索

实习 4 ：BLAST相似序列的数据库搜索学号20090**** 姓名****** 专业年级生命生技****实验时间2012.6.19 提交报告时间2012.6.20实验目的：学习使用BLAST在数据库中搜索相似序列实验内容：使用NCBI上面的BLAST程序进行相似性序列搜索：1.把核酸序列利用BLASTN搜索相似核酸序列；2.把蛋白质序列对应的蛋白质利用BLASTP搜索相似蛋白质序列；3.把核酸序列利用BLAST搜索相似蛋白质序列并与BLASTP比较，体会差异：4.把蛋白质序列利用TBLASTN搜索相似核酸序列并与BLASTN比较，体会差异：5.把核酸序列利用TBLASTX搜索相似核酸序列并与BLASTN比较，体会差异。

作业：1. 找一条你感兴趣的核酸序列（可以是前面搜索到的同源核酸序列中任意一条），通过BLASTN搜索NR数据库，说明你的参数如何设置，分析搜索结果包含哪些信息。

答：使用的序列为：智人胰岛素（INS）>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA。

Algorithm parameters设置如下：参数：Enter Query Sequence——NM_001185098Choose Search Set——Database: Nucleoctide collection(nr); Exclude: √Models(XM/XP),√Uncultured/environmental ample sequencesProgram Selection——Optimize fot: Highly similar sequences展开“Algorithm parameters”，依次设置：General Parameters——Max target sequence：100; Short queries：√; Expect threshold：10;Word size：28; Max matches in a query range:0Scoring Parameters——Matrix/Mismatch Scores:1,-2; Gap Costs: LinearFilters and Masking——Filter: √Low complexity regions; √Mask: mask for lookup table only搜索结果分析：使用智人胰岛素（INS）>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA搜索NR数据库，搜索出100条符合条件的序列，序列来自的物种包括了Homo sapiens，Pan troglodytes，Gorilla gorilla，Pongo abelii，Pongo pygmaeus，Mus musculus等，其中根据得分高低排列，前7条序列如下所示：NM_001185098.1 Homo sapiens insulin (INS), transcript variant 3, mRNANM_001185097.1 Homo sapiens insulin (INS), transcript variant 2, mRNANM_000207.2 Homo sapiens insulin (INS), transcript variant 1, mRNANG_007114.1 Homo sapiens insulin (INS), RefSeqGene on chromosomeAC132217.15 Homo sapiens chromosome 11, clone RP11-889I17, complete sequenceBC005255.1 Homo sapiens insulin, mRNAJ00265.1 Human insulin gene, complete cds上述序列的“Max ident”均为100%或99%，且E-Value值很低，可见搜索出来的序列与QUERY序列匹配的相似度很高。

实验二序列相似性查询工具的使用

实验二序列相似性搜索软件—BLAST的使用一、实验目的：掌握序列相似性查询工具—BLAST使用方法和技巧，理解与序列相似性查询相关的几个基本概念。

二、实验原理：BLAST是基本的局部对位排列搜索工具，它通过搜索序列数据库来找出最优的无空位局部对比，从数据库中找出与查询序列的某些子序列相似的子序列。

三、实验器材：计算机，NCBI、EMBL生物信息学数据库的核苷酸序列、BLAST序列相似性搜索软件。

四、实验内容：应用上次或本次实验查找到的不同物种的不同基因组的核苷酸序列，在NCBI数据库中进行核苷酸序列的BLAST相似性搜索。

五、实验步骤：1、打开NCBI网站的主页，然后点击网页左侧工具栏中的Sequence analysis项，进入到序列分析的主页面。

2、然后点击序列分析工具栏中的BLAST选项，进入相似性搜索的界面，然后选择核苷酸序列搜索软件BLASTn。

3、在进入核苷酸序列相似性搜索的界面后，在界面上Enter Query Sequence后面的方框中输入需要进行相似性搜索的序列，然后点击BLAST检索按钮，就可以进行搜索。

4、在进入搜索结果的界面后，就可以得到搜索结果的可视化图像和搜索得到的相关序列。

六、实验要求：每个组每个同学至少用4条核苷酸序列进行BLAST相似性搜索。

将相似性搜索结果中的可视化图像和搜索的相关序列拷贝下来作为实验内容。

七、实验结果：例1：（物种名、基因名）实验结果：1. （冬虫夏草，18S-ITS1-5.8S-ITS2-28S）Legend for links to other resources:UniGene GEO Gene Structure Map Viewer PubChem BioAssaySequences producing significant alignments:Accession DescriptionMaxscore TotalscoreQuerycoverageEvalueMaxidentLinksHQ918290.1Paecilomyces sinensis 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomalRNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partial sequence11221122 98% 0.0 100%Sequences producing significant alignments:Accession DescriptionMaxscore TotalscoreQuerycoverageEvalueMaxidentLinksHM135164.1Paecilomyces sp. SJL0906 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomalRNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partial sequence10811081 98% 0.0 97%AB044644.1 Paecilomyces sp. 97014 gene for 18S rRNA, ITS1, 5.8S rRNA, ITS2, 26S rRNA, partial and complete sequence 10771077 98% 0.0 97%AY491998.1Paecilomyces sp. NSP-2003 18S ribosomal RNA gene, partial sequence; intern al transcribed spacer 1, 5.8S ribosomalRNA gene, and internal transcribed spacer 2, complete sequence; and 26S ribosomal RNA gene, partial sequence10381038 96% 0.0 97% 2. （枯草杆菌，16s）Distribution of 107 Blast Hits on the Query SequenceLegend for links to other resources: UniGene GEO Gene Structure Map Viewer PubChem BioAssaySequences producing significant alignments:Accession Description Max score Total score Q uery coverage E value Max ident Links HQ731481.1 Bacillus subtilis strain G1 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%HQ232423.1 Bacillus tequilensis strain A-21 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%HQ687501.1 Bacillus subtilis strain KJB06-35 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%HQ625387.1 Bacillus subtilis subsp. spizizenii strain RRLKE2 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%HQ327126.1 Bacillus subtilis strain TP-Snow-C17 16S ribosomal RNA gene, partial sequence 15161516 100% 0.0 100%3. （松材线虫，18S-ITS1-5.8S-ITS2-28S）Distribution of 120 Blast Hits on the Query SequenceLegend for links to other resources: UniGene GEO Gene Structure Map Viewer PubChem BioAssaySequences producing significant alignments:Accession DescriptionMaxscore TotalscoreQuerycoverageEvalueMaxidentLinksJF317234.1Bursaphelenchus xylophilus isolate 121AD 18S ribosomal RNA gene, partial sequence; internal transcribed spacer1, 5.8S ribosomal RNA gene, and internal transcr ibed spacer 2, complete sequence; and 28S ribosomal RNA gene,partial sequence16621662 100% 0.0 100%JF317232.1Bursaphelenchus xylophilus isolate 4049 18S ribosomal RNA gene, partial sequence; internal transcribed spacer1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene,partial sequence16621662 100% 0.0 100%JF317233.1Bursaphelenchus xylophilus isolate 39906 18S ribosomal RNA gene, partial sequence; internal tr anscribed spacer1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene,partial sequence16271627 100% 0.0 99%EU259322.1Bursaphelenchus xylophilus strain XM_1 18S ribosomal RNA gene,partial sequence; internal transcribed spacer 1,5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partialsequence16271627 100% 0.0 99%AM157747.1Bursaphelenchus xylophilus 18S rRNA gene (partial), ITS1, 5.8S rRNA gene, ITS2 and 28S rRNA gene (partial), strainPT1w16181618 100% 0.0 98%JF317229.1Bursaphelenchus xylophilus isolate CA 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1,5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partialsequence16061606 100% 0.0 98%4. （蛹虫草，18S-ITS1-5.8S-ITS2-28S）Distribution of 100 Blast Hits on the Query SequenceLegend for links to other resources:UniGene GEO Gene Structure Map Viewer PubChem BioAssaySequences producing significant alignments:Accession DescriptionMaxscore TotalscoreQuerycoverageEvalueMaxidentLinksHM135161.1Cordyceps militaris strain JM0807 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8Sribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosomal RNA gene, partialsequence10671067 100% 0.0 100%AB070375.2Cordyceps militaris genes for 18S rRNA, ITS1, 5.8S rRNA, ITS2, 28S rRNA, partial and complete sequence, strain:IFO3037710611061 100% 0.0 99%EU273506.1Cordyceps militaris isolate XSD-27 18S ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8Sribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and 28S ribosom al RNA gene, partialsequence10581058 100% 0.0 99%AB233336.1Cordyceps militaris genes for 18S ribosomal RNA, internal transcribed spacer 1, 5.8S ribosomal RNA, internaltranscribed spacer 2, 28S ribosomal RNA, partial and complete sequence, strain: BCMU CM1610581058 100% 0.0 99% AB070374.2Cordyceps militaris genes for 18S rRNA, ITS1, 5.8S rRNA, ITS2, 28S rRNA, partial and complete sequence, strain:IFO978710581058 100% 0.0 99% AB027379.1 Cordyceps militaris genes for 18S rRNA, ITS1, 5.8S rRNA, ITS2, 28S rRNA, partial and complete sequence 10581058 100% 0.0 99%。

生物序列的相似性搜索-blast简介及其应用

13
两种版本的Blast比较（一）
网络版本包括NCBI在内的很多网站都提供了在线的blast服务，这也是我们最经常用到的 blast服务。网络版本的blast服务就有方便，容易操作，数据库同步更新等优点。但是缺点是不利于操作大批量的数据，同时也不能自己定义搜索的数据库。
14
两种版本的Blast比较（二）
详细的比对上的序列的排列情况
25
一个具体的例子（blastp）
假设以下为一未知蛋白序列
>query_seq MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTAS WFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKEL SPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATV LQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARM ASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRT ATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFG MSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDK KKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADST QA
17
NCBI提供的Blast服务
登陆ncbi的 blast主页
核酸序列
蛋白序列
翻译序列
底下有其他一些针对特殊数据库的和查看以往的比对结果等

Blast使用技巧解析

29
两个蛋白是否有共同的模体或信号序列. 两个蛋白质是不是一个合理的多序列比对的
一局部两个蛋白质是否共有一个相像的生物学功能. 两个蛋白质是否具有相像的三维构造. PSI-BLAST搜寻
30
BLAST搜寻策略调整
搜寻结果过多状况加Entrez限制条件利用序列的一局部进展搜寻调整记分矩阵调整期望值搜寻结果过少状况去掉Entrez限制提高期望值使用更高PAM值或更低BLOSUM值的记分矩阵高级BLAST搜寻
选择需要显示的选项以及显示的文件格式
显示数目
Alignment的显
筛选结果
示方式
点击开头搜寻
其他一些显示格式参数
15
提交任务
返回查询号〔request id〕修改完显示格式后点击进入结果界面
可以修改显示结果格式
16
结果页面〔一〕
图形示意结果
17
结果页面〔二〕
目标序列描述局部
带有genbank的链接，点击可以进入相应的genbank序列
34
PSI-blast
Position specific iterative BLAST (PSI-BLAST) 位点特异的迭代blast搜寻，主要针对蛋白序列。第一次blast搜寻后，结果中最相像的序列重新构建 PSSM (位点特异性打分矩阵)，然后再使用该矩阵进展其次轮blast搜寻，再调整矩阵，搜寻，如此迭代。
最终高度保守的区域就会得到比较高的分值，而不保守的区域则分数降低，趋近0。这样可以提高blast搜寻的灵敏度，有助于查找远源相关的蛋白。
35
PHI-BLAST
模式识别BLAST〔Pattern hit intiated BLAST〕

BLAST与序列相似性搜索上机

NCBI与Genbank
Bioinformatics, 2008-2009,June, TMMU
进入Genbank
Bioinformatics, 2008-2009,June, TMMU
进入EntreZ
Bioinformatics, 2008-2009,June, TMMU
搜索Genbank中的核酸序列
特性
Bioinformatics, 2008-2009,June, TMMU
GenBank的主要字段及其含义
字段
LOCUS ACCESSION DEFINITION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL COMMENTS MEDLINE FEATURES BASE COUNT ORIGIN //
Gene Info
基因名称
染色体信息
Bioinformatics, 2008-2009,June, TMMU
结论1：
这个基因是小鼠的Nek2 NIMA基因，基因标识符是：NM_010892.3；该基因定位于小鼠的1号染色体，位置：193399659193737126
Bioinformatics, 2008-2009,June, TMMU
Conserved Domains: S_TKc
Bioinformatics, 2008-2009,June, TMMU
发掘人中该同源蛋白的功能
上机实验一
BLAST与数据库相似性搜索
微生物学教研室
邹凌云
Bioinformatics, 2008-2009, June, TMMU
教学内容
了解
常用生物信息学数据库的数据格式

BLAST使用教程

BLAST (Basic Local Alignment Search Tool)NCBI采用的一套对蛋白质数据库或DNA数据库中进行相似性比较的分析工具(当然很多其它生物学数据库都提供了BLAST检索入口)。

您只需提交您的序列，通过BLAST查询就顷刻间从公开数据库中无数的的序列里找到相似序列。

BLAST结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

如果您想进一步了解BLAST算法，您可以参考NCBI的BLAST Course ，该页有BLAST算法的介绍。

BLAST功能是什么？BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。

BLAST还能发现具有缺口的能比对上的序列。

BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。

从最初的BLAST发展到现在NCBI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。

BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。

所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。

GCG及EMBOSS等软件包中包含有五种BLAST：1、BLASTP是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

第四章序列相似性搜索工具blast

“The central idea of the BLAST algorithm is to confine attention to segment pairs that contain a word pair of length w with a score of at least T.”
Altschul et al. (1990)
KENFDKARFSGTWYAMAKKDPEG 50 RBP (query) MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit)
extend
Hit!
extend
How a BLAST search works: 3 phases
Phase 3: In the original (1990) implementation of BLAST, hits were extended in either direction.
一、 BLAST 简介
BLAST程序是目前最常用的基于局部相似性的数据库搜索程序，它们都基于查找完全匹配的短小序列片段，并将它们延伸得到较长的相似性匹配。它们的优势在于可以在普通的计算机系统上运行，而不必依赖计算机硬件系统而解决运行速度问题。
BLAST数据库搜索策略
BLAST仅通过部分而不是全部序列计算最适联配值 ——赢得搜索速度
5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
TWO ASPECTS OF BLAST
BLAST ALGORITHM
Word Hit Heuristic
BLAST STATISTCS
Karlin-Altschul statistics: a general theory of alignment statistics Applicability goes well beyond BLAST

blastp 用法

BLASTP（Basic Local Alignment Search Tool，简称BLAST）是一种在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。

它可以迅速与公开数据库进行相似性序列比较，结果中的得分是对一种对相似性的统计说明。

BLASTP的使用方法如下：
1. 输入需要检测的蛋白质序列，可以使用单字母简写。

2. 输入两个数值，以确定检测范围。

若全部比对则不需输入。

3. 输入此次检测的标题名称。

4. 一些基本设定，比如比对结果的格式等。

5. 点击“BLAST”开始工作。

6. 查看比对结果，包括比对的两个序列的信息、比对得分、E值、长度、标识号等。

请注意，对于一些高级参数，您可能需要参考NCBI的官方指南或咨询专业人员以获取更详细的信息。

此外，为了获得更好的比对结果，您可能需要优化您的数据库和查询序列，或者尝试使用不同的BLAST参数和设置。

序列相似性检索工具BLAST的使用和检索

序列相似性检索工具BLAST的使用和检索
宋凌云
【期刊名称】《情报探索》
【年(卷),期】2008(000)004
【摘要】介绍了局部序列对齐检索工具中的BLAST系统的使用和检索,以及BLAST程序的功能、进入途径、页面结构、检索方法、结果组成分析等方面.【总页数】2页(P74-75)
【作者】宋凌云
【作者单位】遵义医学院珠海校区图书馆,广东珠海,519041
【正文语种】中文
【中图分类】G35
【相关文献】
1.BLAST序列比对与生物医学文献检索 [J], 丁六松;张宇伟
2.基于离散余弦变换的时间序列相似性检索 [J], 刘端阳;张瑞强
3.医学文献检索与检索工具书的使用技巧 [J], 范文田
4.检索工具在互联网教育资源检索中的使用 [J], 王小辉
5.BLAST调整和干预对生物序列检索质量和效率的影响 [J], 李世超;梁韶;贾星航;黄利
因版权原因，仅展示原文概要，查看原文内容请购买。

生物序列的同源性搜索blast简介及其应用

下表列出了主要的blast程序。
9
主要的blast程序
程序名 Blastn Blastp Blastx Tblastn TBlastx 查询序列核酸蛋白质核酸蛋白质核酸数据库核酸蛋白质蛋白质核酸核酸搜索方法核酸序列搜索逐一核酸数据库中的序列蛋白质序列搜索逐一蛋白质数据库中的序列核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。蛋白质序列和核酸数据库中的核酸序列6 框翻译后的蛋白质序列逐一比对。核酸序列6框翻译成蛋白质序列，再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。
筛选结果
点击开始搜索
其他一些显示格式参数
21
提交任务
返回查询号（request id）
修改完显示格式后点击进入结果界面
可以修改显示结果格式
22
结果页面（一）
图形示意结果
23
结果页面（二）
目标序列描述部分
带有genbank的链接，点击可以进入相应的genbank序列
匹配情况，分值，e值
24
结果页面（三）
15
本地WEB版的Blast
在NCBI的FTP上，在blast程序的目录下，还提供了一种供用户在自己的服务器上建立Blast网页服务的软件包(wwwblast)。使用该软件包，用户可以建立一个简易的进行Blast运算的网站供实验室人员使用。用于搜索的数据库同样可以灵活的定义。
16
Blast程序评价序列相似性的两个数据
也可以选择tblastn
作为演示，我们这里选blastp
28
分析过程（二）
3.填入序列（copy＋paste） Fasta格式，或者纯序列 4.选择搜索区域，这里我们要搜索整个序列，不填 5.选择搜索数据库，这里我们选nr(非冗余的蛋白序列库)。是否搜索保守区域数据库（cdd），蛋白序列搜索才有。我们选上

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Assessing whether proteins are homologous
RBP4 and PAEP: Low bit score, E value 0.49, 24% identity (“twilight zone”). But they are indeed homologous. Try a BLAST search with PAEP as a query, and find many other lipocalins.
cut-off parameters
BLAST search strategies
General concepts How to evaluate the significance of your results
How to handle too many results
How to handle too few results
Step 3: choose the database
nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences htgs = high throughput genomic sequence
Sometimes a real match has an E value > 1
…try a reciprocal BLAST to confirm
Sometimes a similar E value occurs for a short exact match and long less exact match
• 选择搜索的物种 • 选择过滤条件，过滤掉查询序列中具有较低复杂度的掩盖部分 • 选择记分矩阵。对于blastp有5种矩阵：PAM30， PAM70， BLOSUM45，BLOSUM62 (默认值)以及 BLOSUM80。 • 期望值的默认设定值是10。在这个E值下，随机出现得分等于或高于比对得分S的期望数为10个。当将期望选项值调小时，返回的数据库搜索结果将变少；匹配被搜索到的概率也会变小。增大E值将返回更多的结果 • 字段长度。默认值 BLASTp为3，BLASTn为11 • 返回结果的格式
filtering
Step 4b: optional formatting parameters
Alignment view Descriptions Alignments
program
query database taxonomy
taxonomy
High scores low e values Cut-off: .05? 10-10?
Step 1: Choose your sequence
上机实习四：
Sequence can be input in FASTA format or as accessi的使用
BLAST搜索的4个步骤
①选择你所感兴趣的序列号或序列，将它粘贴到BLAST的输入框中。 ②选择一个BLAST程序(blastp，blastn，blastx，tblastx， tblastn)。 ③选择一个用于搜索的数据库。一个通常的选择是去冗余 (nr)。 ④为搜索和输出格式选择可选参数。
Example of the FASTA format for a BLAST query
Step 2: Choose the BLAST program
Step 2: Choose the BLAST program
blastn (nucleotide BLAST) blastp (protein BLAST) tblastn (translated BLAST) blastx (translated BLAST) tblastx (translated BLAST)
We will get to the bottom of a BLAST search in a few minutes…
EVD parameters
BLOSUM matrix gap penalties 10.0 is the E value Effective search space = mn = length of query x db length threshold score = 11
Step 4a: Select optional search parameters
CD search
Step 4a: Select optional search parameters
Entrez!
Filter
Expect Word size Scoring matrix
organism
BLAST: 选择参数