blast中文教程--参数

合集下载

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解

BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA

数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

Blast中常用的程序介绍:

1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。

下面是具体操作方法

1,进入在线BLAST界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。不同的blast程序上面已经有了介绍。这里以常用的核酸库作为例子。

2,粘贴fasta格式的序列。选择一个要比对的数据库。关于数据库的说明请看NCBI在线blast数据库的简要说明。一般的话参数默认。

blast 短序列比对参数

blast 短序列比对参数

blast 短序列比对参数

短序列比对参数是用于比对短序列(例如DNA片段或RNA片段)的一组设定,用于找出这些短序列在参考基因组或转录组中的位置

和相似性。以下是一些常见的短序列比对参数:

1. 匹配分数(Match Score),当两个碱基相匹配时所加的分数。通常设定为正数,表示匹配的得分。

2. 不匹配分数(Mismatch Penalty),当两个碱基不匹配时所

减的分数。通常设定为负数,表示不匹配的惩罚分数。

3. 开端惩罚(Gap Opening Penalty),在序列比对过程中,

开启一个新的缺失或插入时所施加的惩罚分数。

4. 延伸惩罚(Gap Extension Penalty),在序列比对过程中,延伸一个已开启的缺失或插入时所施加的惩罚分数。

5. 最小匹配长度(Minimum Match Length),指定比对结果中

所需的最小匹配长度。

6. 比对算法(Alignment Algorithm),选择用于短序列比对的具体算法,常见的包括Smith-Waterman算法和BLAST算法等。

这些参数的设定会影响短序列比对的准确性、灵敏度和速度。根据具体的研究目的和数据特点,科研人员需要根据实际情况来选择合适的参数设定,以获得准确的比对结果。同时,不同的比对工具可能会有不同的参数命名和设定方式,因此在使用特定的比对工具时需要参考相应的文档和指南来设定参数。

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解

N C B I在线B L A S T使用方法与结果详解

BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST 结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

Blast中常用的程序介绍:

1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。

NCBI的在线BLAST:

下面是具体操作方法

1,进入在线BLAST界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。不同的blast程序上面已经有了介绍。这里以常用的核酸库作为例子。

Blast使用方法攻略

Blast使用方法攻略

Blast使⽤⽅法攻略

结果12列

Query id,Subject id,% identity,alignment length,mismatches,gap openings,q. start,q. end,s. start,s. end,e-value,bit score

Blast,全称Basic Local Alignment Search Tool,即"基于局部⽐对算法的搜索⼯具",由Altschul等⼈于1990年发布。Blast能够实现⽐较两段核酸或者蛋⽩序列之间的同源性的功能,它能够快速的找到两段序列之间的同源序列并对⽐对区域进⾏打分以确定同源性的⾼低。

Blast的运⾏⽅式是先⽤⽬标序列建数据库(这种数据库称为database,⾥⾯的每⼀条序列称为subject),然后⽤待查的序列(称为 query)在database中搜索,每⼀条query与database中的每⼀条subject都要进⾏双序列⽐对,从⽽得出全部⽐对结果。

Blast是⼀个集成的程序包,通过调⽤不同的⽐对模块,blast实现了五种可能的序列⽐对⽅式:

blastp:蛋⽩序列与蛋⽩库做⽐对,直接⽐对蛋⽩序列的同源性。

blastx:核酸序列对蛋⽩库的⽐对,先将核酸序列翻译成蛋⽩序列(根据相位可以翻译为6种可能的蛋⽩序列),然后再与蛋⽩库做⽐对。

blastn:核酸序列对核酸库的⽐对,直接⽐较核酸序列的同源性。

tblastn:蛋⽩序列对核酸库的⽐对,将库中的核酸翻译成蛋⽩序列,然后进⾏⽐对。

tblastx:核酸序列对核酸库在蛋⽩级别的⽐对,将库和待查序列都翻译成蛋⽩序列,然后对蛋⽩序列进⾏⽐对。

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解

BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA

数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

Blast中常用的程序介绍:

1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。

下面是具体操作方法

1,进入在线BLAST界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。不同的blast程序上面已经有了介绍。这里以常用的核酸库作为例子。

2,粘贴fasta格式的序列。选择一个要比对的数据库。关于数据库的说明请看NCBI在线blast数据库的简要说明。一般的话参数默认。

完整word版,BLAST相关术语及参数详解

完整word版,BLAST相关术语及参数详解

Alignment: 序列比对。将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较它们的保守性),这样可以评估序列间的相似性和同源性。Algorithm: 算法。在计算机程序中包含的一种固定过程。

Bit score: 二进制。二进制值S'源于统计性质被数量化的打分系统中产生的原始比对分数S。由于二进制值相对于打分系统已经被标准化,它们常用于比较不同搜索之间的比对分数。

BLOSUM: 模块替换矩阵。在替换矩阵中,每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得的。每个矩阵被修改成一个特殊的进化距离。例如,在BLOSUM62矩阵中,是使用一致性不超过62%的序列进行配对来获得打分值的。一致性大于62%的序列在配对时用单个序列表示,以避免过于强调密切相关的家族成员。Conservation: 保守。指氨基酸或DNA(普遍性较小)序列某个特殊位置上的改变,并不影响原始序列的物理化学性质。

Domain: 结构域。蛋白质在折叠时与其他部分相独立的一个不连续的部分,它有着自己独特的功能。

DUST: 一个低复杂性区段过滤程序。

E value: E值。期望值。在一个数据库中所搜索到的打分值等于或大于S的不同比对的个数。E值越低,表明该打分值的显著性越好。

Filtering: 过滤,也叫掩蔽(masking)。指对那么经常产生乱真的高分数的核苷酸或氨基酸序列区域进行隐藏的过程。

Gap: 空位。在两条序列比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除。为了避免在比对时出现太多的空位,可以在收入空位的同时,从比对的打分值中减去一个固定值(空位值)。在多余的核苷酸或氨基酸周围引入空位时,也要对比对的打分值进行罚分。

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解

BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA

数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

Blast中常用的程序介绍:

1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。

下面是具体操作方法

1,进入在线BLAST界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。不同的blast程序上面已经有了介绍。这里以常用的核酸库作为例子。

2,粘贴fasta格式的序列。选择一个要比对的数据库。关于数据库的说明请看NCBI在线blast数据库的简要说明。一般的话参数默认。

blast中文教程

blast中文教程

常用算法
动态规划算法:(dynamic programming)计算 两个序列间的最大可能的相似性,可以处理 碱基替换和间隔(即gap,包括缺失和插入), 具有很高的敏感性,但是计算量非常大,对 于一对长度分别为m和n个元素的序列需要正 比于m x n次(O(mn)次)比较,只有在超级计 算机或大型并行计算机上才能实现。 间接的启发式算法(indirect, heuristic):是基于 字串的方法,首先将序列分解成由连续字母 组成的短串,把查询序列中的所有字串编成 索引,并且在数据库扫描中查询这些索引, 一个能够揭示出正确的序列关系的比对至少 包含一个两个序列都拥有的字串,这种算法 在速度上大大提高了(FASTP, FASTA) 。
安装本地BLAST程序
Unix/linux平台: (1)ftp到ftp.ncbi.nih.gov/blast下载相应 的软件包,在单独的目录里解开压缩 包。 (2)创建.ncbirc文件 [NCBI] Data="path/data/“ (3)format自己的数据库
安装本地BLAST程序
Windows平台: (1)下载并解压缩得到blastcz.exe。 (2)创建ncbi.ini 文件 [NCBI] Data="C:\path\data\“ (3)format自己的数据库
Matrix
取代矩阵:在相关蛋白质之间,某些 氨基酸可以很容易地相互取代而不用 改变它们的生理生化性质,这些保守 取代的例子包括异亮氨酸(Ile)和颉氨 酸(Val)(都是体积小,疏水氨基酸) , 丝氨酸(Ser)和苏氨酸(Thr) (都是极 性) 。在计算比对分之时,相同的氨 基酸打分会高于取代的氨基酸,而保 守的取代打分高于非保守变化,取代 矩阵增强了比对的敏感性 。

NCBI在线版Blast使用(超详细奥)

NCBI在线版Blast使用(超详细奥)

NCBI在线版Blast使⽤(超详细奥)

⾸先进⾏Blast类型的选择:

blastp:将待查询的蛋⽩质序列及其互补序列⼀起对蛋⽩质序列数据库进⾏查询;blastn:将待查询的核酸序列及其互补序列⼀起对核酸序列数据库进⾏查询;blastx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋⽩质序列,然后将翻译结果对蛋⽩质序列数据库进⾏查询;tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋⽩质序列,然后将待查询的蛋⽩质序列及其互补序列对其翻译结果进⾏查询;tblastx:先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋⽩质序列,然后再将两种翻译结果从蛋⽩质⽔平进⾏查询。

基本步骤如下:

1,进⼊在线blast界⾯,可以选择blast特定的物种(如下)。不同的blast程序上⾯已经有了介绍。这⾥以常⽤的Blast 中nucleotide blast作为例⼦。

Human ⼈类

Mouse ⼩⿏

Rat ⼤⿏

Arabidopsis thaliana 拟南芥

Oryza sativa ⽔稻

Bos taurus ⽜

Danio rerio 斑马鱼

Drosophila melanogaster ⿊腹果蝇

Gallus gallus 乌⾻鸡

Pan troglodytes ⿊猩猩

Microbes 微⽣物

Apis mellifera 蜜蜂

2,粘贴fasta格式的序列(可以是多条奥!!)或使⽤Accession number(s)、gi(s)(注意仅使⽤数字,不加上标志符gi)。选择⼀个要⽐对的数据库,如果是⼈和⿏则进⾏相应的选择,否则选择Others中的nr/nt 。关于数据库的说明请看NCBI在线blast数据库的简要说明。其他选项不是必选的,如Job Title就是这次⽐对的名字,随便起⼀个即可;Organism为物种,可以填⼊你想⽐对的物种(分类单元如green plant等)的名字(拉丁名字,输⼊⼏个字母后会出现索引的)。第⼀个直接填⼊框中,往后需要点击⼀下加号后才能继续添加,选择Exclude就是与这些物种以外的物种序列进⾏⽐对。另外对于Limit by Entrez Query这⼀部分也为选填内容,若填写可以进⾏更为有效的限制,如可以限制分⼦类型、序列长度等等。具体限制内容如下:

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解

BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA 数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

Blast中常用的程序介绍:

1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一

地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同

所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和

所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。

下面是具体操作方法

1,进入在线BLAST界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。不同的blast程序上面已经有了介绍。这里以常用的核酸库作为例子。

2,粘贴fasta格式的序列。选择一个要比对的数据库。关于数据库的说明请看NCBI在线blast数据库的简要说明。一般的话参数默认。

完整word版,BLAST相关术语及参数详解

完整word版,BLAST相关术语及参数详解

Alignment: 序列比对。将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较它们的保守性),这样可以评估序列间的相似性和同源性。Algorithm: 算法。在计算机程序中包含的一种固定过程。

Bit score: 二进制。二进制值S'源于统计性质被数量化的打分系统中产生的原始比对分数S。由于二进制值相对于打分系统已经被标准化,它们常用于比较不同搜索之间的比对分数。

BLOSUM: 模块替换矩阵。在替换矩阵中,每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得的。每个矩阵被修改成一个特殊的进化距离。例如,在BLOSUM62矩阵中,是使用一致性不超过62%的序列进行配对来获得打分值的。一致性大于62%的序列在配对时用单个序列表示,以避免过于强调密切相关的家族成员。Conservation: 保守。指氨基酸或DNA(普遍性较小)序列某个特殊位置上的改变,并不影响原始序列的物理化学性质。

Domain: 结构域。蛋白质在折叠时与其他部分相独立的一个不连续的部分,它有着自己独特的功能。

DUST: 一个低复杂性区段过滤程序。

E value: E值。期望值。在一个数据库中所搜索到的打分值等于或大于S的不同比对的个数。E值越低,表明该打分值的显著性越好。

Filtering: 过滤,也叫掩蔽(masking)。指对那么经常产生乱真的高分数的核苷酸或氨基酸序列区域进行隐藏的过程。

Gap: 空位。在两条序列比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除。为了避免在比对时出现太多的空位,可以在收入空位的同时,从比对的打分值中减去一个固定值(空位值)。在多余的核苷酸或氨基酸周围引入空位时,也要对比对的打分值进行罚分。

BLAST相关术语及参数详解

BLAST相关术语及参数详解

Alignm‎e nt: 序列比对。将两个或多个‎序列排在一起‎,以达到最大一‎致性的过程(对于氨基酸序‎列是比较它们‎的保守性),这样可以评估‎序列间的相似‎性和同源性。

Algori‎t hm: 算法。在计算机程序‎中包含的一种‎固定过程。

Bit score: 二进制。二进制值S'源于统计性质‎被数量化的打‎分系统中产生‎的原始比对分‎数S。由于二进制值‎相对于打分系‎统已经被标准‎化,它们常用于比‎较不同搜索之‎间的比对分数‎。BLOSUM‎:模块替换矩阵‎。在替换矩阵中‎,每个位置的打‎分是在相关蛋‎白局部比对模‎块中观察到的‎替换的频率而‎获得的。每个矩阵被修‎改成一个特殊‎的进化距离。例如,在BLOSU‎M62矩阵中‎,是使用一致性‎不超过62%的序列进行配‎对来获得打分‎值的。一致性大于6‎2%的序列在配对‎时用单个序列‎表示,以避免过于强‎调密切相关的‎家族成员。Conser‎v ation‎:保守。指氨基酸或D‎N A(普遍性较小)序列某个特殊‎位置上的改变‎,并不影响原始‎序列的物理化‎学性质。

Domain‎:结构域。蛋白质在折叠‎时与其他部分‎相独立的一个‎不连续的部分‎,它有着自己独‎特的功能。

DUST: 一个低复杂性‎区段过滤程序‎。

E value: E值。期望值。在一个数据库‎中所搜索到的‎打分值等于或‎大于S的不同‎比对的个数。E值越低,表明该打分值‎的显著性越好‎。

Filter‎i ng: 过滤,也叫掩蔽(maskin‎g)。指对那么经常‎产生乱真的高‎分数的核苷酸‎或氨基酸序列‎区域进行隐藏‎的过程。

blast 参数

blast 参数

blast 参数

一、什么是 blast

blast(Basic Local Alignment Search Tool)是一种用于序列比对的常用工具,它可以帮助研究人员在已知序列数据库中寻找相似序列。blast是一种快速、准确、高效的序列比对算法,被广泛应用于生物信息学领域。

二、blast 参数概述

blast 提供了多种参数选项,可以根据具体的研究需求进行调整,以达到最佳的比对结果。

2.1、算法参数

•word_size:该参数用于指定比对过程中使用的单词的长度。较大的值可以增加比对的灵敏度,但需要更多的计算资源和时间。默认值为 11。•evalue:该参数用于设置期望值(E值),表示比对结果的期望误差数。较小的 E 值表示较低的误差率,但也可能导致更多的假阳性结果。

•gapopen和gapextend:这两个参数分别用于设置开放缺口(gapopen)和扩展缺口(gapextend)的分值。开放缺口分值表示序列中插入缺失的惩罚,

扩展缺口分值表示连续缺失的惩罚。适当设置这两个参数可以调整比对的严

格性。

2.2、数据库参数

•db:该参数用于指定比对过程中使用的数据库。blast 提供了多个预构建的数据库,例如 NCBI 的 nr 和 SwissProt 数据库等。

•num_alignments:该参数用于设置要返回的比对结果的数量。较大的值可以获取更全面的结果,但也会增加计算时间和资源消耗。

2.3、输出参数

•outfmt:该参数用于设置输出结果的格式。blast 提供了多种格式选项,例如纯文本格式、HTML 格式和 XML 格式等。

BLAST相关术语及参数详解

BLAST相关术语及参数详解

Alignment: 序列比对。将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较它们的保守性),这样可以评估序列间的相似性和同源性。Algorithm: 算法。在计算机程序中包含的一种固定过程。

Bit score: 二进制。二进制值S'源于统计性质被数量化的打分系统中产生的原始比对分数S。由于二进制值相对于打分系统已经被标准化,它们常用于比较不同搜索之间的比对分数。

BLOSUM: 模块替换矩阵。在替换矩阵中,每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得的。每个矩阵被修改成一个特殊的进化距离。例如,在BLOSUM62矩阵中,是使用一致性不超过62%的序列进行配对来获得打分值的。一致性大于62%的序列在配对时用单个序列表示,以避免过于强调密切相关的家族成员。Conservation: 保守。指氨基酸或DNA(普遍性较小)序列某个特殊位置上的改变,并不影响原始序列的物理化学性质。

Domain: 结构域。蛋白质在折叠时与其他部分相独立的一个不连续的部分,它有着自己独特的功能。

DUST: 一个低复杂性区段过滤程序。

E value: E值。期望值。在一个数据库中所搜索到的打分值等于或大于S的不同比对的个数。E值越低,表明该打分值的显著性越好。

Filtering: 过滤,也叫掩蔽(masking)。指对那么经常产生乱真的高分数的核苷酸或氨基酸序列区域进行隐藏的过程。

Gap: 空位。在两条序列比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除。为了避免在比对时出现太多的空位,可以在收入空位的同时,从比对的打分值中减去一个固定值(空位值)。在多余的核苷酸或氨基酸周围引入空位时,也要对比对的打分值进行罚分。

BLAST使用教程

BLAST使用教程

BLAST (Basic Local Alignment Search Tool)NCBI采用的一套对蛋白质数据库或DNA数据库中进行相似性比较的分析工具(当然很多其它生物学数据库都提供了BLAST检索入口)。您只需提交您的序列,通过BLAST查询就顷刻间从公开数据库中无数的的序列里找到相似序列。BLAST结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。如果您想进一步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。

BLAST功能是什么?

BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST还能发现具有缺口的能比对上的序列。

BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。从最初的BLAST发展到现在NCBI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。GCG及EMBOSS等软件包中包含有五种BLAST:

1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解

BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA

数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

Blast中常用的程序介绍:

1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。

NCBI的在线BLAST:/Blast.cgi

下面是具体操作方法

1,进入在线BLAST界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。不同的blast程序上面已经有了介绍。这里以常用的核酸库作为例子。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

BLAST程序的参数
-m 6:显示query在所有subjects上的定位信息但是不显示每个碱基/氨基酸的 比对信息,补充“-”对齐比对区域,不显示subjects之间的差异
例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 6”
1) “blastall -p blastp -i AtAP3_P.txt -d OsMADS_P.txt -o OsAP3_blastp_5e-30_G12.out -e 5e-30 -G 12” 2) “blastall -p blastp -i AtAP3_P.txt -d OsMADS_P.txt -o OsAP3_blastp_5e-30_G12.out -e 5e-30 -G 10”
-m 11:输出文件为二进制文件
BLAST程序的参数
7、-F Filter query sequence (DUST with blastn, SEG with others) [String] (default = T)
用来屏蔽简单重复和低复杂度序列的参数,有T和F两个选项,选择“T”,则 程序在比对过程中会屏蔽掉query序列中的简单重复和低复杂度序列;选择 “F”则不会屏蔽。默认值是“T”
保存为 保存位置
ncbi.ini
C:\WINDOWS
Windows系统下BLAST程序的运行
BLAST程序的参数
1、 -p Program Name [String]
该参数p代表的是“program”,用来选择程序。其包含五个选项: blastp、blastn、blastx、tblastn和tblastx。 (1) -p blastp:用蛋白质序列搜索蛋白质序列库 (2) -p blastn:用核酸序列搜索核酸库 (3) -p blastx:核酸序列对蛋白质库的比对,核酸序列在比对之前自动 按照六个读码框翻译成蛋白质序列 (4) -p tblastn:蛋白质序列对核酸库的比对,核酸库中的序列按照六个 读码框翻译后与蛋白质序列进行比对搜索 (5) -p tblastx:核酸序列对核酸库在蛋白质质级别的比对,两者都在搜 索之前翻译成为蛋白质质进行比对
win32 - windows 32位操作系统;win64 - windows 64位操作系统,目前多数是win32的
Windows系统下BLAST程序的安装
BLAST程序的的安装:解压缩到某个文件夹
自动生成三个文件夹—bin、data和doc
Windows系统下BLAST程序的安装
[NCBI] DATA="D:\blast\data"
BLAST程序的参数
-m 2:显示query在所有subjects上的定位信息但是不显示一致性比对信息, subject之间不同的碱基/氨基酸会被标出
例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 2”
BLAST程序的参数
-m 7:输出XML格式的blast结果
例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 7”
-m 9:用带有注释行的列表格式显示比对结果,格式与-m 8一样,只是在每 个query的必读结果前面加了注释行用于说明列表中各列的意义
例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 9”
BLAST程序的的下载:进入NCBI的FTP站点
Windows系统下BLAST程序的安装
BLAST程序的的下载:blast/executables/LATEST
Windows系统下BLAST程序的安装
BLAST程序的的下载:根据电脑系统的不同选择
blast-2.2.20-ia32-win32.exe 或 blast-2.2.20-ia32-win64.exe
BLAST程序的参数
-m 4:显示query在所有subjects上的定位信息但是不显示一致性比对信息, 不显示subjects之间的差异
例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 4”
2 hits 10 hits
BLAST程序的参数
10、-E Cost to extend a gap [Integer] (default = 0)
空位延伸罚分
例:分别设定E为1和2用拟南芥的AP3基因的蛋白质序列在水稻MADS-box基因蛋白质序列库中 搜索同源基因 命令:
1) “blastall -p blastp -i AtAP3_P.txt -d OsMADS_P.txt -o OsAP3_blastp_5e-30_G12.out -e 5e-30 -E 1” 2) “blastall -p blastp -i AtAP3_P.txt -d OsMADS_P.txt -o OsAP3_blastp_5e-30_G12.out -e 5e-30 -E 2”
BLAST 程 序 的 参 数
徐桂霞 国春策
中国科学院植物研究所
2009.04.24
Windows系统下BLAST程序的安装
BLAST程序的的下载:
ftp://ftp.ncbi.nih.gov/blast/executables/release/2.2.20/
Windows系统下BLAST程序的安装
5 hits
11 hits
BLAST程序的参数
11、-q Penalty for a nucleotide mismatch (blastn only) [Integer] (default = -3)
在用blastn程序搜索序列时,设定核酸错配的罚分,默认值是-3
例:分别设定q为-4和-2用拟南芥的AP3基因的核酸序列在水稻MADS-box基因核酸序列库中搜 索同源基因 命令:
4、-o output file name [File Out] (default = stdout)
输出文件的名称,默认值为stdout
BLAST程序的参数
5、 -e Expected value [Real] (default = 10.0)
期望值,这一参数控制搜索的灵敏度 (search sensitivity),可以输入整数 (如100),分数 (如1/100),小数 (如0.001)或是指数 (如5e-5),默认值是 10.0。
BLAST程序的参数
2、 -i Query File [File In] (default = stdin)
用于搜索数据库的查询 (query)文件,默认的是名为stdin的文件
3、-d Database name [String]
选择待搜索的数据库,可以选择多个数据库 例如: -d “nr.fasta est.fasta”
wenku.baidu.com
BLAST程序的参数
-m 3:显示query在所有subjects的定位和一致性比对信息,不显示subjects之 间的差异
例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 3”
例:分别使用e值为0.1和0.01的两种情况下,用拟南芥的AP3基因的核酸序列在水稻MADSbox基因核酸序列库中搜索同源基因。
9 hits
7 hits
BLAST程序的参数
6、 -m Specifies alignment view (default = 0)
设定搜索结果的显示格式,m参数的选项有12个 -m 0:默认参数,显示query和subject两两比对的信息
BLAST程序的参数
-m 5:显示query在所有subjects上的定位信息但是不显示每个碱基/氨基酸的 比对信息,补充“-”比对区域,subjects之间不同的碱基/氨基酸会被标出
例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 5”
BLAST程序的参数
-m 1:显示query在所有subjects上的定位信息,并显示一致性比对信息,subject 之间不同的碱基/氨基酸会被标出
例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 1”
BLAST程序的参数
9、-G Cost to open a gap (zero invokes default behavior) [Integer] (default = 0)
起始空位罚分
例:分别设定G为12和10用拟南芥的AP3基因的蛋白质序列在水稻MADS-box基因蛋白质序列库 中搜索同源基因 命令:
8、-I Show GI's in deflines [T/F] default = F
提示行显示GI number, 默认不显示 例: -I F (default): ref|NP_001005339.1| Regulator of G-protein ... -I T: gi|52694755|ref|NP_001005339.1| Regulator of G-protein ...
BLAST程序的参数
-m 10:输出文件为ASN格式的文本文件
例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 10”
BLAST程序的参数
-m 8:用列表格式显示比对结果。从左到右各列的意义依次是:query名, subject名,一致性百分数,比对长度,错配数,空位数,query比对起始位 点和终止位点,subject比对起始位点和终止位点,期望值,比对得分
例:用水稻的OsMADS6基因的核酸序列在水稻MADS-box基因核酸序列库中搜索同源基因。 命令“blastall -p blastn -i OsMADS6_D.txt -d OsMADS_D1.txt -o OsMADS6_blastn_Ff_e-47_m1.out -F F -e 1e-47 -m 8”
相关文档
最新文档