blast本地化详解

合集下载

Blast本地化详细流程

Blast本地化详细流程

Blast 2.4.0+本地化详细流程(基于Windows系统)1.程序获得。

从NCBI上下载Blast本地化程序,下载地址:ftp:///blast/executables/blast+/LATEST/64×安装版▲64×解压(绿色)版▲最好安装或解压到X盘根目录:如X:\blast,尽量简短,方便后边命令输入。

2.原始序列获得。

方法1:找到转录组测序数据unigene数据库文件:unigene.fasta或unigene.fa,若为unigene.fa则直接改后缀为.fasta即可。

找到或修改后将数据库文件移动至Blast本地化程序目录“X:\blast\bin”。

方法2:从NCBI中的ftp 库下载所需要库,链ftp:///blast/db/FASTA/,其中nr.gz为非冗余的数据库,nt.gz为核酸数据库,month.nt.gz为最近一个月的核酸序列数据。

下载的month.nt.gz先用WINRAR解压缩,然后用makeblastdb.exe格式化。

方法3:利用新版blast自带的update_blastdb.pl进行下载,这需要安装perl程序。

注释:上述三种方法各有优缺点,前两种下载速度较快,但是每次进行检索都需要对数据库进行格式化(转化成二进制数据),第三种方法下载速度较慢,但是NCBI 中已经格式化好的,在进行本地检索时不需再进行格式化,直接用即可。

3.用文本编辑器(txt文件改名字及后缀)创建一个ncbi.ini文件,文件包含下面内容:[NCBI]Data="C:\blast\data\" 先新建TXT文件,然后改属性,将ncbi.ini文件存放到C:\Windows4.将Blast本地化程序目录添加路径中(该步骤非必须,但会给以后的操作带来方便),方法:a)右击我的电脑选择属性,选择高级,点击环境变量,设置环境变量b)系统变量中,选择Path,点击“编辑”,在变量值的后面添加Blast本地化程序所在路径,E:\blast 点击确定,将安装路径添加到path。

Blast

Blast

Blast(来自丁香园)BLAST序列相似性检索<zt>==============Blast是通过比对(alignment)在数据库中寻找和你的查询序列(query)相似度很高的序列!通俗地说就是在已知的序列数据库中找和你的序列差不多的序列。

序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索,找出与之相似的序列,从而评判新测定的序列是重复别人的工作,还是在前人的基础上有所创新,或是发现了新的序列。

现在用于序列类似性检索的软件很多,下面主要介绍GenBank的序列类似性检索工具棗BLAST。

1. BLAST简介BLAST是Basic Local Alignment Search Tool的英文缩写,意即碱基局部对准检索工具,是一种序列类似性检索工具。

它采用统计学记分系统,能将真正配对的序列同随机产生的干扰序列区别开来;同时采用启发式算法系统,即采用的是局部对准算法(Local Alignment Algorithm),而不是全序列对准算法(Global Alignment Algorithm)。

全序列对准算法是在检索结果中两个被比较序列所有片断均类似;而局部对准算法是找出两个被比较序列的“最类似”片断,并得出可能只包含两个序列的某个部分的对准结果。

在BLAST的基础上,NCBI又开发了BLAST 2.0、Gapped BLAST和PSI-BLAST。

BLAST 2.0•是一种新的BLAST检索工具,它对BLAST作了改进,运行速度更快,灵敏度更高,同时具有Gapped BLAST和PSI-BLAST两种软件的新功能。

Gapped BLAST允许在对准的序列中引入空位(•碱基缺失或插入),引入“空位”(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。

这些空位对准的记分系统更能反映相关序列的类似程度。

PSI-BLAST的全称是Position-Specific •Iterated BLAST,意即特殊位置重复BLAST,它提供了自动、易用的概貌(Profile)检索,是查找序列同源(Sequence Homologues)的有效方法。

linux下BLAST+(新版blast)本地化步骤

linux下BLAST+(新版blast)本地化步骤

64位LINUX下BLAST+的本地化以我的计算机(用户名为yonpen)和数据库nr为例,运行psiblast得到PSSM矩阵。

2012-02-181下载程序在ftp:///blast/executables/blast+/LATEST/下载ncbi-blast-2.2.25+-x64-linux.tar.gz2 解压如解压到用户的主目录(/home/yonpen)下,把解压后的文件夹重新命名为blast,则BLAST+的所有程序在目录/home/yonpen/blast/bin下。

3 添加环境变量打开终端(Terminal),切换为root用户,执行vim /etc/profile在最末尾添加export PATH=”/home/yonpen/blast/bin:$PATH”,保存退出。

或直接找到/etc/profile这个文件,在最末尾添加export PATH=”/home/yonpen/blast/bin:$PA TH”此处若成功,则执行blastn -version会出现版本信息。

4 新建在目录/home/yonpen/blast下新建一个文件夹,命名为db在/home/yonpen下新建一个文件,命名为.ncbirc在文件中添加内容[BLAST]BLASTDB=/home/yonpen/blast/db5 下载FASTA格式的数据库ftp:///blast/db/FASTA/如下载nr.gz6 建立BLAST+可用的数据库打开终端(Terminal),切换到/home/yonpen/blast/db目录下,执行:makeblastdb –in nr -parse_seqids -hash_index -dbtypeprot7 使用程序如使用psiblast在目录/home/yonpen/blast下新建3个文件夹,分别命名为pssm,input,output设待查询序列所在文件的名字为3.fasta(一个文件放一条序列,且必须为fasta格式)执行命令:psiblast -comp_based_stats 1 -evalue 0.001 -num_iterations 3 -db nr -query input/3.fasta -out output/3.txt -out_ascii_pssmpssm/3.pssm。

本地blast的详细用法∷柳城

本地blast的详细用法∷柳城

本地blast的详细用法Posted on 03 四月 2009 by 柳城,阅读 9,626本地blast的详细使用方法blast all -p blastn -i myRNA.fasta -d humanRNA.fasta -o myresult.blastout -a 2 -F F -T T -e 1e-10解释如下:blastall: 这是本地化/命令行执行blast时的程序名字!(Tips:blastall直接回车就会给出你所有的参数帮助,但是英文的)-p: p 是program的简写,program在计算机领域中是程序的意思。

此参数是指定要使用何种子程序,所谓子程序,就是针对不同的需要,如核酸序列和核酸序列进行比对、蛋白质序列和蛋白质序列进行比对、假设翻译后核酸序列于蛋白质序列进行比对,选择相应的子程序: blastn 是用于核酸对核酸 blastp 是蛋白质对蛋白质序列等等,一共5个自程序。

-i: i 是input的简写,意思是输入文件,就是你自己的要进行比对的序列文件(fasta格式)-d: d是database的简写,意思是要比对的目标数据库,在例子中就是humanRNA.fasta (别忘了要formatdb)-o: o是output的简写,意思是结果文件名字,这个根据你自己的习惯起名字,可以带路径,(上边两个参数-i -d 也都可以带路径)*注意以上4个参数是必须的,缺一不可,下面的参数是为了得到更好的结果自己可调的参数,如果你不加也没有关系,blastall程序本身会给一个默认值!-a: 是指计算时要用的CPU个数,我的机器有两个CPU,所以用-a 2,这样可以并行化进行计算,提高速度,当然你的计算机就一个CPU,可以不用这个参数,系统默认值为1,就是一个CPU-F: 是filter的简写,blastall程序中有对简单的重复序列和低复杂度的一些repeats过滤调,默认是T (注意以后的有几种参数就两个选项,T/F T就是ture,真,你可以理解为打开该功能; F就是false,假,理解为关闭该功能)-T: 是HTML的简写,是指blast结果文件是否用HTML格式,默认是F!如果你想用IE看,我建议用-T T-e: 是Expectation value,期望值,默认是10,我用的10-10!BLASTALL 用法a.格式化序列数据库格式化序列数据库— —formatdbformatdb简单介绍:formatdb处理的都是格式为 ASN.1和FASTA,而且不论是核苷酸序列数据库,还是蛋白质序列数据库;不论是使用Blastall ,还是Blastpgp,Mega Blast应用程序,这一步都是不可少的。

BLAST使用方法

BLAST使用方法

BLAST使用方法BLAST(Basic Local Alignment Search Tool)是一种用于比较生物学序列的工具,可以在数据库中查找类似序列,并计算它们之间的相似度。

BLAST可用于寻找相似的基因、蛋白质序列、DNA序列等,以及用于确定序列的功能和进化关系。

本文将介绍BLAST的使用方法。

2. 准备序列:在使用BLAST之前,你需要准备你想要比较的序列。

可以是DNA序列、蛋白质序列或其他生物学序列。

可以从公共数据库如NCBI的GenBank中获取序列,也可以使用你自己的实验数据。

3.选择数据库:BLAST使用数据库来存储和检索序列。

常见的数据库包括NCBI的NT数据库(核苷酸数据库),NR数据库(非冗余蛋白质数据库)等。

根据你的研究需要,选择适合你的数据库。

你也可以建立自己的数据库,将实验室内部的数据添加到其中。

4.运行BLAST:使用BLAST的命令行接口或网页界面,输入你的序列和数据库信息,运行BLAST。

下面是使用命令行接口运行BLAST的示例:`$ blastn -query sequence.fasta -db nt -out result.txt`在这个命令中,`blastn`是BLAST程序的名称,`sequence.fasta`是包含你的序列的FASTA文件,`nt`是数据库的名称,`result.txt`是结果输出的文件。

如果使用网页版BLAST,你只需将序列和数据库信息输入网页表单,点击运行即可。

5.解析结果:BLAST运行完成后,会生成一个结果文件,其中包含比对结果和相似度分数。

你可以使用BLAST提供的工具来解析和可视化这些结果,以便进一步分析。

结果中通常包括比对的相似度分数、比对的位点、比对的长度、匹配的碱基或氨基酸序列等。

通过分析结果,你可以确定序列的功能和进化关系,或者寻找可能的同源序列。

6.参数调整:BLAST提供了许多参数用于调整比对过程和结果的特性。

BLAST(序列相似性快速搜索工具)

BLAST(序列相似性快速搜索工具)

BLAST(序列相似性快速搜索工具)
1. 什么是BLAST?
•BLAST的全称是Basic Local Alignment Search T ool(基本的局部比对搜索工具),基于一种局部最优的比对策略。

•BLAST是生命科学研究中常用的一套在核苷酸数据库或蛋白质数据库中进行序列相似性比对的一套分析工具
•BLAST算法是启发式算法。

首先将query序列打断成子片段,称之为seed words,然后将seed与预先索引好的序列进行比对,选择seed连续打分较高的位置采用动态规划算法进行延伸,延伸过程也会进行打分,当打分低于某一限度这一延伸过程就会被终止抛弃,最后产生了一系列的高得分序列。

最后还要使用E-value对其显著性进行评估,选出比对结果最好的序列。

•BLAST分为在线BLAST和本地化BLAST
IMAGE.png
2. BLAST程序类型
BLAST实际上是综合在一起的一组工具
的统称,它不仅可用于直接对蛋白质数据库和
核酸数据库进行搜索,而且可以将待搜索的核
酸序列翻译成蛋白质序列后再进行搜索,或者
反之,以提高搜索效率。

因此BLAST可以分
为 BLASTp、 BLASTn、 BLASTx、 tBLASTn、
tBLASTx。

IMAGE.jpg
IMAGE.png
3.BLAST 比对结果解读
实际应用中主要看E-value(E值越小越好),同时要求Score大于一定值。

图片来自MOOC。

Blast本地化安装图解

Blast本地化安装图解

Blast本地化:window平台下blast软件的安装boyun发表于 2009-07-09 17:08 | 阅读 1 views1.对于windows 2000/xp 用户,下载blast-2.2.18-ia32-win32.exe安装文件ftp:///blast/executables/LATEST/blast-2.2.18-ia32-win32.exe2.创建一个新目录,例如C:\blast,将下载的文件blast-2.2.18-ia32-win32.exe复制到该目录,双击这个文件,自解压产生bin、data、doc 三个目录,bin是程序目录,data是程序使用数据的目录,doc是文档目录。

表:bin目录中的程序程序说明bl2seq.exe进行两条序列比对blastall.exe做普通的blast比对blastclust.exeblastpgp.execopymat.exefastacmd.exe通过gi号,接收号等,在数据库中检索序列formatdb.exe格式化数据库formatrpsdb.exeimpala.exemakemat.exemegablast.exe megablast程序rpsblast.exeseedtop.exe3.用文本编辑器创建一个ncbi.ini文件,文件包含下面内容:[NCBI]Data="C:\blast\data\"将ncbi.ini文件存放到系统的Windows 或者 WINNT目录。

4.将”C:\blast\bin”目录添加路径中(该步骤非必须,但会给以后的操作带来方便),方法:1)右击我的电脑选择属性,选择高级,点击环境变量,设置环境变量2)系统变量中,选择Path,点击“编辑”,在变量值的后面添加“; C:\blast\bin”,点击确定将安装路径添加到path5.测试,打开dos窗口(点击开始,选择运行,打开的输入框中输入“cmd”,确定),键入“blastall”,回车,如果安装正确,将显示blastall的所有参数说明。

blast用法

blast用法

blast用法BLAST(Basic Local Alignment Search Tool)是一种常用的生物信息学工具,用于在数据库中搜索和比对生物序列(如DNA、RNA、蛋白质等)。

以下是使用BLAST的基本步骤和用法:1. 准备输入序列:首先,准备待查询的序列数据。

可以是DNA序列、蛋白质序列或其他类型的生物序列。

2. 选择BLAST程序:根据要比对的序列类型,选择合适的BLAST程序。

常见的BLAST程序包括blastn(用于DNA比对)、blastp(用于蛋白质比对)、blastx(用于DNA与蛋白质相互比对)等。

3. 选择数据库:确定要在哪个数据库中进行比对。

BLAST提供了多个数据库选项,如NCBI提供的nr数据库(非冗余蛋白质序列数据库)。

4. 运行BLAST:使用命令行或图形界面工具,输入BLAST命令或设置相应的参数进行比对。

例如,可以使用以下命令运行blastp程序进行蛋白质比对:```blastp -query input.fasta -db database -out output.txt```其中,`input.fasta`是输入序列文件,`database`是要比对的数据库,`output.txt`是输出结果文件。

5. 解析和分析结果:BLAST运行完成后,会生成比对结果文件。

可以使用相应的工具或脚本来解析、过滤和分析结果,以获取所需信息(如相似性、E值、比对长度等)。

6. 结果解释和进一步分析:根据比对结果,可以进一步解释和分析序列的功能、同源性等信息。

可以使用其他生物信息学工具和数据库来进一步研究和验证结果。

需要注意的是,BLAST具有多个参数和选项,可以根据具体的研究目的和需求进行调整和优化。

建议参考相关的文档、教程或使用BLAST 提供的帮助命令(如`blastn -help`)来了解更多详细的用法和参数设置。

BLAST相关术语及参数详解

BLAST相关术语及参数详解

BLAST相关术语及参数详解BLAST(Basic Local Alignment Search Tool)是一种用于序列比对的常用算法和程序。

它可以在数据库中和比对两个序列,并根据相似度进行排序。

BLAST包含一些相关的术语和参数,下面将对其进行详细解释和说明。

1.序列:BLAST用于比对和的数据单位,可以是蛋白质或核酸序列。

2.比对:将查询序列与数据库中的参考序列进行比较,并确定相似度、匹配位置和分数。

3. 数据库:包含参考序列的集合,可以是蛋白质数据库(如NCBI NR)或核酸数据库(如GenBank)等。

4.查询:待比对的目标序列,由用户提供。

5.相似度:比对后序列之间的相似性程度。

BLAST使用分数和百分比的形式表示相似度,分数越高,相似度越高。

6.插入:在比对过程中,为了使两个序列对齐,可能会在其中一个序列中插入一些“缺失”的字符。

7.缺失:在比对过程中,由于插入或删除操作,导致序列之间的位置不对齐,出现缺失。

8.匹配:在比对过程中,两个序列之间相同的字符,表示两个序列在该位置上具有相同碱基或氨基酸。

9.分数:BLAST使用分数来评估两个序列之间的相似性程度。

分数越高,表示两个序列越相似。

10.E值:期望值,表示在随机情况下,出现当前比对的得分或更高得分的概率。

E值越小,表示比对结果越可信。

11.阈值:用于筛选比对结果的最小分数值或E值。

低于阈值的比对将被排除。

12. Bit score:比对结果的分数,以位(bit)为单位。

Bit score 越高,表示比对结果越可信。

13.靶序列:在数据库中时,将查询序列与之比对的参考序列。

14.检索:从数据库中返回与查询序列相似的参考序列。

15.空间:指定比对程序在数据库中的范围。

可以是整个数据库,也可以是特定的序列子集。

16.高分值段对(HSPs):在BLAST比对结果中,指在两个序列中同时出现的相似部分。

17. 元数据库:元数据库是一个包含多个数据库的组合,可用于BLAST。

blast2.2.28-详解---本人亲测-20170424

blast2.2.28-详解---本人亲测-20170424

BLAST 2.2.28详解本人亲测1程序下载链接到:ftp:///blast/executables/blast+/2.2.28/下载最新的BLAST+ 程序包,推荐版本ncbi-blast-2.2.28+-win32.exe,版本:ncbi-blast-2.2.28+-win32.exe适用于windows32 位系统,ncbi-blast-2.2.28+-win64.exe 适用Windows 64位系统,请注意选择。

2安装流程建议安装在非系统盘,如将下载的BLAST 程序安装到D:\blast-2.2.28+ ,生成bin、doc两个子目录,其中bin是程序目录,doc是文档目录,这样就安装完毕了。

如图1图1 程序安装位置3用户环境变量设置右键点击“我的电脑”-“属性”,然后选择“高级系统设置”标签-“环境变量”(图1),在用户变量下方“Path”随安装过程已自动添加其变量值,即“D:\blast-2.2.28+\bin”。

此时点击“新建”-变量名“BLASTDB”,变量值为“D:\blast-2.2.28+\db”(即数据库路径)。

如图2图2 用户环境变量设置4查看程序版本信息点击Windows的“开始”菜单,点击“运行”,输入“cmd”(图3-1,图3-2),调出MS-DOS命令行,在命令行中输入“D:”,输入后按下enter键就进入D盘中,输入cd blast-2.2.28+,转到D:\blast-2.2.28+\。

安装目录,输入命令“blastn-version”即可查看版本(图3-3):图3查看程序版本信息看到图3 显示说明本地blast已经安装成功。

5blast-2.2.28+本地数据库的构建数据的获取法1 :直接从NCBI 或者其他数据库网站下载所需序列做成数据库,或者自己已有的测序数据(格式必须是fasta,名字可以自己随便命名,具体做法下面有说明)。

法2 :从NCBI中的ftp库下载所需要的某一个库或几个库,其链接为ftp:///blast/db/FASTA/其中nr.gz为非冗余的数据库,nt.gz为核酸数据库,month.nt.gz为最近一个月的核酸序列数据。

NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解

N C B I在线B L A S T使用方法与结果详解BLAST Basic Local Alignment Search Tool是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具;BLAST程序能迅速与公开数据库进行相似性序列比较;BLAST结果中的得分是对一种对相似性的统计说明;BLAST 采用一种局部的算法获得两个序列中具有相似性的序列;Blast中常用的程序介绍:1、BLASTP是蛋白序列到蛋白库中的一种查询;库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对;2、BLASTX是核酸序列到蛋白库中的一种查询;先将核酸序列翻译成蛋白序列一条核酸序列会被翻译成可能的六条蛋白,再对每一条作一对一的蛋白序列比对;3、BLASTN是核酸序列到核酸库中的一种查询;库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对;4、TBLASTN是蛋白序列到核酸库中的一种查询;与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对;5、TBLASTX是核酸序列到核酸库中的一种查询;此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白每条核酸序列会产生6条可能的蛋白序列,这样每次比对会产生36种比对阵列;NCBI的在线BLAST:下面是具体操作方法1,进入在线BLAST界面,可以选择blast特定的物种如人,小鼠,水稻等,也可以选择blast 所有的核酸或蛋白序列;不同的blast程序上面已经有了介绍;这里以常用的核酸库作为例子;2,粘贴fasta格式的序列;选择一个要比对的数据库;关于数据库的说明请看NCBI在线blast数据库的简要说明;一般的话参数默认;3,blast参数的设置;注意显示的最大的结果数跟E值,E值是比较重要的;筛选的标准;最后会说明一下;4,注意一下你输入的序列长度;注意一下比对的数据库的说明;5,blast结果的图形显示;没啥好说的;6,blast结果的描述区域;注意分值与E值;分值越大越靠前了,E值越小也是这样;7,blast结果的详细比对结果;注意比对到的序列长度;评价一个blast结果的标准主要有三项,E值Expect,一致性Identities,缺失或插入Gaps;加上长度的话,就有四个标准了;如图中显示,比对到的序列长度为1405,看Identities这一值,才匹配到1344bp,而输入的序列长度也是为1344bp看上面的图,就说明比对到的序列要长一点;由Qurey起始1和Sbjct起始35的起始位置可知,5'端是是多了一段的;有时也要注意3'端的;附:E值Expect:表示随机匹配的可能性,E值越大,随机匹配的可能性也越大;E值接近零或为零时,具本上就是完全匹配了;一致性Identities:或相似性;匹配上的碱基数占总序列长的百分数;缺失或插入Gaps:插入或缺失;用"—"来表示;。

如何本地化进行blast序列比对

如何本地化进行blast序列比对

如何本地化进行blast序列比对1、基本概念相似性(Similarity)是指序列比对过程中用来描述检测序列和目标序列之间相同或相似碱基或氨基酸残基占全部比对碱基或氨基酸残基的比例的高低,属于量的判断。

同源性(Homology)是指从某一共同祖先经趋异进化而形成的不同序列。

只有当两个蛋白质在进化关系上具有共同的祖先时,才可称它们为同源的,属于质的判断。

相似性和同源性的关系当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。

总之不能把相似性和同源性混为一谈。

所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应避免使用。

序列相似性比较和同源性分析序列相似性分析:就是用来计算待研究序列与某序列之间的相似性程度,常用的软件包有BLAST、FASTA等;序列同源性分析:是将待研究与来自不同物种的序列中进行进化分析,以确定该序列与其它序列间的亲源关系。

常用的程序包有Phylip及Mega等进化分析软件;全局比对与局部比对全局比对寻找序列在全长范围内最佳比对。

常用算法如:Needleman-Wunsch algorithm(Needle)在线程序如: Needle局部比对寻找序列在局部区域的最高比对打分。

常用算法如:Smith-Waterman algorithm, blast,fasta等在线程序如: WaterNeedle及Water的在线程序也可以本地安装Emboss执行以上程序局部相似性比对的生物学基础蛋白质功能位点往往是由较短的序列片段组成的,尽管在序列的其它部位可能有插入、删除等突变,但这些关键的功能部位的序列往往具有相当大的保守性。

而局部比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义。

BLAST程序常用的两个评价指标Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大,结果越可信。

Blast软件的详细使用方法

Blast软件的详细使用方法

Blast软件的详细使用方法blastall -p blastn -i myRNA.fasta -d humanRNA.fasta -o myresult.blastout -a 2 -F F -T T -e 1e-10解释如下:blastall: 这是本地化/命令行执行blast时的程序名字!(Tips:blastall直接回车就会给出你所有的参数帮助,但是英文的)-p: p 是program的简写,program在计算机领域中是程序的意思。

此参数是指定要使用何种子程序,所谓子程序,就是针对不同的需要,如核酸序列和核酸序列进行比对、蛋白质序列和蛋白质序列进行比对、假设翻译后核酸序列于蛋白质序列进行比对,选择相应的子程序: blastn 是用于核酸对核酸blastp 是蛋白质对蛋白质序列等等,一共5个自程序。

-i: i 是input的简写,意思是输入文件,就是你自己的要进行比对的序列文件(fasta格式)-d: d是database的简写,意思是要比对的目标数据库,在例子中就是humanRNA.fasta (别忘了要formatdb)-o: o是output的简写,意思是结果文件名字,这个根据你自己的习惯起名字,可以带路径,(上边两个参数-i -d 也都可以带路径)*注意以上4个参数是必须的,缺一不可,下面的参数是为了得到更好的结果自己可调的参数,如果你不加也没有关系,blastall程序本身会给一个默认值!-a: 是指计算时要用的CPU个数,我的机器有两个CPU,所以用-a 2,这样可以并行化进行计算,提高速度,当然你的计算机就一个CPU,可以不用这个参数,系统默认值为1,就是一个CPU-F: 是filter的简写,blastall程序中有对简单的重复序列和低复杂度的一些repeats过滤调,默认是T (注意以后的有几种参数就两个选项,T/F T就是ture,真,你可以理解为打开该功能; F就是false,假,理解为关闭该功能)-T: 是HTML的简写,是指blast结果文件是否用HTML格式,默认是F!如果你想用IE看,我建议用-T T-e: 是Expectation value,期望值,默认是10,我用的10-10!BLASTALL 用法a.格式化序列数据库格式化序列数据库——formatdbformatdb简单介绍:formatdb处理的都是格式为ASN.1和FASTA,而且不论是核苷酸序列数据库,还是蛋白质序列数据库;不论是使用Blastall ,还是Blastpgp,Mega Blast应用程序,这一步都是不可少的。

Local BLAST简明教程

Local BLAST简明教程
序列文件的格式必须为fasta,文件来源不限,如NCBI、JGI等均可,但 由于不同数据库中蛋白的ID不同,应结合后期数据分析具体要求进行选 择
2.在DOS系统中利用makeblastdb.exe构建数据库
命令行:
$ makeblastdb.exe –in protein.fasta –out protein_db –hash_index–dbtype prot
构建数据库
“开始”->“运行”(快捷键Windows键+R)->输入“cmd”,“确认”->进入DOS系统 1.打开数据库(即序列文件)所在文件夹;2. 输入命令对数据库进行格式化。
打开数据库所在文件夹 运行命令,对数据库进行格式化
格式化成功
构建数据库
方法二 从NCBI中的ftp库下载所需要的数据库, 地址:ftp:///blast/db
如蛋白序列比对
$ blastp.exe –query proteins.fasta –db all_proteins_db –out blast_result.xls
待比对序列名称,
数据库名称,
结果文件名称,不同后
需要后缀
不需要后缀
缀可输出不同格式的文
件,xls为excel格式,txt、
xml等均可
要格式化的序列 的名称,需要后 缀
输出的数据库 的名称,不需 要后缀
输出的数据库 的类型 核酸:nucl 蛋白:prot
构建数据库
如:下载Aspergillus ruber基因组蛋白氨基酸序列,构建数据库 首先在NCBI上检索该物种基因组
构建数据库
基因组内共有10066个蛋白
构建数据库
LOCAL BLAST 简明教程

Blast使用教程详解

Blast使用教程详解
4
生物序列的同源性
同源性(homology): 指从一些数据中推断出的两个基因或蛋
白质序列具而共同祖先的结论,属于质的 判断。就是说A和B的关系上,只有是同 源序列,或者非同源序列两种关系。而说 A和B的同源性为80%都是不科学的。
5
相似性和同源性关系
序列的相似性和序列的同源性有一定的关系,一 般来说序列间的相似性越高的话,它们是同源序 列的可能性就更高,所以经常可以通过序列的相 似性来推测序列是否同源。
单机版的Blast程序包,把基本的blast分析, 包括blastn,blastp,blastx等都整合到了 blastall一个程序里面。
44
单机版的Blast使用(六)
以下是一个典型的blastn分析命令: (待分析序列seq.fa,数据库nt_db)
我们选上
30
分析过程(三)
6.限制条件,我们限制 在病毒里面找。
7.其他选项保持默认值
打分矩阵
31
分析过程(五)
10.查询序列的一些 相关信息 在cdd库里面找到 两个保守区域, 点击可以进入
32
33
分析过程(六)
图形结果
34
分析过程(七)
匹配序列列表
35
分析过程(八)
具体匹配情况
36
37

12
Blast结果给出的信息
Blast结果会列出跟查询序列相似性比较 高,符合限定要求的序列结果,根据这些 结果可以获取以下一些信息。 1.查询序列可能具有某种功能 2.查询序列可能是来源于某个物种 3.查询序列可能是某种功能基因的同源基因 … 这些信息都可以应用到后续分析中。
13
Hale Waihona Puke 两种版本的Blast比较(一)

BLAST专题

BLAST专题

NCBI 在线 Blast 的图文说明Blast(Basic Local Alignment Search Tool)是一套在蛋白质数据库或 DNA 数据库中进行相 似性比较的分析工具。

BLAST 程序能迅速与公开数据库进行相似性序列 序列比较。

BLAST 结果 序列 中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

Blast 中常用的程序介绍: 中常用的程序介绍: 1、BLASTP 是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条 所查序列作一对一的序列比对。

2、BLASTX 是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列(一条核酸 序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。

3、BLASTN 是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序列 作一对一地核酸序列比对。

4、TBLASTN 是蛋白序列到核酸库中的一种查询。

与 BLASTX 相反,它是将库中的核酸序列 翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。

5、TBLASTX 是核酸序列到核酸库中的一种查询。

此种查询将库中的核酸序列和所查的核酸 序列都翻译成蛋白(每条核酸序列会产生 6 条可能的蛋白序列),这样每次比对会产生 36 种比对阵列。

NCBI 的在线 blast:/Blast.cgi 1,进入在线 blast 界面,可以选择 blast 特定的物种(如人,小鼠,水稻等),也可以选择 blast 所有的核酸或蛋白序列。

不同的 blast 程序上面已经有了介绍。

这里以常用的核酸库作 为例子。

2,粘贴 fasta 格式的序列。

选择一个要比对的数据库。

关于数据库的说明请看 NCBI 在线 blast 数据库的简要说明。

一般的话参数默认。

3,blast 参数的设置。

注意显示的最大的结果数跟 E 值,E 值是比较重要的。

BLSAT本地化完全教程

BLSAT本地化完全教程

BLSAT本地化完全教程Setp1: Blast软件下载与安装1.对于windows 2000/xp 用户,下载安装文件2.创建一个新目录,例如C:\blast,将下载的文件复制到该目录,双击这个文件,自解压产生bin、data、doc三个目录,bin是程序目录,data是程序使用数据的目录,doc是文档目录。

表:bin目录中的程序程序说明进行两条序列比对做普通的blast比对通过gi号,接收号等,在数据库中检索序列格式化数据库megablast程序3.用文本编辑器创建一个文件,文件包含下面内容:[NCBI]Data="C:\blast\data\"将文件存放到系统的Windows 或者 WINNT目录。

4.将”C:\blast\bin”目录添加路径中(该步骤非必须,但会给以后的操作带来方便),方法:1)右击我的电脑选择属性,选择高级,点击环境变量,设置环境变量2)系统变量中,选择Path,点击“编辑”,在变量值的后面添加“; C:\blast\bin”,点击确定将安装路径添加到path5.测试,打开dos窗口(点击开始,选择运行,打开的输入框中输入“cmd”,确定),键入“blastall”,回车,如果安装正确,将显示 blastall的所有参数说明。

安装测试注意:•如果报错:“‘blastall’不是内部或外部命令,也不是可运行的程序或批处理文件。

”,请检查环境变量设置,或者切换到安装目录的bin目录下,再执行。

•如果报错:“FATAL ERROR: FindPath failed.”,请检查文件。

blast数据库指包含fasta格式的核苷酸或者蛋白质序列的文件,有三种方式得到fasta格式的序列。

1 从NCBI的FTP下载相关的数据库文件FTP地址:,如果你仅是一个测试,请下载一个较小的文件作为例子,例如下载大肠杆菌的核酸序列库—— (1349 Kb)。

FTP上的数据库文件都经过了压缩,有关每个文件的含义,请看该目录下说明文件(),下表FASTA目录下文件的说明:文件名大小(kb)内容重复序列的转录的蛋白质重复序列果蝇的蛋白质序列果蝇基因组组序列806964 环境蛋白质序列2298189 环境核酸序列1395676 人的EST序列774668 老鼠的EST序列7360044 除人和老鼠以外的其他物种的EST序列4772615 来源于GenBank, EMBL, and DDBJ的GSS序列6148203 来源于GenBank, EMBL, and DDBJ的高通量基因组测序序列2509222 人类基因组序列(NC_######)18900 人和老鼠的免疫球蛋白可变区的核酸序列3072 人和老鼠的免疫球蛋白可变区的蛋白质序列线粒体蛋白质序列线粒体基因组每月更新的蛋白质序列每月更新的人的EST序列每月更新的老鼠的EST序列每月更新的其他物种的EST序列每月更新的GSS序列每月更新的htgs序列每月更新的核酸序列1512614 来源于GenPept, Swissprot, PIR, PDF,PDB, and RefSeq的非冗余蛋白质序列6619394 除wgs, gss, sts, pat, est, htg以外的核酸序列,注意不是非冗余的1066358 人以外的其他物种的染色体序列(NC_######)65344 专利的蛋白质序列890761 专利的核酸序列7541 来源于pdb蛋白质结构数据库中的蛋白质序列269 来源于pdb的核苷酸序列159256 STS序列86939 swiss-prot 蛋白质序列812 载体序列全基因组shotgun拼接序列酵母蛋白质序列酵母基因组序列注:更新时间为2008-5-262 从搜索结果构建数据库通过NCBI提供的数据库搜索引擎,选择相关数据库进行搜索,将得到的结果保存为fasta格式,作为blast比对用的数据库。

新版blast本地化构建+数据库下载+序列间的相似性检索

新版blast本地化构建+数据库下载+序列间的相似性检索

新版blast本地化构建+数据库下载+序列间的相似性检索Ethnobotany前面记录了blast-2.2.23-ia32-win32的本地化构建及相似性检索,NCBI新近对blast程序做了一些修改推出了blast+,这里结合网上资料、blast+的user manual对blast+的本地化构建及使用作一引荐。

1blast+的本地化构建链接到:ftp:///blast/executables/blast+/LATEST下载ncbi-blast-2.2.23+-ia32-win32.tar.gz(绿色版),解压到d盘,并将文件夹更名为blast(我习惯这样做,因为在dos中写命令时方便),这样就安装完毕了,blast下具2个文件即bin 和doc。

2 数据库下载2.1法1:直接从NCBI下载subject序列去掉txt的扩展名做成数据库即*db,然后将query 序列的txt扩展名掉做成查询文件*in。

(格式必须是fasta,名字可以自己随便命名)2.2法2:从NCBI中的ftp库下载所需要的某一个库或几个库,其链接为ftp:///blast/db/2.3法3:利用新版blast自带的update_blastdb.pl进行下载,这需要安装perl程序。

2.3.1 perl程序的下载和安装可google“Perl for Windows”获得,也可直接按此连接/releases.html下载并,安装到任何盘均可。

2.3.2运行update_blastdb.pl进行下载2.3.2.1开始>运行>cmd+确认>进入dos系统>输入以下命令打开bin文件夹。

2.3.2.2接着输入下述命令回车查看操作帮助(这一步可以不做,不妨碍后续操作)2.3.2.3还可输入下述命令回车查看NCBI中的库(无需登录NCBI你就可以看到你所需要的库)2.3.2.4以下载载体库(vector)为例演示如何下载库。

本地化blast及应用测试

本地化blast及应用测试
1、格式化数据库.............................................................................................................9 2、蛋白序列比对蛋白数据库.......................................................................................10 3、核酸序列比对核酸数据库.......................................................................................10 4、核酸序列比对蛋白数据库.......................................................................................11 3.4、结果解释........................................................................................................................12 四、应用测试.................................................................................................................................14
本地化 blast 及应用测试
113040目录
本地化blast及应用测试 ...................................................................................................................1 一、简介...........................................................................................................................................2 二.安装...........................................................................................................................................2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
相关文档
最新文档