Blast本地化详细流程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Blast 2.4.0+本地化详细流程(基于Windows系统)

1.程序获得。从NCBI上下载Blast本地化程序,下载地址:

ftp:///blast/executables/blast+/LATEST/

64×安装版▲

64×解压(绿色)版▲

最好安装或解压到X盘根目录:如X:\blast,尽量简短,方便后边命令输入。

2.原始序列获得。方法1:找到转录组测序数据unigene数据库文件:unigene.fasta

或unigene.fa,若为unigene.fa则直接改后缀为.fasta即可。找到或修改后将数据库文件移动至Blast本地化程序目录“X:\blast\bin”。方法2:从NCBI中的ftp 库下载所需要库,链ftp:///blast/db/FASTA/,其中nr.gz为非冗余的数据库,nt.gz为核酸数据库,month.nt.gz为最近一个月的核酸序列数据。下载的month.nt.gz先用WINRAR解压缩,然后用makeblastdb.exe格式化。方法3:利用新版blast自带的update_blastdb.pl进行下载,这需要安装perl程序。

注释:上述三种方法各有优缺点,前两种下载速度较快,但是每次进行检索都需要对数据库进行格式化(转化成二进制数据),第三种方法下载速度较慢,但是NCBI 中已经格式化好的,在进行本地检索时不需再进行格式化,直接用即可。

3.用文本编辑器(txt文件改名字及后缀)创建一个ncbi.ini文件,文件包含下

面内容:[NCBI]Data="C:\blast\data\" 先新建TXT文件,然后改属性,将ncbi.ini文件存放到C:\Windows

4.将Blast本地化程序目录添加路径中(该步骤非必须,但会给以后的操作带来

方便),方法:

a)右击我的电脑选择属性,选择高级,点击环境变量,设置环境变量

b)系统变量中,选择Path,点击“编辑”,在变量值的后面添加Blast本地化

程序所在路径,E:\blast 点击确定,将安装路径添加到path。

5.运行MS-DOC。打开DOC窗口(点击开始,选择运行,打开的输入框中输

入“CMD”,确定),访问Blast本地化程序所在文件夹,依次输入:(1)X: 回车;(2)cd blast\bin,回车。

6.数据初始化。下载得到的数据库为fasta格式,需要经过格式转化才能建立本

地数据库。上接第5(2)步,回车后,输入格式化数据库命令:(右键可粘贴)makeblastdb.exe –in xxx.fasta -parse_seqids -hash_index -dbtype prot,回车,在原数据库文件所在文件夹生成一系列文件,Blast本地化体系构建完成。

blast本地化命令▲

blast本地化后生成的文件▲

参数注释:-in参数后面接将要格式化的数据库;-parse_seqids,-hash_index两个参数一般都带上,主要是为blastdbcmd取子序列时使用,-dbtype后接所格式化的序列的类型,核酸用nucl,蛋白质用prot。

7.待比对文件建立。在blast\bin文件夹创建test.txt文件,将需要blast的序列以

fasta格式存于该文件中,文件名自己命名即可,这里以test为例。建立fasta 文件注意事项请查看附件1。若有NCBI上下载好的.fasta文件,直接放到blast\bin文件夹即可。

test.fasta格式文件制作▲

8.本地Blast比对。上接第6步,在MS-DOS窗口输入比对命令:blastn.exe -task

blastn -query test.fasta -db xxx.fasta -out text.txt,稍等片刻,Blast结果即存于系统自动生成的out.txt文件中。blastn.exe -task blastn -query RefGene.txt -db Stellera.Unigene.fasta -out RefGene(test).txt -evalue 1e-5 -num_threads 8

参数注释:blastn.exe为程序执行命令,程序根据自己需要而blastn,blatp,tblastx;

-task后面选择你所要用的程序blastn,blatp,tblastx等;-query 后接查询序列的文件名称;-db后接格式化好的数据库名称;-out 后接输出的文件名称及格式。

by malapidan

2016.08.24

附件1FASTA格式说明

1.构建FASTA格式文件

所有TEST序列输入必须是FASTA格式,所谓FASTA是指DNA 序列第一行开始于一个标识符:">",紧接着(没有空格)是对该序列的唯一描述(即ID),然后一个空格,接着是对该序列的描述(也可以没有),从第二行开始就是一行行的序列,中间的空格,换行没有影响。为了方便阅读,每一行序列最好不要超过80个字母。下面是FASTA格式的示例:

>Mus_AQP11 mRNA for aquaporin 11, complete cds GCGGTGAGGGAGCCATGTCCGCGCTACTGGGACTCCGGCCCGAGGTGCAG GACACCTGCATCTCGCTGGGGCTAATGCTG CTGTTCGTGCTGTTCGTGGGGCTGGCCCGCGTGATCGCCCGGCAACAGCT ACACAGGCCCGTGGTCCACGCCTTCGTCCT GGAGTTTCTAGCTACCTTCCAGCTCTGCTGCTGCACCCACGAGCTCCAAGT GCTGAGCGAGCAGGACTCTGCGCACCCCA CCTGGACTCTGACACTGATCTACTTCTTTTCCTTGGTGCATGGCCTGACCC TGGTGGGCACAGCTAGCAACCCGTGCGGC GTGATGATGCAGATGATTCTGGGGGGTATGTCCCCCGAAATGGGTGCCGT GAGGTTGTTGGCTCAGCTGGTTAGCGCCCT GTGCAGCAGGTACTGCATAAGCGCCCTGTGGAGCCTGAGTCTGACCAAGT ACCATTACGACGAAAGGATCTTAGCTTGCA GGAATCCCATCCACACCGACATGTCCAAAGCGATCATCATAGAGGCCATC TGCTCCTTTATTTTCCACAGCGCTCTACTG CACTTCCAGGAGGTCCGAACCAAGCTTCGCATCCACCTGCTGGCTGCACT CATCACCTTTTTGGCCTATGCAGGAGGGAG CCTCACAGGAGCATTGTTTAACCCAGCGCTGGCACTTTCTCTGCACTTTCC GTGCTTTGACGAACTCTTCTATAAGTTTT TTGTAGTATACTGGCTTGCTCCTTCTGTAGGTGTGCTGATGATGATCCTCA TGTTCAGTTTTTTCCTTCCATGGCTGCAT AACAATCAAATGACTAATAAAAAAGAGTAACCACTCCCAAAGACTCGAA CTAAGTCCCAGGACAGTCAAGCTGGATGCGA CAATCTGAGCACCCTCCAAACTCTGGACGCCTCCTGCTTCAGCTTTCTCTG TGGAA

> Mus_AQP12 mRNA for aquaporin 12, complete cds

相关文档
最新文档