常用生物信息学软件BLAST

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Blast的主程序是blastall。程序的输入文件是query序列(-i 参数)和库文件(-d 参数),比对类型的 选择(-p 参数)和输出文件(-o 参数)由用户指定。其中“-p”参数有 5 种取值: -p blastp:蛋白序列与蛋白库做比对。 -p blastx:核酸序列对蛋白库的比对。 -p blastn:核酸序列对核酸库的比对。 -p tblastn:蛋白序列对核酸库的比对。 -p tblastx:核酸序列对核酸库在蛋白级别的比对。 这些元素就构成了blast的基本运行命令(以blastn为例): blastall -i query.fasta -d database_prefix -o blast.out -p blastn 其中如果"-o"参数缺省,则结果输出方式为屏幕输出。下面以一个blastn比对为例,来说明比对全过程: Query序列(query.fasta): >gi|45593933|gb|AY551259.1| Oryza sativa precursor microRNA 319c gene AGGAAGAGGAGCTCCTTTCGATCCAATTCAGGAGAGGAAGTGGTAGGATGCAGCTGCCGATTCATGGATA CCTCTGGAGTGCATGGCAGCAATGCTGTAGGCCTGCACTTGCATGGGTTTGCATGACCCGGGAGATGAAC CCACCATTGTCTTCCTCTATTGATTGGATTGAAGGGAGCTCCACATCTCT >gi|45593932|gb|AY551258.1| Oryza sativa precursor microRNA 319b gene CATATTCTTTTAATTTGATGGAAGAAGCGATCGATGGATGGAAGAGAGCGTCCTTCAGTCCACTCATGGG CGGTGCTAGGGTCGAATTAGCTGCCGACTCATTCACCCACATGCCAAGCAAGAAACGCTTGAGATAGCGA AGCTTAGCAGATGAGTGAATGAAGCGGGAGGTAACGTTCCGATCTCGCGCCGTCTTTGCTTGGACTGAAG GGTGCTCCCTCCTCCTCGATCTCTTCGATCTAATTAAGCTACCTTGACAT 库文件Database(db.seq,已经运行formatdb -i db.seq -p F -o T建库): >fake_seq AGGAAGAGGAGCTCCTTTCGTTCCAATTCAGGAGAGGAAGTGGTAGGATGCAGCTGCCGATTCATGGATA CCTCTGGAGTGCATGCAGCAATGCTGTAGGCCTGCACTTGCATGGGTTTGCATGACCCGGCGAGATGAAC CCACCATTGTCTTCCTCTATTGATTGGATTGAAGGGAGCTCCACATCTCT 运行命令: blastall -i query.fasta -d db.seq -o blast.out -p blastn 运行结果: BLASTN 2.2.8 [Jan-05-2004] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= gi|45593933|gb|AY551259.1| Oryza sativa precursor microRNA 319c gene, complete sequence
|||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||
Sbjct: 1 aggaagaggagctcctttcgttccaattcaggagaggaagtggtaggatgcagctgccga 60
Query: 61 ttcatggatacctctggagtgcatggcagcaatgctgtaggcctgcacttgcatgggttt 120
|||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||
常用生物数据分析软件介绍-Blast
生物数据分析软件-Blast 简介 Blast,全称Basic Local Alignment Search Tool,即"基于局部比对算法的搜索工具",由Altschul等人 于 1990 年发布。Blast能够实现比较两段核酸或者蛋白序列之间的同源性的功能,它能够快速的找到两段 序列之间的同源序列并对比对区域进行打分以确定同源性的高低。 Blast的运行方式是先用目标序列建数据库(这种数据库称为database,里面的每一条序列称为subject), 然后用待查的序列(称为query)在database中搜索,每一条query与database中的每一条subject都要进行 双序列比对,从而得出全部比对结果。 Blast是一个集成的程序包,通过调用不同的比对模块,blast实现了五种可能的序列比对方式: blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。 blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为 6 种可能的蛋白 序列),然后再与蛋白库做比对。 blastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。 tblastn:蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然后进行比对。 tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行 比对。 Blast提供了核酸和蛋白序列之间所有可能的比对方式,同时具有较快的比对速度和较高的比对精度,因此 在常规双序列比对分析中应用最为广泛。可以毫不夸张的说,blast是做比较基因组学乃至整个生物信息学 研究所必须掌握的一种比对工具。 下载 NCBI提供免费下载,网址:ftp:///blast/executables/release/,可根据自己得机器选 择相应操作系统的版本。 安装 直接解压缩包即可。解压缩命令: zcat *.tar.gz | tar xvf 使用 Blast的运行分为两个步骤:第一,建立目标序列的数据库;第二,做blast比对。 1.运行建库程序formatdb: 建库的过程是建立目标序列的索引文件,所用程序是formatdb。程序允许的输入格式FASTA或者ASN.1 格式, 通常我们使用FASTA格式的序列作为输入。用于建库的FASTA序列是db.seq,formatdb的基本命令是: formatdb -i db.seq [-options] 常用的参数有以下几个: -p (T/F):-p参数的意义是选择建库的类型,"T"表示蛋白库,"F"表示核酸库。缺省值为"T"。 -o (T/F):-o参数的意义是判断是否分析序列名并建立序列名索引。"T"表示建立序列名索引,"F"表示不
建立序列名索引。缺省值为"F"。 程序输出: 如果建立的是核酸库,输出为db.seq.nhr、db.seq.nin、db.seq.nsq,如果选择了参数"-o T",还会同时 输出db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd。 蛋白库和核酸库的输出类似,相应的输出文件为:db.seq.phr、db.seq.pin、db.seq.psq和db.seq.psd、 db.seq.psi、db.seq.pni、db.seq.pnd。 除了这些结果,程序还会输出LOG文件(默认为formatdb.log),里面记录了运行时间、版本号、序列数量 等信息。 几点需要注意的问题: 1、建库以后,做blast比对的输入文件就是建库所得的文件db.seq.n**或者db.seq.p**,而不是原始的FASTA 序列。也就是说,建库以后,原始的序列文件是可以删除的。 2、如果命令行中选择了"-o T",并且目标序列中含有gi号重复的的序列名时,程序会停止建库并报错。例 如,下列序列文件中出现了重复的序列名: >gi|112385745|gb|DQ859020.1| Oryza sativa (japonica cultivar-group) glutathione S-transferase 2 mRNA, complete cds ATGGCGGAGGCGGCGGGGGCGGCGGTGGCGCCGGCGAAGCTGGGTCTGTACTCGTACTGGCGGAGCTCGT GCTCGCACCGCGTCCGCATCGCCCTCAACCTCAAAGGATTGGAGTACGAGTACAAGGCGGTGAACCTGCT CAAGGGGGAGCACTCTGATCCAGAATTCATGAAGGTTAATCCTATGAAGTTCGTCCCGGCATTGGTCGAT ...... CAAGCAGCACTCCCAGACAGACAACCAGATGCCCCTTCCTCTACCTAG >gi|112385745|gb|DQ859020.1| Oryza sativa (japonica cultivar-group) glutathione S-transferase 2 mRNA, complete cds ATGGCGGAGGCGGCGGGGGCGGCGGTGGCGCCGGCGAAGCTGGGTCTGTACTCGTACTGGCGGAGCTCGT GCTCGCACCGCGTCCGCATCGCCCTCAACCTCAAAGGATTGGAGTACGAGTACAAGGCGGTGAACCTGCT CAAGGGGGAGCACTCTGATCCAGAATTCATGAAGGTTAATCCTATGAAGTTCGTCCCGGCATTGGTCGAT ...... 运行时就会报如下错误: [formatdb] ERROR: Failed to create index. Possibly a gi included more than once in the database. 3、如果输入序列不符合FASTA格式或者ASN.1 格式,程序会自动退出,并报错: [formatdb] ERROR: Could not open db 4、核酸序列可以用于建核酸库和蛋白库,但是蛋白序列不能用于建核酸库。 其他参数简介: -l:"-l 文件名"用来改变LOG文件的命名 -n:"-n 文件名"可以自定义生成的库文件命名 -a:输入文件为ASN.1 格式 2.运行比对程序blastall:
(190 letters)
Database: db.seq 1 sequences; 190 total letters
Searching.done
Sequences producing significant alignments:
Score E (bits) Value
fake_seq
339 2e-98
>fቤተ መጻሕፍቲ ባይዱke_seq
Length = 190
Score = 339 bits (171), Expect = 2e-98
Identities = 188/191 (98%), Gaps = 2/191 (1%)
Strand = Plus / Plus
Query: 1 aggaagaggagctcctttcgatccaattcaggagaggaagtggtaggatgcagctgccga 60
相关文档
最新文档