生物信息学工具BLAST的使用简介_吕军
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2003年3月内蒙古大学学报(自然科学版)M ar.2003第34卷第2期Acta Scientiarum Naturalium Univ ersitatis NeiM ongol Vol.34No.2
文章编号:1000-1638(2003)02-0179-09
生物信息学工具BL AS T的使用简介
吕 军1,3,张 颖3,冯立芹2,李 宏1
(1.内蒙古大学理论物理与理论生物物理研究室,内蒙古呼和浩特010021;
2.内蒙古民族大学物理系,内蒙古通辽028043;
3.内蒙古工业大学物理教研室,内蒙古呼和浩特010062)
摘要:从网上在线服务、电子邮件服务和本地运行三个方面介绍BL AS T的使用方法,目的是
使大家尽快掌握它,使其成为理论生物学研究的有力工具.
关键词:BL AS T;数据库;搜索
中图分类号:Q617 文献标识码:A
引 言
随着人类基因组计划(HGP)的进展,生物数据量迅速膨胀,海量的生物数据摆在生物信息学的工作者面前.生物信息学计算的核心是序列的比较,从而,比较基因组学、比较蛋白质组学成为后基因组时代的主要研究方向之一.比较的内容从序列的组分变化、寻找特殊的字段,到序列间字母的对应.比较的主要目的在于阐明序列间的同源(isogeny)关系,以及从已知序列去预测新序列的结构和功能.
两个或多个符号序列按字母比较,尽可能确切地反映他们之间的相似和相异,称为序列的联配(a lig nment).核酸和蛋白质序列的联配的前提是,假定两个序列来自同一个祖先序列(“同源”),它们在演化的过程中由于变异的积累而成为不同的序列.
近年来,进行序列联配分析的工具软件发展了很多,其中,尤以BLAST和FAST A使用最为频繁,一般认为,BLAS T运行速度快,对蛋白质序列的搜寻更为有效,FASTA速度较慢,对核酸序列更为敏感.BLAST是“基本局域联配搜索工具”(Basic Local Alig nment Search Tool)的字头缩写,是最常用的比较核酸和蛋白质同源性的比较工具.现在,利用BLAST对数据库进行搜索已成为生物信息学工作者的经常.因为BLAST和FAS TA的功能相近,所以,本文以BLAS T为例从三个方面来分别介绍BLAST的使用方法.关于BLAST的算法描述可见文献〔1〕和〔2〕.
1 网上在线服务
BLAST是运行速度甚快的数据库搜索程序,许多生物信息中心都有专门运行BLAST的服务器.主要的BLAST服务器网址如下:
http://w w w.ncbi.nlm.nih.g ov/blast/(运行BLASTR2.0,美国,维护GenBank)
http://w w (运行W U-BLAST2,欧洲,维护EM BL数据库)
http://w w w.blast.geno me.ad.jp/(运行BLAST2.0,日本)
(运行BLASTR2.0,中国,有ncbi和ebi的镜像)
收稿日期:2002-05-17
基金项目:国家自然科学基金(10147204)资助项目,内蒙古自然科学基金(2001301)资助项目
作者简介:吕军(1973~),男,内蒙古乌拉特前旗人,讲师,硕士.
各服务器的BLAS T 搜索界面大同小异,下面我们以CBI(北京大学生物信息中心)的BLAS T 服务器为例,分步骤来介绍BLAST 的在线搜索方法.
第一步:首先以http :// 登录CBI 的BLAS T 服务器,其界面如图1,这时可以选择所要进行的搜索方式.主要的搜索方式列在表1中.
其中,BLAST 2Sequences 只针对两条序列的比对.从表1中可以看出,在BLAST 前面加T 表示要求进行翻译,后面加N 、P 分别表示核酸和蛋白质库.X 则表示某种交叉比较
.
图1 CBI 的BL A ST 程序选择界面Fig.1 H o me Pag e of Pro g ram o f BL A ST o f CBI
表1 BLAST 程序Table 1 Programs of BLAST Prog ra ms Query Sequences Sea rch Data Bases BL A ST N Nucleotide N ucleotide BL AS T P Pro tein Pro tein BL A STX Nucleotide Pro tein T BL A ST N Pro tein N ucleotide T BL AST X Nucleotide
N ucleotide
BL A ST 2Sequences
第二步:根据需要选择一种搜索方式后,进入下一层界面,如图2(以BLASTN 为例).这就是
BLAS T 的主界面,下面我们逐一介绍一下BLAS T 的主界面中的各选项
.
图2 BL A STN 查询主界面Fig .2 Quer y Hom e Pag e o f BL A ST N
A.首先是选择数据库
核酸序列数据库和蛋白质序列主要数据库分别列在表2中.对数据库的选择可根据查询的具体要求做出相应的选择.缺省数据库为nr.
180
内蒙古大学学报(自然科学版)2003年
表2 蛋白和核酸数据库
Table 2 Pept ide and Nucleotide Sequence Databases
Peptide Sequence Databases
nr All no n-redundant GenBa nk CD S t ransla tions +PDB +SwissPr ot +PI R
month
All new or revised GenBa nk CD S tra nsla tio n +PDB +Sw iss Pro t +PIR released in the last 30
days .Swisspro t The last major release of the SW I SS-PRO T pro tein sequence database (no upda tes)y ea st Yeast (Saccharo myces cerevisiae )pro tein sequences.E .co li E .co li geno mic CDS tra nslatio ns
Pdb
Sequences deriv ed fr om the 3-dimensional structur e Br oo khav en Pro tein Da ta Ba nk
Pat Pro tein sequences deriv ed fro m the Pa tent divisio n o f G enBank N ucleo tide Sequence Da ta ba ses
nr All N on -redunda nt GenBa nk +EM BL +DDB J +PDB sequences (but no EST ,ST S ,G SS ,or HT GS sequences)
est N o n-redundant Database of GenBank +EM BL+DDBJ EST Div isions
sts N o n -redundant Database of GenBank +EM BL +DDBJ ST S Div isions h tg s H ig h Thro ughput Genomic Sequences
gss
Geno me Surv ey Sequence ,includes sing le -pass g eno mic data ,ex o n -tr apped sequences ,a nd Alu PCR sequences.
B .输入FAST A 格式的要查询序列
需要查询的序列可以通过“查询序列输入文本框”提交,也可以将要查询的序列做成FAST A 格式的文件通过“查询序列文件载入文本框”提交.这里允许同时提交多个序列.要求需要查询的序列必须以FAS TA 格式录入.FASTA 格式以“>”开头,每行不超过80个字符(包括说明行).最好每行低于60个字符.FAST A 格式支持的核酸符号和氨基酸符号分别列在表3中.
表3 FASTA 格式所支持的核酸符号和氨基酸符号
Table 3 The nucleic acid codes and amino acid codes supported by FASTA
The nucleic acid codes suppo r ted a re A adeno sine M A C (a mino )U uridine D G A T C cytidine S G C (stro ng )R G A (purine )H A C T G guanine
W
A T (weak)Y T C (pyrimidine)V G C A T thymidine
B G T C
K
G T (keto )
N
A G C T (a ny )
*
ga p o f indetermina te leng th
The amino acid co des suppo rted ar e A a la nine G g lycine N a spar agine U selenocy steine B a spar tate o r asparag ine H histidine P pro line V v aline C cystine I isoleucine Q glutamine W
tr yptophan
D a spar tate K lysine R a rginine Y tyr osine
E g lutama te L leucine
S serine Z g lutama te or glutamine F phe ny lalanine M me thionine
T
th reo nine
X
any
*
tr anslatio n stop
-
ga p o f inde termina te
C.过滤程序的选择
缺省为低复杂度,过滤程序可以滤掉序列中的一些“低复杂度”区域,否则象Poly (A)、Poly (T)这样的片段会导致高分联配,漏掉真正的编码区.一般选取缺省值即可.BLASTN 只能选用或不用DU ST 过滤程序,其他可选用过滤程序为SEG 、XN U 或其组合.对于这些过滤程序的描述可参见〔3〕等文献.
D.期望值E 的选择
181
第2期
吕军等 生物信息学工具BLAS T 的使用简介