生物信息学工具BLAST的使用简介_吕军

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2003年3月内蒙古大学学报(自然科学版)M ar.2003第34卷第2期Acta Scientiarum Naturalium Univ ersitatis NeiM ongol Vol.34No.2

文章编号:1000-1638(2003)02-0179-09

生物信息学工具BL AS T的使用简介

吕 军1,3,张 颖3,冯立芹2,李 宏1

(1.内蒙古大学理论物理与理论生物物理研究室,内蒙古呼和浩特010021;

2.内蒙古民族大学物理系,内蒙古通辽028043;

3.内蒙古工业大学物理教研室,内蒙古呼和浩特010062)

摘要:从网上在线服务、电子邮件服务和本地运行三个方面介绍BL AS T的使用方法,目的是

使大家尽快掌握它,使其成为理论生物学研究的有力工具.

关键词:BL AS T;数据库;搜索

中图分类号:Q617 文献标识码:A

引 言

随着人类基因组计划(HGP)的进展,生物数据量迅速膨胀,海量的生物数据摆在生物信息学的工作者面前.生物信息学计算的核心是序列的比较,从而,比较基因组学、比较蛋白质组学成为后基因组时代的主要研究方向之一.比较的内容从序列的组分变化、寻找特殊的字段,到序列间字母的对应.比较的主要目的在于阐明序列间的同源(isogeny)关系,以及从已知序列去预测新序列的结构和功能.

两个或多个符号序列按字母比较,尽可能确切地反映他们之间的相似和相异,称为序列的联配(a lig nment).核酸和蛋白质序列的联配的前提是,假定两个序列来自同一个祖先序列(“同源”),它们在演化的过程中由于变异的积累而成为不同的序列.

近年来,进行序列联配分析的工具软件发展了很多,其中,尤以BLAST和FAST A使用最为频繁,一般认为,BLAS T运行速度快,对蛋白质序列的搜寻更为有效,FASTA速度较慢,对核酸序列更为敏感.BLAST是“基本局域联配搜索工具”(Basic Local Alig nment Search Tool)的字头缩写,是最常用的比较核酸和蛋白质同源性的比较工具.现在,利用BLAST对数据库进行搜索已成为生物信息学工作者的经常.因为BLAST和FAS TA的功能相近,所以,本文以BLAS T为例从三个方面来分别介绍BLAST的使用方法.关于BLAST的算法描述可见文献〔1〕和〔2〕.

1 网上在线服务

BLAST是运行速度甚快的数据库搜索程序,许多生物信息中心都有专门运行BLAST的服务器.主要的BLAST服务器网址如下:

http://w w w.ncbi.nlm.nih.g ov/blast/(运行BLASTR2.0,美国,维护GenBank)

http://w w (运行W U-BLAST2,欧洲,维护EM BL数据库)

http://w w w.blast.geno me.ad.jp/(运行BLAST2.0,日本)

(运行BLASTR2.0,中国,有ncbi和ebi的镜像)

收稿日期:2002-05-17

基金项目:国家自然科学基金(10147204)资助项目,内蒙古自然科学基金(2001301)资助项目

作者简介:吕军(1973~),男,内蒙古乌拉特前旗人,讲师,硕士.

各服务器的BLAS T 搜索界面大同小异,下面我们以CBI(北京大学生物信息中心)的BLAS T 服务器为例,分步骤来介绍BLAST 的在线搜索方法.

第一步:首先以http :// 登录CBI 的BLAS T 服务器,其界面如图1,这时可以选择所要进行的搜索方式.主要的搜索方式列在表1中.

其中,BLAST 2Sequences 只针对两条序列的比对.从表1中可以看出,在BLAST 前面加T 表示要求进行翻译,后面加N 、P 分别表示核酸和蛋白质库.X 则表示某种交叉比较

.

图1 CBI 的BL A ST 程序选择界面Fig.1 H o me Pag e of Pro g ram o f BL A ST o f CBI

表1 BLAST 程序Table 1 Programs of BLAST Prog ra ms Query Sequences Sea rch Data Bases BL A ST N Nucleotide N ucleotide BL AS T P Pro tein Pro tein BL A STX Nucleotide Pro tein T BL A ST N Pro tein N ucleotide T BL AST X Nucleotide

N ucleotide

BL A ST 2Sequences

第二步:根据需要选择一种搜索方式后,进入下一层界面,如图2(以BLASTN 为例).这就是

BLAS T 的主界面,下面我们逐一介绍一下BLAS T 的主界面中的各选项

.

图2 BL A STN 查询主界面Fig .2 Quer y Hom e Pag e o f BL A ST N

A.首先是选择数据库

核酸序列数据库和蛋白质序列主要数据库分别列在表2中.对数据库的选择可根据查询的具体要求做出相应的选择.缺省数据库为nr.

180

内蒙古大学学报(自然科学版)2003年

表2 蛋白和核酸数据库

Table 2 Pept ide and Nucleotide Sequence Databases

Peptide Sequence Databases

nr All no n-redundant GenBa nk CD S t ransla tions +PDB +SwissPr ot +PI R

month

All new or revised GenBa nk CD S tra nsla tio n +PDB +Sw iss Pro t +PIR released in the last 30

days .Swisspro t The last major release of the SW I SS-PRO T pro tein sequence database (no upda tes)y ea st Yeast (Saccharo myces cerevisiae )pro tein sequences.E .co li E .co li geno mic CDS tra nslatio ns

Pdb

Sequences deriv ed fr om the 3-dimensional structur e Br oo khav en Pro tein Da ta Ba nk

Pat Pro tein sequences deriv ed fro m the Pa tent divisio n o f G enBank N ucleo tide Sequence Da ta ba ses

nr All N on -redunda nt GenBa nk +EM BL +DDB J +PDB sequences (but no EST ,ST S ,G SS ,or HT GS sequences)

est N o n-redundant Database of GenBank +EM BL+DDBJ EST Div isions

sts N o n -redundant Database of GenBank +EM BL +DDBJ ST S Div isions h tg s H ig h Thro ughput Genomic Sequences

gss

Geno me Surv ey Sequence ,includes sing le -pass g eno mic data ,ex o n -tr apped sequences ,a nd Alu PCR sequences.

B .输入FAST A 格式的要查询序列

需要查询的序列可以通过“查询序列输入文本框”提交,也可以将要查询的序列做成FAST A 格式的文件通过“查询序列文件载入文本框”提交.这里允许同时提交多个序列.要求需要查询的序列必须以FAS TA 格式录入.FASTA 格式以“>”开头,每行不超过80个字符(包括说明行).最好每行低于60个字符.FAST A 格式支持的核酸符号和氨基酸符号分别列在表3中.

表3 FASTA 格式所支持的核酸符号和氨基酸符号

Table 3 The nucleic acid codes and amino acid codes supported by FASTA

The nucleic acid codes suppo r ted a re A adeno sine M A C (a mino )U uridine D G A T C cytidine S G C (stro ng )R G A (purine )H A C T G guanine

W

A T (weak)Y T C (pyrimidine)V G C A T thymidine

B G T C

K

G T (keto )

N

A G C T (a ny )

*

ga p o f indetermina te leng th

The amino acid co des suppo rted ar e A a la nine G g lycine N a spar agine U selenocy steine B a spar tate o r asparag ine H histidine P pro line V v aline C cystine I isoleucine Q glutamine W

tr yptophan

D a spar tate K lysine R a rginine Y tyr osine

E g lutama te L leucine

S serine Z g lutama te or glutamine F phe ny lalanine M me thionine

T

th reo nine

X

any

*

tr anslatio n stop

-

ga p o f inde termina te

C.过滤程序的选择

缺省为低复杂度,过滤程序可以滤掉序列中的一些“低复杂度”区域,否则象Poly (A)、Poly (T)这样的片段会导致高分联配,漏掉真正的编码区.一般选取缺省值即可.BLASTN 只能选用或不用DU ST 过滤程序,其他可选用过滤程序为SEG 、XN U 或其组合.对于这些过滤程序的描述可参见〔3〕等文献.

D.期望值E 的选择

181

第2期

吕军等 生物信息学工具BLAS T 的使用简介

相关文档
最新文档