生物信息学 chapter05_blast(tingke)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基础BLAST有五种基本工具:
blastn (nucleotide BLAST) blastp (protein BLAST) tblastn (translated BLAST) blastx (translated BLAST) tblastx (translated BLAST)
Choose the BLAST program
步骤1:查询序列的选定与准备
输入的序列必须是FASTA格式或者是登录号。
首先要选定一条DNA序列或者蛋白质序列作为查询序列。 要将查询序列整理成BLAST认可的格式,比如FASTA格式。 如果查询序列是来自于GenBank数据库中的序列,也可以 直接记录下该序列的登录号(Accession)。
步骤2:选择BLAST程序
5’ CAT CAA 5’ ATC AAC 5’ TCA ACT
5’ CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC 3’ 3’ GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG 5’
5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
BLAST 简介
BLAST 是…
➢ 基础局部比对搜索工具 (Basic Local Alignment Search Tool)
➢ NCBI数据库序列相似性搜索工具 ➢ 支持DNA和蛋白质数据库
➢是NCBI中用来将一个蛋白质或核酸序列和各种数据
库中的其他序列进行比对的主要工具。
➢BLAST搜索是研究一个蛋白质或基因的最基本的方法
BLAST兼顾了速度与灵敏度。
BLAST的作用:
确定一个DNA或蛋白质序列身份 确定直系同源与旁系同源 确定哪些蛋白质和基因在特定物种中出现 发现新的基因与蛋白 搜索序列表达标签(EST) ……
进入BLAST 第一种途径:直接根据网址进入主页 http://www.ncbi.nlm.nih.gov/blast/Blast.cgi#
表 BLAST 子程序及其搜索功能简表
程序
查询序列
数据库类型 返回序列
搜索功能
blastn
核酸
核酸
核酸
用核酸查询序列与核酸数据库中的序列进 行比对
blastp
蛋白质
蛋白质
蛋白质
用蛋白质查询序列与蛋白质数据库中的序 列进行比对
blastx 核酸(翻译)
蛋白质
蛋白质
核酸查询序列先 6 框翻译成蛋白质序列后再 逐一与蛋白质数据库中的序列ห้องสมุดไป่ตู้行比对
blastn
blastp
blastx
tblastn
tblastx
第四部分:
第二节 BLAST搜索步骤
进行任何的BLAST搜索包括以下几个步骤:
步骤1:查询序列的选定与准备 步骤2:选择BLAST程序 步骤3:输入查询序列 步骤4:搜索范围选择 步骤5:亚程序选择 步骤6:运算参数设置 步骤7:开始BLAST搜索
tblastn
蛋白质
核酸(翻译)
核酸
蛋白质查询序列与核酸数据库中的序列经 6 框翻译后的蛋白质序列进行比对
tblastx 核酸(翻译) 核酸(翻译)
核酸
核酸查询序列 6 框翻译成蛋白质序列,再与 核酸数据库中的序列经 6 框翻译成的蛋白质 序列进行比对
DNA potentially encodes six proteins
Chapter 5
局部比对搜索基本工具 BLAST
Basic local alignment search tool
Efficient Database Searching Methods
在现代生物科学研究中最常用的两个术语:
PCR BLAST
聚合酶链式反应
?
什么是BLAST? BLAST有什么用? BLAST如何操作?
Program Input blastn DNA blastp protein blastx DNA tblastn protein tblastx DNA
Database 1
DNA 1
protein 6
protein 6
DNA 36
DNA
Fig. 4.3
page 91
每种工具各自的特点:
blastn是用核酸序列来搜索核酸序列数据库, 最后返回相似度高的核酸序列。 blastp是用蛋白质序列来搜索蛋白质序列数据 库,最后返回相似度高的蛋白序列。 blastx能够在提交核酸序列后,自动根据可能 的阅读框架将其翻译成6种蛋白质序列,然后 逐一搜索蛋白质序列数据库,最后返回相似度 高的蛋白序列。
tblastn能够先将核酸数据库中每条序列翻译 成6种可能的蛋白质序列,然后与提交的蛋白 质查询序列进行相似性比对,最后根据比对结 果返回核酸数据库中对应的核酸序列. tblastx能将核酸查询序列翻译成6种可能的蛋 白质序列,同时也将核酸数据库中每条序列都 翻译成6种可能的蛋白质序列,然后进行蛋白 质序列相似性比对,最后根据比对结果返回对 应的核酸序列。
之一。
➢这些搜索将告诉我们哪些相关的序列在同一物种或
其他物种出现。
http://www.ncbi.nlm.nih.gov/blast/Blast.cgi
BLAST搜索允许用户选择一个序列(记作查询序 列),然后将这个查询序列与整个的数据库中的序 列(记作目标序列)进行两两序列比对。
典型的情况下,这意味着在一次BLAST搜索中要 进行成千上万次的比对分析,然后将最接近的比对 结果返回。
BLAST主页
第二种途径:间接链接进入主页
➢1. 先进入NCBI主页; ➢2. 点击右侧Popular Resources菜单栏上的
BLAST进入BLAST主页。
➢1. 先进入NCBI主页;
http://www.ncbi.nlm.nih.gov
BLAST主页
第一部分:
第二部分:
第三部分:
步骤3:粘贴或上传序列
步骤4:选择数据库
nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences htgs = high throughput genomic sequence