03-BLAST(生物信息学国外教程2010版)

合集下载

生物信息学-BLAST

生物信息学-BLAST

南方医科大学实验报告姓名学号专业年级基础学院生物信息学教研室题目BLAST 日期实验者实验者一、实验目的一、实验目的1,了解BLAST算法原理算法原理2,掌握BLAST参数设定的意义参数设定的意义3,利用BLAST解决生物学问题,如寻找给定序列(DNA或者蛋白质)的同源序列。

或者蛋白质)的同源序列。

二、实验器材二、实验器材电脑电脑三、方法与步骤三、方法与步骤)或者用自己的序列。

给定人蛋白RBP4(NP_006735)或者用自己的序列。

1 限定物种为人(Homo sapiens ),在参考序列数据库中搜索,列出结果(具体比对不列)。

1)进入BLAST主页主页/Blast.cgi2)限定物种为人Homo sapiens 3)在参考序列数据库中搜索在参考序列数据库中搜索4)CLICK BLAST 2 分别限定物种为Mus musculus ,Rattus norvegicus ,Drosophila melanogaster ,Bos taurus ,Danio rerio,各列出E值最小的两条序列。

值最小的两条序列。

1)选择物种选择物种3)输入序列,选择数据库和BALST程序,点击BLAST 4)E值最小的两个序列值最小的两个序列5)其余物种依次重复其余物种依次重复四、结果与讨论四、结果与讨论限定物种为人(Homo sapiens ),在参考序列数据库中搜索,列出结果(具体比对不列)。

分别限定物种为Mus musculus ,Rattus norvegicus ,Drosophila melanogaster ,Bos taurus ,Danio rerio,各列出E值最小的两条序列。

值最小的两条序列。

Mus musculus Rattus norvegicus Drosophila melanogaster Bos taurus Danio rerio 。

NCBI网站BLAST使用方法介绍完整版

NCBI网站BLAST使用方法介绍完整版

息学方法
BLAST
宿主菌
细胞转化
几周的时间 蛋白质分离纯化及性质测定
Gene family Or
Protein Family
几分钟的时间
Function annotation

BLAST
Web Access
Text
Wang LS, Gao PJ, cellulase,et al.
? RPS BLAST
– searches a database of PSSMs – tool for conserved domain searches
Basic Local Alignment Search Tool
? Widely used similarity search tool
? Heuristic approach based on
ACATGGACCCT ...
Protein Words
Query : GTQITVEDLFYNIATRRKALKN
WGoTrdQsize = 3 (default)
TQI
Word size can only be 2 or 3
Make a lookup table of words
QIT ITV
Basic Local Alignment Search Tool
?Why use sequence similarity? ?BLAST algorithm ?BLAST statistics ?BLAST output ?Examples
Why Do We Need Sequence Similarity Searching?
11-mer
GTACTGGACAT
WORD SIZE

BLAST使用方法

BLAST使用方法

BLAST使用方法一、BLAST的安装和准备工作2.获取待比对的序列文件,可以是FASTA格式的DNA或蛋白质序列。

二、BLAST的常用参数和选项1. Program:指定使用哪种BLAST程序(如BLASTn、BLASTp等)。

2. Database:指定使用哪个数据库进行比对。

3. Query:指定待比对的序列文件。

4. E-value:期望值。

一种描述比对结果误差率的指标,值越小表示结果越可信。

通常情况下,E-value小于0.01被认为是显著结果。

5. Word size:BLAST在比对时使用的核心词的长度。

长度越大表示查全率(sensitivity)越高,但速度会减慢。

6. Gap open:允许在比对过程中插入空位(如插入一个碱基)。

Gap open参数定义了开放一个空位的惩罚分数。

7. Gap extension:允许空位的延伸。

Gap extension参数定义了延伸一个空位的惩罚分数。

三、使用BLAST进行比对1.命令行方式:-打开命令行界面,并定位到BLAST软件的安装目录。

- 输入命令,指定BLAST程序、数据库、查询文件和其他参数。

例如:blastn -db nt -query query.fasta -out output.txt -evalue 0.01-运行命令,BLAST将开始进行比对并生成结果文件。

2.网页方式(以NCBIBLAST为例):- 打开NCBI网站的BLAST页面()。

-选择需要使用的BLAST程序(如BLASTn、BLASTp等)。

-上传待比对的序列文件,或者粘贴序列文本到输入框中。

-选择适当的数据库和其他参数。

-点击“BLAST”按钮,等待比对完成。

四、解读BLAST结果1. E-value:表示在随机比对中获得与查询序列相似度更高的结果的期望概率。

E-value越小表示比对结果越显著。

2. Bitscore:用于表示比对结果的质量。

Bitscore越高表示比对结果越可信。

生物信息学 实验三 数据库搜索-BLAST

生物信息学 实验三 数据库搜索-BLAST

实验三数据库搜索—BLAST1. Nucleotide BLAST在Nucleotide中输入登录号搜索人类MAPK9(NM_139069.2)基因,send to 为coding sequences,作为Query 序列,或者下载complete sequences,在Blastn 中限制序列搜索范围为272-1420(编码区)。

分别用megablast, discontiguous megablast 和 blastn 进行搜索。

这三个搜索的参数不同之处,主要体现在单词单位,megablast的单词单位默认为28,可选范围从16-256, discontiguous megablast的单词单位默认为11,可选为11和12, blastn单词单位默认为11,可选范围为7,11和15。

Megablast 可以快速搜索到与query 高度相似的序列;discontiguous megablast用于寻找与 query 高度相似的序列; blastn则用于寻找与 query 有一定相似度的序列。

单词单位越小,敏感度越高,也就是说,Megablast敏感度最差,discontiguous megablast 居中,blastn 最高。

Megablast的搜索速度最快,discontiguous megablast居中,blastn最差。

三个搜索所搜索到的相似序列的数量,相似性范围和分值范围都有很大差异,具Methods Number Identity(%)Max score Megablast154172-10073.1-2122 discontiguous megablast652763-10044.6-2073 blastn116676310044.6-2073截取30bp的片段进行blastn搜索,默认参数设置如下图:搜索后,实际参数如下图,主要对word size, expect value进行了调整,这是因为我们了选中automatically adjust parameters for short input sequences,在所搜索的片段长度比较小时,数据库中随机情况下找到高度相似甚至相同的局部比对(HSPs)的可能性非常高,系统自动将 word size 调小,提高敏感度,而将 E-value 调大,确保有搜索结果出现。

04-Multiple sequence alignment(生物信息学国外教程2010版)

04-Multiple sequence alignment(生物信息学国外教程2010版)

Page 179
Multiple sequence alignment: outline
[1] Introduction to MSA Exact methods Progressive (ClustalW) Iterative (MUSCLE) Consistency (ProbCons) Structure-based (Expresso) Conclusions: benchmarking studies [2] Hidden Markov models (HMMs), Pfam and CDD
Multiple sequence alignment: outline
[1] Introduction to MSA Exact methods Progressive (ClustalW) Iterative (MUSCLE) Consistency (ProbCons) Structure-based (Expresso) Conclusions: benchmarking studies [2] Hidden Markov models (HMMs), Pfam and CDD
Page 185
Use ClustalW to do a progressive MSA
http://www.ebi. /clustalw/
Page 186
Feng-Doolittle MSA occurs in 3 stages
[1] Do a set of global pairwise alignments (Needleman and Wunsch’s dynamic programming algorithm) [2] Create a guide tree
This insertion could be due to alternative splicing

Blast软件及常用数据库介绍

Blast软件及常用数据库介绍

blastall:通用检索命令 -p(program name):为需要使用的程序名 blastn:为核酸序列对比搜索程序 -d(database name):指定所使用的数据库 的名称 -i (input file):待搜索的序列文件 -o(output file):指定保存结果的文件
2011-12-22
对比对结果分析比对结果登入ncbi主页点击进入对核酸进行blast点击进入直接输入fasta格式的未知核酸序或者本地上传一个fasta格式的核酸序列文件选择一个合适的数据库进行比对点击运行图形结果匹配序列列表输入的序列在库里比对到的序列genebank库包含了所有已知的核酸序列和蛋白质序列以及与它们相关的文献著作和生物学注释它是由美国国立生物技术信息中心ncbi建立和维护的
12
2011-12-22
blast软件及常用数据库介绍
如何在windows操作系统下安装使用本 操作系统下安装使用本 如何在 软件? 地BLAST软件? 软件
STEP3
执行Blast比对
2011-12-22
blast软件及常用数据库介绍
13
具体步骤 1.将所需比对的序列转化为fasta格式
2.执行比对命令
BLAST软件及常用数据库介绍 软件及常用数据库介绍
制作人:faneds
BLAST的概述:
Blast,全称Basic Local Alignment Search Tool, 即“基于局部比对算法的搜索工具” ,能够实现 比较两段核酸或者蛋白序列之间的同源性的功能, 具有较快的比对速度和较高的比对精度,适用于 多种序列比对的情况,在常规双序列比对分析中 应用最为广泛。
3.对比对结果分析
2011-12-22
blast软件及常用数据库介绍

Blast使用入门

Blast使用入门

引用次数:36501
引用次数:35799
引用次数:12894
引用次数:4179
移除Query序列中之低复杂度以及有串接重复现象的区域
Query word
将长序列转换成短序列
W=1
KNTMYVIIILTWNLTMTNDMKNHRCHSTTRTLMTNIRKTH
W=4
KNTM YVII ILTW NLTM TNDM KNHR CHST TRTL MTNI RKTH
全局比对 Smith-Waterman算法 局部比对
Fasta算法
Blast算法
建立评分矩阵
Pam250
blosum62
执行比对 (动态规划算法) Needleman-Wunsch Smith-Waterman
确定最佳途径
当面向数据之海的时候,该怎么办?
生物信息学:努力在数据的海洋里畅游
BLAST (Basic Local Alignment Search Tool) is a set of similarity search programs that explore all of the available sequence databases for protein or DNA. BLAST (基本局部相似性比对搜索工具 ) 是一套用来探索可供使用的序列 数据库中所有DNA或者蛋白质的 相似性搜索程序 Local:局部 研究对象:DNA或者蛋白质 搜多对象:数据库
Blast
Query sequence
Database
Subject sequence Subject sequence Subject sequence Subject sequence ……
1. 兼顾搜寻的速度以及搜寻结果的精确度 2. BLAST使用启发式搜索代替动态规划算法来找出相关的序列, 在速度上比完全只使用动态规划大约快上50倍左右

生物信息学-blast

生物信息学-blast

筛选结果
点击开始搜索
其他一些显示格式参数
18
提交任务
返回查询号(request id)
修改完显示格式后点 击进入结果界面
可以修改显示结果格式
19
结果页面(一)
图形示意结果
20
结果页面(二)
目标序列描述部分
带有genbank的链接,点击可以进入 相应的genbank序列
匹配情况,分值,e值
21
结果页面(三)
匹配序列列表
31
分析过程(八)
具体匹配情况
32
单机版的Blast使用(一)
为什么使用单机版的Blast? 1.特殊的数据库要求。 2.涉及序列的隐私与价值。 3.批量处理 4.其他原因??
33
单机版的Blast使用(二)
单机版Blast的基本操作过程 1.下载单机版的Blast程序 ftp:///blast/executables/ 目录下,下载对应的操作系统版本。 2.解压程序包(blast.tar.gz) 命令是: $ tar zxvf blast.tar.gz
5
序列相似性比较和序列同源性分析
序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较, 用于确定该序列的生物属性,也就是找出与此序列相似 的已知序列是什么。完成这一工作只需要使用两两序列 比较算法。常用的程序包有BLAST、FASTA等;
序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种 的序列中进行多序列同时比较,以确定该序列与其它序 列间的同源性大小。这是理论分析方法中最关键的一步。 完成这一工作必须使用多序列比较算法。常用的程序包 有CLUSTAL等;
6
Blast简介(一)

BLAST种类及使用方法

BLAST种类及使用方法

BLAST种类及使用方法BLAST(Basic Local Alignment Search Tool)是一种广泛使用的序列比对算法,可用于比较DNA,RNA或蛋白质序列的相似性。

它是生物信息学领域中最常用的工具之一,可以帮助研究人员识别新的序列,注释基因功能,鉴定物种间的进化关系等。

1.BLASTN:BLASTN用于比对DNA序列。

它可以将一个查询DNA序列与已知的DNA序列数据库进行比较,找到相似的序列。

BLASTN通常用于物种鉴定、基因组注释和寻找同源基因等方面的研究。

2.BLASTP:BLASTP用于比对蛋白质序列。

它可以将一个查询蛋白质序列与已知的蛋白质数据库进行比较,找到相似的蛋白质序列。

BLASTP 通常用于寻找同源蛋白质,预测蛋白质功能和结构,以及识别蛋白质家族等方面的研究。

3.BLASTX:BLASTX用于比对DNA序列与蛋白质数据库的比对。

它通过将DNA序列翻译成蛋白质序列,然后与已知的蛋白质数据库进行比对,找到相似的蛋白质序列。

BLASTX通常用于从未知的DNA序列中预测蛋白质编码区域,注释基因功能等方面的研究。

4. TBlastN:TBlastN用于比对蛋白质序列与DNA数据库的比对。

与BLASTX相反,TBlastN将已知的蛋白质序列与DNA数据库进行比对,找到相似的DNA序列。

TBlastN通常用于寻找蛋白质在基因组中的编码区域,确定启动子和转录因子结合位点等方面的研究。

5. TBlastX:TBlastX用于比对转录本与转录本数据库的比对。

它可以将一个查询转录本序列与已知的转录本数据库进行比对,找到相似的转录本。

TBlastX通常用于寻找新的转录本和预测基因表达模式等方面的研究。

使用BLAST有以下几个步骤:1.准备查询序列:将待比对的DNA、RNA或蛋白质序列准备成文本文件,确保序列格式正确,并确保序列长度适合比对任务。

2. 选择数据库:根据研究需求,选择适当的数据库。

常用生物信息学软件BLAST

常用生物信息学软件BLAST

Blast的主程序是blastall。程序的输入文件是query序列(-i 参数)和库文件(-d 参数),比对类型的 选择(-p 参数)和输出文件(-o 参数)由用户指定。其中“-p”参数有 5 种取值: -p blastp:蛋白序列与蛋白库做比对。 -p blastx:核酸序列对蛋白库的比对。 -p blastn:核酸序列对核酸库的比对。 -p tblastn:蛋白序列对核酸库的比对。 -p tblastx:核酸序列对核酸库在蛋白级别的比对。 这些元素就构成了blast的基本运行命令(以blastn为例): blastall -i query.fasta -d database_prefix -o blast.out -p blastn 其中如果"-o"参数缺省,则结果输出方式为屏幕输出。下面以一个blastn比对为例,来说明比对全过程: Query序列(query.fasta): >gi|45593933|gb|AY551259.1| Oryza sativa precursor microRNA 319c gene AGGAAGAGGAGCTCCTTTCGATCCAATTCAGGAGAGGAAGTGGTAGGATGCAGCTGCCGATTCATGGATA CCTCTGGAGTGCATGGCAGCAATGCTGTAGGCCTGCACTTGCATGGGTTTGCATGACCCGGGAGATGAAC CCACCATTGTCTTCCTCTATTGATTGGATTGAAGGGAGCTCCACATCTCT >gi|45593932|gb|AY551258.1| Oryza sativa precursor microRNA 319b gene CATATTCTTTTAATTTGATGGAAGAAGCGATCGATGGATGGAAGAGAGCGTCCTTCAGTCCACTCATGGG CGGTGCTAGGGTCGAATTAGCTGCCGACTCATTCACCCACATGCCAAGCAAGAAACGCTTGAGATAGCGA AGCTTAGCAGATGAGTGAATGAAGCGGGAGGTAACGTTCCGATCTCGCGCCGTCTTTGCTTGGACTGAAG GGTGCTCCCTCCTCCTCGATCTCTTCGATCTAATTAAGCTACCTTGACAT 库文件Database(db.seq,已经运行formatdb -i db.seq -p F -o T建库): >fake_seq AGGAAGAGGAGCTCCTTTCGTTCCAATTCAGGAGAGGAAGTGGTAGGATGCAGCTGCCGATTCATGGATA CCTCTGGAGTGCATGCAGCAATGCTGTAGGCCTGCACTTGCATGGGTTTGCATGACCCGGCGAGATGAAC CCACCATTGTCTTCCTCTATTGATTGGATTGAAGGGAGCTCCACATCTCT 运行命令: blastall -i query.fasta -d db.seq -o blast.out -p blastn 运行结果: BLASTN 2.2.8 [Jan-05-2004] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= gi|45593933|gb|AY551259.1| Oryza sativa precursor microRNA 319c gene, complete sequence

生物信息学工具BLAST的使用简介_吕军

生物信息学工具BLAST的使用简介_吕军

2003年3月内蒙古大学学报(自然科学版)M ar.2003第34卷第2期Acta Scientiarum Naturalium Univ ersitatis NeiM ongol Vol.34No.2 文章编号:1000-1638(2003)02-0179-09生物信息学工具BL AS T的使用简介吕 军1,3,张 颖3,冯立芹2,李 宏1(1.内蒙古大学理论物理与理论生物物理研究室,内蒙古呼和浩特010021;2.内蒙古民族大学物理系,内蒙古通辽028043;3.内蒙古工业大学物理教研室,内蒙古呼和浩特010062)摘要:从网上在线服务、电子邮件服务和本地运行三个方面介绍BL AS T的使用方法,目的是使大家尽快掌握它,使其成为理论生物学研究的有力工具.关键词:BL AS T;数据库;搜索中图分类号:Q617 文献标识码:A引 言 随着人类基因组计划(HGP)的进展,生物数据量迅速膨胀,海量的生物数据摆在生物信息学的工作者面前.生物信息学计算的核心是序列的比较,从而,比较基因组学、比较蛋白质组学成为后基因组时代的主要研究方向之一.比较的内容从序列的组分变化、寻找特殊的字段,到序列间字母的对应.比较的主要目的在于阐明序列间的同源(isogeny)关系,以及从已知序列去预测新序列的结构和功能.两个或多个符号序列按字母比较,尽可能确切地反映他们之间的相似和相异,称为序列的联配(a lig nment).核酸和蛋白质序列的联配的前提是,假定两个序列来自同一个祖先序列(“同源”),它们在演化的过程中由于变异的积累而成为不同的序列.近年来,进行序列联配分析的工具软件发展了很多,其中,尤以BLAST和FAST A使用最为频繁,一般认为,BLAS T运行速度快,对蛋白质序列的搜寻更为有效,FASTA速度较慢,对核酸序列更为敏感.BLAST是“基本局域联配搜索工具”(Basic Local Alig nment Search Tool)的字头缩写,是最常用的比较核酸和蛋白质同源性的比较工具.现在,利用BLAST对数据库进行搜索已成为生物信息学工作者的经常.因为BLAST和FAS TA的功能相近,所以,本文以BLAS T为例从三个方面来分别介绍BLAST的使用方法.关于BLAST的算法描述可见文献〔1〕和〔2〕.1 网上在线服务 BLAST是运行速度甚快的数据库搜索程序,许多生物信息中心都有专门运行BLAST的服务器.主要的BLAST服务器网址如下:http://w w w.ncbi.nlm.nih.g ov/blast/(运行BLASTR2.0,美国,维护GenBank)http://w w (运行W U-BLAST2,欧洲,维护EM BL数据库)http://w w w.blast.geno me.ad.jp/(运行BLAST2.0,日本)(运行BLASTR2.0,中国,有ncbi和ebi的镜像)收稿日期:2002-05-17基金项目:国家自然科学基金(10147204)资助项目,内蒙古自然科学基金(2001301)资助项目作者简介:吕军(1973~),男,内蒙古乌拉特前旗人,讲师,硕士.各服务器的BLAS T 搜索界面大同小异,下面我们以CBI(北京大学生物信息中心)的BLAS T 服务器为例,分步骤来介绍BLAST 的在线搜索方法.第一步:首先以http :// 登录CBI 的BLAS T 服务器,其界面如图1,这时可以选择所要进行的搜索方式.主要的搜索方式列在表1中.其中,BLAST 2Sequences 只针对两条序列的比对.从表1中可以看出,在BLAST 前面加T 表示要求进行翻译,后面加N 、P 分别表示核酸和蛋白质库.X 则表示某种交叉比较.图1 CBI 的BL A ST 程序选择界面Fig.1 H o me Pag e of Pro g ram o f BL A ST o f CBI表1 BLAST 程序Table 1 Programs of BLAST Prog ra ms Query Sequences Sea rch Data Bases BL A ST N Nucleotide N ucleotide BL AS T P Pro tein Pro tein BL A STX Nucleotide Pro tein T BL A ST N Pro tein N ucleotide T BL AST X NucleotideN ucleotideBL A ST 2Sequences 第二步:根据需要选择一种搜索方式后,进入下一层界面,如图2(以BLASTN 为例).这就是BLAS T 的主界面,下面我们逐一介绍一下BLAS T 的主界面中的各选项.图2 BL A STN 查询主界面Fig .2 Quer y Hom e Pag e o f BL A ST NA.首先是选择数据库 核酸序列数据库和蛋白质序列主要数据库分别列在表2中.对数据库的选择可根据查询的具体要求做出相应的选择.缺省数据库为nr.180内蒙古大学学报(自然科学版)2003年表2 蛋白和核酸数据库Table 2 Pept ide and Nucleotide Sequence DatabasesPeptide Sequence Databasesnr All no n-redundant GenBa nk CD S t ransla tions +PDB +SwissPr ot +PI RmonthAll new or revised GenBa nk CD S tra nsla tio n +PDB +Sw iss Pro t +PIR released in the last 30days .Swisspro t The last major release of the SW I SS-PRO T pro tein sequence database (no upda tes)y ea st Yeast (Saccharo myces cerevisiae )pro tein sequences.E .co li E .co li geno mic CDS tra nslatio nsPdbSequences deriv ed fr om the 3-dimensional structur e Br oo khav en Pro tein Da ta Ba nkPat Pro tein sequences deriv ed fro m the Pa tent divisio n o f G enBank N ucleo tide Sequence Da ta ba sesnr All N on -redunda nt GenBa nk +EM BL +DDB J +PDB sequences (but no EST ,ST S ,G SS ,or HT GS sequences)est N o n-redundant Database of GenBank +EM BL+DDBJ EST Div isionssts N o n -redundant Database of GenBank +EM BL +DDBJ ST S Div isions h tg s H ig h Thro ughput Genomic SequencesgssGeno me Surv ey Sequence ,includes sing le -pass g eno mic data ,ex o n -tr apped sequences ,a nd Alu PCR sequences.B .输入FAST A 格式的要查询序列 需要查询的序列可以通过“查询序列输入文本框”提交,也可以将要查询的序列做成FAST A 格式的文件通过“查询序列文件载入文本框”提交.这里允许同时提交多个序列.要求需要查询的序列必须以FAS TA 格式录入.FASTA 格式以“>”开头,每行不超过80个字符(包括说明行).最好每行低于60个字符.FAST A 格式支持的核酸符号和氨基酸符号分别列在表3中.表3 FASTA 格式所支持的核酸符号和氨基酸符号Table 3 The nucleic acid codes and amino acid codes supported by FASTAThe nucleic acid codes suppo r ted a re A adeno sine M A C (a mino )U uridine D G A T C cytidine S G C (stro ng )R G A (purine )H A C T G guanineWA T (weak)Y T C (pyrimidine)V G C A T thymidineB G T CKG T (keto )NA G C T (a ny )*ga p o f indetermina te leng thThe amino acid co des suppo rted ar e A a la nine G g lycine N a spar agine U selenocy steine B a spar tate o r asparag ine H histidine P pro line V v aline C cystine I isoleucine Q glutamine Wtr yptophanD a spar tate K lysine R a rginine Y tyr osineE g lutama te L leucineS serine Z g lutama te or glutamine F phe ny lalanine M me thionineTth reo nineXany*tr anslatio n stop-ga p o f inde termina teC.过滤程序的选择缺省为低复杂度,过滤程序可以滤掉序列中的一些“低复杂度”区域,否则象Poly (A)、Poly (T)这样的片段会导致高分联配,漏掉真正的编码区.一般选取缺省值即可.BLASTN 只能选用或不用DU ST 过滤程序,其他可选用过滤程序为SEG 、XN U 或其组合.对于这些过滤程序的描述可参见〔3〕等文献.D.期望值E 的选择181第2期吕军等 生物信息学工具BLAS T 的使用简介期望值E是一个统计显著性指标,是假定所提交的序列和库中的全部序列都是随机序列,所期望的符合数目.只有搜索到比期望值小的符合序列,才作为结果返回.缺省为10.E.联配矩阵的选择连配打分矩阵的选择的一般原则见表 4.F.交叉搜索时遗传密码表的选择和移框的选择(仅对BLASTX)G.高级选项高级选项的参数及其缺省值得设置见表5.高级选项的使用可以增加查询的灵活性,建议大家在对BLAST比较熟悉时,一定去使用这些选项.表4 打分矩阵的选择原则Table4 C hoice principle of substitut ion matrixQ ue ry leng th Substitutio n matrix <35P AM-3035-50P AM-7050-85BL O SU M-80>85BL O SU M-62表5 BLASTN和BLASTP、BLASTX、TBLASTN高级选项Table5 Advanced Options of BLASTN,BLASTP,BLASTX and TBLASTN BL A ST N Adv anced O ptio ns-G Cost to o pen a ga p[Intege r]default=5-E Cost to ex tend a g ap[Integ er]default=2-q Penalty for a mismatch in the bla st po rtion of run default=-3-r Rew ar d fo r a ma tch in th e blast por tio n o f r un defa ult=1-e Ex pecta tio n va lue(E)[Real]defa ult=10.0-W W ord size,default is11for blastn,3fo r o th er pro g rams.-v N umbe r o f o ne-line descriptio ns(V)[Integ er]defa ult=100-b N umbe r o f a lig nments to show(B)[Integ er]default=100BL A ST P,BL AST X,TBL A ST N Adv anced O ptio ns-G Cost to o pen a ga p[Intege r]default=11-E Cost to ex tend a g ap[Integ er]default=1-e Ex pecta tio n va lue(E)[Real]defa ult=10.0-W W ord size,default is11for blastn,3fo r o th er pro g rams.-v N umbe r o f o ne-line descriptio ns(V)[Integ er]defa ult=100-b N umbe r o f a lig nments to show(B)[Integ er]default=100H.返回结果的浏览形式I.返回符合序列简短说明的行数.缺省为100和50J.返回联配结果的颜色方案.共7种方案,缺省为无颜色方案K.清除查询序列和确定搜索第三步:分析返回结果.单击搜索按钮后,稍作等待便可有返回结果.返回结果主要包括以下四个部分,表10给出一个详细例子.A.标题(Header)A.1本次查询所使用的程序和其版本.A.2本程序的作者以及参考文献.A.3本次查询所搜索的数据库,搜索的序列数及字符数.A.4所提交的查询序列的信息.B.摘要(Summa ry)满足查询条件的有意义的联配结果的摘要信息.C.主要部分(Main)满足查询条件的有意义的联配结果详细信息.D.最后部分(finality)182内蒙古大学学报(自然科学版)2003年列出本次查询所使用的参数,以及一些计算出的参数.2 电子邮件查询服务 在线查询不方便时,比如受到上网机时的限制或所要提交的序列较长,可以通过电子邮件的方式进行BLAS T 搜索服务.因为是用电子邮件提交查询序列,故而没有上网费用的限制,所以最好提交国外网站(比如NCBI ),因为那里的数据库是最新最全的.下面我们就以NCBI 的电子邮件BLAS T 服务为例来演示如何通过电子邮件提交查询序列.我们发往N CBI 这样一封信: From :lujun8210@ Date :5Apr 200200:10:02(可选) To :blast @ Subject : PRO GRAM blastn DATALIB nr EX PEC T 0.75(可选) BEGIN >gi |6226515|ref |NC 001224.1|Saccharomy ces cerevisiae mitocho ndrion , complete g eno meT TCAT AAT TAAT T TT TT ATAT AT ATAT TA TAT TAT AAT ATT AATT T A ……其余参数均使用缺省值.返回结果与CBI 在线服务的返回结果基本相同,具体可参见表10.这里不再重复.3 本地运行 除在线BLAS T 搜索和E -M AIL 提交外,还可以将BLAST 下载到本地计算机上运行.下面我们分步骤来介绍如何在本地计算机上使用BLAS T 进行序列的比对.这对于我们的工作是十分有帮助的.第一步:下载一个单机用的DOS 版的BLAST 程序.可以到NCBI 下载(ftp ://ncbi .nlm .nih .g ov /blast /),也可以到谈杰的生物软件网下载(h ttp ://w w w.bio-so ).文件名为blastz.ex e,这是一个2.2版的BLAS T 程序,程序大小为7.3Mb.第二步:安装BLAST将blastz .ex e 拷贝到一指定目录(比如C :\Blast ,后面的演示均以此目录为准)后,运行blastz .ex e ,此时,在这一目录中生成12个应用程序、6个说明文件和一个data 文件夹.第三步:创建ncbi.ini 文件.在你的操作系统安装目录(如c :\w indow s)下创建一个名为ncbi.ini 的配置文件,在这个文件中写入下面两行代码,如果此文件存在,则修改其内容为下面两行代码: [NCBI] Data="path \data \" 比如,本例中在c :\window s \ncbi .ini 文件中写入下面两行代码: [NCBI ] Data=c :\blast\data因为在data 目录下存放有搜索必需的矩阵、密码表、参数表以及一些C 语言的脚本程序等重要信息,所以在搜索前要指定这些文件的存放路径.这一步做完之后,接下来要完成重要的一步,就是格式化数据库.第四步:格式化数据库.183第2期吕军等 生物信息学工具BLAS T 的使用简介184内蒙古大学学报(自然科学版)2003年首先要创建FASTA格式的数据库文件,然后用fo rm atdb程序将所创建的数据库文件格式化.下面我们详细介绍数据库的创建和格式化过程.A.创建数据库将所操作数据库以FAST A格式保存,可以自己创建,也可以到N CBI去下载,地址为:ftp:// /blast/db/.具体形式为:>gi|6319248|ref|N P009331.1|Yal069w pM IVNN T H V L TLPLYT TT TCHT HPHLY TDFTY AHGCYSIY HLKLTLL……....................................这里“>"是必需的,“>"之后是一些说明信息(说明可以省略),比如gi是NCBI数据库中序列的统一编号形式,gi后面跟“|”,“|”后面就是这个基因或蛋白的在NCBI的标识代码.具体标识代码含义见表6.包括说明在内,每行不超过80个字符,这是一个默认值.每个基因或蛋白均以“>”开头.将这个数据库文件以一定的文件名保存.比如创建一个核酸数据库以nt这个文件保存在“c:\blast\ database\nt\"下.表6 数据库名称与标识码Table6 Database Name and Identif ier SyntaxData base N ame Identifier Sy ntaxG enBank g b|accession|locusEM BL Data Libra ry emb|accessio n|locusD DBJ,DN A Database o f J apan dbj|accessio n|locusN BRF PIR pir||entr yPro tein Research Foundation pr f||na meSW ISS-PRO T sp|accessio n|entry na meBro okhav en Pro tein Data Bank pdb|entr y|chainPa tents pa t|countr y|numberG enInfo Backbone Id bbs|numberG ener al database identifier g nl|da taba se|identifie rN CBI Reference Sequence ref|a ccessio n|lo cusB.将所建好的数据库格式化启动DO S窗口,将路径指向BLAST应用程序所在目录,使用fo rmatdb命令对nt这个数据库进行格式化.fo rmatdb命令的语法格式为:fo rm atdb-i dtatbase-p F-o T本例中,可以如此应用fo rmatdb命令:c:\blast>fo rmatdb-i dtatbase\nt\nt-p F-o T其中一些主要参数的含义见表7.表7 f ormatdb命令的参数Table7 Parameters of f ormatdb commandPara meters sig nifica tio n-t Title for da ta ba se file[String]Optio na l-i Input file for for matting(this pa ramete r must be set)-l Log file name:O ptio nal defa ult=fo rma tdb.log-p T ype of file T-pr ot ein F-nucleo tide default=T-o Pa rse o ptionsT-Tr ue:Pa rse SeqId and cr ea te index es.F-False:Do not par se SeqId.Do no t cr ea te index es.[T/F]Optio na l default=F 执行完fo rm atdb命令后,在“c:\blast\database\nt\”下生成一系列文件,这些文件是进行数据库查询所必需的.第五步:进行序列比对和序列查询.完成以上步骤后就可以使用BLAST 进行序列的比对和查询了.A.两个序列之间的比对——bl2seq有时我们只需要对两个序列进行比对,此时就可以使用bl2seq 命令,使用bl2seq 命令不须要创建数据库,直接给定两条序列就可实现比对.具体语法格式为:bl2seq-i seq1-j seq2-p blast Pro gram-o out.Filebl2seq 命令还有很多参数,但最一般的是上面所列参数,根据所讨论问题的要求可具体选择不同的参数.查询参数的办法为,在提示符下直接键入bl 2seq ,不带任何参数即可,表8列出bl 2seq 命令的一些主要参数,注意参数的大小写.表8 bl 2seq 命令的参数Table 8 Parameters of bl 2seq command Pa ramete rssig nificatio n-i Fir st sequence [File In ]-j Second sequence [File In ]-p Prog r am na me :bla stp,blastn,blastx.For blastx 1st a rg ume nt sho uld be nucleo tide [String ];default =bla stp-o alig nm ent o utput file [File O ut ];default =stdout-M M a trix [String ];defa ult =BL O SUM 62-q Penalty for a nucleotide misma tch (blastn o nly );default =-3-r Rew ar d fo r a nucleo tide match (blastn o nly );default =1-e Ex pecta tio n va lue (E)[Real ];default =10.0-FFilter query sequence (DU ST w ith blastn,SEG w ith o ther s)[St ring ]default =T 举一个具体的例子,我们在“c :\blast da tabase \”目录下创建两个FASTA 格式的序列文件seq 1和seq 2,为了简单起见,我们把这两个文件内容作的相同.seq1:>gi |4001550|dbj |AB001390.1|AB001390Hepatitis C virus g ene for E2pro tein,hyperva riable re-gio n,pa rtial cds,clo ne :ACACACCC TCG TGAC AGGGGGGGseq2:>gi |4001550|dbj |AB 001390.1|AB 001390Hepatitis C virus g ene for E 2pro tein ,hyperva riable re-gio n ,pa rtial cds ,clo ne :ACACACCC TCG TGAC AGGGGGGG文件创建好之后,在DO S 窗口下输入以下命令行,输出文件名我们定义为seq12.c :\blast>bl2seq-i database\seq1-j da tabase\seq2-p bla stn -o da tabase\seq12-e 0.01命令执行后,我们察看输出文件seq12,如果-o 参数缺省,则查询结果在屏幕输出.seq12:Query :1cacaccctcg tg aca 15 |||||||||||||||Sbjct :1cacaccctcg tgaca 15 ............我们发现上面只比对了序列中的1-15个碱基,而16-22这7个碱基被滤掉了,因为这是连续7个G 的简单重复序列,如果不想滤掉它们,只须在bl2seq 的语句中加入参数-F,并且赋值F(假)即可,因缺省时-F 的值为T(真).即:185第2期吕军等 生物信息学工具BLAS T 的使用简介c:\blast>bl2seq-i database\seq1-j da tabase\seq2-p bla stn-o da tabase\seq12-e0.01-F F seq12:.................. Query:1cacaccctcg tgacaggg gg gg22|||||||||||||||||||||| Sbjct:1cacaccctcg tgacaggg gg gg22..................B.序列查询——blastall进行序列查询前,必须要有创建并格式化数据库的过程.前面的工作做好后,就可以利用blastall 命令进行序列的查询.具体语法格式为:blastall-p blastProg ram-d database-i Query File-o out.Query Fileblastall命令的部分参数列在表9中.寻求帮助时,直接键入blastall,不带参数就可以获得blastall命令的所有参数说明.注意参数的大小写区别.表9 blastall命令的参数Table9 Parameters of blastall commandPara meters sig nifica tio n-p Prog r am N ame[String]Input sho uld be one of"bla stp","blastn","blastx","tbla stn",o r"tblastx".-d Da ta base[String]default=nr-i Q uery File[File In]default=stdin-e Ex pecta tio n va lue(E)[Real]defa ult=10.0-o BL A ST repor t O utput File[File Out]Optio na l default=stdo ut-F Filter query sequence(DU ST w ith blastn,SEG w ith o ther s)[St ring]default=T-S Q uery stra nds to sear ch ag ainst da taba se(fo r blast[nx],a nd tblastx).3is bo th,1is to p,2is bo tto m [Integ er]default=3-T Produce HT M L output[T/F]default=F-l Rest rict sear ch o f da ta ba se to list of GI's[St ring]O ptio nal-U Use low er case filtering o f FA ST A sequence[T/F]O ptio nal defa ult=F 举一个例子.比如我们要在前面格式化好的数据库"c:\blast\da tabast\nt\nt"中搜索上例中的seq1这个序列.我们可以这样做:c:\blast>blastall-p blastn-d database\nt\nt-i database\seq1-o database\out.seq1-e0. 01-F F 输出文件为o ut.seq1,如果-o参数缺省,则查询结果在屏幕输出,具体结果见表10.表10 BLAST结果Table10 BLAST resultBL A ST N2.2.2[Dec-14-2001]Header Ref erence:Altschul,Stephe n F.,Thoma s L.M adden,Alejandro A.Schaffer,Jingh ui Zhang,Zheng Zhang,W ebb Miller,and Dav id J.Lipman(1997),"Gapped BL A ST and PSI-BL A ST:a new g eneration of pr otein database searchpro g rams",N ucleic Acids Res.25:3389-3402.Query=gi|4001550|dbj|AB001390.1|A B001390H epatitis C v irus gene fo rE2pr o tein,hyperv ariable regio n,pa rtia l cds,clo ne:A(22letter s)Da taba se:da ta ba se\nt\nt1386sequences;2,070,001to tal let ters186内蒙古大学学报(自然科学版)2003年续表10Sco r eE Sequences pro ducing sig nifica nt a lig nments :(bit s)V alue Summa rydbj |AB001409.1|AB001409Hepatitis C v irus g ene fo r E2pr otein,h (4)1e-006........................>dbj |AB001409.1|AB001409Hepa titis C virus g ene fo r E2pro tein,hy perv ariable regio n, pa rtia l cds ,clo ne 18A L eng th =81Sco r e =44.1bits (22),Ex pect =1e -006Identities =22/22(100%)M ainStrand =Plus /PlusQ uery:1cacaccctcg tg acagg gg g gg 22 ||||||||||||||||||||||Sbjct:1cacaccc tcg tg aca gg gg gg g 22 ........................La mbda K H fina lity1.370.7111.31Gapped..................... 上面简单描述了BLAST 的三个方面的使用方法,当然其中还有很多细节的东西本文没有涉及到,这些细节还需读者在应用BLAST 的过程中慢慢捉摸和体会,同时读者可以参见文献〔4,5,6〕.本文能起到抛砖引玉的作用也就达到了文章的目的.有了本文的介绍,再借助一些帮助文件,相信大家一定能够很快熟悉并掌握BLAS T 的用法,使之成为我们科研工作中方便的工具.参考文献:[1] Altschul S F ,Gish W ,M iller W ,et al .Ba sic loca l alig nm ent sea rch too l [J ].J .Mol .Biol .,1990,215:403~412.[2] Altschul S F ,M adden T L ,Schaffer A A ,et al .Gapped BL A ST and P SI BL AS T :a new ge ner atio n of pro teindatabase search pro g rams [J].N ucl .Acids Res .,1997,25:3389~3402.[3] W o ot to n J C,Federhen S.Statistics of local complex ity in amino acid sequences and sequence databas es [J].Com-puters &Chemistry ,1993,17:149~163.[4] 郝柏林,张淑誉.生物信息学手册[M ].上海:上海科学技术出版社,2000.10,184~210.[5] 赵南明,周海梦.生物物理学[M ].北京:高等教育出版社,2000.7,209~228.[6] 贺林.解码生命—人类基因组计划和后基因组计划[M ].北京:科学出版社,2000.4,421~426.A Brief Introduction of th e Bioinfo rmatics Tool BlastLU Jun 1,3,ZHANG Ying 3,FEN G Li -qing 2,LI Hong1(boratory of The oretical Physics and B iology ,NeiMongol University ,Hohhot 010021,P RC ;2.Department of Physics ,NeiMongol National University ,Tongliao 028043,P RC ;3.Teac hing and Researc h Section of Physics ,N eiMongol Polytechnic University ,Hohhot 010062,P RC ) Abstract :The usag e o f Blast is introduced by o n -line service ,E -mail service and local running respectiv ely ,in o rder to make ev erybo dy master it as soo n as possible,and to make it become a va luable tool in studying theo retical biolog y.Key words :BLAST ;database ;search187第2期吕军等 生物信息学工具BLAS T 的使用简介。

生物信息学课后题及答案

生物信息学课后题及答案

生物信息学课后习题及答案(由10级生技一、二班课代表整理)一、绪论1.你认为,什么是生物信息学?采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。

2.你认为生物信息学有什么用?对你的生活、研究有影响吗?(1)主要用于:在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS、人类基因组计划、基因组计划:基因芯片。

(2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的支持数据等材料。

3.人类基因组计划与生物信息学有什么关系?人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。

而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。

4简述人类基因组研究计划的历程。

通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其他生物进行类似研究。

1990,人类基因组计划正式启动。

1996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。

1998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。

Celera公司加入,与公共领域竞争启动水稻基因组计划。

1999,第五届国际公共领域人类基因组测序会议,加快测序速度。

2000,Celera公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。

2001,人类基因组“中国卷”的绘制工作宣告完成。

2003,中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组计划的.目标全部实现。

2004,人类基因组完成图公布。

生物信息学A卷答案

生物信息学A卷答案

一、名词辨析(每题5分,共20分)1、基因与基因组:Gene 基因:遗传功能的单位。

它是一种DNA序列,在有些病毒中则是一种RNA 序列,它编码功能性蛋白质或RNA分子。

Genome 基因组:染色体组,一个生物体、细胞器或病毒的整套基因;例如,细胞核基因组,叶绿体基因组,噬菌体基因组。

2、相似性与同源性:所谓同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。

同源性可以用来描述染色体—“同源染色体”、基因—“同源基因”和基因组的一个片断—“同源片断”必须指出,相似性(similarity)和同源性(homology)是两个完全不同的概念。

相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

相似性本身的含义,并不要求与进化起源是否同一、与亲缘关系的远近、甚至于结构与功能有什么联系。

3、CDS与cDNA:cDNA序列:互补DNA序列,指的是mRNA为在逆转录酶的作用下将形成DNA 的过程。

CDS序列:编码序列,从起始密码子到终止密码子的所有序列。

4、数据库搜索和数据库查询:数据库查询:对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找(又称数据库检索)。

数据库搜索:通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。

搜索对象不是数据库的注释信息,而是序列信息。

二、判断题(20分)1、生物信息学可以理解为生命科学中的信息科学。

(√)2、DNA分子和蛋白质分子都含有进化信息。

(√)3、目前生命科学研究的重点和突破点的已完全转移到生物信息学上,已不需要实验做支撑。

(×)4、生物信息学的发展大致经历了三个阶段:前基因组时代、基因组时代和后基因组时代。

(√)5、基因组与蛋白质组一样,都处于动态变化之中。

(×)6、蛋白质三维结构都是静态的,在行使功能的过程中其结构不会改变。

(×)7、生物信息学中研究的生物大分子主要是脂类和多糖。

Blast使用入门

Blast使用入门
生物信息学第7/8讲
Blast使用入门
于浩
DOE
NIH
lanl
1988年.
NLM
GenBank Pubmed
Blast
NCBI
Entrae
Genome
象 风 暴 一 样 有 力
得分矩阵
Dayhoff Pam矩阵
Pam250
Henikoff blosum矩阵
blosum62
比对算法
Neelleman-Wunsch算法 全局比对
BLAST (基本局部相似性比对搜索工具 ) 是一套用来探索可供使用的序列 数据库中所有DNA或者蛋白质的 相似性搜索程序
Local:局部
研究对象:DNA或者蛋白质
搜多对象:数据库
BLAST Applicationtice
Database Searching
• If sequences are related by divergence from a common ancestor, there are said to be homologous.
• 咨询序列与数据库中所有序列进行比对 • 得分高的序列被认为与咨询序列存在进化相关 • 如果序列都是从同一先祖趋异分化而来,那么它们是同源的
/Web/Newsltr/Spring99/spring99.htm
Dr. Altschul (PhD, M.I.T., 1987) is a Senior Investigator with Computational Biology Branch of the NCBI. The principal author of BLAST, PSI-BLAST and PHI-BLAST Dr. Altschul's contribution to bioinformatics, evolutionary biology and computational biology is almost immeasurable. Today more than 100,000 BLAST searches are performed each day on NCBI servers. Indeed, the original 1990 BLAST paper was far and away the most cited scientific paper of the last decade. Over the past decade, Dr. Altschul has played a critical role in developing robust statistical methods for assessing sequence similarity. These contributions, which were key to the development of BLAST, not only enhanced the speed with sequence searching could be performed, but also greatly improved the sensitivity of sequence searches. With the introduction of PSI-BLAST in 1997, Dr. Altschul and coworkers once again demonstrated how the smart use of statistics can make sequence searching a truly awesome scientific tool.

01-Introduction to Bioinformatics(生物信息学国外教程2010版)

01-Introduction to Bioinformatics(生物信息学国外教程2010版)

Grading
60% moodle quizzes (your top 6 out of 7 quizzes). Quizzes are taken at the moodle website, and are due one week after the relevant lecture. Special extended due date for quizzes due immediately after Thanksgiving and the New Year. 40% final exam Monday, January 10 (in class). Closed book, cumulative, no computer, short answer / multiple choice. Past exams will be made available ahead of time.
Outline for the course (all on Mondays)
1. Accessing information about DNA and proteins Nov. 15
2. Pairwise alignment
3. BLAST 4. Multiple sequence alignment
Literature references
You are encouraged to read original source articles (posted on moodle). They will enhance your understanding of the material. Readings are optional but recommended.
Nov. 22

blast应用简介

blast应用简介

4、Tblastn ︳Search translated nucleotide database using a protein query
5、 tblastx ︳Search translated nucleotide database using a translated nucleotide query
2、 BLAST的功能

BLAST主要有五个功能:
Basic BLAST (Choose a BLAST program to run.)
1、Nucleotide blast ︳Search a nucleotide database using a nucleotide query
2、protein blast ︳Search protein database using a protein query
Specialized BLAST
Choose a type of specialized search (or database name in parentheses.)
Make specific primers with Primer-BLAST Search trace archives Find conserved domains in your sequence (cds) Find sequences with similar conserved domain architecture (cdart) Search sequences that have gene expression profiles (GEO) Search immunoglobulins (IgBLAST) Search for SNPs (snp) Screen sequence for vector contamination (vecscreen) Align two sequences using BLAST (bl2seq) Search protein or nucleotide targets in PubChem BioAssay

NCBI在线Blast的图文说明

NCBI在线Blast的图文说明

NCBI在线Blast的图文说明Blast(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。

BLAST程序能迅速与公开数据库进行相似性序列比较。

BLAST 结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

Blast中常用的程序介绍:1、BLASTP 是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。

3、BLASTN 是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。

与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。

此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。

NCBI的在线blast:/Blast.cgi1、进入在线blast界面,可以选择blast特定的物种(如人,小鼠,水稻等),也可以选择blast所有的核酸或蛋白序列。

不同的blast程序上面已经有了介绍。

这里以常用的核酸库作为例子。

NCBI在线blast页面2、粘贴fasta格式的序列。

选择一个要比对的数据库。

关于数据库的说明请看NCBI在线blast数据库的简要说明。

一般的话参数默认。

NCBI在线blast页面3、blast参数的设置。

注意显示的最大的结果数跟E值,E值是比较重要的。

筛选的标准。

最后会说明一下。

blast参数设置4、注意一下你输入的序列长度。

生物信息学试题A卷2010

生物信息学试题A卷2010

4、构建系统发生树,应使用 A、BLAST C、UPGMA B、FASTA D、Entrez
□□□□□□□□□□□□学生姓名:________________
5、在蛋白质一级数据库基础上,构建二级数据库应使用 A、近邻归并法 C、基因融合法 B、序列比对 D、Entrez
一、名词解释(每题 2 分,共 10 分) 1、基序(motif) 2、可读框(ORF) 5、 系统发生学 3、剪切变体
S 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
Q 0.0 0.0 0.0 2.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
Y 0.0 0.0 0.0 0.0 3.0 0.0 0.0 0.0 0.0 0.0 0.0
H 0.0 0.0 0.0 0.0 0.0 4.0 0.0 0.0 0.0 0.0 0.0
E
12
11
13
9
0
exon
159465..159895 /gene="rpl2" /number=2
ORIGIN 1 atgggcgaac gacgggaatt gaacccgcga atggtggatt cacaatccac taccttaatc 61 cacttggcta catccgcccc tactctgact caattaagag tcatgtcata tttcgtttta
7、欧洲生物信息研究所简称: A、SIB C、NCBI B、EBI D、MIPS
8、在蛋白质序列数据库中比较查询蛋白质序列,应使用 A、BLASTn C、tBLASTn 9、Profiles 数据库是 A、蛋白质序列数据库 C、蛋白质二级数据库 10、TreeBASE 系统主要用于 A、发现新基因 C、类群间系统发育关系研究 B、系统生物学研究 D、序列比对 B、核酸序列数据库 D、蛋白质结构数据库 B、BLASTp D、BLASTx

生物信息blast课程论文

生物信息blast课程论文

一前言在生物信息学中,Blast是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。

比如说查询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择blastn程序。

下面主要就核酸和蛋白质在BLAST中的比对过程、结果分析做出说明。

二本论2.1专题实践目的通过该专题实践,进一步了解BLSAT在生物信息学中的应用,加深对BLAST的认识,熟悉BLAST中序列比对的过程并且掌握部分分析结果的意义。

2.2专题实践任务DNA序列blast∙登录NCBI:/Blast.cgi∙从10.186.32.182服务器fasta文件夹下载DNA序列文件(任选一个),另存为本地文件。

∙打开文件,分析文件内容。

∙复制粘贴氨基酸序列到 Enter Query Sequence对话框∙选择数据库∙提交BLAST∙分析返回结果蛋白质序列blast∙登录NCBI:/Blast.cgi∙从10.186.32.182服务器fasta文件夹下载蛋白质序列文件(任选一个或几个文件),另存为本地文件。

∙打开文件,分析文件内容。

∙复制粘贴氨基酸序列到 Enter Query Sequence对话框∙选择数据库∙提交BLAST∙分析返回结果2.3 DNA序列Blast2.3.1选取DNA序列:>11466 TGGCCTCCTGCCCTTCCTGGAGGGAGATGCGCTCCCTGGAGCTGCTGACTAGGTGGAAGC AGACTGGCTCCTTCAGTGGGTAGGCCAGCCTGCCTGTCTCCCTAGCCCAGTCCCACCGTG CTGGCCTCAGTGGTGGAGGCAGGCATGGAGCCTTGGAGGAACC该DNA序列为人类的一段DNA。

打开NCBI网站点击Basic BLAST 部分的nucleotide blast 链接到一个新的页面。

将上面的DNA序列粘贴到对话框中:2.3.2参数设置:在最上面有这样几个选项其中有blastn、blastp、blastx、tblastn、tblastx几个选择,分别代表了不同的搜索数据库,例如blastx,是把核酸序列翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
page 109
BLAST search output: top portion
database query
program
taxonomy
page 112
BLAST search output: taxonomy report summarizes species with matches
BLAST search output: graphical output
page 112
BLAST search output: tabular output
High scores low E values
Cut-off: .05? 10-10?
page 113
BLAST search output: alignment output
Outline of today’s lecture
Step 4: optional parameters
You can... • choose the organism to search • turn filtering on/off • change the substitution matrix • change the expect (e) value • change the word size • change the output format
page 109
(c) Query: human insulin NP_000198 Program: blastp Database: C. elegans RefSeq Option: conditional compositional score matrix adjustment
Note that the bit score, Expect value, and percent identity all change with the compositional score matrix adjustment
BLAST
BLAST (Basic Local Alignment Search Tool) allows rapid sequence comparison of a query sequence against a database. The BLAST algorithm is fast, accurate, and web-accessible.
Expect Word size
Scoring matrix
Filter, mask
page 108
Step 4a: optional blastn search parameters
Expect Word size
Match/mismatch scores Filter, mask
page 108
page 109
(e) Query: human insulin NP_000198 Program: blastp Database: C. elegans RefSeq Option: Mask for lookup table only
Filtering (the filtered sequence is the query in lowercase and grayed out)
Then click “BLAST”
page 102
page 103
Step 1: Choose your sequence
Sequence can be input in FASTA format or as accession number
page 103
Example of the FASTA format for a BLAST query
BLAST Practical use Algorithm Strategies Finding distantly related proteins: PSI-BLAST Hidden Markov models BLAST-like tools for genomic DNA PatternHunter Megablast BLAT, BLASTZ
page 109
(d) Query: human insulin NP_000198 Program: blastp Database: C. elegans RefSeq Option: Filter low complexity regions
Note that the bit score, Expect value, and percent identity all change with the filter option
page 104
Choose the BLAST program Program Input
1 blastn blastp blastx tblastn DNA DNA
Database 1
protein 6 DNA
protein protein
6
protein 36 DNA
tblastx
DNA
DNA

Fig. 2.9 page 32
Step 2: Choose the BLAST program
page 104
Step 2: Choose the BLAST program
blastn (nucleotide BLAST) blastp (protein BLAST) blastx (translated BLAST) tblastn (translated BLAST) tblastx (translated BLAST)
Copyright notice
Many of the images in this powerpoint presentation are from Bioinformatics and Functional Genomics by Jonathan PevsnerCopyright © 2009 by John Wiley & Sons, Inc. These images and materials may not be used without permission from the publisher. We welcome instructors to use these powerpoints for educational purposes, but please acknowledge the source. The book has a homepage at including hyperlinks to the book chapters.
BLAST: background on sequence alignment
Outline of today’s lecture
BLAST Practical use Algorithm Strategies Finding distantly related proteins: PSI-BLAST Hidden Markov models BLAST-like tools for genomic DNA PatternHunter Megablast BLAT, BLASTZ
protein databases
nucleotide databases
page 106
Step 4a: Select optional search parameters
organism Entrez! algorithm
page 107
Step 4a: optional blastp search parameters
page 102
Four components to a BLAST search
(1) Choose the sequence (query) (2) Select the BLAST program (3) Choose the database to search
(4) Choose optional parameters
page 109
(e) Query: human insulin NP_000198 Program: blastp Database: C. elegans RefSeq Option: Mask for lookup table only
Note that the bit score, Expect value, and percent identity could change with the “mask for lookup table only” option
page 106
(a) Query: human insulin NP_000198 Program: blastp Database: C. elegans RefSeq Default settings: Unfiltered (“composition-based statistics”)
Our starting point: search human insulin against worm RefSeq proteins by blastp using default parameters
November 29, 2010
BLAST:
Basic local alignment search tool
BL A S T !
Jonathan Pevsner, Ph.D. Bioinformatics pevsner@ Johns Hopkins School of Medicine
5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
page 105
Step 3: choose the database
nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences
相关文档
最新文档