新版blast本地化构建+数据库下载+序列间的相似性检索
linux下BLAST+(新版blast)本地化步骤

64位LINUX下BLAST+的本地化以我的计算机(用户名为yonpen)和数据库nr为例,运行psiblast得到PSSM矩阵。
2012-02-181下载程序在ftp:///blast/executables/blast+/LATEST/下载ncbi-blast-2.2.25+-x64-linux.tar.gz2 解压如解压到用户的主目录(/home/yonpen)下,把解压后的文件夹重新命名为blast,则BLAST+的所有程序在目录/home/yonpen/blast/bin下。
3 添加环境变量打开终端(Terminal),切换为root用户,执行vim /etc/profile在最末尾添加export PATH=”/home/yonpen/blast/bin:$PATH”,保存退出。
或直接找到/etc/profile这个文件,在最末尾添加export PATH=”/home/yonpen/blast/bin:$PA TH”此处若成功,则执行blastn -version会出现版本信息。
4 新建在目录/home/yonpen/blast下新建一个文件夹,命名为db在/home/yonpen下新建一个文件,命名为.ncbirc在文件中添加内容[BLAST]BLASTDB=/home/yonpen/blast/db5 下载FASTA格式的数据库ftp:///blast/db/FASTA/如下载nr.gz6 建立BLAST+可用的数据库打开终端(Terminal),切换到/home/yonpen/blast/db目录下,执行:makeblastdb –in nr -parse_seqids -hash_index -dbtypeprot7 使用程序如使用psiblast在目录/home/yonpen/blast下新建3个文件夹,分别命名为pssm,input,output设待查询序列所在文件的名字为3.fasta(一个文件放一条序列,且必须为fasta格式)执行命令:psiblast -comp_based_stats 1 -evalue 0.001 -num_iterations 3 -db nr -query input/3.fasta -out output/3.txt -out_ascii_pssmpssm/3.pssm。
上机实习四:BLAST序列相似性搜索工具的使用

Assessing whether proteins are homologous
RBP4 and PAEP: Low bit score, E value 0.49, 24% identity (“twilight zone”). But they are indeed homologous. Try a BLAST search with PAEP as a query, and find many other lipocalins.
cut-off parameters
BLAST search strategies
General concepts How to evaluate the significance of your results
How to handle too many results
How to handle too few results
Step 3: choose the database
nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences htgs = high throughput genomic sequence
Sometimes a real match has an E value > 1
…try a reciprocal BLAST to confirm
Sometimes a similar E value occurs for a short exact match and long less exact match
BLAST相似序列的数据库搜索

实习 4 :BLAST相似序列的数据库搜索学号20090**** 姓名****** 专业年级生命生技****实验时间2012.6.19 提交报告时间2012.6.20实验目的:学习使用BLAST在数据库中搜索相似序列实验内容:使用NCBI上面的BLAST程序进行相似性序列搜索:1.把核酸序列利用BLASTN搜索相似核酸序列;2.把蛋白质序列对应的蛋白质利用BLASTP搜索相似蛋白质序列;3.把核酸序列利用BLAST搜索相似蛋白质序列并与BLASTP比较,体会差异:4.把蛋白质序列利用TBLASTN搜索相似核酸序列并与BLASTN比较,体会差异:5.把核酸序列利用TBLASTX搜索相似核酸序列并与BLASTN比较,体会差异。
作业:1. 找一条你感兴趣的核酸序列(可以是前面搜索到的同源核酸序列中任意一条),通过BLASTN搜索NR数据库,说明你的参数如何设置,分析搜索结果包含哪些信息。
答:使用的序列为:智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA。
Algorithm parameters设置如下:参数:Enter Query Sequence——NM_001185098Choose Search Set——Database: Nucleoctide collection(nr); Exclude: √Models(XM/XP),√Uncultured/environmental ample sequencesProgram Selection——Optimize fot: Highly similar sequences展开“Algorithm parameters”,依次设置:General Parameters——Max target sequence:100; Short queries:√; Expect threshold:10;Word size:28; Max matches in a query range:0Scoring Parameters——Matrix/Mismatch Scores:1,-2; Gap Costs: LinearFilters and Masking——Filter: √Low complexity regions; √Mask: mask for lookup table only搜索结果分析:使用智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA搜索NR数据库,搜索出100条符合条件的序列,序列来自的物种包括了Homo sapiens,Pan troglodytes,Gorilla gorilla,Pongo abelii,Pongo pygmaeus,Mus musculus等,其中根据得分高低排列,前7条序列如下所示:NM_001185098.1 Homo sapiens insulin (INS), transcript variant 3, mRNANM_001185097.1 Homo sapiens insulin (INS), transcript variant 2, mRNANM_000207.2 Homo sapiens insulin (INS), transcript variant 1, mRNANG_007114.1 Homo sapiens insulin (INS), RefSeqGene on chromosomeAC132217.15 Homo sapiens chromosome 11, clone RP11-889I17, complete sequenceBC005255.1 Homo sapiens insulin, mRNAJ00265.1 Human insulin gene, complete cds上述序列的“Max ident”均为100%或99%,且E-Value值很低,可见搜索出来的序列与QUERY序列匹配的相似度很高。
BLAST数据库相似性搜索

实用生物信息技术课程第4次作业BLAST数据库相似性搜索姓名________ 学号______________ 组号_____ 日期________年___月___日1.以人血红蛋白beta亚基(HBB_HUMAN)为检测序列,搜索Swiss-Prot数据库,找出灵长目动物(Primates)中与HBB_HUMAN序列相似性高于90%(Identity>90%)的beta珠蛋白(beta globin)。
2.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用BlastP搜索Swiss-Prot数据库,改变种子序列字长(Word size)和计分矩阵(Scoring matrix),找出人珠蛋白家族12个成员。
3.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用PSI-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
4.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用DELTA-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
5.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用tBlastN搜索RefSeq数据库中人珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
6.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,搜索RefSeq数据库中人、小鼠和大鼠三个物种珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
7.查阅Blast网站帮助文档和相关文献,结合Blast算法,归纳总结Blast数据库相似性搜索的用法8.结合本人课题研究中的实例,说明Blast具体应用。
9.本地BLAST(选做题)1)下载玉米转录因子蛋白质序列和编码区核苷酸序列数据,构建本地BLAST数据库。
2)以拟南芥转录因子SPL3蛋白质序列为检索序列,用BlastP搜索玉米转录因子蛋白质序列中相似序列,用tBlastN搜索玉米转录因子编码区序列中相似序列,分析结果。
BLAST序列相似性检索

BLAST序列相似性检索<zt>序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索,找出与之相似的序列,从而评判新测定的序列是重复别人的工作,还是在前人的基础上有所创新,或是发现了新的序列。
现在用于序列类似性检索的软件很多,下面主要介绍GenBank的序列类似性检索工具棗BLAST。
1. BLAST简介BLAST是Basic Local Alignment Search Tool的英文缩写,意即碱基局部对准检索工具,是一种序列类似性检索工具。
它采用统计学记分系统,能将真正配对的序列同随机产生的干扰序列区别开来;同时采用启发式算法系统,即采用的是局部对准算法(Local Alignment Algorithm),而不是全序列对准算法(Global Alignment Algorithm)。
全序列对准算法是在检索结果中两个被比较序列所有片断均类似;而局部对准算法是找出两个被比较序列的“最类似”片断,并得出可能只包含两个序列的某个部分的对准结果。
在BLAST的基础上,NCBI又开发了BLAST 2.0、Gapped BLAST和PSI-BLAST。
BLAST 2.0•是一种新的BLAST 检索工具,它对BLAST作了改进,运行速度更快,灵敏度更高,同时具有Gapped BLAST和PSI-BLAST两种软件的新功能。
Gapped BLAST允许在对准的序列中引入空位(•碱基缺失或插入),引入“空位”(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。
这些空位对准的记分系统更能反映相关序列的类似程度。
PSI-BLAST的全称是Position-Specific •Iterated BLAST,意即特殊位置重复BLAST,它提供了自动、易用的概貌(Profile)检索,是查找序列同源(Sequence Homologues)的有效方法。
目前,PSI-BLAST•仅用于比较蛋白质查询序列与蛋白质数据库中的序列的类似程度。
序列相似性检索工具BLAST的使用和检索

序列相似性检索工具BLAST的使用和检索
宋凌云
【期刊名称】《情报探索》
【年(卷),期】2008(000)004
【摘要】介绍了局部序列对齐检索工具中的BLAST系统的使用和检索,以及BLAST程序的功能、进入途径、页面结构、检索方法、结果组成分析等方面.【总页数】2页(P74-75)
【作者】宋凌云
【作者单位】遵义医学院珠海校区图书馆,广东珠海,519041
【正文语种】中文
【中图分类】G35
【相关文献】
1.BLAST序列比对与生物医学文献检索 [J], 丁六松;张宇伟
2.基于离散余弦变换的时间序列相似性检索 [J], 刘端阳;张瑞强
3.医学文献检索与检索工具书的使用技巧 [J], 范文田
4.检索工具在互联网教育资源检索中的使用 [J], 王小辉
5.BLAST调整和干预对生物序列检索质量和效率的影响 [J], 李世超;梁韶;贾星航;黄利
因版权原因,仅展示原文概要,查看原文内容请购买。
NCBIblast使用教程[2]
![NCBIblast使用教程[2]](https://img.taocdn.com/s3/m/2417b0575ef7ba0d4b733b39.png)
下载正确的Blast程序包
blast:在本地运行的blast程序包
wwwblast:在本地服务器建立blast服务
的网站
netblast:blast的客户端程序,直接链接
至NCBI的BLAST服务器,使用BLAST服 务,不需浏览器。
NCBIblast使用教程[2]
下载正确的Blast程序包
Blast程序包的名字上还包括了该程序包运行的硬
NCBIblast使用教程[2]
Blast简介(一)
BLAST 是由美国国立生物技术信息 中心(NCBI)
开发的一个基于序列相似性的数据库搜 索程序。
BLAST是“局部相似性基本查询工 具”(Basic Local Alignment Search Tool)的 缩写。
NCBIblast使用教程[2]
NCBIblast使用教程[2]
相似性和同源性关系
序列的相似性和序列的同源性有一定的关系,一 般来说序列间的相似性越高的话,它们是同源序 列的可能性就更高,所以经常可以通过序列的相 似性来推测序列是否同源。
正因为存在这样的关系,很多时候对序列的 相似性和同源性就没有做很明显的区分,造成经 常等价混用两个名词。所以有出现A序列和B序 列的同源性为80%一说。
主要的blast程序
程序名 Blastn Blastp
查询序列 核酸 蛋白质
Blastx
核酸
Tblastn 蛋白质
TBlastx
核酸
数据库
搜索方法
核酸 核酸序列搜索逐一核酸数据库中的序列
蛋白质 蛋白质 核酸 核酸
蛋白质序列搜索逐一蛋白质数据库中的序 列
核酸序列6框翻译成蛋白质序列后和蛋白 质数据库中的序列逐一搜索。
实习三:相似序列的数据库搜索

实习三:相似序列的数据库搜索学号姓名专业年级实验时间提交报告时间实验目的:1. 学会使用BLAST在数据库中搜索相似序列2. 学会本地运行BLAST(local blast)3. 学会分析数据库搜索结果实验内容:依据实验教材学会网页式BLAST 的使用,能够使用不同的算法得到与查询蛋白和核酸相似的序列;学会使用本地化BLAST批处理比对大量序列;及通过迭代搜索的方式分析结果,寻找同源序列。
作业:1. Search DNA topoisomerase 1 of yeast on the BLAST server. Choose the BLASTN program,answer the following questions:检索号:NM_001183260a. Is there a sequence identical as your query in the result? What is the bit score and the raw score?包含原始序列,raw score为4620,bit score为4167b. What is the score for match, mismatchand gap penalty?匹配2,错配-3,空位引入罚分5,延伸罚分2c. What values of K and λ were used for calculating the expect values (E)? Where do these values come from?在搜索结果中的点击“Search Summary”显示:Lambda 0.625;K 0.41;K和λ的估计:一些数据库搜索程序,例如FASTA 或其它基于Smith-Waterman 算法的程序,在进行序列搜索时,会对数据库中的每条序列进行联配并给出联配值,这些值大部分与未知序列无关,但它们被用于了K 和λ参数的估计。
新版blast2.2.24+本地化及本地数据库构建

Windows平台下新版blast(2.2.24+)本地化构建+数据库下载+序列间的相似性检索从blast-2.2.23-ia32-win32这个版本开始,本地化blast的参数有了很大改变,NCBI新近对blast 程序做了一些修改推出了blast+,目前最新版本为ncbi-blast-2.2.24+-ia32-win32。
与之前的blast相比,新的blast+将blastn,blastx 等合作与blastall命令分隔开来,对各个命令的参数定制更加方便而网上相关的一些教程大同小异,一部分操作已经不适用了,遂整理如下,仅供参考,不当之处,敬请指正。
blast+的本地化构建1.1程序下载链接到:ftp:///blast/executables/blast+/LATEST下载最新的BLAST+程序包,推荐版本ncbi-blast-2.2.24+-ia32-win32.tar.gz(绿色版windows32位系统),其他版本:ncbi-blast-2.2.24+-win32.exe适用于windows32位系统,ncbi-blast-2.2.24+-win64.exe 适用Windows 64 位系统,请注意选择。
1.2安装流程建议安装在非系统盘,如将下载的BLAST 程序安装到E:\blast,生成bin、doc 两个子目录,其中bin 是程序目录,doc是文档目录,这样就安装完毕了。
1.3用户环境变量设置右键点击“我的电脑”-“属性”,然后选择“高级系统设置”标签-“环境变量”(图1),在用户变量下方“Path”随安装过程已自动添加其变量值,即“E:\Blast\bin”。
此时点击“新建”-变量名“BLASTDB”,变量值为“E:\Blast\db”(即数据库路径,图2)。
1.4查看程序版本信息点击Windows 的“开始”菜单,输入“cmd”(XP系统在运行中输入cmd)(图3)调出MS-DOS 命令行,转到Blast 安装目录,输入命令“blastn -version”即可查看版本(图4):看到图4显示说明本地blast已经安装成功。
blast matches方法

blast matches方法
猜你想了解的是BLAST Matches方法,它是一种用于比对生物序列的算法。
BLAST(Basic Local Alignment Search Tool)全称是基本局部比对搜索工具,可用于数据库相似性搜索。
其主要步骤如下:
1. 打开BLAST,点击“Nucleotide-nucleotide BLAST(blastn)”或“Search for short, nearly exact matches”。
2. 新页面完全显示后,将引物序列直接拷贝到“Search”框,可以通过以下3种方法进行拷贝:
- 直接拷贝上游引物序列,然后直接将下游引物序列拷贝在上游引物后面。
- 直接拷贝上游引物序列,在上游引物序列后加一空格,然后直接将下游引物序列拷贝在空格后面。
- 直接拷贝上游引物序列,换行,然后直接拷贝下游引物序列。
3. 点击“BLAST!”,新页面完全出来以后,点击“Format!”。
4. 查找有没有和1-19、20-37同时完全匹配的基因,如果下游引物序列所对应的基因片段的3'端正好和上游引物序列的3'端的1或2个碱基互补,那就可能是19-37或18-37。
如果有,则说明引物序列正确。
需要注意的是,上、下游引物的长度在查看Blast结果时有用。
你还可以查询BLAST 的官方网站,以获取更详细的信息和使用说明。
如何看懂NCBI-BLAST输出结果

如何看懂NCBI BLAST输出结果2010-11-13 10:38:11| 分类:生物信息分析| 标签:blast |字号大中小订阅本文转自:写在解读报告之前的,首先就使用Blast最终的目的是什么达成一致,Blast 是通过两两比对,找到数据库中与输入序列最相似的序列,或者说是最相似的序列片段。
那么我们看比对结果就是看Blast从数据库中找到哪些相似的序列,然后就是如何相似,这些相似又可以告诉我们哪些信息等。
当然Blast可以衍生出许多的用途,但都是建立在找到相似性序列(片段)的基础上的。
最新的BLAST结果报告解读,本文以BLASTP为例子,说明如何来解读BLAST 结果。
示例BLAST地址:比对用的例子:>gi|16758036|ref|NP_445782.1| ribosomal protein L21 [Rattus norvegicus] MTNTKGKRRGTRYMFSRPFRKHGVVPLATYMRIYKKGDIVDIKGMGTVQKG MPHKCYHGKTGRVYNVTQH AVGIIVNKQVKGKILAKRINVRIEHIKHSKSRDSFLKRVKENDQKKKEAKEKG TWVQLNGQPAPPREAHFVRTNGKEPELLEPIPYEFMA数据选择:nr比对时间:2009年9月9日12:46:23解读报告前需要掌握的概念:alignments 代表比对上的两个序列hits 表示两个序列比对上的片段Score 比对得分,如果序列匹配上得分,不一样,减分,分值越高,两个序列相似性越高E Value 值越小,越可信,相对的一个统计值。
Length 输入序列的长度Identities 一致性,就是两个序列有多少是一样的Query 代表输入序列Sbjct 代表数据库中的序列结果详细说明菜单与基本信息NCBI Blast结果-菜单与基本信息1.下一步操作的菜单,你可以调整参数,重新比对、保存你的搜索条件以便下次比对、调整报告显示的参数,以更符合你的要求、下载你比对的结果;2.此次比对的标题,优先是你填写的,如果没有填写可能是你输入fasta序列头(大于号后面的),如果这个也没有找到,NCBI会自动生成一个;3.你输入序列的信息,包括标识号、描述信息、类型、长度;4.数据库的信息以及你选择的Blast程序;5.查看其他报告,比如摘要、分类、距离树、结构、多重比对等。
实验三:利用Blast进行序列相似性比对(1)

3. 以大肠杆菌的胶原蛋白酶名称为pHK08_29的基因做为查 询序列 (1) 用Blastn能在nr/nt数据库中检索到多少条与之同源的序 列。其中大肠杆菌、弗累克斯讷氏杆菌、沙门氏菌各有多 少条序列。
(2) 换用megablast或discontiguous megablast,观察检索结 果的改变。 (3) 尝试修改Blastn的参数,观测对检索结果的影数据库中检索到多少 条与之同源的序列。 4. 用blast2分析YP_003683100与ADH70594、 YP_004926582、 YP_004925874、 YP_003273209、 YP_003646515、 YP_003514536、 ABP47302、 ADD45443、 ADW07065、 ADG78176、 ACY21316、 ABM16043、 EHP75935、 BAC74107、 YP_00407863之间的相似性.
实验三:利用Blast进行序列相似性比对
具体步骤
1.登陆blast主页 /BLAST/ 2.根据数据类型,选择合适的程序 3.填写表单信息 4.提交任务 5.查看和分析结果
1. 以大麦Mlo基因(Z83834)为查询序列 (1) 用Blastn能在nr/nt数据库中检索到多少条与之同源的序 列?有多少条是禾本科中的? (2) 换用megablast或discontiguous megablast,观察检索结 果的改变。 (3) 尝试修改Blastn的参数,观测对检索结果的影响。 (4) 找出Mlo基因的编码蛋白序列,用Blastp检索到的与 Mlo蛋白同源的序列与用PSI-Blast检索到的同源序列是否 有差别? (5) 使用BlastX预测Mlo基因的编码蛋白。 2. 用bl2seq分析大麦和小麦Mlo基因mRNA序列编码区和蛋白 质产物的同源性
blast提取基因序列的方法

构成兰科编码基因数据库
选择要对比ቤተ መጻሕፍቲ ባይዱ取的序列
• 选择一个基因比较完整的序列作为模板序列 • 将单个基因序列复制在一个新的faste格式文件 • 将文件命名为基因的名字
cmd进入dos系统
输入命令提取基因序列
结果输出
BLAST (Basic Local Alignment Search Tool)是一套在蛋 白质数据库或DNA数据库中进行相似性比较的分析工具。 BLAST程序能迅速与公开数据库进行相似性序列比较。 BLAST 采用一种局部的算法获得两个序列中具有相似性 的序列。 BLASTP是蛋白序列到蛋白库中的一种查询 BLASTX是核酸序列到蛋白库中的一种查询。 BLASTN是核酸序列到核酸库中的一种查询。
BLAST的操作流程
建立数据库 → 选择要对比提取的基因序列 →从开 始输入cmd进入dos系统→进入blast软件所在文件夹 →建立索引查询同源核苷酸→提取核苷酸序列
数据库的建立
• 从NCBI下载兰科编码基因序列 (63条) • 建立一个faste格式文件 • 将下载的兰科编码基因序列依次粘贴在faste文件中,
BLAST核酸氨基酸序列相似性比较

BLAST 核酸/氨基酸序列相似性比较Blast(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。
BLAST程序能迅速与公开数据库进行相似性序列比较。
BLA ST结果中的得分是对一种对相似性的统计说明。
BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。
如果您想进一步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。
BLAST的功能BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。
BLAST还能发现具有缺口的能比对上的序列。
BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:403-410(1990)),在序列数据库中对查询序列进行同源性比对工作。
从最初的BLAST发展到现在NCBI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。
BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。
所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。
BLAST包含的程序:1、BLASTP是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。
与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
BLAST与序列相似性搜索上机

NCBI与Genbank
Bioinformatics, 2008-2009,June, TMMU
进入Genbank
Bioinformatics, 2008-2009,June, TMMU
进入EntreZ
Bioinformatics, 2008-2009,June, TMMU
搜索Genbank中的核酸序列
特性
Bioinformatics, 2008-2009,June, TMMU
GenBank的主要字段及其含义
字段
LOCUS ACCESSION DEFINITION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL COMMENTS MEDLINE FEATURES BASE COUNT ORIGIN //
Gene Info
基因名称
染色体信息
Bioinformatics, 2008-2009,June, TMMU
结论1:
这个基因是小鼠的Nek2 NIMA基因,基因 标识符是:NM_010892.3;该基因定位于 小鼠的1号染色体,位置:193399659193737126
Bioinformatics, 2008-2009,June, TMMU
Conserved Domains: S_TKc
Bioinformatics, 2008-2009,June, TMMU
发掘人中该同源蛋白的功能
上机实验一
BLAST与数据库相似性搜索
微生物学教研室
邹凌云
Bioinformatics, 2008-2009, June, TMMU
教学内容
了解
常用生物信息学数据库的数据格式
生物序列的相似性搜索NCBI_blast_使用教程

本地WEB版的Blast
在NCBI的FTP上,在blast程序的目录 下,还提供了一种供用户在自己的服务器 上建立Blast网页服务的软件包(wwwblast)。
使用该软件包,用户可以建立一个简 易的进行Blast运算的网站供实验室人员使 用。用于搜索的数据库同样可以灵活的定 义。
16
Blast程序评价序列相似性的两个数据
匹配情况,分值,e值
24
结果页面(三)
详细的比对上的序列的排列情况
25
一个具体的例子(blastp)
假设以下为一未知蛋白序列
>query_seq
MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGV PINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDH IGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETA LALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDL IRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFP PTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADST QA
…
12
Blast结果给出的信息
Blast结果会列出跟查询序列相似性比较 高,符合限定要求的序列结果,根据这些 结果可以获取以下一些信息。 1.查询序列可能具有某种功能 2.查询序列可能是来源于某个物种 3.查询序列可能是某种功能基因的同源基因 … 这些信息都可以应用到后续分析中。
第四章 序列相似性搜索工具blast

“The central idea of the BLAST algorithm is to confine attention to segment pairs that contain a word pair of length w with a score of at least T.”
Altschul et al. (1990)
KENFDKARFSGTWYAMAKKDPEG 50 RBP (query) MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit)
extend
Hit!
extend
How a BLAST search works: 3 phases
Phase 3: In the original (1990) implementation of BLAST, hits were extended in either direction.
一、 BLAST 简介
BLAST程序是目前最常用的基于局部相似性的数据库 搜索程序,它们都基于查找完全匹配的短小序列片段, 并将它们延伸得到较长的相似性匹配。它们的优势在 于可以在普通的计算机系统上运行,而不必依赖计算 机硬件系统而解决运行速度问题。
BLAST数据库搜索策略
BLAST仅通过部分而不是全 部序列计算最适联配值 ——赢得搜索速度
5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
TWO ASPECTS OF BLAST
BLAST ALGORITHM
Word Hit Heuristic
BLAST STATISTCS
Karlin-Altschul statistics: a general theory of alignment statistics Applicability goes well beyond BLAST
如何本地化进行blast序列比对

如何本地化进行blast序列比对1、基本概念相似性(Similarity)是指序列比对过程中用来描述检测序列和目标序列之间相同或相似碱基或氨基酸残基占全部比对碱基或氨基酸残基的比例的高低,属于量的判断。
同源性(Homology)是指从某一共同祖先经趋异进化而形成的不同序列。
只有当两个蛋白质在进化关系上具有共同的祖先时,才可称它们为同源的,属于质的判断。
相似性和同源性的关系当相似程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性程度低于20%时,就难以确定或者根本无法确定其是否具有同源性。
总之不能把相似性和同源性混为一谈。
所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应避免使用。
序列相似性比较和同源性分析序列相似性分析:就是用来计算待研究序列与某序列之间的相似性程度,常用的软件包有BLAST、FASTA等;序列同源性分析:是将待研究与来自不同物种的序列中进行进化分析,以确定该序列与其它序列间的亲源关系。
常用的程序包有Phylip及Mega等进化分析软件;全局比对与局部比对全局比对寻找序列在全长范围内最佳比对。
常用算法如:Needleman-Wunsch algorithm(Needle)在线程序如: Needle局部比对寻找序列在局部区域的最高比对打分。
常用算法如:Smith-Waterman algorithm, blast,fasta等在线程序如: WaterNeedle及Water的在线程序也可以本地安装Emboss执行以上程序局部相似性比对的生物学基础蛋白质功能位点往往是由较短的序列片段组成的,尽管在序列的其它部位可能有插入、删除等突变,但这些关键的功能部位的序列往往具有相当大的保守性。
而局部比对往往比整体比对对这些功能区段具有更高的灵敏度,因此其结果更具生物学意义。
BLAST程序常用的两个评价指标Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大,结果越可信。
新版blast本地化构建+数据库下载+序列间的相似性检索

新版blast本地化构建+数据库下载+序列间的相似性检索Ethnobotany前面记录了blast-2.2.23-ia32-win32的本地化构建及相似性检索,NCBI新近对blast程序做了一些修改推出了blast+,这里结合网上资料、blast+的user manual对blast+的本地化构建及使用作一引荐。
1blast+的本地化构建链接到:ftp:///blast/executables/blast+/LATEST下载ncbi-blast-2.2.23+-ia32-win32.tar.gz(绿色版),解压到d盘,并将文件夹更名为blast(我习惯这样做,因为在dos中写命令时方便),这样就安装完毕了,blast下具2个文件即bin 和doc。
2 数据库下载2.1法1:直接从NCBI下载subject序列去掉txt的扩展名做成数据库即*db,然后将query 序列的txt扩展名掉做成查询文件*in。
(格式必须是fasta,名字可以自己随便命名)2.2法2:从NCBI中的ftp库下载所需要的某一个库或几个库,其链接为ftp:///blast/db/2.3法3:利用新版blast自带的update_blastdb.pl进行下载,这需要安装perl程序。
2.3.1 perl程序的下载和安装可google“Perl for Windows”获得,也可直接按此连接/releases.html下载并,安装到任何盘均可。
2.3.2运行update_blastdb.pl进行下载2.3.2.1开始>运行>cmd+确认>进入dos系统>输入以下命令打开bin文件夹。
2.3.2.2接着输入下述命令回车查看操作帮助(这一步可以不做,不妨碍后续操作)2.3.2.3还可输入下述命令回车查看NCBI中的库(无需登录NCBI你就可以看到你所需要的库)2.3.2.4以下载载体库(vector)为例演示如何下载库。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
新版blast本地化构建+数据库下载+序列间的相似性检索
Ethnobotany
前面记录了blast-2.2.23-ia32-win32的本地化构建及相似性检索,NCBI新近对blast程序做了一些修改推出了blast+,这里结合网上资料、blast+的user manual对blast+的本地化构建及使用作一引荐。
1blast+的本地化构建
链接到:ftp:///blast/executables/blast+/LATEST
下载ncbi-blast-2.2.23+-ia32-win32.tar.gz(绿色版),解压到d盘,并将文件夹更名为blast(我习惯这样做,因为在dos中写命令时方便),这样就安装完毕了,blast下具2个文件即bin 和doc。
2 数据库下载
2.1法1:直接从NCBI下载subject序列去掉txt的扩展名做成数据库即*db,然后将query 序列的txt扩展名掉做成查询文件*in。
(格式必须是fasta,名字可以自己随便命名)
2.2法2:从NCBI中的ftp库下载所需要的某一个库或几个库,其链接为
ftp:///blast/db/
2.3法3:利用新版blast自带的update_blastdb.pl进行下载,这需要安装perl程序。
2.3.1 perl程序的下载和安装
可google“Perl for Windows”获得,也可直接按此连接
/releases.html下载并,安装到任何盘均可。
2.3.2运行update_blastdb.pl进行下载
2.3.2.1开始>运行>cmd+确认>进入dos系统>输入以下命令打开bin文件夹。
2.3.2.2接着输入下述命令回车查看操作帮助(这一步可以不做,不妨碍后续操作)
2.3.2.3还可输入下述命令回车查看NCBI中的库(无需登录NCBI你就可以看到你所需要的库)
2.3.2.4以下载载体库(vector)为例演示如何下载库。
输入如下命令回车即可。
直到后面出现done即表示已经下载完毕。
如果下载其他数据库,你就可以在上面的perl update_blastdb.pl 后面的vector换成其它数据库的名字即可。
再做本地blast时即可以你下载的压缩文件名代替你bin中*db数据库,进行搜索。
上述三种方法各有优缺点,前两种下载速度较快,但是每次进行检索都需要对数据库进
行格式化(转化成二进制数据),第三种方法下载速度较慢,但是是NCBI中已经格式化好的,在进行本地检索时不需再进行格式化,直接用即可。
3序列间的相似性检索
以人的BCL2-like mRNA检索人类的mRNA库为例介绍核酸序列的本地检索。
3.1下载人类的mRNA数据库(只能用后2种方法的其中一种),这里用ftp下载,速度较快,其链接为ftp:///refseq/H_sapiens/mRNA_Prot/human.rna.fna.gz
解压后置于blast的bin文件夹下。
3.2去NCBI下载BCL2-like的mRNA序列,其登录号为NM_207002.2用作你做该实验的query序列,将该序列置于bin中命名为human,并去掉扩展名。
3.3格式化数据库
开始>运行>cmd+确认>进入dos系统>输入以下命令打开bin文件夹。
输入以下命令对数据库进行格式化。
-in参数后面接将要格式化的数据库,-parse_seqids, -hash_index两个参数一般都带上,主要是为blastdbcmd取子序列时使用,-dbtype nucl告诉程序这是核酸数据库。
3.4运行blastn(blast+)
输入以下命令进行数据检索。
这样即可在bin下查看结果。
以上实验所输入的全部命令如下:
4蛋白序列间的比对检索
数据库格式化命令:makeblastdb.exe –in db –parse_seqids –hash_index –dbtype prot 比对命令:blastp.exe –task blastp –query in –db db –out test.txt
关于参数的说明:
blastp.exe 程序执行命令,exe前的程序根据自己的需要而换;
-task 后面选择你所要用的程序,blastn,blatp,tblastx等;
-query 后接查询序列的文件名称;
-db 后接格式化好的数据库名称;
-out 后接要输出的文件名称及格式;
-dbtype 后接所格式化的序列的类型,核酸用nucl,蛋白质用prot;
makeblastdb.exe格式化数据库的命令;
blastn的相关命令参数可用blastn –help命令查询,blastp的相关命令参数可用blastp –help 查询,依次类推。
希望各位战友将自己的经验分享以将blast越用越好。
参考文献
BLAST Command Line Applications User Manual。