实验2 序列查询(Entrez)、BLAST序列相似性搜索
上机实习四:BLAST序列相似性搜索工具的使用
Assessing whether proteins are homologous
RBP4 and PAEP: Low bit score, E value 0.49, 24% identity (“twilight zone”). But they are indeed homologous. Try a BLAST search with PAEP as a query, and find many other lipocalins.
cut-off parameters
BLAST search strategies
General concepts How to evaluate the significance of your results
How to handle too many results
How to handle too few results
Step 3: choose the database
nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences htgs = high throughput genomic sequence
Sometimes a real match has an E value > 1
…try a reciprocal BLAST to confirm
Sometimes a similar E value occurs for a short exact match and long less exact match
BLAST相似序列的数据库搜索
实习 4 :BLAST相似序列的数据库搜索学号20090**** 姓名****** 专业年级生命生技****实验时间2012.6.19 提交报告时间2012.6.20实验目的:学习使用BLAST在数据库中搜索相似序列实验内容:使用NCBI上面的BLAST程序进行相似性序列搜索:1.把核酸序列利用BLASTN搜索相似核酸序列;2.把蛋白质序列对应的蛋白质利用BLASTP搜索相似蛋白质序列;3.把核酸序列利用BLAST搜索相似蛋白质序列并与BLASTP比较,体会差异:4.把蛋白质序列利用TBLASTN搜索相似核酸序列并与BLASTN比较,体会差异:5.把核酸序列利用TBLASTX搜索相似核酸序列并与BLASTN比较,体会差异。
作业:1. 找一条你感兴趣的核酸序列(可以是前面搜索到的同源核酸序列中任意一条),通过BLASTN搜索NR数据库,说明你的参数如何设置,分析搜索结果包含哪些信息。
答:使用的序列为:智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA。
Algorithm parameters设置如下:参数:Enter Query Sequence——NM_001185098Choose Search Set——Database: Nucleoctide collection(nr); Exclude: √Models(XM/XP),√Uncultured/environmental ample sequencesProgram Selection——Optimize fot: Highly similar sequences展开“Algorithm parameters”,依次设置:General Parameters——Max target sequence:100; Short queries:√; Expect threshold:10;Word size:28; Max matches in a query range:0Scoring Parameters——Matrix/Mismatch Scores:1,-2; Gap Costs: LinearFilters and Masking——Filter: √Low complexity regions; √Mask: mask for lookup table only搜索结果分析:使用智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA搜索NR数据库,搜索出100条符合条件的序列,序列来自的物种包括了Homo sapiens,Pan troglodytes,Gorilla gorilla,Pongo abelii,Pongo pygmaeus,Mus musculus等,其中根据得分高低排列,前7条序列如下所示:NM_001185098.1 Homo sapiens insulin (INS), transcript variant 3, mRNANM_001185097.1 Homo sapiens insulin (INS), transcript variant 2, mRNANM_000207.2 Homo sapiens insulin (INS), transcript variant 1, mRNANG_007114.1 Homo sapiens insulin (INS), RefSeqGene on chromosomeAC132217.15 Homo sapiens chromosome 11, clone RP11-889I17, complete sequenceBC005255.1 Homo sapiens insulin, mRNAJ00265.1 Human insulin gene, complete cds上述序列的“Max ident”均为100%或99%,且E-Value值很低,可见搜索出来的序列与QUERY序列匹配的相似度很高。
实验2 序列查询(Entrez)、BLAST序列相似性搜索
实验二:序列查询(Entrez)、BLAST序列相似性搜索实验目的:1.学会用Entrez系统查找目标序列2.学会使用BLAST在数据库中搜索相似序列3.学会分析数据库搜索结果实验内容:一、EntrezEntrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。
用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
网址:/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。
如Figure 2.1所示:Figure 2.1 entrez 检索系统子数据库点击搜索框右边的help按钮,即可进入Entrez帮助页面。
在搜索栏输入你要查找的关键词,点击“GO”即可开始搜索。
如果输入多个关键词,它们之间默认的是“与”(AND)的关系。
Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。
但“transcription factor”这样有一定范围的词是可以接受的。
可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。
输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。
点击进入对应的数据库,可以查看搜索到的条目。
如果在数据库图标前面为灰色,显示“none”,说明在对应的数据库里没有搜索到任何结果。
也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。
点击“search”后面的下拉菜单,选择数据库,在下面的文本框里输入关键词,点击“Search”即可(Figure 2.2)。
BLAST(序列相似性快速搜索工具)
BLAST(序列相似性快速搜索工具)
1. 什么是BLAST?
•BLAST的全称是Basic Local Alignment Search T ool(基本的局部比对搜索工具),基于一种局部最优的比对策略。
•BLAST是生命科学研究中常用的一套在核苷酸数据库或蛋白质数据库中进行序列相似性比对的一套分析工具
•BLAST算法是启发式算法。
首先将query序列打断成子片段,称之为seed words,然后将seed与预先索引好的序列进行比对,选择seed连续打分较高的位置采用动态规划算法进行延伸,延伸过程也会进行打分,当打分低于某一限度这一延伸过程就会被终止抛弃,最后产生了一系列的高得分序列。
最后还要使用E-value对其显著性进行评估,选出比对结果最好的序列。
•BLAST分为在线BLAST和本地化BLAST
IMAGE.png
2. BLAST程序类型
BLAST实际上是综合在一起的一组工具
的统称,它不仅可用于直接对蛋白质数据库和
核酸数据库进行搜索,而且可以将待搜索的核
酸序列翻译成蛋白质序列后再进行搜索,或者
反之,以提高搜索效率。
因此BLAST可以分
为 BLASTp、 BLASTn、 BLASTx、 tBLASTn、
tBLASTx。
IMAGE.jpg
IMAGE.png
3.BLAST 比对结果解读
实际应用中主要看E-value(E值越小越好),同时要求Score大于一定值。
图片来自MOOC。
BLAST数据库相似性搜索
BLAST数据库相似性搜索姓名________ 学号______________ 组号_____ 日期________年___月___日1.以人血红蛋白beta亚基(HBB_HUMAN)为检测序列,搜索Swiss-Prot数据库,找出灵长目动物(Primates)中与HBB_HUMAN序列相似性高于90%(Identity>90%)的beta珠蛋白(beta globin)。
2.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用BlastP搜索Swiss-Prot数据库,改变种子序列字长(Word size)和计分矩阵(Scoring matrix),找出人珠蛋白家族12个成员。
3.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用PSI-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
4.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用DELTA-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
5.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用tBlastN搜索RefSeq数据库中人珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
6.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,搜索RefSeq数据库中人、小鼠和大鼠三个物种珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
7.查阅Blast网站帮助文档和相关文献,结合Blast算法,归纳总结Blast数据库相似性搜索的用法8.结合本人课题研究中的实例,说明Blast具体应用。
9.本地BLAST(选做题)1)下载玉米转录因子蛋白质序列和编码区核苷酸序列数据,构建本地BLAST数据库。
2)以拟南芥转录因子SPL3蛋白质序列为检索序列,用BlastP搜索玉米转录因子蛋白质序列中相似序列,用tBlastN搜索玉米转录因子编码区序列中相似序列,分析结果。
序列相似性搜索
三、序列的BLAST分析
BLAST
BLAST (Basic Local Alignment Search Tool) allows rapid sequence comparison of a query sequence against a database. The BLAST algorithm is fast, accurate, and webaccessible. 基本局域联配搜寻工具
Step 2: Choose the BLAST program
Step 2: Choose the BLAST program
blastn (nucleotide BLAST)
blastp (protein BLAST)
blastx (translated BLAST)
tblastn (translated BLAST)
BLAST searching is fundamental to understanding the relatedness of any favorite query sequence to other known proteins or DNA sequences.
Applications include • identifying orthologs and paralogs • discovering new genes or proteins • discovering variants of genes or proteins • investigating expressed sequence tags (ESTs) • exploring protein structure and function
Four components to a BLAST search
NCBI的名词解释
NCBI的名词解释NCBI(National Center for Biotechnology Information)是美国国家生物技术信息中心的缩写。
作为一个重要的生物信息学资源,NCBI提供了丰富的数据库和工具,以支持生物学、生物医学和生物信息学的研究工作。
在本文中,将对NCBI常见的名词进行解释,帮助读者更好地理解这个重要的生物信息学平台。
1. PubMed:PubMed是NCBI的一个免费搜索引擎,它主要提供了生物医学领域的文献检索服务。
研究人员可以在PubMed中搜索全球各种医学、生物学和生物信息学期刊的摘要和引用信息。
通过关键词搜索、作者搜索和期刊搜索等功能,研究者可以方便地获取与自己研究领域相关的最新科研成果和文献资料。
2. GenBank:GenBank是NCBI管理的一个全球性的基因序列数据库,其中包含了来自各种生物体的数十亿条DNA和RNA序列。
研究人员可以通过GenBank来获取和下载特定基因的序列信息,以进行基因功能、进化和表达等研究。
GenBank的数据资源非常丰富,有助于推动生物学和生物信息学领域的科学研究。
3. BLAST:BLAST(Basic Local Alignment Search Tool)是NCBI的一个重要的序列比对工具。
它可以帮助研究人员在GenBank等数据库中找到与已知序列相似的序列,进而推测其可能的功能和起源。
BLAST提供了多种比对算法和参数设置,允许用户根据自己的研究需要进行灵活的序列比对分析。
4. Entrez:Entrez是NCBI的一个综合性搜索平台,涵盖了多个数据库和工具。
研究人员可以通过Entrez来进行文献检索、基因序列搜索、蛋白质搜索、三维结构搜索、基因组浏览等多种操作。
通过Entrez,研究者可以根据自己的研究目的,全面地了解和利用NCBI提供的多样化的生物信息资源。
5. RefSeq:RefSeq是NCBI的一个参考序列数据库,主要收集并注释了多种生物物种的基因组、转录本和蛋白质序列。
NCBIblast使用教程[1]
E值范围
3.设置结果输出显示格式
选择需要显示的选项 以及显示的文件格式
显示数目
Alignment的显
筛选结果
示方式
点击开始搜索
其他一些显示格式参数
NCBIblast使用教程[1]
提交任务
返回查询号(request id) 修改完显示格式后点 击进入结果界面
可以修改显示结果格式
NCBIblast使用教程[1]
NCBIblast使用教程[1]
Blast程序评价序列相似性的两个数据
Score:使用打分矩阵对匹配的片段进行打分,这是
对各对氨基酸残基(或碱基)打分求和的结果,一般来 说,匹配片段越长、 相似性越高则Score值越大。
E value:在相同长度的情况下,两个氨基酸残基(或
碱基)随机排列的序列进行打分,得到上述Score值的 概率的大小。E值越小表示随机情况下得到该Score值的 可能性越低。
分析过程(一)
1.登陆ncbi的blast主页
2.选择程序,因为 查询序列是蛋白序 列可以选择blastp,
点击进入
也可以选择tblastn
作为演示, 我们这里选blastp
NCBIblast使用教程[1]
分析过程(二)
3.填入序列(copy+pa索整个序列,不填
w 其他问题:实际使用时选择哪种方式(网 络,本地化),参数的选择,结果的解 释…
NCBIblast使用教程[1]
Blast资源
1.NCBI主站点:
/BLAST/(网络版) ftp:///blast/ (单机版)
5.选择搜索数据库,这里我们 选nr(非冗余的蛋白序列库)。
是否搜索保守区域数据库 (cdd),蛋白序列搜索才有。
寻找重复序列的方法
寻找重复序列的方法
寻找重复序列的方法可以采用多种方法,包括简单的文本搜索、更复杂的算法和软件工具。
以下是一些常见的方法:
1. 文本搜索:在纯文本编辑器或代码编辑器中手动搜索重复的序列。
这种方法简单,但对于大规模数据集或复杂的重复模式可能不适用。
2. 使用生物信息学软件:针对基因组数据分析,有许多专门用于寻找重复序列的生物信息学软件和工具,如Tandem Repeats Finder (TRF)、MREPS、BLAST等。
这些工具可以根据特定的参数和算法,更精确地检测和识别重
复序列。
3. 编写脚本或程序:使用编程语言(如Python、Perl或R)编写脚本或程
序来分析数据并查找重复序列。
这种方法需要一定的编程技能,但可以根据具体需求定制算法和搜索策略。
4. 使用在线服务或数据库:一些在线服务或数据库专门用于查找重复序列,如RepeatMasker、RepeatProteinMasker等。
这些工具基于已知的重复
序列数据库,可以快速检测和注释重复序列。
5. 比较基因组学方法:通过比较不同物种或同一物种不同个体之间的基因组序列,可以识别和定位重复序列。
这种方法通常需要使用专门的比较基因组学软件或工具,如Mauve、Progressive Mauve等。
在应用这些方法时,需要根据具体的数据类型、规模和目标来选择最适合的方法。
同时,对于复杂的数据集,可能需要结合多种方法来全面准确地识别重复序列。
NCBIblast使用教程[2]
下载正确的Blast程序包
blast:在本地运行的blast程序包
wwwblast:在本地服务器建立blast服务
的网站
netblast:blast的客户端程序,直接链接
至NCBI的BLAST服务器,使用BLAST服 务,不需浏览器。
NCBIblast使用教程[2]
下载正确的Blast程序包
Blast程序包的名字上还包括了该程序包运行的硬
NCBIblast使用教程[2]
Blast简介(一)
BLAST 是由美国国立生物技术信息 中心(NCBI)
开发的一个基于序列相似性的数据库搜 索程序。
BLAST是“局部相似性基本查询工 具”(Basic Local Alignment Search Tool)的 缩写。
NCBIblast使用教程[2]
NCBIblast使用教程[2]
相似性和同源性关系
序列的相似性和序列的同源性有一定的关系,一 般来说序列间的相似性越高的话,它们是同源序 列的可能性就更高,所以经常可以通过序列的相 似性来推测序列是否同源。
正因为存在这样的关系,很多时候对序列的 相似性和同源性就没有做很明显的区分,造成经 常等价混用两个名词。所以有出现A序列和B序 列的同源性为80%一说。
主要的blast程序
程序名 Blastn Blastp
查询序列 核酸 蛋白质
Blastx
核酸
Tblastn 蛋白质
TBlastx
核酸
数据库
搜索方法
核酸 核酸序列搜索逐一核酸数据库中的序列
蛋白质 蛋白质 核酸 核酸
蛋白质序列搜索逐一蛋白质数据库中的序 列
核酸序列6框翻译成蛋白质序列后和蛋白 质数据库中的序列逐一搜索。
实验二_数据库相似性搜索与序列比对
实验二数据库相似性搜索与序列比对实验原理:数据库相似性搜索以两两序列比对为基础,将感兴趣的基因序列与序列数据库中的每个序列进行比较,鉴别出相似的序列。
搜索结果显示出与最佳匹配序列的对位排列及匹配记分。
序列数据库搜索对发现基因的功能非常有效。
FASTA和BLAST是两个著名的用于数据库相似性搜索的软件包。
其中BLAST(Basic Local A1ignment Search Tool)基于局部比对的搜索工具,是一种启发式搜索算法服务软件,包括BLASTP,BLASTN,BLASTX,TBLASTN 和TBLASTX程序。
实验目的与要求:学习数据库相似性检索和序列比对的程序的使用,能够理解程序给出的结果,从中获取有关功能和结构的信息。
(1)要求学生运用已经学习过的数据库检索方法在数据库中检索特定的基因(2)掌握数据库相似性搜索工具BLAST的基本比对方法,参数设置及结果分析(3)掌握核酸和蛋白质两序列比对方法、参数设置及结果分析实验材料:未知核酸序列;未知氨基酸序列;SOD基因工具软件:(1)数据库检索工具ENTREZ(2)数据库相似性搜索工具BLAST (/blast)(3)两序列比对工具Align two sequences (bl2seq)一、利用BLAST中的Special类下的Align two sequences (bl2seq) 比较人与老鼠的SOD 基因蛋白质序列的相似性程度(1)利用NCBI的ENTREZ检索蛋白质数据库获得人AAB27818.1和老鼠3GTT_E的SOD 基因氨基酸序列或者登录号(SOD分为SOD1或SOD2等,注意检索时选择完全相同的SOD基因)(2)进入NCBI 的BLAST 网页,选择Specialized BLAST下的Align two sequences(bl2seq)程序进行两序列比对(3)选择blastp子程序,将序列或登录号分别粘贴到序列框中(4)其他选项采用默认的设置,运行程序(5)分析结果,并回答以下问题在NCBI的ENTREZ检索中使用的关键词是什么?Human and sod mouse and sod人和老鼠的SOD 基因的蛋白质序列的登录号分别是?人AAB27818.1和老鼠3GTT_E两序列比对得到的一致性百分比和相似性百分比分别为多少?Identities127/153(83%)Positives135/153(88%)两序列比对结果中哪些区域出现了gap?Gaps0/153(0%)二、利用SPECIELIZED BLAST的Conserved Domain进行蛋白质保守结构域分析(1)进入NCBI 的BLAST 网页(2)选择Specialized BLAST下的Conserved Domain超链接进入(3)在Cazy数据库查找一个糖苷水解酶Glycoside Hydrolases(GH+学号),获得其蛋白质序列或蛋白质序列的Genbank登录号AEK59386.1(4)将糖苷水解酶的登录号或蛋白质输入到Conserved Domain页面的输入框内(5) 参数选择默认即可,点击submit提交进行分析(6)阅读得到的结果,点击各HIT的超链接了解找到的结构域的功能(7)将结构域图形和表格记录在实验报告中三、利用BLAST在数据库中搜索不同物种的同源基因Actinosynnema mirum DSM 43827, complete genome(1)利用文献检索工具检索Clostridium thermocellum嗜热梭菌与其纤维素降解功能相关的基因,例如糖苷水解酶Glycoside Hydrolases(GH+学号)或多糖裂解酶Polysaccharide Lyases(PLs)或碳水化合物酯酶Carbohydrate Esterases (CEs)等(2)利用NCBI的ENTREZ检索该基因获得其核酸序列AB125373或者利用(二)中的蛋白质登录号在ncbi数据库中通过related information链接到核酸数据库,获得该基因的核酸登录号或序列(3)利用BLASTn进行数据库相似性搜索搜索其他微生物中的同源基因(4)分析BLAST结果,并回答以下问题检索获得基因名称是?chi19-1该基因的登录号是多少?AB125373进行BLASTn搜索的数据库选项为?nr请列举3-5个具有该基因的同源基因的其他微生物及其同源基因的登录号?Streptomyces griseus subsp. griseus NBRC 13350 DNA, complete genomeAP009493.1Streptomyces griseus gene for chitinase C, complete cds AB009289.1Amycolatopsismediterranei U32, complete genomeCP002000.1Amycolatopsis mediterranei RB, complete genomeCP003777.1Streptomyces sp. Mg1, complete genome CP011664.1。
实验三:利用Blast进行序列相似性比对(1)
3. 以大肠杆菌的胶原蛋白酶名称为pHK08_29的基因做为查 询序列 (1) 用Blastn能在nr/nt数据库中检索到多少条与之同源的序 列。其中大肠杆菌、弗累克斯讷氏杆菌、沙门氏菌各有多 少条序列。
(2) 换用megablast或discontiguous megablast,观察检索结 果的改变。 (3) 尝试修改Blastn的参数,观测对检索结果的影响。 (4) 使用Blastx预测在Refseq_ protein数据库中检索到多少 条与之同源的序列。 4. 用blast2分析YP_003683100与ADH70594、 YP_004926582、 YP_004925874、 YP_003273209、 YP_003646515、 YP_003514536、 ABP47302、 ADD45443、 ADW07065、 ADG78176、 ACY21316、 ABM16043、 EHP75935、 BAC74107、 YP_00407863之间的相似性.
实验三:利用Blast进行序列相似性比对
具体步骤
1.登陆blast主页 /BLAST/ 2.根据数据类型,选择合适的程序lo基因(Z83834)为查询序列 (1) 用Blastn能在nr/nt数据库中检索到多少条与之同源的序 列?有多少条是禾本科中的? (2) 换用megablast或discontiguous megablast,观察检索结 果的改变。 (3) 尝试修改Blastn的参数,观测对检索结果的影响。 (4) 找出Mlo基因的编码蛋白序列,用Blastp检索到的与 Mlo蛋白同源的序列与用PSI-Blast检索到的同源序列是否 有差别? (5) 使用BlastX预测Mlo基因的编码蛋白。 2. 用bl2seq分析大麦和小麦Mlo基因mRNA序列编码区和蛋白 质产物的同源性
Blast使用技巧解析
PHI-BLAST
模式识别BLAST(Pattern hit intiated BLAST) PHI-BLAST能找到与查询序列相似的 符合某种模式(pattern)的蛋白质 序列
36
Blast的算法基础
基本思想是:通过产生数量更少的但质量 更好的增强点来提高速度。 BALST算法是建立在严格的统计学的基础 之上的。它集中于发现具有较高的相似性 的局部比对,且局部比对中不能含有空位 (blast2.0引入了允许插入gap的算法)。 由于局部比对的限制条件,在大多数情况 下比对会被分解为若干个明显的HSP(Highscore Sequence Pairs)。
生物序列的相似性搜索
-blast简介及其应用
生物序列的相似性
相似性(similarity): 是指一种很直接的数量关系,比如部 分相同或相似的百分比或其它一些合适 的度量。比如说,A序列和B序列的相似 性是80%,或者4/5。这是个量化的关 系。当然可进行自身局部比较。
2
生物序列的同源性
同源性(homology): 指从一些数据中推断出的两个基因或蛋 白质序列具而共同祖先的结论,属于质的 判断。就是说A和B的关系上,只有是同 源序列,或者非同源序列两种关系。而说 A和B的同源性为80%都是不科学的。
也可以选择tblastn
作为演示, 我们这里选blastp
22
分析过程(二)
3.填入序列(copy+paste) Fasta格式,或者纯序列 4.选择搜索区域,这里我们要 搜索整个序列,不填 5.选择搜索数据库,这里我们 选nr(非冗余的蛋白序列库)。 是否搜索保守区域数据库 (cdd),蛋白序列搜索才有。 我们选上
详细的比对上的序列的排列情况
BLAST 核酸氨基酸序列相似性比较
BLAST 核酸/氨基酸序列相似性比较Blast (Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。
BLAST程序能迅速与公开数据库进行相似性序列比较。
BLA ST结果中的得分是对一种对相似性的统计说明。
BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。
如果您想进一步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。
BLAST的功能BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。
BLAST还能发现具有缺口的能比对上的序列。
BLAST是基于Altschul等人在J.Mol.Biol上发表的方法(J.Mol.Biol.215:403-410(19 90)),在序列数据库中对查询序列进行同源性比对工作。
从最初的BLAST发展到现在NC BI提供的BLAST2.0,已将有缺口的比对序列也考虑在内了。
BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。
所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。
BLAST包含的程序:1、BLASTP是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。
库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。
与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
生物序列的相似性搜索NCBI_blast_使用教程
本地WEB版的Blast
在NCBI的FTP上,在blast程序的目录 下,还提供了一种供用户在自己的服务器 上建立Blast网页服务的软件包(wwwblast)。
使用该软件包,用户可以建立一个简 易的进行Blast运算的网站供实验室人员使 用。用于搜索的数据库同样可以灵活的定 义。
16
Blast程序评价序列相似性的两个数据
匹配情况,分值,e值
24
结果页面(三)
详细的比对上的序列的排列情况
25
一个具体的例子(blastp)
假设以下为一未知蛋白序列
>query_seq
MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGV PINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDH IGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETA LALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDL IRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFP PTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADST QA
…
12
Blast结果给出的信息
Blast结果会列出跟查询序列相似性比较 高,符合限定要求的序列结果,根据这些 结果可以获取以下一些信息。 1.查询序列可能具有某种功能 2.查询序列可能是来源于某个物种 3.查询序列可能是某种功能基因的同源基因 … 这些信息都可以应用到后续分析中。
第四章 序列相似性搜索工具blast
“The central idea of the BLAST algorithm is to confine attention to segment pairs that contain a word pair of length w with a score of at least T.”
Altschul et al. (1990)
KENFDKARFSGTWYAMAKKDPEG 50 RBP (query) MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit)
extend
Hit!
extend
How a BLAST search works: 3 phases
Phase 3: In the original (1990) implementation of BLAST, hits were extended in either direction.
一、 BLAST 简介
BLAST程序是目前最常用的基于局部相似性的数据库 搜索程序,它们都基于查找完全匹配的短小序列片段, 并将它们延伸得到较长的相似性匹配。它们的优势在 于可以在普通的计算机系统上运行,而不必依赖计算 机硬件系统而解决运行速度问题。
BLAST数据库搜索策略
BLAST仅通过部分而不是全 部序列计算最适联配值 ——赢得搜索速度
5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
TWO ASPECTS OF BLAST
BLAST ALGORITHM
Word Hit Heuristic
BLAST STATISTCS
Karlin-Altschul statistics: a general theory of alignment statistics Applicability goes well beyond BLAST
NCBI数据库集
NCBI数据库集生物信息学 2010-08-20 16:08:59 阅读202 评论0字号:大中小订阅NCBI数据库集/?p=20049一综合数据库NCBI数据库集美国国立生物技术信息中心(National Center for Biotechnology Information),即我们所熟知的NCBI是由美国国立卫生研究院(NIH)于1988年创办。
创办NCBI的初衷是为了给分子生物学家提供一个信息储存和处理的系统。
除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA数据库,其中包括日本DNA数据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几个知名科研机构)之外,NCBI还可以提供众多功能强大的数据检索与分析工具。
目前,NCBI提供的资源有Entrez、Entrez Programming Utilities、My NCBI、PubMed、PubMed Central、Entrez Gene、NCBI Taxonomy Browser、BLAST、BLAST Link (BLink)、Electronic PCR等共计36种功能,而且都可以在NCBI的主页上找到相应链接,其中多半是由BLAST功能发展而来的。
1 NCBI最新进展1.1 PubMed搜索功能的增强去年,NCBI对PubMed进行了几项改进工作,改动最大的是搜索界面和摘要浏览界面。
其中,搜索界面中新增了“Advanced Search”选项(这实际上是对以往“Limits”和“Preview/Index”功能的整合),并且增加了一个新的窗口,用户可以在此窗口下通过“论文作者名”、“论文所属杂志名称”、“论文出版日期”等限定条件进行搜索。
而且,“论文作者名”和“论文所属杂志名称”还设有文本框自动填充功能。
现在,在PubMed数据库中进行文本搜索的同时还可以立即通过两个“内容传感器(content sensors)”进行分析。
如何利用NCBI的资源与工具检索基因/基因编码产物的功能
如何利用NCBI的资源与工具检索基因/基因编码产物的功能美国国立生物技术信息中心(NCBI)是目前国际上几个重要的生物信息学网站之一,Entrez是NCBI的数据库检索查询系统,BLAST是NCBI开发的序列相似搜索程序,本文重点介绍如何利用Entrez检索查询系统以及BLAST序列相似搜索程序在NCBI的多个数据库中检索基因/基因编码产物的功能。
Abstract:NCBI (National Center for Biotechnology Information)is one of the most important international bioinformatics websites. Entrez is database searching system of NCBI.BLAST is sequence similarity searching program developed by NCBI. This article introduces the skills of searching the function of a gene or gene product by Entrez and BLAST in several database of NCBI.Key words:NCBI;Bioinformatics;Function of gene;Entrez;BLAST21世紀是生命科学的时代,也是信息时代,生物信息学在这样的历史环境中孕育而生。
美国国立生物技术信息中心(National Center for Biotechnology Information,简称NCBI)是目前国际上几个重要的生物信息学网站之一,它的任务就是发展新的信息学技术以促进医学与生物学的进展。
Entrez是NCBI的数据库检索查询系统,它是基于Web界面的综合生物信息数据库检索系统;BLAST 是NCBI开发的序列相似搜索程序,可作为鉴别基因和遗传特点的手段。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验二:序列查询(Entrez)、BLAST序列相似性搜索实验目的:1.学会用Entrez系统查找目标序列2.学会使用BLAST在数据库中搜索相似序列3.学会分析数据库搜索结果实验内容:一、EntrezEntrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。
用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
网址:/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。
如Figure 2.1所示:Figure 2.1 entrez 检索系统子数据库点击搜索框右边的help按钮,即可进入Entrez帮助页面。
在搜索栏输入你要查找的关键词,点击“GO”即可开始搜索。
如果输入多个关键词,它们之间默认的是“与”(AND)的关系。
Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。
但“transcription factor”这样有一定范围的词是可以接受的。
可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。
输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。
点击进入对应的数据库,可以查看搜索到的条目。
如果在数据库图标前面为灰色,显示“none”,说明在对应的数据库里没有搜索到任何结果。
也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。
点击“search”后面的下拉菜单,选择数据库,在下面的文本框里输入关键词,点击“Search”即可(Figure 2.2)。
Figure 2.2 数据库选项下拉菜单但是这种简单搜索会产生大量的结果,其中很多信息都不是我们所需要的,NCBI为我们提供了“Limits”、“Advanced Search”等辅助功能,只有充分理解并熟练运用这些工具进行复杂的检索,才能充分发挥Entrez的强大功能,实现精确高效的检索。
A:limitsLimits限制性搜索可以根据该数据库结构,将输入的关键词的查询范围限制在某个范围内,如领域、编号、代码、提交日期等。
不同的数据库,其限定内容略有不同。
以Nucleotide数据库为例搜索hemoglobin,点击进入搜索结果页面后(Figure 2.3),在页面上方搜索栏下有“Limits”,“Advanced”选项。
Figure 2.3 search result点击Limits进入限定页面(Figure 2.4)。
可以对序列发布时间或修改时间进行限定,也可以对搜索关键词的领域(search field tags;如果输入的是序列名称,如hemoglobin, trypsin,选择title; 如果输入的是物种的名称,选择organism)进行限定,可以对搜索数据库(source database;一般选择RefSeq, 建议大家在平时搜索时也使用这个选项。
)进行限定,还可以对分子类型(molecule)、序列位置(gene location)和排除的数据类型(STSs, working draft, TPA, patent)等进行限定(Figure 2.4)。
Figure 2.4 Limits page限定完毕,点击“Search“,则出现根据限定条件得到的搜索结果(Figure 2.5),同时页面上显示“Limits Activated”。
如果要改变限定内容,可以点“change”修改,如果不需要限定,点击“remove”可取消限定。
Figure 2.5 Limits search result注意:查询序列时,我们常常将搜索限定在RefSeq数据库,因为它的数据是非冗余的。
The Reference Sequence (RefSeq) database is a non-redundant collection of richly annotated DNA, RNA, and protein sequences from diverse taxa. The collection includes sequences from plasmids, organelles, viruses, archaea, bacteria, and eukaryotes. Each RefSeq represents a single, naturally occurring molecule from one organism. The goal is to provide a comprehensive, standard dataset that represents sequence information for aspecies.B: Advanced若点击搜索栏下面的advanced,就会进入Entrez的高级搜索界面(Figure 2.6)。
Figure 2.6 advanced page“Builder”下方前部的下拉菜单提供了按字母顺序排列的检索领域(field)列表,允许用户直接选定特定的范围进行检索,选好field,在后面的文本框里输入关键词。
如果不确定关键词应该如何拼写,可以先写出自己确定的部分,然后点击“show index list”,则所有相关的类似关键词出现在下面的列表中,可以从中选择你需要的关键词。
(Figure 2.7)Figure 2.7 Show Index list例如:想要搜索人的血红蛋白序列,则可以首先选择搜索领域-title,在后面的文本框中输入关键词hemoglobin,此时这个关键词及其领域限定信息出现在上面的搜索框里。
然后再选择第二个搜索领域为organism, 在后面的文本框中输入关键词human,此时第二个关键词即其领域限定信息也出现在搜索框里,默认两个关键词是和(AND)关系。
点击search进行搜索,就得到数据库中所有人血红蛋白序列。
(此时要取消掉前面的Limits那步做的field 限定,只限定数据库为refseq即可)页面下方有History区域,这里保留了最近的搜索记录,点击搜索结果前面的标号(#数字)时,下拉菜单内容依次是布尔逻辑运算符和、或、非、删除本条记录、显示搜索结果、显示具体搜索条件、保存到我的NCBI帐户(需注册)(Figure 2.8)。
一方面方便我们查阅,更重要的是可以使用布尔逻辑运算符对搜索结果进行运算处理,如#25 AND #26。
Figure 2.8 Search HistoryC:其它搜索技巧1.利用作者姓名检索可按以下格式:姓加名的第一个字母(johnson d)但不能在其中使用任何标点,后面加[AU],表示在author field进行搜索2.在关键词后面加“*”以检索所有以给定字符串为首的词组内容。
3.范围检索。
序列登录号[ACCN],序列长度[SLEN],分子量[MOLWT]和日期[MDAT]和[PDAT]。
范围运算符是冒号“:”。
如3000:4000[SLEN]将检出序列长度介于3000~4000之间的所有记录。
D.保存搜索结果保存序列,切记用文本文档,不可复制粘贴到word文档,因为会引入特殊字符,用程序分析时会出错。
可从NCBI网站直接保存序列,在搜索结果页面,点击序列条目前面的复选框选中要保存的序列,然后点击页面右上方的send 下拉菜单下载序列信息,可同时下载多条序列;也可以进入某条序列页面后,点击页面右上方的send下拉菜单保存这条序列,这里以序列页面为例说明如何保存。
确定了所要查找的序列,点击打开序列页面后,默认显示为genbank格式,如果想要以其它序列格式浏览,可以点击页面左上方的“display settings”,从下拉菜单中选择需要的格式,点击”apply” 页面会转换到所需要的格式(Figure 2.10)。
Figure 2.9 display settings 改变序列格式点击页面右上方的“send”下拉菜单,有四个选项,file(保存到文件)、clipboard(保存到临时剪贴板),collections(NCBI账户,需注册)和analysis tool(NCBI的在线分析工具)。
如果选择File,下面会出现format下拉菜单,选择要保存的序列格式,请将同一条序列genbank格式和fasta格式各保存一个文件,点击“create file”,会自动弹出一个下载窗口,点击保存,此文件可以用写字板或记事本打开。
Figure 2.10 序列保存如果选择clipboard,下面会出现按钮add to clipboard,点击此按钮保存到NCBI提供的临时剪贴板(自动为此IP保存8小时,8小时后过期清除),此时在页面左上方显示1 item was added to the Clipboard,右上方显示clipboard:1 item。
(Figure 2.12)Figure 2.11序列发送到剪贴板成功点击右边这个clipboard,因为此时剪贴板中只有一条序列,会直接到达这条序列页面。
如果剪贴板中已经存入多条序列,则进入序列列表。
(Figure 2.13)此时可以选择从剪贴板中移除某条序列(序列下方红色字符:remove from clipboard),或移除全部序列(最上方蓝色字符:remove all items)。
Figure 2.12 Clipboard页面如果在send下拉菜单打开后,选择collections,下面出现按钮Add to collections,点击此按钮,页面跳转,要求登录NCBI账户。
要使用这个选项,必须注册为NCBI用户,注册成功后,可以将你需要的序列或某次搜索结果保存到你的NCBI账户里,这样即使用不同电脑登录,信息也不会丢失。
二、BLAST搜索在生物学研究中,对于新测定的碱基序列或氨基酸序列,人们往往试图通过数据库搜索找出于其相似的序列,以推测该未知序列是否与已知序列同源或可能属于哪个基因家族,以及具有哪些生物功能。
数据库搜索是双序列局部比对的特例。
NCBI开发的BLAST(basic local alignment search tool)是目前最常用的的数据库相似序列搜索程序,它的优势在于比对速度非常快,通过将查询序列(query)与数据库中每一条序列两两比对,寻找到相似序列。