BLAST序列相似性检索
blast应用实例

blast应用实例Blast是一种常用的生物信息学工具,用于比对和分析生物序列。
它可以将一个或多个查询序列与数据库中的目标序列进行比对,通过比对结果提供有关序列相似性、保守区域和功能注释的信息。
以下是Blast应用的一些实例:1.从NCBI数据库搜索相似序列:Blast可以用于从NCBI的数据库中搜索与给定序列相似的序列。
例如,如果我们有一个未知的蛋白质序列,我们可以使用Blast将其比对到NCBI的非冗余蛋白质数据库上,以找到与之相似的蛋白质序列。
这对于鉴定新的蛋白质家族、推断功能等非常有用。
2.基因注释:Blast可以用于对新的基因序列进行功能注释。
例如,通过比对一个未知的DNA序列到已知的基因组序列数据库,我们可以获得对应的基因区域、编码蛋白质以及可能的功能信息。
这对于基因组学研究和药物研发很重要。
3.遗传多样性分析:Blast也可以用于研究不同物种或个体之间的遗传差异。
通过比对DNA或RNA序列,可以鉴定不同物种或个体之间的变异位点。
这对于研究进化、种群遗传学和物种鉴定具有重要意义。
4.病原体识别:Blast可以用于快速识别和鉴定病原体。
通过比对未知的病原体序列到已知的病原体数据库,可以确定其种类和亚型。
这对于疾病的诊断和流行病学研究非常有帮助。
5.系统发育分析:Blast在系统发育学中也被广泛应用。
通过比对多个物种的DNA或蛋白质序列,可以构建物种间的进化关系树。
这对于研究生物的进化历史和亲缘关系具有重要意义。
6.基因工程:Blast可以用于在已知的基因库中寻找与目标序列相似的基因。
这对于基因工程和生物治疗的设计和优化非常有用。
通过比对获取相关蛋白质、启动子、调控序列等信息,可以进行目标基因的定向改造和调节。
7.基因家族研究:Blast可以用于鉴定和研究特定基因家族。
通过比对已知基因家族的代表性成员,可以找到其他类似的基因序列。
这对于研究基因家族的进化、功能和调控具有重要意义。
8.转录因子结合位点预测:Blast可以用于识别和预测转录因子结合位点。
生物序列的同源性搜索 -blast简介及其应用

分析过程(三)
6.限制条件,我们限制 在病毒里面找。
7.其他选项保持默认值
打分矩阵
30
分析过程(四)
8.输出格式选项保持 默认值
9.点击开始搜索
31
分析过程(五)
10.查询序列的一些 相关信息 在cdd库里面找到 两个保守区域, 点击可以进入
32
分析过程(六)
图形结果
33
分析过程(七)
15
本地WEB版的Blast
在NCBI的FTP上,在blast程序的目录 下,还提供了一种供用户在自己的服务器 上建立Blast网页服务的软件包(wwwblast)。 使用该软件包,用户可以建立一个简 易的进行Blast运算的网站供实验室人员使 用。用于搜索的数据库同样可以灵活的定 义。
16
Blast程序评价序列相似性的两个数据
39
单机版的Blast使用(三)
3.获取Blast数据库 a.直接从ncbi下载 ftp:///blast/db/ b.用Blast程序包提供的formatdb工具自己格 式化序列数据成数据库。 假设有一序列数据(sequence.fa,多序列,fasta 格式),欲自己做成Blast数据库,典型的命令 如下:
Score:使用打分矩阵对匹配的片段进行打分,这是
对各片段越长、 相似性越高则Score值越大。
E value:在相同长度的情况下,两个氨基酸残基(或
碱基)随机排列的序列进行打分,得到上述Score值的 概率的大小。E值越小表示随机情况下得到该Score值的 可能性越低。
2.其他站点:
/blast/ /ncbi_blast.html /blast/(果蝇)
…
12
Blast结果给出的信息
blast分类及特点

blast分类及特点BLAST是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的缩写,是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序,是目前最常用的数据库搜索程序。
BLAST实际上是综合在一起的一组工具的统称,它不仅可用于直接对核酸序列数据库和蛋白质序列数据库进行搜索,而且可以将带搜索的核酸序列翻译成蛋白质序列后再进行搜索,或反之,以提高搜索效率。
BLAST的分类主要有以下几种:1. 标准BLAST:包括Blastn、Blastp、Blastx、tBlastn、tBlastx。
2. PSI-BLAST:PSI-BLAST(Position-Specific Iterated BLAST,位点特异性迭代BLAST)的特色是每次用位置特异权重矩阵(Position-Specific Scoring Matrix,PSSM)搜索数据库后再利用搜索的结果重新构建PSSM,然后用新的PSSM再次搜索数据库,如此反复(iteration)直至没有新的结果产生为止。
3. PHI-BLAST:PHI-BLAST(Pattern-Hit Initiated BLAST,模式识别BLAST)能找到与输入序列相似的并符合某种特定模式(Pattern)的序列,这种序列特征模式可能代表某个翻译后修饰的发生位点,也可以代表一个酶的活性位点,或者一个蛋白质家族的结构域、功能域。
此外,BLAST还有以下特点:1. BLAST基本原理很简单,它的要点是片段对的概念。
所谓片段对是指两个给定序列中的一对子序列,它们的长度相等且可形成无空位的完全匹配。
2. BLAST从头至尾将两条序列扫描一遍并找出所有片段对,并在允许的阈值范围内对片段对进行延伸,最终找出高分值片段对(high-scoring pairs, HSPs)。
这样的计算复杂度是n的一次方(n是序列的长度)。
BLAST相关术语及参数详解

BLAST相关术语及参数详解BLAST(Basic Local Alignment Search Tool)是一种用于序列比对的常用算法和程序。
它可以在数据库中和比对两个序列,并根据相似度进行排序。
BLAST包含一些相关的术语和参数,下面将对其进行详细解释和说明。
1.序列:BLAST用于比对和的数据单位,可以是蛋白质或核酸序列。
2.比对:将查询序列与数据库中的参考序列进行比较,并确定相似度、匹配位置和分数。
3. 数据库:包含参考序列的集合,可以是蛋白质数据库(如NCBI NR)或核酸数据库(如GenBank)等。
4.查询:待比对的目标序列,由用户提供。
5.相似度:比对后序列之间的相似性程度。
BLAST使用分数和百分比的形式表示相似度,分数越高,相似度越高。
6.插入:在比对过程中,为了使两个序列对齐,可能会在其中一个序列中插入一些“缺失”的字符。
7.缺失:在比对过程中,由于插入或删除操作,导致序列之间的位置不对齐,出现缺失。
8.匹配:在比对过程中,两个序列之间相同的字符,表示两个序列在该位置上具有相同碱基或氨基酸。
9.分数:BLAST使用分数来评估两个序列之间的相似性程度。
分数越高,表示两个序列越相似。
10.E值:期望值,表示在随机情况下,出现当前比对的得分或更高得分的概率。
E值越小,表示比对结果越可信。
11.阈值:用于筛选比对结果的最小分数值或E值。
低于阈值的比对将被排除。
12. Bit score:比对结果的分数,以位(bit)为单位。
Bit score 越高,表示比对结果越可信。
13.靶序列:在数据库中时,将查询序列与之比对的参考序列。
14.检索:从数据库中返回与查询序列相似的参考序列。
15.空间:指定比对程序在数据库中的范围。
可以是整个数据库,也可以是特定的序列子集。
16.高分值段对(HSPs):在BLAST比对结果中,指在两个序列中同时出现的相似部分。
17. 元数据库:元数据库是一个包含多个数据库的组合,可用于BLAST。
生物序列的同源性搜索blast简介及其应用

37
下载正确的Blast程序包
blast:在本地运行的blast程序包
wwwblast:在本地服务器建立blast服务
的网站
netblast:blast的客户端程序,直接链接
匹配情况,分值,e值
24
结果页面(三)
详细的比对上的序列的排列情况
25
一个具体的例子(blastp)
假设以下为一未知蛋白序列
>query_seq
MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTAS WFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKEL SPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVL QLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMA SGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTAT KQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMS RIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKK KTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADST QA
选择需要显示的选项 以及显示的文件格式
显示数目
Alignment的显
实验六序列相似性的比对和搜索

实验六序列相似性的比对和搜索一、实验目的1.能够熟练使用NCBI网站的BLAST系列工具,通过NCBI中的BLAST功能,对所提供的基因组序列或蛋白质序列进行相似性比对,找到在GenBank中与之相似的序列,推测所比对序列的功能。
2.能够熟练掌握用Clustalx软件进行双序列和多序列比对。
3.学会使用EMBL上的Clustalw工具进行比对。
二、实验内容及操作步骤(一)BLAST的使用1.Blastn:进入NCBI主页下载关于AY125911、AF513548、AF525146、AF492473、AY497910、AY497911等核酸序列或其它你感兴趣的核酸序列(Fasta格式)。
1)进入/BLAST/;2)选择Nucleotide→Nucleotide-nucleotide BLAST (blastn)进行核酸相似性数据库搜索;3)在search对话框中粘贴入下载的相关核酸序列(Fasta格式);4)调整各参数值,直到获得最佳比对;5)点击进行比对;6)点击Format!对结果进行格式化,可在下面的选项中自行设计结果的显示方式;7)查看比对结果,看在数据库中找到的序列与你的序列是否相似或相同。
2.Blastp:进入NCBI主页下载某一蛋白质序列(Fasta格式),如cytochrome oxidase, peroxidase, SOD (Superoxide Dimutase)。
1)选择Protein→Protein-protein BLAST (blastp)进行蛋白质相似性数据库搜索;2)在search对话框中粘贴入下载的蛋白质序列(Fasta格式);3)调整各参数值,直到获得最佳比对;4)点击进行比对;5)点击Format!对结果进行格式化,可自行设计结果的显示方式;6)查看比对结果,看在数据库中找到的序列与你的序列是否相似或相同。
3.Bl2seq:进入NCBI主页下载某两条核酸或蛋白质序列(Fasta格式)1)进入/BLAST/;2)点击Special目录下的Align two sequences (bl2seq);3)将两条序列分别输入Sequence 1和Sequence 1区域;4)点Align进行比对;5)根据结果查看bl2seq是否允许插入空位。
生物信息学-blast

筛选结果
点击开始搜索
其他一些显示格式参数
18
提交任务
返回查询号(request id)
修改完显示格式后点 击进入结果界面
可以修改显示结果格式
19
结果页面(一)
图形示意结果
20
结果页面(二)
目标序列描述部分
带有genbank的链接,点击可以进入 相应的genbank序列
匹配情况,分值,e值
21
结果页面(三)
匹配序列列表
31
分析过程(八)
具体匹配情况
32
单机版的Blast使用(一)
为什么使用单机版的Blast? 1.特殊的数据库要求。 2.涉及序列的隐私与价值。 3.批量处理 4.其他原因??
33
单机版的Blast使用(二)
单机版Blast的基本操作过程 1.下载单机版的Blast程序 ftp:///blast/executables/ 目录下,下载对应的操作系统版本。 2.解压程序包(blast.tar.gz) 命令是: $ tar zxvf blast.tar.gz
5
序列相似性比较和序列同源性分析
序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较, 用于确定该序列的生物属性,也就是找出与此序列相似 的已知序列是什么。完成这一工作只需要使用两两序列 比较算法。常用的程序包有BLAST、FASTA等;
序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种 的序列中进行多序列同时比较,以确定该序列与其它序 列间的同源性大小。这是理论分析方法中最关键的一步。 完成这一工作必须使用多序列比较算法。常用的程序包 有CLUSTAL等;
6
Blast简介(一)
blast序列比对

Blast序列比对概述Blast(Basic Local Alignment Search Tool)是一种常用的序列比对算法,用于在数据库中查找与输入序列具有相似性的序列。
原理Blast算法基于局部序列比对的思想,通过计算相似性分数和期望值来评估输入序列和数据库中序列的相似程度。
Blast算法的主要步骤包括: 1. 建立序列数据库:将数据库中的序列按照一定的规则进行预处理,以提高比对的效率。
2. 构建查询序列:将输入序列转化为符号序列,并进行预处理。
3. 搜索匹配序列:使用快速搜索算法,在数据库中查找与查询序列相似的序列片段。
4. 扩展匹配序列:通过比对匹配序列和查询序列的局部区域,扩展匹配序列的范围。
5. 评估比对结果:根据比对序列的相似性和期望值,评估比对结果的可靠性。
应用领域Blast算法在生物信息学领域被广泛应用于以下方面: - 序列比对:通过比对已知序列和未知序列的相似性,从而判断未知序列的功能和结构。
- 基因预测:通过与已知基因相似的序列进行比对,从而预测未知序列中的基因位置和功能。
- 物种鉴定:通过比对已知物种的序列和未知物种的序列相似性,从而确定未知物种的分类和演化关系。
- 疾病诊断:通过比对患者的基因序列和已知疾病基因的序列相似性,从而确定患者是否患有特定的遗传性疾病。
Blast软件Blast算法有多个软件版本可供使用,其中最常用的包括:- Bl2seq:用于比对两个序列之间的相似性。
- Blastn:用于比对核酸序列。
- Blastp:用于比对蛋白质序列。
- Tblastn:用于比对从已知蛋白质序列推导的DNA序列与核酸数据库中的DNA序列的相似性。
- Tblastx:用于比对从已知DNA序列推导的蛋白质序列与蛋白质数据库中的蛋白质序列的相似性。
使用方法以下是使用Blast进行序列比对的一般步骤: 1. 准备输入序列:将输入序列保存为FASTA格式的文件。
2. 选择合适的Blast软件版本:根据比对的类型和输入序列的特性,选择合适的Blast软件版本。
blast比对原理

blast比对原理引言:在生物信息学领域,比对是一项基础且重要的任务。
它可以用于确定两个或多个生物序列之间的相似性,并揭示它们之间的进化关系。
BLAST(Basic Local Alignment Search Tool)是一种常用的比对工具,它能够快速且准确地在数据库中搜索与给定序列相似的序列,被广泛应用于DNA、RNA和蛋白质序列的分析和注释。
一、BLAST的基本原理BLAST采用的是局部比对算法,其基本原理是通过寻找两个序列之间的最佳匹配来衡量相似性。
BLAST算法主要分为两个步骤:预处理和搜索。
1.1 预处理在预处理阶段,BLAST会将数据库中的序列分割成一系列较短的片段,称为k-mer。
k-mer是指长度为k的连续子序列,通过将数据库序列分割成k-mer,可以大大减少比对的计算量。
BLAST还会为每个k-mer计算一个哈希值,以便后续的搜索阶段能够快速地定位匹配。
1.2 搜索在搜索阶段,BLAST会将待比对的序列也分割成k-mer,并计算每个k-mer的哈希值。
然后,BLAST会在数据库中查找具有相同哈希值的序列片段。
这样,BLAST可以快速地筛选出具有潜在相似性的候选序列。
二、BLAST的比对过程BLAST比对过程主要分为两个阶段:种子扩展和最优比对。
2.1 种子扩展在种子扩展阶段,BLAST会寻找两个序列之间的初始匹配片段,这些片段被称为种子。
种子的选择是基于两个序列之间的局部相似性。
通过比较种子的得分,BLAST可以确定两个序列是否具有进一步的相似性。
2.2 最优比对在最优比对阶段,BLAST会根据种子扩展的结果,使用动态规划算法计算最佳比对路径。
该路径表示两个序列之间的最佳匹配。
BLAST 根据比对路径计算比对得分,并将比对结果输出。
三、BLAST的优化策略为了提高比对的速度和准确性,BLAST采用了一系列的优化策略。
3.1 剪枝策略当BLAST在搜索阶段找到一对具有相同哈希值的序列片段时,并不意味着它们是真正的匹配。
NCBI在线BLAST使用方法与结果详解

NCBI在线BLAST使用方法与结果详解NCBI(National Center for Biotechnology Information)是一个包含大量基因组学、生物信息学等相关数据和工具的数据库。
其中,BLAST (Basic Local Alignment Search Tool)是一种常用的序列比对工具,可用于在数据库中搜索相似序列。
一、BLAST简介BLAST是一种基于序列比对的方法,可用于确定一给定序列与数据库中序列的相似性。
其工作原理是将查询序列与数据库中的序列进行比对,并生成一个比对得分来衡量它们之间的相似程度。
通过BLAST的结果,可以获得序列的匹配位置、长度、相似性等信息,从而帮助研究人员进行更深入的生物学研究。
二、使用方法1. 打开NCBI网站首先,打开浏览器,输入NCBI的网址(https:///),进入NCBI的官方网站。
2. 进入BLAST页面在NCBI的主页上,找到“BLAST”或“BLAST and Alignments”选项,并点击进入BLAST页面。
3. 输入查询序列在BLAST页面上,找到“Enter Query Sequence”或“Enter accession number, gi, or FASTA sequence”等文本框,将需要查询的序列输入其中。
可以直接复制粘贴序列,或选择上传文件的方式输入。
4. 选择数据库在BLAST页面上,找到“Choose Search Set”或“Database”等选项,选择需要比对的数据库。
NCBI提供了多个数据库,如“nr”(非冗余蛋白数据库)、“nt”(非冗余核酸数据库)等,根据研究需要选择合适的数据库。
5. 设置参数根据需要,可以通过“Algorithm parameters”等选项来设置比对参数,如设置匹配的阈值、比对的方式等。
6. 运行BLAST设置完成后,点击“BLAST”或“Run BLAST”等按钮运行BLAST。
BLAST序列相似性检索

E值意义:当用查询序列搜索一个数据库时,完全由机会击中对象的平均数。
即,因为随机性造成获得这一联配结果的可能次数。
例如,E=1,表示在目前大小的数据库中,完全由机会搜到对象数的平均值为1.从搜索角度讲,E值越小,联配结果越显著(E越接近0,说明发生这一事件的可能性越小);E值越大,说明这些匹配结果很有可能是随机产生的,而且绝大部分序列来自其他生物。
目前,通过数据库查询、cDNA文库直接测序、mRNA差别显示 (DDRT-PCR)、代表性差示分析(RDA-PCR)和抑制差减杂交(SSH)等方法获得的EST数据越来越庞大。
GenBank数据库中收录的 EST序列有数百万个之多。
由于 EST代表着一段表达基因序列,这样就可用其与公共数据库进行同源性检索,检索与其同源的核酸序列。
典型分析是采取NCBI的Blast 软件对 GenBank 中的非冗余数据库(non-redundant database,nr)进行查询。
该数据库是对GenBank EMBL 和DDBJ中去除所有相同核酸序列进行整合后所得的最为全面的已知基因数据库,其中包括部分基因组序列。
联网至“/blast/blast.cgi选择数据库“Nucleotide”,利用blastn程序进行同源性检索。
”, 按照提示进行查询。
相似的蛋白序列很可能具有相似的功能。
因此,蛋白质的功能预测最为可靠的方法是进行数据库相似性检索。
此方法应至少80个氨基酸长度范围内具有25%以上的序列一致才提示可能的显著意义。
目前一般方法是基于NCBI/Blast软件的蛋白质同源性分析类似于核酸序列的同源性分析,用户直接将待分析的蛋白质序列输入NCBI/Blast软件(/blast/)的序列输入框内,选择程序:Blastp”就可联网进行相应分析。
至于具体参数设置,还请仔细阅读说明,记得有一本blast的中文教程,您可以搜搜看。
BLAST序列相似性检索 <zt>==============Blast是通过比对(alignment)在数据库中寻找和你的查询序列(query)相似度很高的序列!通俗地说就是在已知的序列数据库中找和你的序列差不多的序列。
BLAST与序列相似性搜索上机

NCBI与Genbank
Bioinformatics, 2008-2009,June, TMMU
进入Genbank
Bioinformatics, 2008-2009,June, TMMU
进入EntreZ
Bioinformatics, 2008-2009,June, TMMU
搜索Genbank中的核酸序列
特性
Bioinformatics, 2008-2009,June, TMMU
GenBank的主要字段及其含义
字段
LOCUS ACCESSION DEFINITION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL COMMENTS MEDLINE FEATURES BASE COUNT ORIGIN //
Gene Info
基因名称
染色体信息
Bioinformatics, 2008-2009,June, TMMU
结论1:
这个基因是小鼠的Nek2 NIMA基因,基因 标识符是:NM_010892.3;该基因定位于 小鼠的1号染色体,位置:193399659193737126
Bioinformatics, 2008-2009,June, TMMU
Conserved Domains: S_TKc
Bioinformatics, 2008-2009,June, TMMU
发掘人中该同源蛋白的功能
上机实验一
BLAST与数据库相似性搜索
微生物学教研室
邹凌云
Bioinformatics, 2008-2009, June, TMMU
教学内容
了解
常用生物信息学数据库的数据格式
第四章 序列相似性搜索工具blast

数据库搜索的基础是序列的相似性比对,即双序列比 对(pairwise alignment)。 新测定的、希望通过数据库搜索确定其性质或功能的 序列称作检测序列(probe sequence);通过数据库搜索得 到的和检测序列具有一定相似性的序列称目标序列 (subject sequence)。 为了确定检测序列和一个已知基因家族之间的进化关 系,在通过数据库搜索得到某些相似序列后,还需要判 断其序列相似性程度。如果检测序列和目标序列的相似 性程度很低,还必须通过其他方法或实验手段才能确定 其是否属于同一基因家族 。
BLAST的应用有以下7个方面
• 确定特定的蛋白质或核酸序列的直系同源或
旁系同源序列 • 确定哪些蛋白质和基因在特定的物种中出现 • 确定一个DNA或蛋白质序列身份 • 发现新基因 • 确定一个特定基因或者蛋白质有哪些已经被 发现了的变种 •研究可能存在多种剪接方式的表达序列标签 • 寻找对于一个蛋白质的功能和/或结构起关键 作用的氨基酸残基
How a BLAST search works: 3 phases
Phase 3: when you manage to find a hit (i.e. a match between a “word” and a database entry), extend the hit in either direction. Keep track of the score (use a scoring matrix) Stop when the score drops below some cutoff.
In a 1997 refinement of BLAST, two independent hits are required. The hits must occur in close proximity to each other. With this modification, only one seventh as many extensions occur, greatly speeding the time required for a search.
BLAST(序列相似性快速搜索工具)

BLAST(序列相似性快速搜索工具)
1. 什么是BLAST?
•BLAST的全称是Basic Local Alignment Search T ool(基本的局部比对搜索工具),基于一种局部最优的比对策略。
•BLAST是生命科学研究中常用的一套在核苷酸数据库或蛋白质数据库中进行序列相似性比对的一套分析工具
•BLAST算法是启发式算法。
首先将query序列打断成子片段,称之为seed words,然后将seed与预先索引好的序列进行比对,选择seed连续打分较高的位置采用动态规划算法进行延伸,延伸过程也会进行打分,当打分低于某一限度这一延伸过程就会被终止抛弃,最后产生了一系列的高得分序列。
最后还要使用E-value对其显著性进行评估,选出比对结果最好的序列。
•BLAST分为在线BLAST和本地化BLAST
IMAGE.png
2. BLAST程序类型
BLAST实际上是综合在一起的一组工具
的统称,它不仅可用于直接对蛋白质数据库和
核酸数据库进行搜索,而且可以将待搜索的核
酸序列翻译成蛋白质序列后再进行搜索,或者
反之,以提高搜索效率。
因此BLAST可以分
为 BLASTp、 BLASTn、 BLASTx、 tBLASTn、
tBLASTx。
IMAGE.jpg
IMAGE.png
3.BLAST 比对结果解读
实际应用中主要看E-value(E值越小越好),同时要求Score大于一定值。
图片来自MOOC。
面向生物信息学的序列相似性搜索算法研究

面向生物信息学的序列相似性搜索算法研究序列相似性搜索算法在生物信息学研究中具有重要的应用价值。
直接将生物序列全部比对的复杂度很大,因此需要一些列较为精确、高效且适应性强的搜索算法。
一、相似性搜索算法简介序列相似性搜索算法是将两个生物序列进行比对,找出其中相似区域的算法。
其可以通过基于词语的方法、像滑动窗口、前缀树和哈希等方法进行搜索。
Bowtie算法是一种常用的基于词语的算法。
其可以在快速比对基因组来自DNA测序的短读(Reads)时得到高效的应用。
由于比对是一个重复性很高的过程,因此许多算法都采用了索引的策略。
而代码之家保障后继代码高效可维护性可以节省coder大量的时间成本。
二、基于编辑距离的算法编辑距离指的是两个序列之间由一个变为另一个所需的最少编辑操作次数。
编辑操作包括插入一个字符、删除一个字符或将一个字符替换为另一个字符。
常用的基于编辑距离的算法有Smith-Waterman算法和Needleman-Wunsch算法。
这两种算法同属动态规划算法,可以用来发现两个序列的局部相似区域和全局相似区域,不过Smith-Waterman算法是针对局部相似性而设计,而Needleman-Wunsch算法能够用于全局比对。
三、BLAST算法BLAST算法是一种比对算法家族,能够用于比对两个序列之间的相似度。
BLAST的全称是“Basic Local Alignment Search Tool”,大致意思是基于局部比对的搜索工具,而全称中fast意味着BLAST是一种快速算法。
BLAST算法通常分为基于蛋白质序列的BLASTP和基于核酸序列的BLASTN 两个版本。
BLAST算法通过对查询序列和库序列进行预处理,可以快速地检索数据库中与查询序列相似的序列。
BLAST算法速度快的同时,由于其使用了较少的匹配信息,可能会导致错误的比对结果。
因此在一些特定要求较高的任务中应该考虑使用其它算法。
四、结合多个算法的比对策略考虑到每个算法都有自身的优点和局限性,我们可以采用一些结合多个算法的比对策略。
BLAST数据库相似性搜索

实用生物信息技术课程第4次作业BLAST数据库相似性搜索姓名________ 学号______________ 组号_____ 日期________年___月___日1.以人血红蛋白beta亚基(HBB_HUMAN)为检测序列,搜索Swiss-Prot数据库,找出灵长目动物(Primates)中与HBB_HUMAN序列相似性高于90%(Identity>90%)的beta珠蛋白(beta globin)。
2.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用BlastP搜索Swiss-Prot数据库,改变种子序列字长(Word size)和计分矩阵(Scoring matrix),找出人珠蛋白家族12个成员。
3.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用PSI-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
4.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用DELTA-Blast搜索Swiss-Prot数据库,找出人珠蛋白家族成员脑红蛋白(Neuroglobin)。
5.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,用tBlastN搜索RefSeq数据库中人珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
6.以人血红蛋白alpha亚基(HBA_HUMAN)为检测序列,搜索RefSeq数据库中人、小鼠和大鼠三个物种珠蛋白家族mRNA序列,提取其编码区序列,进行多序列比对,分析结果。
7.查阅Blast网站帮助文档和相关文献,结合Blast算法,归纳总结Blast数据库相似性搜索的用法8.结合本人课题研究中的实例,说明Blast具体应用。
9.本地BLAST(选做题)1)下载玉米转录因子蛋白质序列和编码区核苷酸序列数据,构建本地BLAST数据库。
2)以拟南芥转录因子SPL3蛋白质序列为检索序列,用BlastP搜索玉米转录因子蛋白质序列中相似序列,用tBlastN搜索玉米转录因子编码区序列中相似序列,分析结果。
实验6 利用Blast 进行数据库相似性搜索

实验6 利用Blast 进行数据库相似性搜索一、实验目的本实验要求掌握Blast的基本比对方法,Blast 的参数设置及Blast 结果分析。
二、实验工具Blast 程序:/BLAST/或 /。
三、实验作业1 .对于查询同源性较远的相似性序列,采用蛋白质查询为什么比DNA 好?答、蛋白质序列是直接与生物功能相关,其序列才能直接的显示物种间的同源性1、由于同源性较远,原核与真核生物的基因结构不同,真核生物基因结构中包括有内含子在蛋白质结构中不会含对应的氨基酸序列;2、由于物种的密码子的扩张、无义密码子的重定义以及密码子的偏好性的差异等导致具有相似氨基酸序列,其DNA的比对结果可能差异较大;3、当前生物学较多的生物技术尚未解决,如四核苷酸决定一氨基酸或者五核苷酸决定一氨基酸等未解决的机制等,导致CDS区按照软件既定程序预测到的氨基酸之间存在差异。
2 . PsiBlast 优点在于能搜索同源性较远的相似序列,它的不足之处是什么?答:特异位点迭代对比程序在蛋白质数据库中循环收索查询蛋白质,所有多次迭代比对,直到前一次psiblast发现的统计显著蛋白值序列整合成新计分矩阵,通过多次迭代比对,知道不在发现统计学显著的蛋白质。
其高敏感性的特点为收索直系同源蛋白提供线索。
不足之处同源性直接相关的结构域会因大部分非结构域的可变区大量突变或恢复突变影响物种同源性的分析。
3 .已知如下序列:aatcaacaaa acttatcatt caatatctcg ccgcaagaac aaatcgtcat tcccaagtcgaacaaatgat tgttgaatct tctccaatct tggaagcttt tggtaatgca aaaacaattagaaataataa ctcttctaga tttggtaaat ttattgaaat tcaatttaat agagaaggtcatatttctgg tgctagaatt ataaattgta agtttttcca gaaaaaaaag aaaaaaaaaaaaaaaaaaaa aaattgagta ttaatatttt tttatttcac tttttttttt catcaaccct cttgtcaaaa ttttttattt tttttatttc tacaaattct atcaaaccat accaaaaaaa aaaaagaett attagaaaaa tctagaattt cacatcaagc tagttca利用blastn 程序,nr 数据库进行数据库搜索,解释第二条alignment 结果含义并指出编码的是何种蛋白质。
BLAST相似序列的数据库搜索

实习 4 :BLAST相似序列的数据库搜索学号20090**** 姓名****** 专业年级生命生技****实验时间2012.6.19 提交报告时间2012.6.20实验目的:学习使用BLAST在数据库中搜索相似序列实验内容:使用NCBI上面的BLAST程序进行相似性序列搜索:1.把核酸序列利用BLASTN搜索相似核酸序列;2.把蛋白质序列对应的蛋白质利用BLASTP搜索相似蛋白质序列;3.把核酸序列利用BLAST搜索相似蛋白质序列并与BLASTP比较,体会差异:4.把蛋白质序列利用TBLASTN搜索相似核酸序列并与BLASTN比较,体会差异:5.把核酸序列利用TBLASTX搜索相似核酸序列并与BLASTN比较,体会差异。
作业:1. 找一条你感兴趣的核酸序列(可以是前面搜索到的同源核酸序列中任意一条),通过BLASTN搜索NR数据库,说明你的参数如何设置,分析搜索结果包含哪些信息。
答:使用的序列为:智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA。
Algorithm parameters设置如下:参数:Enter Query Sequence——NM_001185098Choose Search Set——Database: Nucleoctide collection(nr); Exclude: √Models(XM/XP),√Uncultured/environmental ample sequencesProgram Selection——Optimize fot: Highly similar sequences展开“Algorithm parameters”,依次设置:General Parameters——Max target sequence:100; Short queries:√; Expect threshold:10;Word size:28; Max matches in a query range:0Scoring Parameters——Matrix/Mismatch Scores:1,-2; Gap Costs: LinearFilters and Masking——Filter: √Low complexity regions; √Mask: mask for lookup table only搜索结果分析:使用智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA搜索NR数据库,搜索出100条符合条件的序列,序列来自的物种包括了Homo sapiens,Pan troglodytes,Gorilla gorilla,Pongo abelii,Pongo pygmaeus,Mus musculus等,其中根据得分高低排列,前7条序列如下所示:NM_001185098.1 Homo sapiens insulin (INS), transcript variant 3, mRNANM_001185097.1 Homo sapiens insulin (INS), transcript variant 2, mRNANM_000207.2 Homo sapiens insulin (INS), transcript variant 1, mRNANG_007114.1 Homo sapiens insulin (INS), RefSeqGene on chromosomeAC132217.15 Homo sapiens chromosome 11, clone RP11-889I17, complete sequenceBC005255.1 Homo sapiens insulin, mRNAJ00265.1 Human insulin gene, complete cds上述序列的“Max ident”均为100%或99%,且E-Value值很低,可见搜索出来的序列与QUERY序列匹配的相似度很高。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
BLAST序列相似性检索序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索,找出与之相似的序列,从而评判新测定的序列是重复别人的工作,还是在前人的基础上有所创新,或是发现了新的序列。
现在用于序列类似性检索的软件很多,下面主要介绍GenBank的序列类似性检索工具棗BLAST。
1. BLAST简介BLAST是Basic Local Alignment Search Tool的英文缩写,意即碱基局部对准检索工具,是一种序列类似性检索工具。
它采用统计学记分系统,能将真正配对的序列同随机产生的干扰序列区别开来;同时采用启发式算法系统,即采用的是局部对准算法(Local Alignment Algorithm),而不是全序列对准算法(Global Alignment Algorithm)。
全序列对准算法是在检索结果中两个被比较序列所有片断均类似;而局部对准算法是找出两个被比较序列的“最类似”片断,并得出可能只包含两个序列的某个部分的对准结果。
在BLAST的基础上,NCBI又开发了BLAST 2.0、Gapped BLAST和PSI-BLAST。
BLAST 2.0•是一种新的BLAST检索工具,它对BLAST作了改进,运行速度更快,灵敏度更高,同时具有Gapped BLAST和PSI-BLAST两种软件的新功能。
Gapped BLAST 允许在对准的序列中引入空位(•碱基缺失或插入),引入“空位”(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。
这些空位对准的记分系统更能反映相关序列的类似程度。
PSI-BLAST的全称是Position-Specific •Iterated BLAST,意即特殊位置重复BLAST,它提供了自动、易用的概貌(Profile)检索,是查找序列同源(Sequence Homologues)的有效方法。
目前,PSI-BLAST•仅用于比较蛋白质查询序列与蛋白质数据库中的序列的类似程度。
2. 使用NCBI BLAST服务的四种基本方法(1)经由WWW使用的BLAST使用BLAST最容易的方法是WWW方式。
在用户的浏览器中键入NCBI的URL地址:http//,进入NBCI主页,然后链接到BLAST主页。
BLAST•主页提供了好几种BLAST检索软件,包括BLAST、BLAST 2.0、Gapped BLAST和PSI-BLAST等,其中BLAST和BLAST 2.0提供了基本检索和高级检索两种模式。
(2)网络版的BLASTBLAST2是标准的网络BLAST客户软件,它可以通过NCBI匿名的FTP服务器(ftp://)下的/blast/network/blast2/获取。
PowerBlast是用于大规模分析基因序列的网络BLAST客户应用软件,它可以通过•NCBI•匿名的FPT服务器(ftp://)下的/blast/network/blast2/powerBLAST/获取。
(3)独立运行的BLASTBLAST 2.0可以在本地计算机上独立运行,也可以在自建的序列数据库中进行BLAST检索,•还可以下载NCBI数据库中的记录。
BLAST运行的软硬件环境为IRIX 6.2、Solaris 2.5、•PEC OSF1(第四版)和Win32系统。
可独立运行的BLAST 2.0在NCBI匿名的FTP服务器(ftp://)下的/blast/executables/获取。
(4) 电子邮件的BLAST通过电子邮件对基因库进行BLAST检索(详见本章第四节二)。
3. BLAST的检索方法(1) BLAST数据库的选择BLAST检索的数据库包括两大类:一类是肽序列数据库,另一类是核酸序列数据库。
①肽序列数据库包括:nr: 所有无冗余基因库CDS转录产物、PDB、SwissProt以及PIR序列month: 最近30天注释的所有新增的或修订的基因库CDS转录产物、PDB、SwissProt•和PIR序列。
SwissProt: SwissProt蛋白质序列数据库中最新的主要注释(无更新)序列。
yeast: Yeast(Saccharomyces Cerevisiae)蛋白质序列。
E.coli: E.coli基因CDS转录产物。
pdb: 从Brookhaven蛋白质序列数据和三维结构衍生出来的序列。
Kabat [Kabatpro]: 免疫学上感兴趣的蛋白质序列Kabat数据库。
alu: 从重复序列数据库(REPBASE)选取的Alu重复序列,适用于过滤查询序列中Alu重复序列。
通过匿名FTP从下的/pub/jmc/alu目录中获取。
②核酸序列数据库包括:nr: 所有无冗余的GenBank+EMBL+DDBJ+PDB序列;但不包括EST、STS、GSS或HTGS序列。
month: 最近30天注释的新增加的或修订的GenBank+EMBL+DDBJ+PDB序列dbEST: GenBank+EMBL+DDBJ+PDB中EST部分的无冗余数据。
dbSTS: GenBank+EMBL+DDBJ+PDB中STS部分的无冗余数据。
htgs: 高允许能力(High Throughput)基因序列。
yeast: yeast(Saccharomyces Cerevisiae)基因核酸序列。
E.coli: 大肠杆菌(E.coli)基因核酸序列。
pdb: 蛋白质数据库。
Kabat[Kabatnuc]: 免疫学上感兴趣的核酸序列Kabat数据库。
Vector: GenBank载体数据库。
mito: 线粒体序列数据库。
alu: 从重复序列数据库(REPBASE)选取的Alu重复序列,适用于过滤查询序列中Alu重复序列。
通过匿名FTP从下的/pub/jmc/alu目录中获取。
epd: 真核生物的启动子数据库。
gss: 基因搜寻序列,包括单递基因数据、外切核酸酶捕获序列和Alu PCR序列。
(2) BLAST程序的选择BLAST是一种碱基局部对准检索工具,实质上是一种序列类似性检索工具,它运行•blastp•、blastn、blastx、tblastn、•tblastx•等五种程序的启发式检索算法;这五种程序是利用改进的Karlin和Altschul的统计学方法来描述检索结果的显著性。
这些程序不支持主题形式检索,也就是不支持主题词、自由词、文本词等检索。
下面介绍五种程序的基本功能。
blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询;blastn:将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询;blastx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋白质序列,然后将翻译结果对蛋白质序列数据库进行查询;tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询;• tblastx:•先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后再将两种翻译结果从蛋白质水平进行查询。
因此,根据你查询的目的和序列选择合适的blast程序,有助于获得满意的检索结果。
(3) BLAST参数的设置BLAST提供了许多参数可限制你的检索,以达到满意的结果。
对于BLAST基本检索,•系统预设的参数默认值即可满足需要,不需要你重新设定。
但是对于BLAST 高级检索,可开窗选择如下几种参数,也可在输入框增加其它参数。
①直方图(Histogram):显示每次检索评分的直方图。
有yes、no两种选择,默认值为yes②描述(Descriptions):限定描述性类似序列的条数。
有default、0、10、50、100、250•、500等七种选择,默认值为100。
③对准(Alignments):限定检出高积分片断配对(High-scoring Segment Pairs,HSPs)的数据库序列的条数,有default、0、10、50、100、250、500等七种选择,默认值为50。
如果检索到的数据库序列超出设定值,BLAST仅显示最具统计学意义的配对序列,直到设定值。
④期望值(Expect,E值):它是期望数据库中具有某一统计学意义配对序列的值。
有default、0.001、0.01、0.1、1、10、100、1000等选择值,•默认值为•10•,一般地,期望值越低,限制越严格,甚至会导致无随机配对序列。
⑤Cutoff:设定高积分片断配对(HSPs)的Cutoff值。
有default、60、70、80、90、100、110等七种选择值,其默认值一般通过期望值来计算得出。
一般地,Cutoff值越高,其限制就越严格,甚至会导致无随机配对序列。
⑥矩阵(Matrix):为BLAST、BLASTX、TBLASTN和TBLASTX程序指定一个交替记分矩阵。
其默认值为BLOSUM62,有PAM40、PAM120、PAM250和IDENTITY等四种有效选择。
但交替记分矩阵对BLASTN不起作用。
⑦股(Strand):把BLASTN检索限定在数据库序列的股的首端或末端;或者把BLASTN、BLASTX、TBLASTX检索限定在查询序列股的首端或末端的机读部分。
•• •⑧过滤器•(•Filter)•:过滤器可以过滤查询序列中低成分复杂性•(•Low •Compositional• Complexity)片断。
它只过虑查询序列及其转录产物中的低成分复杂性片断,•不能过虑数据库序列中的低成分复杂性片断。
用户可以在BLAST 和BLAST 2.0•的高级检索中选择相应的过滤程序以消除对检索结果的干扰,如不用过滤功能则选择“NONE”。
但是在BLAST和BLAST 2.0•基本检索中,因为,系统对于不同的BLAST程序设定了默认值,例如对于blastn程序,其默认值为“DUST”,对于其他程序,默认值为“SEG”,所以用户只须选择用不用过虑功能,而不必设定过虑程序。
值得注意的是,过滤器中的SEG和XUN程序不能过滤SWISS-PROT数据库中的低复杂性片断,因此,虽然过滤器可以应用于SWISS-PROT数据库序列,但并未起作用。
⑨NCBI-GI:在输出结果中除存取号和位点名称(Locus Name)外,还可以选择NCBI-GI标识号。
有yes 和no两种选择,其默认值为no。
(4) BLAST检索结果BLAST程序用大致相同的格式显示检索结果,它包括四个部分:一是程序的介绍;二是一系列配对数据库序列的描述,从积分高到低排列,一行描述一条序列;三是实际的序列对准;四是检索中设定的参数及其它统计数据。
••••。