第三章 BLAST原理及方法
Blast
Blast(来自丁香园)BLAST序列相似性检索<zt>==============Blast是通过比对(alignment)在数据库中寻找和你的查询序列(query)相似度很高的序列!通俗地说就是在已知的序列数据库中找和你的序列差不多的序列。
序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索,找出与之相似的序列,从而评判新测定的序列是重复别人的工作,还是在前人的基础上有所创新,或是发现了新的序列。
现在用于序列类似性检索的软件很多,下面主要介绍GenBank的序列类似性检索工具棗BLAST。
1. BLAST简介BLAST是Basic Local Alignment Search Tool的英文缩写,意即碱基局部对准检索工具,是一种序列类似性检索工具。
它采用统计学记分系统,能将真正配对的序列同随机产生的干扰序列区别开来;同时采用启发式算法系统,即采用的是局部对准算法(Local Alignment Algorithm),而不是全序列对准算法(Global Alignment Algorithm)。
全序列对准算法是在检索结果中两个被比较序列所有片断均类似;而局部对准算法是找出两个被比较序列的“最类似”片断,并得出可能只包含两个序列的某个部分的对准结果。
在BLAST的基础上,NCBI又开发了BLAST 2.0、Gapped BLAST和PSI-BLAST。
BLAST 2.0•是一种新的BLAST检索工具,它对BLAST作了改进,运行速度更快,灵敏度更高,同时具有Gapped BLAST和PSI-BLAST两种软件的新功能。
Gapped BLAST允许在对准的序列中引入空位(•碱基缺失或插入),引入“空位”(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。
这些空位对准的记分系统更能反映相关序列的类似程度。
PSI-BLAST的全称是Position-Specific •Iterated BLAST,意即特殊位置重复BLAST,它提供了自动、易用的概貌(Profile)检索,是查找序列同源(Sequence Homologues)的有效方法。
3.BLAST及序列的提交
E值上限 种子长度 如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数
BLAST结果(1)
1)查询序列的描述
2)显示比对区域的 框图 3)被搜索到的序列 信息 4)比对结果 5)统计信息与算法 过程的参数
BLAST结果(1-1)
BLAST搜索发现序列的生物意义(2)
Pyrococcus abyssi GTTCC AATAA GACTA AAA repeat sequence 随机出现的序列?VS 具有生物学意义的序 列?
BLAST搜索发现序列的生物意义(3)
Pyrococcus abyssi 环状DNA的全长为1765118 bp repeat sequence GTTCC AATAA GACTA AAA 为随机序列的概率。 出现一次的概率: (1765118-17)*4-18 = 2.57*10-5
HSP片段2:
att c
(-3+1+1+1=0)
(1+1-3+1+1+1=2)
HSP片段3: ac att c
则删除HSP2,保留HSP1和HSP3
BLAST基本原理—Step 6
统计各HSP片段的分值(Score)和E值
分值(Score): 是衡量查询序列同命中序列间 相似性的测度。分值越高,命中序列与查 询序列越相似。
BLAST的基本算法原理
BLAST
BLAST 是由美国国立生物技术信息 中心(NCBI)开发的一个基于序列 相似性的数据库搜索程序。 BLAST是“局部相似性基本查询工 具”(Basic Local Alignment Search Tool)的 缩写。
blast记忆方法
Blast记忆法是一种有效的记忆技巧,可以帮助我们更快地记住大量信息。
这种方法的核心思想是将需要记忆的信息与已知的知识或图像联系起来,从而加深印象并提高记忆力。
以下是关于Blast记忆法的详细介绍和实践方法。
Blast记忆法的基本原理是通过将新信息与已有知识进行关联,从而提高记忆效果。
这种关联可以是逻辑关系、形象关系或者情感关系等。
通过这种方式,我们可以将原本孤立的信息串联起来,形成一个有组织的知识网络,从而提高记忆效率。
Blast记忆法的实践步骤如下:1.列出需要记忆的信息:首先,我们需要将要记忆的信息列出来,这些信息可以是单词、数字、概念等。
将这些信息按照一定的顺序排列,以便进行下一步的操作。
2.为每个信息寻找关联点:接下来,我们需要为每个信息找到一个关联点。
这个关联点可以是一个已知的事实、一个形象的图像或者一个情感的体验。
关联点的选择应该尽量简单明了,以便于记忆。
3.将信息与关联点进行关联:有了关联点之后,我们就可以将信息与关联点进行关联了。
关联的方式可以是将信息与关联点进行组合、对比或者类比等。
通过这种方式,我们可以将原本孤立的信息与已有知识联系起来,形成一个有组织的知识网络。
4.重复练习:为了巩固记忆效果,我们需要对已经关联的信息进行多次重复练习。
在重复练习的过程中,我们可以不断地调整关联点,使之更加符合自己的认知特点。
同时,我们还可以尝试使用不同的关联方式,以提高记忆效果。
5.定期复习:为了保持记忆效果,我们需要定期对已经学习的知识进行复习。
复习的频率可以根据个人的学习习惯和遗忘曲线来确定。
通过定期复习,我们可以巩固记忆效果,防止遗忘。
总之,Blast记忆法是一种有效的记忆技巧,可以帮助我们更快地记住大量信息。
通过将新信息与已有知识进行关联,我们可以加深印象并提高记忆力。
在实践中,我们需要根据自己的认知特点和学习需求来选择合适的关联点和关联方式。
同时,我们还需要通过重复练习和定期复习来巩固记忆效果,防止遗忘。
blast算法介绍
-
查询序列中一些低复杂度区域会带来假阳性,例如: 微卫星序列 CACACACACACACACA AAAAAAAAAAAA KLKLKLKLKLKLKL 因此需要用如下字母去掩盖这些区域 Ns(核酸) Xs(蛋白)
-
将查询序列与一系列统一长度的随机序列进行比对 时,分值通常符合Gumbel极值分布。
找种子序列
在数据库中定位种子
延伸匹配
把查询序列划成kmer,找所有覆盖到的种子序列 k-mer words长度w,最后得到n-w+1个字串
一般来说: 对蛋白w=3,核酸w=11
种子越短: 灵敏度越高 计算速度越慢
1.根据查询序列划分出的字串 2.这些单词分数高于neighborhood word score threshold(T)的邻 居字串 (这个分数根据计分矩阵得到,我们这里以BLOSUM62矩阵为例)
数据库中某些蛋白相关性较小,搜索效果差 PSI-BLAST比常规算法更敏感,主要用于搜索与我 们感兴趣蛋白远缘相关的蛋白。
用常规的 blastp 搜索数据 库 构建多序列比 对,为每个比 对建立一个专 门的序列谱 (profile) 检验比对后 每个匹配的 统计显著性
利用profile 搜索原来的 数据库
亢雨笺 2013年11月1日
生物中最被关注的DNA、 RNA、蛋白质,都具有 线性的序列信息
研究序列相似性
关注其功能、演化历史
无法通过穷举得到所有的两两比对结果 动态规划 一个大问题可以分成若干个子问题 寻找每个子问题的最优解,就是最终的最优解
例如有两条序列 AAG和AGC进行比对
子问题:每个残基的比较 A C
如何做序列的blast分析
谢谢!
25
3
主要旳blast程序
4
主要旳blast程序
程序名 Blastn
查询序列 核酸
Blastp
蛋白质
Blastx
核酸
Tblastn 蛋白质
TBlastx
核酸
数据库 核酸 蛋白质 蛋白质
核酸
核酸
搜索措施
核酸序列搜索逐一核酸数据库中 旳序列
蛋白质序列搜索逐一蛋白质数据 库中旳序列
核酸序列6框翻译成蛋白质序列 后和蛋白质数据库中旳序列逐一 搜索。
蛋白质序列和核酸数据库中旳核 酸序列6框翻译后旳蛋白质序列 逐一比对。
核酸序列6框翻译成蛋白质序列
5
详细环节
1. 登陆blast主页
2. 根据已经有序列类型和搜索目旳,选择合适旳blast程序
Blastn,Blastp,Blastx等
3. 填写表单信息
选择要搜索旳数据库,并修改某些可选参数等
4. 提交任务 5. 查看和分析成果
BLAST 搜索旳某些策略
➢ 怎样处理过少旳成果
•诸多基因或蛋白在数据库中没有或只有极少数旳匹配项。当新旳 微生物基因组测序完毕时,预测到旳蛋白质有二分之一不和其他 任何蛋白相匹配。 •用于提升BLAST搜索得到旳数据库匹配项数目旳策略: •去掉Entrez限制,提升期望值,尝试更高PAM值或更低BLOSUM 值旳打分矩阵。还可从更多附加数据库中搜索。在NCBI站点上, 可搜索全部可提供旳数据库如HTGS和GSS,诸多基因组序列中心 保存着不同旳数据库可经过BLAST 进行搜索。
➢ 拟定特定旳蛋白质或核酸序列有哪些已知旳直系同源或旁系同源序列 ➢ 拟定哪些蛋白质和基因在特定旳物种中出现 ➢ 拟定一种DNA或蛋白质序列身份 ➢ 发觉新基因 ➢ 拟定一种特定基因或蛋白质有哪些已经发觉了旳变种 ➢ 研究可能存在多种剪切方式旳体现序列标签 ➢ 寻找对于一种蛋白质旳功能和/或构造起关键作用旳氨基酸残基
第三章 BLAST原理及方法
Step 2: Choose the BLAST program
blastx (translated BLAST):将一个核酸的查询序列按所有可 能的阅读框翻译后的序列与一个蛋白质序列数据库进行比较。 如若有一个DNA序列,想知道它编码什么蛋白质,用此程序进 行搜索。它会自动将DNA翻译成6种可能的蛋白质。然后此程 序就会将翻译的6个蛋白质序列逐一与蛋白质序列数据库中的 各个成员进行比较。
Step 2: Choose the BLAST program
Step 2: Choose the BLAST program
blastn (nucleotide BLAST) blastp (protein BLAST) tblastn (translated BLAST) blastx (translated BLAST) tblastx (translated BLAST)
② Max target sequences:比对之后显示的最大的 比对序列的数目。
Step 4a: 选择可选的搜索参数Select optional search parameters
Step 4a: 选择可选的搜索参数Select optional search parameters
③ 期望expect:期望值E是得分大于或等于某个分值S的不 同的比对的数目在随机的数据库搜索中发生的可能性。这 个数值表示你仅仅因为随机性造成获得这一联配结果的可 能次数。对于blastn、blastp、blastxt和blastn期望值的默 认设置是10。在这个E值下,随机出现得分等于或高于比对 得分S的期望数为10个(这里是假设用与实际的查询序列长 度相等的随机的查询序列搜索数据库)。当将期望选项值调 小时,返回的数据库搜索结果将变少,匹配被搜索到的概 率也会变小。增大E值将返回更多的结果。
[PPT]BLAST介绍
子为中心向两边开始延伸,延伸的终 止点就是这个序列的累积得分开始变 小,也就是说出现了负数的匹配得分。
8.必须首先引入一个以经验为主的值S,这 个值称之为切断分(cutoff score),顾名 思义,就是一个给HSPs的阀值,凡低于这 个S的HSPs将无法进入我们的下一步的工作。 相反,我们将所有及格的HSPs列举出来。
3.Method
4.Gapped
9.当我们得到了这些需要的HSPs片段后, 并不能直接将这些所谓的HSPs所在的序列 就这么输出给程序的使用者,因为太多了, 所以必须进一步筛选那些含有HSPs的序列。 为此我们需要引入耿贝尔极值分布的概念 (gumbel extreme distribution):
这个极值分布式给出了一个所谓的概率p, 指cutoff score 不小于x这个预期值的概率。 应用这个p值(因为着重是为了引出下面E 值的概念,所以并不对这个艰难的数学知 识做过多的解释),我们可以引入expect value—E。它的数学表述如下:
动态规划算法
BLAST应用了动态规划的基本思想,引入 启发式算法的思想,节省了时间。启发式的动 态规划算法在精确性上不如纯粹动态规划(如 needle算法)但在速度上却是其的50倍左右。 这一点保证了BLAST比对大规模数据库的可行 性。 动态规划简单的讲就是如果一个问题能够 有最优化的子结构,那么它就能很好的被递归 的方法解决。
6. 对那些筛选出来的高分字符串拿到数 据库中去和包含其中的随机序列去进行覆 盖比对。这个时候只要w-letters里的一个字 符串与目标序列的一个区域发生了一个准 确配对,那么就称bingo(hit),并以此为 启发点(或者种子,seed)进行下一步工 作。
Blast和Fasta的应用与原理
3
生物序列的同源性
同源性: 指从一些数据中推断出的两个基因或蛋 白质序列具而共同祖先的结论,属于质的 判断。就是说A和B的关系上,只有是同 源序列,或者非同源序列两种关系。而说 A和B的同源性为80%都是不科学的。
16
Blast任务提交表单(二)
2.设置各种参数部分
设置搜索的范围,entrez关键词, 或者选择特定物种
一些过滤选项,包括简 单重复序列,人类基因 组中的重复序列等
E值上限 窗口大小 如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数
17
Blast任务提交表单(三)
3.设置结果输出显示格式 E值范围 选择需要显示的选项 以及显示的文件格式 显示数目 Alignment的显 示方式
12
两种版本的Blast比较(一)
网络版本 包括NCBI在内的很多网站都提供了在线 的blast服务,这也是我们最经常用到的 blast服务。网络版本的blast服务就有方便, 容易操作,数据库同步更新等优点。但是 缺点是不利于操作大批量的数据,同时也 不能自己定义搜索的数据库。
13
两种版本的Blast比较(二)
5
序列相似性比较和序列同源性分析
序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较, 用于确定该序列的生物属性,也就是找出与此序列相似 的已知序列是什么。完成这一工作只需要使用两两序列 比较算法。常用的程序包有BLAST、FASTA等;
序列同源性分析: 是将待研究序列加入到一组与之同源,但来自不同物种 的序列中进行多序列同时比较,以确定该序列与其它序 列间的同源性大小。这是理论分析方法中最关键的一步。 完成这一工作必须使用多序列比较算法。常用的程序包 有CLUSTAL等;
blast原理
blast原理blast的原理就是将想要明确注释的sequence(这个sequence就是query)先打断,即⼀条sequence变成多条sub-sequence(sub-sequence也就是word),然后拿这些sub-sequence与数据库中的序列⽐较(数据库中的序列是已经注释过的),然后将这些word向两边延展,延展⽅式是将单个word(就是图中黄⾊的线)对应的sequence(就是图中⿊⾊的线)保持不变,拿其他word的信息mapping到⿊⾊线上。
联系到实际实验就是,我⼿头的pep⽂件中的34条蛋⽩质序列就是34个query(就是黄⾊线),在blast中,先将这34条序列每⼀条都打断,然后与斑马雀.fa的数据库(就是⿊⾊线)相互匹配,所以得到的结果是某⼀条scaffold(⿊⾊线)与某⼀个gene(黄⾊线)的匹配情况。
⽬的是想知道在某个物种中,某些gene的分布情况。
由此产⽣的gff⽂件中的内容是:1.scaf_id2.gene_name3.scaf_len(整个⼀条sacffold的length)4.sacf_start(可以mapping到这个gene_name的word的起始位点)5.scaf_end(可以mapping到这个gene_name的word的终⽌位点,scaf_start与scaf_end之间的内容包括了exon和intron)6.block_number(是scaf_start与scaf_end之间的gene_name的exon个数)7.block_start(某个block的起始位点,此处可能有多个,如果block_number是3,则有3个block,也就有3个block_start)8.block_end(某个block的终⽌位点,此处可能有多个,如果block_number是3,则有3个block,也就有3个block_end)9.identify(某个block的identify,此处可能有多个,如果block_number是3,则有3个block,也就有3个identify)10.align_rate。
生物信息学 第三章:序列比对原理
blastx Search protein database using a translated nucleotide query tblastn Search translated nucleotide database using a protein query
tblastx
Search translated nucleotide database using a translated nucleotide query
一、序列比对打分
序列分析的目的是揭示核苷酸或氨基酸序列编码的 高级结构或功能信息目的。
二、打分矩阵
稀疏矩阵、相似性打分矩阵
(一)DNA打分矩阵
即两个序列中相应的核苷酸相同,计1分;否则计0分。 如果考虑颠换和置换,可采用以下打分矩阵
(二) 氨基酸序列打分矩阵
1.PAM矩阵(Dayhoff突变数据矩阵)
(二)直系同源、旁系同源
直系同源基因(orthologous gene)是指在不同物种 中有相同功能的同源基因,它是在物种形成过程中 形成的。
旁系同源基因(paralogous gene)是指一个物种内 的同源基因。
直系同源基因和旁系同源基因统称为同源基因 (homolog)。
第二节 序列比对打分方法
ClustalX的比对步骤: 1.加载要比对的序列文件 序列格式可以支持NBRF/PIR、EMBL/Swiss-Ppot、 FASTA、GDE、Clustal、MSF、RSF等。
2.多序列比对
3.比对结果输出
(二)T-Coffee工具 (三)MultAlin工具 (四)MAFFT工具
比对结果
(二)高级BLAST工具 1、PSI-BLAST(position specific interated BLAST)
3生物化学
《生物信息学》第三章:序列比较(第二部分)BLAST搜索:BLAST的种类BLAST实际上是综合在一起的一组工具的统称,它不仅可用于直接对蛋白质序列数据库和核酸序列数据库进行搜索,而且可以将待搜索的核酸序列翻译成蛋白质序列后再进行搜索,或者反之,以提高搜索效率。
因此BLAST可以分为BLASTp,BLASTn,BLASTx,tBLASTn 和tBLASTx。
BLASTp也就是用蛋白质序列搜索蛋白质序列数据库,BLASTn是用核酸序列搜索核酸序列数据库,这是最直接也是最常用的两种BLAST。
BLASTx是将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库。
为什么是按6条链翻译?在无法得知翻译起始位点在情况下,翻译可能是从第一个碱基开始,三个三个的往后翻译,也可能是从第2个碱基开始,也可能从第3个碱基开始。
另外还有可能是从这条链的互补链上开始,这样又有三个可能的开始位置,加起来一共会产生6条可能被翻译出来的蛋白质序列。
这6条中有些是真实存在的,有些是不存在,但是谁真谁假我们无从知晓,所以6条序列都要到数据库中去搜索一下试试。
接下来的问题是,既然是核酸序列,为什么不做BLASTn直接到核酸数据库里去搜索,而是要到蛋白质数据库里搜索呢?我们说这样做是有意义的,比如,从核酸序列数据库里找不到跟你手里这条核酸序列相似的序列,或找到了相似的序列但这些找到的序列无法提供有意义的注释信息。
这时,就可以去蛋白质数据库试试,看看这条核酸序列的翻译产物能不能从蛋白质数据库里找到相似的序列以及有意义的注释信息。
或者说,你不是想找跟你这条核酸序列相似的核酸序列,而是想找跟你这条核酸序列编码蛋白质相似的蛋白质序列,这时就要做BLASTx。
反之,当你不是想找跟你手上这条蛋白质序列相似的蛋白质序列,而是想找跟编码这条蛋白质序列的核酸序列相似的核酸序列的时候,就要做tBLASTn。
tBLASTn是用蛋白质序列搜核酸序列数据库,核酸数据库中的核酸序列要按6条链翻译成蛋白质序列后再被搜索。
第三章 BLAST与序列特征分析
BLAST
基本局部比对搜索工具(Basic Local Alignment Search Tool) NCBI上BLAST服务的网址: •/blast/ NCBI上blast程序的下载: • /blast/executables/release/ NCBI的BLAST数据库下载网址: •ftp:///blast/
Blast程序 序列输入 数据库 结果输出
1e-5 -outfmt 7 ”
察看结果“more out ”或在 windows下双击打开
因为我的程序安装在D盘copy文件夹中的 bin文件夹中 输入“d:” ->回车 #到D盘 输入”cd copy” ->回车 #到copy文件夹 cd bin ->回车 #到bin文件夹 dir #显示文件夹内容
输入“dir”-〉回车 察看bin文件夹下内容
bin文件夹下包含以 .exe为后缀的程序文件 以及这次实习需要用 到的数据可文件“bd” 和目标序列文件“in”
•空格键翻页 •输入“q”跳出
输入“more db.fas”-〉回车察看db文件内容
输入“makeblastdb –in db.fas –dbtype prot”-〉回车 对db数据库进行格式化
l
6个读码框翻译
5’端到3’端 第一位起始: ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC 第二位起始: TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC 第三位起始: GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C 3’端到5’端 第一位起始: GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT 第二位起始: CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT 第三位起始: GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T
Blast使用入门
在过去的十年中,Altschul博士在发展评估序列相似 性更有效的统计方法方面起到了重要作用,无论是提高
搜索速度,还是加大相似序列间的敏感性上,这些贡献 对 于 BLAST 的 发 展 是 至 关 重 要 的 , 随 着 1997 年 PSIBLAST的采用,Altschul博士和他的合作伙伴再一次展示 了聪明地使用统计学是如何使得序列搜索变成了一个真 实地、令人生畏的科学工具。
Smith-Waterman算法 局部比对
Fasta算法
Blast算法
建立评分矩阵
Pam250 blosum62
执行比对
Needleman-Wunsch
(动态规划算法) Smith-Waterman
确定最佳途径
当面向数据之海的时候,该怎么办?
生物信息学:努力在数据的海洋里畅游
BLAST (Basic Local Alignment Search Tool) is a set of similarity search programs that explore all of the available sequence databases for protein or DNA.
在速度上比完全只使用动态规划大约快上50倍左右
引用次数:36501 引用次数:35799
blast原理及过程
原始的blast的结果是un-gap的 Blast2是允许gap的
Psi-BLAST
Position Specific Iterative BLAST
在蛋白质数据库中循环搜索查询蛋白 质,所有前一次被psi-blast发现的统计显 著蛋白质序列将整合成新记分矩阵,通过 多次迭代比对,直到不再发现统计显著的 新蛋白质。
PAM and BLOSUM Matrices
PAM-N and BLOSUM-N BLOSUM80 BLOSUM62 PAM1 PAM120 高相似度
PAM100: 50% identity
BLOSUM45 PAM250 低相似度
PAM250: 20% identity
Most widely used: PAM250 and BLOSUM62
局部比对
–––––––TGKG–––––––– | | | –––––––AGKG ––––––––
以碱基序列为例
s: t: AGCACAC–A A– CACACTA cost : 2
or
AG– CACACA ACACACT– A cost : 4
显然左边的比对效果好一点,它的代价小,出现 这种变化的可能性大 如何衡量:Weight(Score) match: w(a,a)=1 mismatch: w(a,b)= -2 for a≠b gap : w(a,-)=w (-, b) = -5
C
T
local alignment
Match: 8
Mismatch: -5
Gap symbol: -3 0
C
0 8 5 2 0 0 8 5
G
0 5 3 0 0 0 5 3
blast序列比对原理
blast序列比对原理序列比对是生物信息学中的一项重要任务,它能够帮助科学家们找到DNA、RNA或蛋白质序列中的相似性和差异性。
BLAST(Basic Local Alignment Search Tool)是一种常用的序列比对算法,它能够高效地在大规模数据库中搜索相似序列。
BLAST算法的基本原理是通过寻找序列之间的局部相似性来进行比对。
在进行比对之前,首先需要建立一个参考序列库,这个库中包含了大量已知的DNA、RNA或蛋白质序列。
然后,通过将待比对序列与参考序列库中的序列进行比对,找到相似度较高的序列。
BLAST算法的核心思想是通过计算序列之间的匹配得分来评估它们的相似性。
匹配得分是根据序列中的匹配和错配情况来计算的,匹配得分越高说明序列之间的相似度越高。
在计算匹配得分的过程中,BLAST算法使用了一种称为“seed”的技术,它能够在序列中找到一些特定的模式或子序列。
通过比对这些子序列,BLAST算法能够更快地找到序列之间的相似性。
BLAST算法的具体实现包含了两个主要步骤:预处理和比对。
在预处理步骤中,BLAST算法会将参考序列库中的序列进行编码和索引,以便加快比对的速度。
这个过程称为“建索引”。
在比对步骤中,BLAST算法会将待比对序列与参考序列库进行比对,找到相似度较高的序列。
比对的过程中,BLAST算法会使用一种称为“哈希表”的数据结构来加速搜索过程。
BLAST算法的比对结果可以用一个称为“比对矩阵”的表格来表示。
比对矩阵中的每个元素表示两个序列之间的匹配得分,通过比对矩阵可以判断序列之间的相似性。
比对矩阵中的高分数表示序列之间的相似性较高,低分数表示序列之间的相似性较低。
BLAST算法的优势在于其高效的比对速度和准确的比对结果。
通过使用哈希表和预处理技术,BLAST算法能够在大规模数据库中快速地搜索相似序列。
此外,BLAST算法还能够根据用户的需求进行不同类型的序列比对,包括蛋白质比对、DNA比对和RNA比对等。
blast简介及格式解读及练习题
blast简介及格式解读及练习题01blast产生背景双序列比对可以采用是基于动态规划算法的Needleman-Wunsch(NW)和Smith-Waterman algorithm(SW)算法,虽然精度高,但计算消耗大。
当与数据库比对的时候,该算法就显得不切实际。
因此TASTA,blast采用启发式算法使得通过大幅度丢失灵敏度来减少运行时间。
与FASTA软件相比,blast通过把搜索限制在狭隘的矩阵对角线条带上,来改进FASTA进行数据库搜索的速度。
02blast的大致原理blast 程序首先查询query序列的所有子序列,储存在哈希表中。
收索数据库中所有与子序列精确匹配的序列,作为种子,向两个方向继续延伸每个精确匹配。
期间不允许有空位和错配的情况。
然后在限制性区域内;连接延伸的匹配序列,期间允许空位和错配,比对分值要大于设定的阈值。
阈值越大,需要匹配的计算越小,软件计算速度越快。
仅仅对对延伸匹配进行连接的区域(限制性区域),而不是整个矩阵,是blast 相对于其他算法速度提高的关键,是以牺牲对角线带以外的任何匹配信息为代价,因此并不能确保query序列与数据库比对结果是最优的比对结果。
03blast的格式解读因为blast可以进行本地化,网上教程很多,这里不再详细介绍。
根据不同的参数可以输出多种比对格式,例如HTML, plain text, XML 等。
因为输出的格式多样,我们以常用的M8格式进行简单的介绍。
这12列对应的信息分别是Query id:查询序列ID标识Subject id:比对上的目标序列ID标识% identity:序列比对的一致性百分比alignment length:符合比对的比对区域的长度mismatches:比对区域的错配数gap openings:比对区域的gap数目q. start:比对区域在查询序列(Query id)上的起始位点q. end:比对区域在查询序列(Query id)上的终止位点s. start:比对区域在目标序列(Subject id)上的起始位点s. end:比对区域在目标序列(Subject id)上的终止位点e-value:比对结果的期望值,将比对序列随机打乱重新组合,和数据库进行比对,如果功能越保守,则该值越低;该E值越高说明比对的高得分值是由GC区域,重复序列导致的。
blast比对原理
blast比对原理引言:在生物信息学领域,比对是一项基础且重要的任务。
它可以用于确定两个或多个生物序列之间的相似性,并揭示它们之间的进化关系。
BLAST(Basic Local Alignment Search Tool)是一种常用的比对工具,它能够快速且准确地在数据库中搜索与给定序列相似的序列,被广泛应用于DNA、RNA和蛋白质序列的分析和注释。
一、BLAST的基本原理BLAST采用的是局部比对算法,其基本原理是通过寻找两个序列之间的最佳匹配来衡量相似性。
BLAST算法主要分为两个步骤:预处理和搜索。
1.1 预处理在预处理阶段,BLAST会将数据库中的序列分割成一系列较短的片段,称为k-mer。
k-mer是指长度为k的连续子序列,通过将数据库序列分割成k-mer,可以大大减少比对的计算量。
BLAST还会为每个k-mer计算一个哈希值,以便后续的搜索阶段能够快速地定位匹配。
1.2 搜索在搜索阶段,BLAST会将待比对的序列也分割成k-mer,并计算每个k-mer的哈希值。
然后,BLAST会在数据库中查找具有相同哈希值的序列片段。
这样,BLAST可以快速地筛选出具有潜在相似性的候选序列。
二、BLAST的比对过程BLAST比对过程主要分为两个阶段:种子扩展和最优比对。
2.1 种子扩展在种子扩展阶段,BLAST会寻找两个序列之间的初始匹配片段,这些片段被称为种子。
种子的选择是基于两个序列之间的局部相似性。
通过比较种子的得分,BLAST可以确定两个序列是否具有进一步的相似性。
2.2 最优比对在最优比对阶段,BLAST会根据种子扩展的结果,使用动态规划算法计算最佳比对路径。
该路径表示两个序列之间的最佳匹配。
BLAST 根据比对路径计算比对得分,并将比对结果输出。
三、BLAST的优化策略为了提高比对的速度和准确性,BLAST采用了一系列的优化策略。
3.1 剪枝策略当BLAST在搜索阶段找到一对具有相同哈希值的序列片段时,并不意味着它们是真正的匹配。
第4讲序列相似性搜索PPT课件
• 确定一个特定基因或者蛋白质有哪些已经发现的变种。例 如,很多病毒都具有极强的突变能力。HIV-1 pol有哪些已 知的变异体?
• 研究可能存在多种剪接方式的表达序列标签。
• 寻找对于一个蛋白质的功能和/或结构起关键作用的氢键氨 基酸残基。
“>”开始的单行加分行的序列字符串,中间不允许空行。
/BLAST/blastcgihelp.shtml
2)Bare Sequence
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP FLFLIKHNPTNTIVYFGRYWSP
• 寻找和被比对序列高度相似的序列, 其他的程序 discontiguous-megablast和blastn也能实现这个目标,但 是MEGABLAST是专门针对高度相似序列而设计的,是最 有效的查找和原序列相同序列的工具。
discontiguous megablast
• Discontiguous MEGABLAST is better at finding nucleotide sequences similar, but not identical, to your nucleotide query。
BLAST原理及方法(课堂PPT)
.
2
BLAST
BLAST (Basic Local Alignment Search Tool) allows rapid sequence comparison of a query sequence against a database. The BLAST algorithm is fast, accurate, and web-accessible.
accession number
.
13
Example of the FASTA format for a BLAST query 一个FASTA格式的序列以一个单行的说明开始,接下来是 若干个行的序列数据。
在一个BLAST搜索中输入accession number通常要容易 些。BLAST程序可以识别和忽略出现在你的输入序列字母 中间的数字。
几千种蛋白质被确定,其中有多少蛋白质是同源的?从这 里面测出的基因中有多少是在GenBank中找不到显著性同 源物的?
❖ 确定哪些蛋白质和基因在特定的物种中出现。植物中是 否也存在像RBP这样的脂质运载蛋白?鱼类中是否有反转 录酶基因(HIV-1 pol 基因)?
.
6
Why use BLAST?
BLAST 具有非常广泛的应用: ❖ 确定一个DNA或蛋白质序列身份。如可能通过一个负杂 交实验或芯片实验发现一个特殊的DNA序列中你所使用的 实验条件下是被显著调控的,那么就可以通过将这个DNA
.
8
Four components to a BLAST search
(1) Choose the sequence (query) (2) Select the BLAST program (3) Choose the database to search (4) Choose optional parameters Then click “BLAST”
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Step 4a: 选择可选的搜索参数Select optional search parameters
Step 4a: 选择可选的搜索参数Select optional search parameters
③ 期望expect:期望值E是得分大于或等于某个分值S的不 同的比对的数目在随机的数据库搜索中发生的可能性。这 个数值表示你仅仅因为随机性造成获得这一联配结果的可 能次数。对于blastn、blastp、blastxt和blastn期望值的默 认设置是10。在这个E值下,随机出现得分等于或高于比对 得分S的期望数为10个(这里是假设用与实际的查询序列长 度相等的随机的查询序列搜索数据库)。当将期望选项值调 小时,返回的数据库搜索结果将变少,匹配被搜索到的概 率也会变小。增大E值将返回更多的结果。
Example of the FASTA format for a BLAST query 一个FASTA格式的序列以一个单行的说明开始,接下来是 若干个行的序列数据。
在一个BLAST搜索中输入accession number通常要容易 些。BLAST程序可以识别和忽略出现在你的输入序列字母 中间的e
nr数据库是合并了若干个主要的蛋白质或DNA数据 库得到的。这些数据库中经常包含有相同的序列, 但nr数据库只收录其中的一个序列(即使在nr数据库 中出现看上去一样的序列,实际上还是具有一些细 节上的区别)。 nr数据库是在要搜索现有的绝大多 数序列时典型和常用的数据库。
NP_006735
Step 1: Choose your sequence
三种主要的输入方式: ❖ 剪切然后粘贴DNA或蛋白质序列 ❖使用FASTA格式的序列 ❖简单地使用索引号码(如一个RefSeq或GenBank (GI)的序号)。 Sequence can be input in FASTA format or as accession number
第三章 BLAST:
Basic local alignment search tool
BL A ST!
Outline
• Summary of key points about pairwise alignment • Introduction to BLAST: practical guide to database searching • The BLAST algorithm • BLAST search strategies
Why use BLAST?
BLAST 具有非常广泛的应用: ❖ 研究可能存在多种剪切方式的表达序列标签。有专门用 于BLAST搜索的EST数据库。实际上有许多用来进行搜索 专门的数据库,如专门的包含同一个特定的物种、一种组 织、一个染色体、一种DNA或一个蛋白质功能类的序列数 据库。 ❖ 寻找对于一个蛋白质的功能和/或结构起关键作用的氨基 酸残基。一次BLAST搜索的结果可以放在一起比对,这时 候,就会发现其中像半胱氨酸残基这样可能具有重要生物 学功能的保守残基。
对于核酸序列,默认的字段长度是11,BLAST的字长缺省值为11,即BLASTN将扫 描数据库,直到发现那些与未知序列的11个连续碱基完全匹配的11个连续碱基长度片段 为止。然后这些片段(即字)被扩展。11个碱基的字长已能有效地排除中等分叉的同源性和 几乎所有随机产生的显著联配。它可以被增大(15)或减小(7)。降低字段长度将会使搜索变 得更准确同时也会变得更慢。
Why use BLAST?
BLAST 是NCBI中用来将一个蛋白质或DNA序列和各种数 据库中的其他序列进行比对的主要工具。 BLAST搜索是研 究一个蛋白质和基因的最基本的方法之一。
Why use BLAST?
BLAST 具有非常广泛的应用: ❖ 确定特定的蛋白质或核酸序列有哪些已知的直系同源或 旁系同源序列。除了RBP外,还有哪些其他的脂质运载蛋 白是我们所知道的?当一个新的细菌的基因组被测序后, 几千种蛋白质被确定,其中有多少蛋白质是同源的?从这 里面测出的基因中有多少是在GenBank中找不到显著性同 源物的? ❖ 确定哪些蛋白质和基因在特定的物种中出现。植物中是 否也存在像RBP这样的脂质运载蛋白?鱼类中是否有反转 录酶基因(HIV-1 pol 基因)?
Four components to a BLAST search
(1) Choose the sequence (query) (2) Select the BLAST program (3) Choose the database to search (4) Choose optional parameters Then click “BLAST”
去冗余GenBank编码序列PDB + SwissProt + PIR + PRF
Step 4a: 选择可选的搜索参数Select optional search parameters
当确定了要输入的序列和要搜索的数据库之后,还 有10个其他的可选参数要确定。 ① Limit by Entrez Query:任何NCBI BLAST 搜索 的范围都可以用在Entrez搜索中使用的任何一种范 围限定词来限定。
Step 2: Choose the BLAST program
blastn (nucleotide BLAST):将一个核酸的查询序列与一个 核酸序列数据库相比较。 blastp (protein BLAST):将一个氨基酸的查询序列与一个 蛋白质序列数据库相比较。这类搜索有专门与蛋白质搜索 相关的可选参数,如对各种PAM和BLOSUM打分矩阵的选 择。 tblastn (translated BLAST):将一个蛋白质查询序列与一 个以所有阅读框动态翻译成蛋白质的核酸序列数据库进行 比较。可以用此程序来判断一个DNA数据库是否编码所感 兴趣的查询蛋白。用RBP查询是否可以在某个已测序的 DNA数据库中找到匹配项呢?
BLAST
BLAST (Basic Local Alignment Search Tool) allows rapid sequence comparison of a query sequence against a database. The BLAST algorithm is fast, accurate, and web-accessible.
5’ GTG GGT 5’ TGG GTA 5’ GGG TAG
Step 3: choose the database
BLAST搜索可使用的数据库会列在每一个BLAST 页面上,对于蛋白质数据库搜索(blastp和blastx), 两个主要的选择即nr数据库和SwissProt。 nr = non-redundant (most general database) dbest = database of expressed sequence tags dbsts = database of sequence tag sites gss = genomic survey sequences htgs = high throughput genomic sequence
Step 2: Choose the BLAST program
Step 2: Choose the BLAST program
blastn (nucleotide BLAST) blastp (protein BLAST) tblastn (translated BLAST) blastx (translated BLAST) tblastx (translated BLAST)
Step 4a: 选择可选的搜索参数Select optional search parameters
Step 4a: 选择可选的搜索参数Select optional search parameters
④ 字段长度word size:BLAST程序是通过比对未知序列与数据库序列中的短序列来发现 最佳匹配序列的。最初进行“扫描”(scanning)就是确定匹配片段。序列的匹配程序由短 序列(定义为“word”,即字)的联配得分总和来决定。联配时,“字”的每个碱基均被计分 :如果碱基对完全相同(如A与A),得某一正值;如果碱基对不很匹配(W与A或T),则得 某一略小的正值;如果两个碱基不匹配,则得一负值。总的合计得分便决定了序列间的 相似程度。
Step 2: Choose the BLAST program
blastx (translated BLAST):将一个核酸的查询序列按所有可 能的阅读框翻译后的序列与一个蛋白质序列数据库进行比较。 如若有一个DNA序列,想知道它编码什么蛋白质,用此程序进 行搜索。它会自动将DNA翻译成6种可能的蛋白质。然后此程 序就会将翻译的6个蛋白质序列逐一与蛋白质序列数据库中的 各个成员进行比较。
Why use BLAST?
BLAST 具有非常广泛的应用: ❖ 确定一个DNA或蛋白质序列身份。如可能通过一个负杂 交实验或芯片实验发现一个特殊的DNA序列中你所使用的 实验条件下是被显著调控的,那么就可以通过将这个DNA 序列在一个蛋白质数据库中进行搜索,来寻找哪些蛋白质 是与你的DNA序列所编码的蛋白质相关性最高的。 ❖ 发现新基因。如一个对于全基因组DNA的BLAST搜索可 能会发现一个DNA所编码的蛋白质是以前所没有报道过的 ❖ 确定一个特定基因或蛋白质有哪些已经发现了的变种。 例如,很多病毒都具有极强的突变能力;HIV-1pol有哪些 已知的变异体?
Step 4a: 选择可选的搜索参数Select optional search parameters
Step 4a: 选择可选的搜索参数Select optional search parameters
Step 4a: 选择可选的搜索参数Select optional search parameters