序列比对原理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
即两个序列中相应的核苷酸相同,计1分;否则计0 分如。果考虑颠换和置换,可采用以下打分矩阵
(二) 氨基酸序列打分矩阵
1.PAM矩阵(Dayhoff突变数据矩阵)
PAM250矩阵
2.BLOSUM矩阵
BLOSUM62矩阵
第三节 序列比对算法
一、dotplot算法
1.构建点阵矩阵
2.获得相似性片段
tblastx
Search translated nucleotide database using a translated nucleotide query
比对结果
(二)高级BLAST工具 1、PSI-BLAST(position specific interated BLAST)
2、PHI-BLAST(pattern hit initiated BLAST)
(三)多序列比对应用
二、多序列比对算法
(一)动态规划法 (二)渐进式算法 (三)迭代算法 (四)统计概率算法
三、多序列比对工具
(一)ClustalX/W ClustalX和ClustalW是两个使用最广泛的多序列比对 工具,均采用渐进式多序列比对算。
ClustalX的比对步骤: 1.加载要比对的序列文件 序列格式可以支持NBRF/PIR、EMBL/Swiss-Ppot、 FASTA、GDE、Clustal、MSF、RSF等。
二、序列比对类型
(一)序列比对分类 双序列比对 多序列比对
global alignment
local alignment
(二)编辑距离
通过编辑操作计算的两条序列的距离称为编辑距离。
(三)双序列比对
(四)全局序列比对
(五)局部序列比对
三、序列比对的相关概念
(一)同源性、同一性、相似性
相似性(similarity)是指两序列间直接的数量关系, 如部分相同、相似的百分比或其他一些合适的度量。
2.多序列比对
3.比对结果输出
(二)T-Coffee工具 (三)MultAlin工具 (四)MAFFT工具
同一性(identity)是指两序列在同一位点核苷酸或 氨基酸残基完全相同的序列比例。
同源性(homology)是指从某个共同祖先经趋异进 化而形成的不同序列。
(二)直系同源、旁系同源
直系同源基因(orthologous gene)是指在不同物 种中有相同功能的同源基因,它是在物种形成过程 中形成的。
E值计算公式:
算法特点:
第四节 序列比对工具
一、FASTA工具
二、BLAST工具 (一)基本BLAST工具
nucleotide blast
Search a nucleotide database using a nucleotide query Algorithms: blastn, megablast, discontiguous megablast
3、MEGABLAST
第五节 多序列比对
一、多序列比对概述 (一)多序列比对目的
Baidu Nhomakorabea为了发现构成同一基因家族的成组序列之间的 共性,发现这些共性对于研究分子结构、功能及进 化关系都有着非常重要的作用,在阐明一组相关序 列的重要生物学模式方面也起着重要的作用。
(二)多序列比对定义
多序列比对就是对多条序列插入空位,使得插 入空位后的全局比对结果具有相同的长度,并且比 对结果中不能出现一列全为空位。
序列比对原理
第一节 序列比对相关概念
一、序列比对目的及定义
(一)序列比对目的 通过比较两条或多条序列之间是否具有足够的相似 性,从而判定它们之间是否具有同源性。 (二)序列比对定义 序列比对(sequence alignment)是运用某种特 定的数学模型或算法,找出两个或多个序列之间的最 大匹配碱基或残基数,比对的结果反映了算法在多大 程度上提供序列之间的相似性关系及它们的生物学 特征。
旁系同源基因(paralogous gene)是指一个物种 内的同源基因。
直系同源基因和旁系同源基因统称为同源基因 (homolog)。
第二节 序列比对打分方法
一、序列比对打分
序列分析的目的是揭示核苷酸或氨基酸序列编码的 高级结构或功能信息目的。
二、打分矩阵
稀疏矩阵、相似性打分矩阵
(一)DNA打分矩阵
二、dynamic programming algorithm
1、计算得分矩阵
2、寻找最优的比对序列
例
s=acgctq t=catgt
算法特点:
三、BLAST算法
1、编译一个由查询序列生成的长度固定的字段编译 列表; 2、在数据库中扫描获得与编译列表中的字段匹配的 序列记录; 3、以编译列表中的字段对为中心向两端延伸以寻找 超过阈值分数S的高分值片段对HSP。
protein blast
Search protein database using a protein query Algorithms: blastp, psi-blast, phi-blast, delta-blast
blastx Search protein database using a translated nucleotide query tblastn Search translated nucleotide database using a protein query
(二) 氨基酸序列打分矩阵
1.PAM矩阵(Dayhoff突变数据矩阵)
PAM250矩阵
2.BLOSUM矩阵
BLOSUM62矩阵
第三节 序列比对算法
一、dotplot算法
1.构建点阵矩阵
2.获得相似性片段
tblastx
Search translated nucleotide database using a translated nucleotide query
比对结果
(二)高级BLAST工具 1、PSI-BLAST(position specific interated BLAST)
2、PHI-BLAST(pattern hit initiated BLAST)
(三)多序列比对应用
二、多序列比对算法
(一)动态规划法 (二)渐进式算法 (三)迭代算法 (四)统计概率算法
三、多序列比对工具
(一)ClustalX/W ClustalX和ClustalW是两个使用最广泛的多序列比对 工具,均采用渐进式多序列比对算。
ClustalX的比对步骤: 1.加载要比对的序列文件 序列格式可以支持NBRF/PIR、EMBL/Swiss-Ppot、 FASTA、GDE、Clustal、MSF、RSF等。
二、序列比对类型
(一)序列比对分类 双序列比对 多序列比对
global alignment
local alignment
(二)编辑距离
通过编辑操作计算的两条序列的距离称为编辑距离。
(三)双序列比对
(四)全局序列比对
(五)局部序列比对
三、序列比对的相关概念
(一)同源性、同一性、相似性
相似性(similarity)是指两序列间直接的数量关系, 如部分相同、相似的百分比或其他一些合适的度量。
2.多序列比对
3.比对结果输出
(二)T-Coffee工具 (三)MultAlin工具 (四)MAFFT工具
同一性(identity)是指两序列在同一位点核苷酸或 氨基酸残基完全相同的序列比例。
同源性(homology)是指从某个共同祖先经趋异进 化而形成的不同序列。
(二)直系同源、旁系同源
直系同源基因(orthologous gene)是指在不同物 种中有相同功能的同源基因,它是在物种形成过程 中形成的。
E值计算公式:
算法特点:
第四节 序列比对工具
一、FASTA工具
二、BLAST工具 (一)基本BLAST工具
nucleotide blast
Search a nucleotide database using a nucleotide query Algorithms: blastn, megablast, discontiguous megablast
3、MEGABLAST
第五节 多序列比对
一、多序列比对概述 (一)多序列比对目的
Baidu Nhomakorabea为了发现构成同一基因家族的成组序列之间的 共性,发现这些共性对于研究分子结构、功能及进 化关系都有着非常重要的作用,在阐明一组相关序 列的重要生物学模式方面也起着重要的作用。
(二)多序列比对定义
多序列比对就是对多条序列插入空位,使得插 入空位后的全局比对结果具有相同的长度,并且比 对结果中不能出现一列全为空位。
序列比对原理
第一节 序列比对相关概念
一、序列比对目的及定义
(一)序列比对目的 通过比较两条或多条序列之间是否具有足够的相似 性,从而判定它们之间是否具有同源性。 (二)序列比对定义 序列比对(sequence alignment)是运用某种特 定的数学模型或算法,找出两个或多个序列之间的最 大匹配碱基或残基数,比对的结果反映了算法在多大 程度上提供序列之间的相似性关系及它们的生物学 特征。
旁系同源基因(paralogous gene)是指一个物种 内的同源基因。
直系同源基因和旁系同源基因统称为同源基因 (homolog)。
第二节 序列比对打分方法
一、序列比对打分
序列分析的目的是揭示核苷酸或氨基酸序列编码的 高级结构或功能信息目的。
二、打分矩阵
稀疏矩阵、相似性打分矩阵
(一)DNA打分矩阵
二、dynamic programming algorithm
1、计算得分矩阵
2、寻找最优的比对序列
例
s=acgctq t=catgt
算法特点:
三、BLAST算法
1、编译一个由查询序列生成的长度固定的字段编译 列表; 2、在数据库中扫描获得与编译列表中的字段匹配的 序列记录; 3、以编译列表中的字段对为中心向两端延伸以寻找 超过阈值分数S的高分值片段对HSP。
protein blast
Search protein database using a protein query Algorithms: blastp, psi-blast, phi-blast, delta-blast
blastx Search protein database using a translated nucleotide query tblastn Search translated nucleotide database using a protein query