第三章 序列比对
生物信息学中的序列比对技术分析
生物信息学中的序列比对技术分析随着生物技术的不断进步,自动化测序技术的快速发展,大量生物学数据呈爆炸式增长。
同时,对生物信息学分析的需求日益增大,序列比对则成为生物信息学最常见的分析手段之一。
序列比对技术可以对已知序列与未知序列进行匹配、比对,以找出其中的异同点,分析其功能和演化关系,是生物科学、基因组学等分支的核心技术之一。
1. 序列比对的基本概念序列比对是指将两个或多个序列进行对比,找出它们的相似和不同之处的过程。
从基本原理上讲,序列比对是将一条DNA或RNA序列与另一条同源序列进行匹配的过程,而通过比较相同和不同之处来推断它们可能存在的共同祖先。
所谓同源序列,指的是两个或多个序列具有较高的序列相似度,可能来自相同种属的生物体或同一基因家族中的不同基因成员。
同源序列对于了解分子进化、基因结构与功能以及物种关系具有重要的意义。
2. 序列比对的类型在生物信息学领域,基本可以将序列比对分为全局比对和局部比对两种。
(1)全局比对全局比对是指将整个序列与另一条序列进行比对,寻找全长匹配区域。
全局比对适用于已知的高度同源性序列分析。
最常用的全局比对算法包括 Needleman-Wunsch 和 Smith-Waterman 算法。
其中,Needleman-Wunsch 算法较为严谨,适用于匹配全长序列;而 Smith-Waterman 算法则更为灵活,可以匹配任意长度的序列片段,并且可以找到更为相似的匹配序列。
(2)局部比对局部比对是指只比对序列中一部分序列,而不需要考虑整个序列,寻找相似或同源的序列区间。
相较于全局比对,局部比对更适合用于寻找序列中比较短且高度相似的区域。
常用的局部比对算法有 BLAST (Basic Local Alignment Search Tool) 和 FASTA (Fast Alignment Search Tool) 算法。
这些算法适用于较长的未知序列与基因或蛋白质序列数据库进行比对。
序列比对名词解释
序列比对名词解释序列比对,又被称为序列比对分析,是一种分析生物序列相似性的算法,能够比较并对比不同物种之间的 DNA蛋白质序列,以及用于识别和研究共同特征等。
这是一种运用统计学原理的分析方法,能够发现和比较生物物种的进化关系,从而对比其基因组的序列和结构的相似性。
序列比对的原理是,两个序列通过字符匹配单元来评估两个序列的相似性。
两个序列都会被分解成许多小段,这些小段中的字符将会被比较。
这个过程被称为“匹配盒”,他们使得比较更加精确。
这个算法也使用一种叫做全局算法的系统,用于将两个序列中所有的字符串串连接起来,比较它们之间的相似性。
要使用序列比对,需要使用一种特定的算法,这个算法可以计算出两个序列的相似性。
这个算法可以使用非常复杂的方法,也可以使用经典的比较算法,比如Smith-Waterman算法、Needleman-Wunsch算法、BLAST算法等。
序列比对常常被用来进行基因组学分析,可以用来分析DNA序列、蛋白质序列,也可以用来分析特定基因的变异性。
序列比对可以帮助研究者发现某些基因的Protein的特定变体,这也可以帮助研究者更进一步地了解这些基因的功能。
序列比对还可以被用于进化分析,可以比较和分析某些物种的基因组,寻找它们在进化过程中的变化。
序列比对也可以用来研究生物物种之间的相似性,可以用来了解它们的系统进化关系。
序列比对也可以用于识别特定的DNA结构,如DNA序列中出现的特定序列,可以帮助研究者识别出重要的基因序列。
此外,序列比对还可以帮助研究者发现特定序列中引入的错误,这对研究者分析基因组序列特征非常关键。
综上所述,序列比对是一种非常重要的算法,可以应用于基因组学、进化学和生物物种比较研究等领域。
它可以帮助研究者比较不同物种的序列或比较一个物种序列的变异性,并根据得出的结果来了解它们的进化关系和进化机制。
也可以用来发现基因组中的特征和错误,这极大地丰富了基因组学的发展。
第三章 序列比对
第三章序列比对1 序列比对的概念序列比对的定义是:根据特定的计分规则,两个或多个符号序列按位置比较后排列,尽可能反映序列间的相似性,这一过程称为序列比对。
2 序列比对的意义生物信息学形成早期的主要研究内容就是序列比对,而当时序列比对研究的课题主要是生物大分子的进化。
核酸序列与蛋白质序列的突变是经实验证明的生物学现象,而现代生物学认为正是这种生物大分子序列的不断变化形成了生物进化的分子基础。
即在地质年代早期的地球生物中的核酸、蛋白质等序列经过几十亿年的演变后,成为了现今极其多样化的生物大分子序列。
我们并不知道这些分子序列祖先演化的实际过程,但可以找到现存序列的相似性,根据相似性去推导演化的过程。
正是通过序列比对找出序列之间的相似性。
序列比对找到的是相似性,可用这相似性去进行同源性分析。
后文所讲到的分子系统发育分析,就是通过序列比对,再进行聚类分析,然后依据所得结果确定被测分子序列的亲缘关系,构建进化树。
序列比对的一个用途就是用于搜索相似序列。
当你获得一段DNA序列或氨基酸序列后,发现对它一无所知时,可以在核酸序列数据库中搜索关于这一序列的信息,一个有效的方法是采用比对算法在数据库中找到一系列与该序列有相似性的序列,并按相似程度由高到低排列。
现在应用的多个序列搜索软件的本质差异基本上是比对算法的差异,随着数据库规模的扩大,对快速搜索的要求越来越高,而优化比对算法是解决问题的方案之一。
在基因组测序中,序列比对更是有重要作用。
基因组测序一般要将若干个拷贝的长核酸序列打断成有重叠区域的许多小片断,测序仪对小片断进行测序,然后把已知碱基排列顺序的小片断用比对算法找到有重叠区的另外的片断,把它们边接起来还原成原来的长核酸序列,得到长核酸序列的碱基排列顺序。
序列比对还可以寻找序列中的特定位点。
当一个基因的某一位点发生突变时,它与原基因进行比对时就能发现这个位点,这在寻找致病基因时尤为重要。
同时,通过比对,可找出不同序列间一些保守性的区域,它们可能行使重要的功能。
第三章 序列相似性比较
序列比对问题
基因在进化中存在插入/缺失突变,序列比对时应该 将这些考虑这些突变,以便获得到更好的对齐结果。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
等价矩阵 BLAST矩阵 转移矩阵 7 31 6
t= ACACACTGA Alignment-2 s= ACACAC-CA |||||| | t= ACACACTGA
7 31 2
氨基酸计分矩阵
氨基酸计分矩阵 —— 等价矩阵 —— 遗传密码矩阵 —— 疏水矩阵 —— PAM矩阵 —— BLOSUM矩阵
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
3-2,序列比对
Mii反映了氨基酸i的保守性 Mii = 1 – ΣMij PAM1矩阵: Mii = 1 – λΣMij = ~ 99%
PAM1矩阵,乘以10000
PAM2矩阵
基本假设:每个氨基酸的突变的概率独立于 前次突变。因此,PAM2=PAM1*PAM1
PAM250矩阵
PAM250: 每100个氨基酸残基发生250次突 变; 蛋白质序列仍然有15-30%左右的相似性;
BLOSUM62矩阵构建步骤:
1. 提取Prosite数据库中504个家族的2万多蛋 白质序列(含1961个Blocks),合并其中 相似性≥62%的序列; 2. 统计各BLOCK的氨基酸对数量f; 3. 计算氨基酸对的出现频率q; 4. 计算每种氨基酸的期望频率p; 5. 计算氨基酸对出现的期望频率e; 6. 计算BLOSUM62矩阵分量rij
Step 1: 统计氨基酸的替代
1. 对于同一个group内的蛋白质序列,统 计氨基酸出现的频率,以及替换的个数;
fFY = 6 fFH = 1 fYF = 9
对20种氨基酸做类似统计
fij不一定等于fji
Step2: 计算i->j的相对突变率
Pi = Fi / F : 氨基酸i出现的概率; fij = ij替代的总数; fi = 氨基酸i变为任一氨基酸的总数 = Σfij f = Σfi 氨基酸j的相对突变率: mj= fj / Fj
/CBBresearch/Schaff er/msa.html /general/software/packages/m sa/manual/manual.php
MSA: 打分方式
多序列比对:方法改进
PAM矩阵
71个蛋白质家族的1572种变化; 序列相似性 > 85%; 功能同源的蛋白质 通过中性进化,引入 可接受的点突变; 进化模型:
第三章序列比对
生物软件网: /
• 当然,DNAStar、DNAMan等软件也 可以进行比对。
• 载入的序列必须是fasta格式, 存储在记事本(.txt)中。
参数可以选择,或者默 认。
Clustal比对后的结果
3.3 多条序列比对方法
3.3.1 序列对数据库的比对检索分析 3.3.2 多重序列的本地化软件对齐 3.3.3 Clustal比对结果的编辑
Clustal的工作原理
Clustal输入多个序列
快速的序列两两比对,计算序列间的 距离,获得一个距离矩阵。
采用邻接法(NJ)构建一个树(引导树)
根据引导树,渐进比对多个序列。
Clustal的输入输出格式
• 输入序列的格式比较灵活,可以是前面介 绍过的FASTA格式,还可以是PIR、 SWISS-PROT、GDE、Clustal、 GCG/MSF、RSF等格式。
相似性 (similarity)
• 相似性是指序列比对过程中用来描述检测序列和目标序列之间相同 DNA碱基或氨基酸残基顺序所占比例的高低。
• 相似性本身的含义,并不要求与进化起源是否同一,与亲缘关系的 远近、甚至于结构与功能有什么联系。
• 当相似程度高于50%时,比较容易推测检测序列和目标序列可能是 同源序列;而当相似性程度低于20%时,就难以确定或者根本无法 确定其是否具有同源性。
• “Bl2Seq”是NCBI上Blast程序的一部分, 允许两条序列之行局部双序列比对,使 用这个程序执行蛋白质(或DNA序列) 的双序列比对非常容易。
• 网络服务如NCBI的“bl2seq”程序,地址: /Blast.cgi
点!
特殊BLAST
10
20
30
40
50
生物信息学中的序列比对算法综述
生物信息学中的序列比对算法综述序列比对是生物信息学领域中的一个重要问题,指的是比较两个生物序列(DNA,RNA或蛋白质序列)之间的相似性和差异性。
序列比对是许多研究任务中的第一步,如基因识别、物种分类、进化关系的推断等等。
在本文中,我们将介绍序列比对算法的基本概念、方法和软件,包括全局比对、局部比对、多序列比对等方面。
一、序列比对的基本概念序列比对的目的是找出两个序列之间的相似性和差异性,根据相似性分析序列的结构、功能以及进化关系。
相似性可以被表示成一个比对得分,即正数表示相似性,负数表示差异性。
比对得分的计算取决于匹配分、替换分和缺失分。
匹配分是指在比对中找到相同的位置并且相等的分数。
替换分是指找到不同的位置并且不相等的分数。
缺失分是指在任意序列中找不到匹配的分数。
计算得分的方法有很多种,其中最流行的方法是 Needleman-Wunsch 算法和 Smith-Waterman 算法。
二、全局比对算法全局比对算法是一种比较两个序列的整个长度的算法,使得它们之间的相似性或差异性能够被准确地测量。
全局比对算法通常用于比较高度相似的序列或同一物种中相似的序列。
Needleman-Wunsch 算法与 Smith-Waterman 算法是全局比对中最为经典的算法。
Needleman-Wunsch 算法: Needleman-Wunsch 算法是最经典的全局比对算法之一。
该算法通过构建一个二维矩阵,其中每个元素代表在比对过程中两个序列的一个指定位置。
该算法通过分配一个比对得分并使用动态规划来计算所有可能的比对方式。
通过比对得分的计算,算法确定序列之间的最佳比对方式,使比对得分最大化。
该算法常用于比较高度相似的序列,或者已知序列的情况下以寻找相同物种中潜在基因组之间的相似性信息。
Smith-Waterman 算法: Smith-Waterman 算法是一种类似Needleman-Wunsch 算法的全局比对算法。
第三章 序列两两比对
4
序
言
识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列 的比对显示出了显著的相似性,我们就认为它们属于同一个家族。如果 这个家族中一个成员的结构或功能已知,那么它的这些信息就可以推广 到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未 知结构和功能的序列的结构和功能。 序列比对可以用来推断两条序列是否是相关的。如果两条序列显著 相似,那么这种相似性是随机产生的可能性非常小,也就是说这两条序 列有共同的进化起源。当一个序列比对被正确的做出来,它就反应了两 条序列的进化关系:相同位置出现不同残基的区域代表残基替换;一条 序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列 出现过残基插入或删除。有一种情况也是可能的,那就是来源于同一祖 先的两条序列在某种程度上分离以至于它们有共同祖先的关系已经不能 从序列的水平上识别了。如果那样的话,它们的进化距离就必须通过其 它的方法识别了。
7
序
言
序列相似(similarity)与序列一致(identity)
序列比对中用到的另一对相关术语是序列相似与序列一致。这两个 概念对于核苷酸序列是同义的。而对于蛋白质序列,这两个概念是非常 不同的。在蛋白质序列比对中,序列一致是指待比对的两条序列中相同 残基匹配的比例;序列相似是指待比对的两条序列中很容易彼此替换具 有相似理化性质残基匹配的比例。有两种方法计算序列相似/一致度。 一种方法是用两条序列的全部长度,而另一种是利用较短的序列进 行标准化。第一种方法用如下公式计算序列相似度: S=[(Ls*2)/(La+Lb)]*100 其中S是序列相似的百分比,Ls是相似的残基数目,La和Lb分别是两条 序列的长度。
8
序
言
序列相似(similarity)与序列一致(identity)
生物信息学 第三章:序列比对原理
blastx Search protein database using a translated nucleotide query tblastn Search translated nucleotide database using a protein query
tblastx
Search translated nucleotide database using a translated nucleotide query
一、序列比对打分
序列分析的目的是揭示核苷酸或氨基酸序列编码的 高级结构或功能信息目的。
二、打分矩阵
稀疏矩阵、相似性打分矩阵
(一)DNA打分矩阵
即两个序列中相应的核苷酸相同,计1分;否则计0分。 如果考虑颠换和置换,可采用以下打分矩阵
(二) 氨基酸序列打分矩阵
1.PAM矩阵(Dayhoff突变数据矩阵)
(二)直系同源、旁系同源
直系同源基因(orthologous gene)是指在不同物种 中有相同功能的同源基因,它是在物种形成过程中 形成的。
旁系同源基因(paralogous gene)是指一个物种内 的同源基因。
直系同源基因和旁系同源基因统称为同源基因 (homolog)。
第二节 序列比对打分方法
ClustalX的比对步骤: 1.加载要比对的序列文件 序列格式可以支持NBRF/PIR、EMBL/Swiss-Ppot、 FASTA、GDE、Clustal、MSF、RSF等。
2.多序列比对
3.比对结果输出
(二)T-Coffee工具 (三)MultAlin工具 (四)MAFFT工具
比对结果
(二)高级BLAST工具 1、PSI-BLAST(position specific interated BLAST)
结构生物信息学3-序列比对
生物信息学培训班
蛋白质的打分矩阵 -- PAM
PAMn矩阵的构建
1. 2. 3. 4. 5. 6. 7.
序列比对算法
选取多个家族的相似性>85%的保守序列; 根据匹配计分进行多重比对(不含空位); 以比对结果构建进化树,反映氨基酸替换关系; 计算每种氨基酸转换成其它氨基酸的次数; 计算每种氨基酸突变率; 计算每对氨基酸突变率,得到突变概率矩阵,将此矩阵 自乘n次; 将突变概率矩阵转化为PAMn矩阵。
等价矩阵 (unitary matrix) BLAST矩阵 转移矩阵(transition,transversion)
等价矩阵表 A T 0 1 C 0 0 G 0 0 A T BLAST矩阵 A 5 -4 -4 T -4 5 -4 C G A T A 1 -5 -1 -4 -4 -4 -4 转移矩阵 T -5 1 -5 C G -5 -1 -1 -5
Sequence 1 Sequence 2
actaccagttcatttgatacttctcaaa
taccattaccgtgttaactgaaaggacttaaagact
A A 1
G 0
C 0
T 0
匹配: 1 错配: 0 分值:5
G 0
C 0 T 0
1
0 0
0
1 0
0
0 1
生物信息学培训班
DNA转换和颠换
生物信息学培训班
基因的进化
生物学意义
生物信息学培训班
基因的进化
生物学意义
生物信息学培训班
基因进化过程中的变异
变异:主要有三种类型:
生物学意义
替代(substitution) 插入或删除(insertion or deletion),通称indel 重排(rearrangement) 进化距离,一个序列变 Sequence A 成另一个序列所需的步 骤数 x steps 如A变为B的进化距离为 :x+y
第三章 双序列比对
计分方法
• 记分规则是比对的重要条件,记分方法的 生物学意义常常决定了比对所反映的生物 学特征。不同的记分方法会得到差异较大 的比对结果。
编辑距离(edit distance)
相似性得分
不同编辑操作的代价不同
为编辑操作定义函数w,它表示“代价 (cost)”或“权重(weight)”。
对字母表中的任意字符a、b,定义 w (a, a) = 0 w (a, b) = 1 ab w (a, -) = w ( -, b) = 1
•本质问题:优化
•动态规划寻优策略
•动态规划算法(Dynamic Programming)
双序列比对的算法
动态规划算法:
是把大的问题分割成多级的小问题,逐级求每 个小问题的最优答案,各级小问题的最优答案 加起来就是这个大问题的最优答案。
– Global: Needleman-Wunsch – Local: Smith-Waterman
空位罚分
• 1. 线性罚分:d, 每次罚分的分数;g,空位数
r ( g ) gd
• 2. 修正的罚分:d, 第一次罚分的分数;g,空 位数;e, 修正后的参数
r ( g ) d ( g 1)e
两两比对算法
•直接方法 — 生成两个序列所有可能的比对,分 别计算代价函数,然后挑选一个代价最小的比对 作为最终结果。
第三章 双序列比对
为什么要双序列比对
• 问题: 两个序列是相关的吗? • 方法:比较这两个序列,看它们是否相似。 • 目的: 相似序列 相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系
同源物定义
• 如果多条序列是由共同的祖先序列进化而 来的,则称它们是同源的。
chap3_序列比对2
氨基酸比对计分系统
氨基酸残基具有不同的生物化学特性,影响在进化过 程中的相互替换性
体积相似的氨基酸更容易彼此替换 与水的亲和性
根据实际替换率的观察导出残基对之间相似性计分
PAM矩阵 (Point Accepted Mutation) BLOSUM矩阵 (BLOcks SUbstitution Matrix)
打分矩阵
A T C G 0 -2 -2 -2 -2 A -2 1 -1 -1 -1 T -2 -1 1 -1 -1 C -2 -1 -1 1 -1 G -2 -1 -1 -1 1
序列对比计算
0 0 A A A C 0 (-,-) -2 (A,-) -4 (AA,--) -6 (AAA,---) A -2 (-,A) 1 (A,A) -1 (AA,A) -3 (AAA,A) G -4 (--,AG) -1 (A,AG) 0 (AA,AG) -2 (AAA,AG) C -6 (---,AGC) -3 (A,AGC) -2 (AA,AGC) -1 (AAA,AGC)
PAM矩阵
Margaret Dayhoff, 1978年研究了71个蛋白质家族
的1572种变化(序列相似性 > 85%)
通过对物种进化的研究,根据一种氨基酸被另一 种氨基酸替代的频度而提出的,最常用的是 PAM250
PAM矩阵
功能同源的蛋白质通过中性进化,引入可接受
的点突变
进化模型:
m n i 1 j 1
比较相似性序列
如果序列是相似的,
则最佳比对的路径 接近对角线
Kband算法:填充 矩阵的沿主对角线 2k+1的狭窄带
生物信息学2016-9-序列比对
Bioinformatics
Liaoning University
序列分别为鸡、小鼠、 人、猪和牛的RBP4蛋白 使用了Clustal Omega 软件 通过多序列比对可以发 现RBP4蛋白中的大部分 氨基酸残基在多个哺乳 动物中都保守。
Bioinformatics
Liaoning University
然后点击W按钮或通过菜单栏Alignment >> Alignment by ClustalW
出现参数页面,可以调整参数,一般都使用默认参数,点击OK进行序 列比对
Bioinformatics
Liaoning University
Bioinformatics
Liaoning University
首先在UNIPROT数据库中下载人RBP4蛋白(P02753)和人 lipocalin1蛋白(P31025)的氨基酸序列 然后打开Smith-Waterman算法程序(Water)的在线服务器网址 把人RBP4序列和人lipocalin1蛋白序列分别粘贴到两个文本框中
如果需要可以调整比对的参数,如:得分矩阵,空位罚分等
•
•
Bioinformatics
Liaoning University
序列比对结果的表示方法
匹配:竖线(|)
相似:双点(:) 较弱的相似:单点(.)
生物信息学基础第三章
对字母表中的任意字符a、b,定义
w (a, a) = 0
w (a, b) = 1
a b
w (a, -) = w ( -, b) = 1
也可以使用得分(score)函数来评价编辑操作
p (a, a) = 1 p (a, b) = 0 a b p (a, -) = w ( -, b) = -1
(1)两条长度相近的序列相似 找出序列的差别
(2)判断一条序列的前缀与另一条序列的后缀相似 (3)判断一条序列是否是另一条序列的子序列 (4)判断两条序列中是否有非常相似的子序列
2、编辑距离(Edit Distance)
GCATGACGAATCAG
TATGACAAACAGC
GCATGACGAATCAG
?
反向互补序列
RNA发夹式二级结构
3、通过点矩阵进行序列比较
“矩阵作图法” 或 “对角线作图”
实例
序 列
→ 2→
→ 序列1 →
自我比较
→ 序列1 →
→ 1→
序 列
滑动窗口技术
两条序列中有很多匹配的字符对,因而在点矩阵中 会形成很多点标记。
滑动窗口技术
• 使用滑动窗口代替一次一个位点的比较是解决这 个问题的有效方法。
Match(C, C)
Match(A, A)
Match(A, A)
Match(C, C)
Match(C, C)
Replace(A, T)
Insert( -, T)
Delete(C, -)
Match(A, A)
Match(A, A)
图3.6 序列AGCACACA和ACACACTA的两种比对结果
第3讲-序列比对
0
0
0
0
0
BLOSUM45
PAM30
PAM120
PAM180
PAM240
高相似度
低相似度
小鼠和大鼠RBP
小鼠和细菌的lipocalin
相似度越低的序列,在比对的时候,采用PAM矩阵时,后面的数字越大, 采用BLOSUM矩阵时,后面的数字越小。
30/ 77
3,空位罚分体系
• 一般有两种罚分方法:
• 1,线性罚分
22
12/ 77
• 记分矩阵(scoring matrix),即记分规则。 • Raw Score和Bit score:比对得分。
A T CG A1 0 0 0 0 T0 1 0 0 0 C0 0 1 0 0 G0 0 0 1 0 - 0 0 0 0╳
• 记分矩阵不同,可能得到不同的结果。
13/ 77
• 全局比对:序列全长进行比对,寻找一个最佳的配对。 • 局部比对:子序列比对,只需要寻找局部的最佳匹配。 • 比对的统计显著性E值。 • Algorithm算法。
AATCTATA AAGATA
14/ 77
序列比对的关键问题: 记分矩阵 算法
15/ 77
3、序列比对的意义
• 序列比对(alignment)是序列分析的基础,其他一切都建立在序列比对 的基础上。
的一段序列,包括0长度和全长的序列。 • 随机序列:每个位置出现ATGC中任何一个字符的概率都是1/4。也就
没有什么生物学方面的意义。非随机序列也就是有生物学意义的序列。 • 距离:两序列之间差异程度的一个量化数字,如两个序列完全相同则
距离为0。
9/ 77
• 序列比对(alignment),是根据特定的计分规则,将两个或 多个符号序列按位置比较排列后,得到最具相似性的排列 的过程。
3生物化学
《生物信息学》第三章:序列比较(第三部分)在线多序列比对工具:TCOFFEE - ExpressoTCOFFEE是一个非常流行的多序列比对工具。
TCOFFEE与CLUSTAL系列在所使用的算法上类似,准确度上比CLUSTAL系列略高,但计算耗时也比CLUSTAL系列略高。
最关键的是TCOFFEE有很多种变形,也就是说它有更多的功能。
许多网站都提供TCOFFEE 的在线使用,比如EMBL的多序列比对工具里就有TCOFFEE。
但是这次,我们从TCOFFEE 的网站做多序列比对。
TCOFFEE本身是一个标准的多序列比对工具,跟CLUSTAL没有什么区别。
我们来看它的变形,也就是根据比对序列种类的不同,TCOFFEE网站下特有的比对工具(图1)。
图1. TCOFFEE网站下特有的比对工具针对蛋白质序列的比对工具,除了TCOFFEE以外,还有Expresso,M-Coffee, TM-Coffee 以及PSI-Coffee。
其中,Expresso最有特色,它是为序列加入结构信息后再做多序列比对的工具。
因为有结构信息的辅助,它可以大大提高比对的准确度。
M-Coffee可以把多个比对的结果整合成一个。
TM-Coffee专为穿膜蛋白打造,PSI-Coffee专为远源序列打造。
同样的还有针对RNA和DNA序列的Coffee。
抱歉不能一一品尝,我们就挑他家的特色招牌咖啡,Expresso尝一下。
也就是做加入结构信息的蛋白质多序列比对。
做Expresso的序列我们选用网站提供的示例序列(图2)。
Show more options下,可以通过各种方式给入输入序列的结构信息。
如果你有这些序列现成的结构文件,也就是PDB 文件,可以直接把它们上传上来。
三条序列对应三个上传链接。
可以上传的结构文件不只限于PDB数据库下载的,也包括还未正式发表的解析结构或者计算机预测的结构,只要是用PDB文件格式保存的,都可以。
图2. TCOFFEE Expresso序列和结构信息输入界面如果没有现成的结构文件,但是这些序列在PDB数据库里有对应结构的话,你可以从接下来的输入框里,按照规定的写法,指定哪条序列对应PDB数据库中的哪个结构(图3)。
共享——农业大学生物信息学课后练习题及答案
2014级山东农业大学大二下学期期末生物信息学课后练习题及答案 第一章
1、什么是生物信息学? 2、列举5个在生物信息学发展史上有重意义的事件(技术发明或软件创 新)
3、生物信息学的研究内容都有哪些? 1. What is the bioinformatics? 2. Enumerate five significance events in the bioinformatics development. 3. What are the questions for bioinformatics to answer? 第二章 1、什么是一级数据库,什么是二级数据库 2、世界上三大核酸数据库分别叫什么,由什么机构进行维护,两个重 要的蛋白质数据库分别是什么,蛋白质三维结构数据库是什么,他们分 别由什么机构进行维护。
物种I和物种II中的a1或a2被称作直系同源,因为它们来自同一祖先,
而物种I或物种II中的a1和a2被称作旁系同源,因为它们是由基因复制
得到的。
3、 什么是相似性(similarity)、同一性(identity)?他们的 关系?
答: 4、什么是点阵图(dot matrix)?作用与优点。 答:1.点阵图分析(Dot matrix analysis):是双序列比对的基本方
2005年, 新一代测序技术出现。(Nature, 2005)
3、生物信息学的研究内容都有哪些? 答:1.获取人和各种生物的完整基因组
2.发现新基因和新的单核苷酸多态性 3.基因组中非编码区信息结构分析 4.完整基因组的比较研究 5.功能基因组研究 6.生物大分子结构模拟与药物设计 7.生物信息学的发展与应用研究 第二章 生物信息学资源
列往往具有相似的结构与功能; 2、用于进化分析,是用系统发育方法构建进化树的初使步骤; 3、通过序列比对发现直系同源(Orthologs)与旁系同源(Paralogs)
多重序列比对
第三章序列比较3.3 序列多重比对与序列两两比对不一样,序列多重比对(Multiple Alignment)的目标是发现多条序列的共性。
如果说序列两两比对主要用于建立两条序列的同源关系和推测它们的结构、功能,那么,同时比对一组序列对于研究分子结构、功能及进化关系更为有用。
例如,某些在生物学上有重要意义的相似性只能通过将多个序列对比排列起来才能识别。
同样,只有在多序列比对之后,才能发现与结构域或功能相关的保守序列片段。
对于一系列同源蛋白质,人们希望研究隐含在蛋白质序列中的系统发育的关系,以便更好地理解这些蛋白质的进化。
在实际研究中,生物学家并不是仅仅分析单个蛋白质,而是更着重于研究蛋白质之间的关系,研究一个家族中的相关蛋白质,研究相关蛋白质序列中的保守区域,进而分析蛋白质的结构和功能。
序列两两比对往往不能满足这样的需要,难以发现多个序列的共性,必须同时比对多条同源序列。
图3.14是从多条免疫球蛋白序列中提取的8个片段的多重比对。
这8个片段的多重比对揭示了保守的残基(一个是来自于二硫桥的半胱氨酸,另一个是色氨酸)、保守区域(特别是前4个片段末端的Q-PG)和其他更复杂的模式,如1位和3位的疏水残基。
实际上,多重序列比对在蛋白质结构的预测中非常有用。
多重比对也能用来推测各个序列的进化历史。
从图3.14可以看出,前4条序列与后4条序列可能是从两个不同祖先演化而来,而这两个祖先又是由一个最原始的祖先演化得到。
实际上,其中的4个片段是从免疫球蛋白的可变区域取出的,而另4个片段则从免疫球蛋白的恒定区域取出。
当然,如果要详细研究进化关系,还必须取更长的序列进行比对分析。
对于多重序列比对的定义,实际上是两个序列的推广。
设有k个序列s1, s2, ... ,s k,每个序列由同一个字母表中的字符组成,k大于2;通过插入操作,使得各序列s1, s2, ... ,s k的长度一样,从而形成这些序列的多重比对。
如果将各序列在垂直方向排列起来,则可以根据每一列观察各序列中字符的对应关系,如图3.14。
序列比对
概念 意义 理论基础 方法 显著性检验
概念
通过比较生物分子序列,发现它们的相似性, 找出序列之间共同的区域,同时辨别序列之间的 差异,从而揭示生物序列的功能、结构和进化的 信息。
什么是生物序列?
生物序列一般指DNA、RNA或者蛋白质序列, 比较不同类型的生物体序列的相互关系是生物序 列分析的核心问题。
局部比对
寻找序列中相似度最高的区域,也就是匹配密度最高 的部分。局部比对适用于某些部位相似度较高,而其他部 位差异较大的序列。
方法
点阵分析法
点阵法能将所有可能的比对结果用该矩阵的对角线表 现出来,还能显示插入、缺失及序列内部正向和反向重复 的存在,这是其他方法很难做到的。
动态规划算法
Needleman-Wunsch算法,Smith-Waterman算法
算法的改进:
允许空位
最初的Blast程序不允许空位插入,但在生物的进化过 程中碱基的插入或缺失突变时普遍存在的,因此比对结 果通常会出现一些无空位但不连续的区域,若将有些高 分值片段对通过一些相似性较低且有空位的片段连接起 来,就能组成一些更长的或许更具实际生物学意义的比 对。Altshul改进了Blast算法,允许插入删除操作。
Blast方法
Blast程序在进行序列数据库相似性搜索时,查询序列 可选择过滤掉低复杂度的区域,然后按字长参数(DNA 序列一般为11,蛋白质序列为3)将序列分解成小的字串。 找出查询序列和目标序列间所有单个或多个连续匹配的字 串。对于这样的局部对比排列,可用打分函数或记分矩阵 进行打分,这个得分就是序列相似性的度量,不同的匹配 程度得分有高低之分。若匹配程度较高,且记分超过一定 阈值的连续字串就被称为序列片段对(segment pair),它 是两条给定序列中的一对子序列,它们的长度相等,且形 成无空位的完全匹配。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
>gi|224983683|pdb|3GBN|B Chain B, Crystal Structure Of Fab Cr6261 In Complex With The 1918 H1n1 Influenza Virus Hemagglutinin GLFGAIAGFIEGGWTGMIDGWYGYHHQNEQGSGYAADQKSTQNAIDGITNKVNSVIEKMNTQFTAVG KEFNNLERRIENLNKKVDDGFLDIWTYNAELLVLLENERTLDFHDSNVRNLYEKVKSQLKNNAKEIGN GCFEFYHKCDDACMESVRNGTYDYPKYSEESKLNREEIDGVSGR
3 3 3 3 5 5 7 7 7 7 8 8 8 8 9 9 9 10 10 10 9 9 8
Y
2 2 3 3 4 4 6 6 6 6 7 7 7 7 8 8 9 9 9 9 10 10 8
F
1 1 2 2 4 4 6 6 6 6 7 7 7 7 8 8 8 8 9 9 10 10 9
W
0 0 1 1 3 3 4 4 4 5 5 5 5 5 5 7 7 7 8 8 8 9 10
同源性(homology)
• 如果两个序列有一个共同的进化祖先,那么它们 是同源的。这里不存在同源性的程度问题。这两 条序列之间要么是同源的,要么是不同源的
相似性 (similarity)
• 相似性是指序列比对过程中用来描述检测序列和目标
序列之间相同DNA碱基或氨基酸残基顺序所占比例的 高低。 • 当相似程度高于50%时,比较容易推测检测序列和目 标序列可能是同源序列;而当相似性程度低于20%时,
BLAST结果综述
BLAST结果表述
Bl2Seq双序列比对举例
特殊BLAST
蛋白质序列比对用blastp,DNA序列比对用blastn
例:拟南芥和菠菜的抗坏血酸过氧化物酶基因的两两比对
粘贴 sequence1
粘贴 sequence2
竖线:一致性 (identities) 缺口(gap):不同之处
P
3 3 4 4 6 6 7 8 8 8 8 8 9 9 9 10 10 10 9 9 9 8 7
V
3 3 4 4 5 5 7 7 7 8 8 8 8 8 9 10 10 10 10 10 9 8 7
L
3 3 3 3 5 5 7 7 7 7 8 8 8 8 9 9 9 10 10 10 9 9 8
I
PAM矩阵与BLOSUM矩阵的选择
第四节 序列比对的算法
双序列比对的三种算法: • 点阵分析法 • 动态规划法:Needleman-Wunsch、Smith-Waterman • 词或K串法(BLAST or FASTA中应用,后面会提到)
全局比对
• 对序列从头到尾进行比较,试图使尽可 能多的字符在同一列中匹配。 • 适用于相似度较高且长度相近的序列 • 如:Needleman-Wunsch算法
选择“进行完全比对”,输出的文件路径自动与原始 的序列文件的路径一致。
Clustal比对结果
星号:完全一致
峰:表示一致程度高 谷:表示一致程度低
Cluster可进行双序列比对
第七节 全基因组比对
1) UCSC genome browser 2) Ensembl genome browser
The end
• 遗传密码矩阵 遗传密码矩阵通过计算一个氨基酸变成另一 个氨基酸所需的密码子变化的数目而得到。 通常为1 或 2,只有Met到Tyr为 3。
• 遗传密码矩阵 GCM矩阵
疏水矩阵
R
R K D E B Z S N Q G X T H A C M P V L I Y F W 10 10 9 9 8 8 6 6 6 5 5 5 5 5 4 3 3 3 3 3 2 1 0
第五节 双序列比对的常用工具
数据库搜索:在分子生物学研究中,对于新测定的 碱基序列或由此翻译得到的氨基酸序列,往往需要 通过数据库搜索,找出具有一定相似性的同源序列, 以推测该未知序列可能属于哪个基因家族,具有哪 些生物学功能。 数据库搜索的基础是序列的相似性比对,即双序列 比对,因此,数据库搜索是双序列比对的特例 BLAST, FASTA等常用的数据库搜索程序均采用局部相 似性比对的方法,具有较快的运行速度
BLAST: basic local alignment search tool
BLAST子程序说明
程序名 Blastp 查询序列 蛋白质 数据库类型 蛋白质 方法 用检测序列蛋白质 搜索蛋白质序列数 据库 用检测序列核酸搜 索核酸序列数据库 将核酸序列按6条链 翻译成蛋白质序列 后搜索蛋白质序列 数据库
Blastn
核酸
核酸
Blastx
核酸
蛋白质
Tblastn
蛋白质
核酸
用检测序列蛋白质 搜索由核酸序列数 据库按6条链翻译成 的蛋白质序列数据 库
将核酸序列按6条链 翻译成蛋白质序列 后搜索由核酸序列 数据库按6条链翻译 成的蛋白质序列数 据库
Tblastx
核酸
核酸
多结构域蛋白 (H1N1) 的BLAST检索
编辑距离(edit distance)
相似性得分
打分规则就是后面的打分矩阵
第三节 打分矩阵(替换记分矩阵)
• 插入和缺失突变:序列比对采用空格(Gap)来处理 • 替换突变:替换计分矩阵即打分矩阵
• (1)核酸打分矩阵设DNA序列所用的字母表为 = { A,C,G,T }
a. 等价矩阵 (unitary matrix) b. BLAST矩阵 c. 转换-颠换矩阵(transition-transversion matrix) (嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)
• 寻找序列中相似度最高的区域,也就是 匹配密度最高的部分。 局部比对 • 适用于在某些部分相似度较高,而其他 部位差异较大的序列。 • 如:Smith-Waterman算法
多序列比对的算法: 1)动态规划算法 2)渐进多序列比对 3)迭代法
多序列比对基于双序列比对,存在两种比对方式:
1)局部比对 (local alignment) 2)整体比对(global alignment)
PAM & BLOSOM
• 这类矩阵列出同源蛋白质在进化过程中氨基酸变 化的可能性(统计学inference)是基于进化原理 的依据,更科学
PAM矩阵( point accepted mutaion)
• 基于氨基酸进化的点换,那么这对氨基酸替换得 分就高
一般选择局部比对和蛋白质序列比对 1)蛋白质功能位点往往是由较短的序列片段组成的,尽 管在序列的其它部位可能有插入、删除等突变,但这些 关键的功能部位的序列往往具有相当大的保守性。而局 部比对往往比整体比对对这些功能区段具有更高的灵敏 度,因此其结果更具生物学意义。 2)蛋白质比对通常比DNA比对具有更丰富的信息 i) DNA序列的许多改变(特别是密码子的第三位)不会 改变对应的氨基酸 ii)许多氨基酸具有相似的生物化学性质(亲疏水,酸 碱等),在打分系统中会认为是相似的(positive), 而不是不同
第六节 多序列比对的常用工具
Cluster家族(ClusterW)
以多个物种的抗坏血酸过氧化物酶的的蛋 白质序列进行比对为例
• 将要比对的多个序列以 Fasta格式保存
• 载入多个序列后,选择输出选项,选择输出格式。或 者在比对完成之后,在“文件”中选择“序列另存 为”,同样可以选择合适的输出格式。
H
5 5 5 5 7 7 9 9 9 9 10 10 10 10 9 9 9 8 8 8 7 7 5
A
5 5 5 5 7 7 9 9 9 9 10 10 10 10 9 9 9 8 8 8 7 7 5
C
4 4 5 5 6 6 8 8 8 8 9 9 9 9 10 10 9 9 9 9 8 8 6
M
3 3 4 4 6 6 8 8 8 8 9 9 9 9 10 10 10 10 9 9 8 8 7
Z
8 8 8 8 10 10 8 8 8 8 7 7 7 7 6 6 6 5 5 5 4 4 3
S
6 6 7 7 8 8 10 10 10 10 9 9 9 9 8 8 7 7 7 7 6 6 4
N
6 6 6 6 8 8 10 10 10 10 9 9 9 9 8 8 8 7 7 7 6 6 4
Q
6 6 6 6 8 8 10 10 10 10 9 9 9 9 8 8 8 7 7 7 6 6 4
表3.1 等价矩阵表 A A 1 T 0 C 0 G 0 A 表3.2 BLAST矩阵 A 5 -4 -4 T -4 -4 -4 C G A -4 -4 表3.3 转移矩阵 A 1 -5 -1 T -5 -1 -5 C G -5 -1
T
C G
0
0 0
1
0 0
0
1 0
0
0 1
T
C G
-4 5
-4 -4
5 -4 -4 5
T
C G
-5 1
-1 -5
1 -5 -5 1
(2)蛋白质打分矩阵
• (i)等价矩阵
1 i j Rij 0 i j
其中Rij代表打分矩阵元素 i、j分别代表字母表第i和第j个字符。
• • • •
(ii) 遗传密码矩阵(genetic code matrix,GCM ) (iii)疏水性矩阵 (hydrophobic matrix) (iv)PAM矩阵(point accepted matrix,PAM) (v) BLOSUM矩阵 (BLOck SUbstitution Matrix,BLOSUM)
K
10 10 9 9 8 8 6 6 6 5 5 5 5 5 4 3 3 3 3 3 2 1 0