第三章序列比对共46页

合集下载

课件第3讲 序列比对与数据库搜索

课件第3讲 序列比对与数据库搜索


两序列比对位置上的元素(核酸或氨基酸)大部分相同 两序列比对位置上的元素(氨基酸)相似 两序列来自一个共同的祖先序列

序列同源性

序列比较

• Dot matrix 分析 (intuitive) • 序列比对计算DP algorithm (exact) • Word or k-tuple (FASTA, BLAST) (heuristic)



words.
The main assumption in a word-based method assumes that related sequences are more likely to share several common Increasing the word size, enables searches to be performed faster, but reduces the sensitivity


矩阵名中的数字代表产生矩阵所用序列集的相似度
BLOSUM62 (lower part)
PAM矩阵和BLOSUM矩阵的比较

PAM矩阵的突变率来自一个明确的进化模型,该模型中氨基 酸的替换可从近亲蛋白质的系统发生树分支得知,而远亲蛋 白质的关系则可用外推过程建立模型,但BLOSUNM矩阵 却是通过直接观测保守区域中氨基酸的替换几率建立的 PAM矩阵基于序列全局比对观测到的突变,包括了保守区域 和可变区域,而BLOSUM矩阵仅基于高度保守的序列,不允 许有空位的出现 一般情况下PAM120矩阵和BLOSUM62矩阵是最好的选择

FASTA
找出高相似短序列
打分,精细匹配
拼接,去除不可能区段

第三章 序列比对

第三章 序列比对

第三章序列比对1 序列比对的概念序列比对的定义是:根据特定的计分规则,两个或多个符号序列按位置比较后排列,尽可能反映序列间的相似性,这一过程称为序列比对。

2 序列比对的意义生物信息学形成早期的主要研究内容就是序列比对,而当时序列比对研究的课题主要是生物大分子的进化。

核酸序列与蛋白质序列的突变是经实验证明的生物学现象,而现代生物学认为正是这种生物大分子序列的不断变化形成了生物进化的分子基础。

即在地质年代早期的地球生物中的核酸、蛋白质等序列经过几十亿年的演变后,成为了现今极其多样化的生物大分子序列。

我们并不知道这些分子序列祖先演化的实际过程,但可以找到现存序列的相似性,根据相似性去推导演化的过程。

正是通过序列比对找出序列之间的相似性。

序列比对找到的是相似性,可用这相似性去进行同源性分析。

后文所讲到的分子系统发育分析,就是通过序列比对,再进行聚类分析,然后依据所得结果确定被测分子序列的亲缘关系,构建进化树。

序列比对的一个用途就是用于搜索相似序列。

当你获得一段DNA序列或氨基酸序列后,发现对它一无所知时,可以在核酸序列数据库中搜索关于这一序列的信息,一个有效的方法是采用比对算法在数据库中找到一系列与该序列有相似性的序列,并按相似程度由高到低排列。

现在应用的多个序列搜索软件的本质差异基本上是比对算法的差异,随着数据库规模的扩大,对快速搜索的要求越来越高,而优化比对算法是解决问题的方案之一。

在基因组测序中,序列比对更是有重要作用。

基因组测序一般要将若干个拷贝的长核酸序列打断成有重叠区域的许多小片断,测序仪对小片断进行测序,然后把已知碱基排列顺序的小片断用比对算法找到有重叠区的另外的片断,把它们边接起来还原成原来的长核酸序列,得到长核酸序列的碱基排列顺序。

序列比对还可以寻找序列中的特定位点。

当一个基因的某一位点发生突变时,它与原基因进行比对时就能发现这个位点,这在寻找致病基因时尤为重要。

同时,通过比对,可找出不同序列间一些保守性的区域,它们可能行使重要的功能。

第三章 序列两两比对

第三章 序列两两比对

4


识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列 的比对显示出了显著的相似性,我们就认为它们属于同一个家族。如果 这个家族中一个成员的结构或功能已知,那么它的这些信息就可以推广 到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未 知结构和功能的序列的结构和功能。 序列比对可以用来推断两条序列是否是相关的。如果两条序列显著 相似,那么这种相似性是随机产生的可能性非常小,也就是说这两条序 列有共同的进化起源。当一个序列比对被正确的做出来,它就反应了两 条序列的进化关系:相同位置出现不同残基的区域代表残基替换;一条 序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列 出现过残基插入或删除。有一种情况也是可能的,那就是来源于同一祖 先的两条序列在某种程度上分离以至于它们有共同祖先的关系已经不能 从序列的水平上识别了。如果那样的话,它们的进化距离就必须通过其 它的方法识别了。
7


序列相似(similarity)与序列一致(identity)
序列比对中用到的另一对相关术语是序列相似与序列一致。这两个 概念对于核苷酸序列是同义的。而对于蛋白质序列,这两个概念是非常 不同的。在蛋白质序列比对中,序列一致是指待比对的两条序列中相同 残基匹配的比例;序列相似是指待比对的两条序列中很容易彼此替换具 有相似理化性质残基匹配的比例。有两种方法计算序列相似/一致度。 一种方法是用两条序列的全部长度,而另一种是利用较短的序列进 行标准化。第一种方法用如下公式计算序列相似度: S=[(Ls*2)/(La+Lb)]*100 其中S是序列相似的百分比,Ls是相似的残基数目,La和Lb分别是两条 序列的长度。
8


序列相似(similarity)与序列一致(identity)

3序列比对原理

3序列比对原理

100个残基发生一次替换的Dayhoff’s PAM-1矩阵
针对不同的进化距离采用PAM 矩阵
序列相似度 = 40% | 打分矩阵 = PAM120
50% | PAM80
60% | PAM 60
PAM250
→ 14% - 27%
第三节 序列比对算法 Dotplot算法
评估两条序列相似度最简单的方法之一是利用点阵图。
• 假设两条序列:CACGA和CGA,使用统一的空位和 失配罚分 • 则:1、给第一条序列加一个空位
2、给第二条序列加一个空位 3、两条序列都不加空位
如果知道了ACGA与GA最佳比对的得分,就可以立即计算出表中第一行的 得分。同样地,如果知道了表中第二、第三行剩余序列的最佳比对的得 分,就可以计算出起始位点的不同的三种比对得分。
(a)Leabharlann (b)(a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的β球蛋 白基因序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球 蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈 值为8。
常用对比软件:BLAST(bl2seq)
动态规划: Needleman 和 Wunsch 算法
第三章 序列 比对原理
Principles of Sequence Alignment
• Biology
- What is the biological question or problem?
• Data
-What is the input data? -What other supportive data can be used ?
• 考虑这样的两条核苷酸序列: AATCTATA和AAGATA 仅有三种比对方式

生物信息学 第三章:序列比对原理

生物信息学 第三章:序列比对原理

blastx Search protein database using a translated nucleotide query tblastn Search translated nucleotide database using a protein query
tblastx
Search translated nucleotide database using a translated nucleotide query
一、序列比对打分
序列分析的目的是揭示核苷酸或氨基酸序列编码的 高级结构或功能信息目的。
二、打分矩阵
稀疏矩阵、相似性打分矩阵
(一)DNA打分矩阵
即两个序列中相应的核苷酸相同,计1分;否则计0分。 如果考虑颠换和置换,可采用以下打分矩阵
(二) 氨基酸序列打分矩阵
1.PAM矩阵(Dayhoff突变数据矩阵)
(二)直系同源、旁系同源
直系同源基因(orthologous gene)是指在不同物种 中有相同功能的同源基因,它是在物种形成过程中 形成的。
旁系同源基因(paralogous gene)是指一个物种内 的同源基因。
直系同源基因和旁系同源基因统称为同源基因 (homolog)。
第二节 序列比对打分方法
ClustalX的比对步骤: 1.加载要比对的序列文件 序列格式可以支持NBRF/PIR、EMBL/Swiss-Ppot、 FASTA、GDE、Clustal、MSF、RSF等。
2.多序列比对
3.比对结果输出
(二)T-Coffee工具 (三)MultAlin工具 (四)MAFFT工具
比对结果
(二)高级BLAST工具 1、PSI-BLAST(position specific interated BLAST)

生物信息学2016-9-序列比对

生物信息学2016-9-序列比对
打开MEGA后,点击Align >> Edit/Built Alignment >> Create New Alignment >> Protein,出现序列编辑的界面 可以将蛋白质序列粘贴进去,也可以通过菜单栏Data >> Open >> Retrieve Sequences from File,加载包含上述蛋白序列的FASTA文 件
然后点击W按钮或通过菜单栏Alignment >> Alignment by ClustalW
出现参数页面,可以调整参数,一般都使用默认参数,点击OK进行序 列比对
Bioinformatics
Liaoning University
Bioinformatics
Liaoning University
Bioinformatics
Liaoning University
序列比对软件使用方法介绍
Bioinformatics
Liaoning University
内容回顾
• • 一致性:一致性指两个序列相同的程度。 保守性:某一氨基酸残基或序列的改变(突变)保持 了原始氨基酸残基的物理化学特征,那么这个突变就 是保守的。 相似性:相似性表示序列之间相关联的程度。与一致 性比较相似性进一步考虑了发生保守突变的氨基酸的 数目,即考虑了相似氨基酸的数目。 同源性:如果两个序列是来源于一个共同的祖先,那 么他们是同源的。
序列分别为人的载脂蛋 白D,人视黄醇结合蛋白 4,孕激素相关子宫内膜 蛋白,补体8(γ肽), lipocalin1,人气味结合 蛋白2A, α-1微球蛋白, 嗜中性明胶酶相关蛋白, 前列腺素D2合成酶 通过多序列比对可以发 现人这些旁系同源物序 列高度趋异,互相之间 的相似度并不高。 但都存在一个保守的模 体:GXW,即甘氨酸-任 意氨基酸-色氨酸。

第3讲-序列比对

第3讲-序列比对

0
0
0
0
0
BLOSUM45
PAM30
PAM120
PAM180
PAM240
高相似度
低相似度
小鼠和大鼠RBP
小鼠和细菌的lipocalin
相似度越低的序列,在比对的时候,采用PAM矩阵时,后面的数字越大, 采用BLOSUM矩阵时,后面的数字越小。
30/ 77
3,空位罚分体系
• 一般有两种罚分方法:
• 1,线性罚分
22
12/ 77
• 记分矩阵(scoring matrix),即记分规则。 • Raw Score和Bit score:比对得分。
A T CG A1 0 0 0 0 T0 1 0 0 0 C0 0 1 0 0 G0 0 0 1 0 - 0 0 0 0╳
• 记分矩阵不同,可能得到不同的结果。
13/ 77
• 全局比对:序列全长进行比对,寻找一个最佳的配对。 • 局部比对:子序列比对,只需要寻找局部的最佳匹配。 • 比对的统计显著性E值。 • Algorithm算法。
AATCTATA AAGATA
14/ 77
序列比对的关键问题: 记分矩阵 算法
15/ 77
3、序列比对的意义
• 序列比对(alignment)是序列分析的基础,其他一切都建立在序列比对 的基础上。
的一段序列,包括0长度和全长的序列。 • 随机序列:每个位置出现ATGC中任何一个字符的概率都是1/4。也就
没有什么生物学方面的意义。非随机序列也就是有生物学意义的序列。 • 距离:两序列之间差异程度的一个量化数字,如两个序列完全相同则
距离为0。
9/ 77
• 序列比对(alignment),是根据特定的计分规则,将两个或 多个符号序列按位置比较排列后,得到最具相似性的排列 的过程。

序列的比对分析PPT课件

序列的比对分析PPT课件

.
47
原始数据多 序列比对结果
对序列中每个 位置重复抽样, 基于原比对结果 生成多个样本
.
48
树上的数字为Bootstrap 校验值,表示该分支通过 Bootstrap校验的次数占 总次数的百分比,该数值 越大,即表示构建进化树 的可信度越高;大于70的 Bootstrap值较为可信。
由核酸酶蛋白序列构建的系统进 化树基本反映了这些物种的亲缘 关系;在人和黑猩猩等亲缘关系 较近的物种中胰腺核酸酶基因只 有一个拷贝。而叶猴胰腺核酸酶 有两个拷贝紧密聚类在一起,推 测是由于种内基因重复产生; leaf monkey 2树枝长度远大于 leaf monkey1,表明该拷贝蛋白 质序列发生了快速变化。
输入“more db”-〉回车察看db文件内容
.
12
输入“formatdb -i db -p T”-〉回车 对db数据库进行格式化
.
13
输入“dir”-〉回车 察看bin文件夹下内容
格式化以后产生的文件
.
14
输入“blastall -p blastx -i in -d db -o out -e 2e-5 -m 9” -〉回车 运行blastx程序
.
35
.
36
.
37
.
38
.
39
.
40
.
41
构建系统进化树
• MEGA5 工具栏中的Phylogeny提供5种常用系统进化 树的构建方法:
• Maximum Likelihood, ML最大似然法
• Neighbor-Joining,NJ 临位连接法
• Minimum-Evolution,ME 最小进化法
双击安装到C盘 产生三个文件夹 •bin •data •doc

序列比对定义

序列比对定义

序列比对定义
序列比对是一种对两个或多个基因序列、蛋白质序列或其他生物学序列进行比较和分析的方法。

序列比对可以帮助我们识别出物种之间的相似性和差异性,以及研究生物分子进化和功能的关系。

在序列比对中,我们通常使用一种叫做“算法”的数学方法来对比较的序列进行配对。

这些算法可以根据序列中的相同字母、相近字母、缺失字母和插入字母来进行匹配和比对。

一般来说,序列比对时我们采用的算法包括全局比对、局部比对和相似性比对。

全局比对是一种将两个序列的整个长度进行比较的方法。

这种方法可以有效地找出两个序列在结构上的相同之处,但是也会忽略掉一些位于序列中的局部变异。

局部比对不同于全局比对,他将两个序列中相似的局部片段进行匹配和比对,忽略掉其中的不同之处。

这种方法常用于检测蛋白质序列中的保守结构域或一些重要的氨基酸。

相似性比对则是一种将两个或多个序列中相似的地方进行比较的方法。

这种方法可以检测到序列中的不同速率区域发生的进化过程,并识别物种之间的关系。

通过序列比对,我们可以揭示基因、蛋白质或者其他生物分子之间的演化规律,并进一步研究它们的功能和作用。

因此,序列比对已经成为现代生物学研究中必不可少的工具。

生物信息学-第三章

生物信息学-第三章

我们说它们一致性为39.4%.
MSDTPSTGFSIIHPTSSEGQVPPPRHLSLTHPVVAKRISFYKSG -------------PRNGTIKIYENPARTFTRPYSAKNITIYKEND
6
所以, 相似性的数值一定比一致性的要( 大 or 相等 or 小 )
7
生物序列的同源性



PAM250、PAM120、PAM80和PAM60矩阵可用于相似性 分别为20%、40%、50%和60%的序列比对
34
PAM250
A R N D C Q E G H I L K M F P S T W Y V 2 •各个氨基酸本身的替换频率最大 -2 6 0 0 2 •氨基酸本身的替换频率越高表示该氨基酸 0 -1 2 4 在自然界中比较少 -2 -4 -4 -5 12 •正值表示氨基酸之间的替换频率大 0 1 1 2 -5 4 0 -1 1 3 -5 2 4 •负值表示氨基酸之间的替换频率小 1 -3 0 1 -3 -1 0 5 -1 2 2 1 -3 3 1 -2 6 -1 -2 -2 -2 -2 -2 -2 -3 -2 5 -2 -3 -3 -4 -6 -2 -3 -4 -2 -2 6 -1 3 1 0 -5 1 0 -2 0 -2 -3 5 -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 35 -2 4 A R N D C Q E G H I L K M F P S T W Y V

序列比对

序列比对
序列比对
概念 意义 理论基础 方法 显著性检验
概念
通过比较生物分子序列,发现它们的相似性, 找出序列之间共同的区域,同时辨别序列之间的 差异,从而揭示生物序列的功能、结构和进化的 信息。
什么是生物序列?
生物序列一般指DNA、RNA或者蛋白质序列, 比较不同类型的生物体序列的相互关系是生物序 列分析的核心问题。
局部比对
寻找序列中相似度最高的区域,也就是匹配密度最高 的部分。局部比对适用于某些部位相似度较高,而其他部 位差异较大的序列。
方法
点阵分析法
点阵法能将所有可能的比对结果用该矩阵的对角线表 现出来,还能显示插入、缺失及序列内部正向和反向重复 的存在,这是其他方法很难做到的。
动态规划算法
Needleman-Wunsch算法,Smith-Waterman算法
算法的改进:
允许空位
最初的Blast程序不允许空位插入,但在生物的进化过 程中碱基的插入或缺失突变时普遍存在的,因此比对结 果通常会出现一些无空位但不连续的区域,若将有些高 分值片段对通过一些相似性较低且有空位的片段连接起 来,就能组成一些更长的或许更具实际生物学意义的比 对。Altshul改进了Blast算法,允许插入删除操作。
Blast方法
Blast程序在进行序列数据库相似性搜索时,查询序列 可选择过滤掉低复杂度的区域,然后按字长参数(DNA 序列一般为11,蛋白质序列为3)将序列分解成小的字串。 找出查询序列和目标序列间所有单个或多个连续匹配的字 串。对于这样的局部对比排列,可用打分函数或记分矩阵 进行打分,这个得分就是序列相似性的度量,不同的匹配 程度得分有高低之分。若匹配程度较高,且记分超过一定 阈值的连续字串就被称为序列片段对(segment pair),它 是两条给定序列中的一对子序列,它们的长度相等,且形 成无空位的完全匹配。

序列比对

序列比对

最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。

进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域、位点和profile,从而探索导致它们产生共同功能的序列模式。

此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。

序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。

序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。

在残基-残基比对中,可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。

但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。

因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。

通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略的说,如果序列之间的相似性超过30%,它们就很可能是同源的。

早期的序列比对是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显子的交换而产生新蛋白质,因此局部比对会更加合理。

通常用打分矩阵描述序列两两比对,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残基越相似。

因此,序列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是Needleman-Wunsch动态规划算法,在此基础上又改良产生了Smith-Waterman算法和SIM算法。

chap3-序列比对

chap3-序列比对
序列比对
2012/09/11 Huizhi Zhao
2021/4/6
1
内容
生物问题 动态规划算法 两序列比对(联配) 算法扩展
2021/4/6
2
生物问题
新基因位置推断
统计方法 序列比对
新基因功能推断
致癌基因vsis 囊性纤维化基因的发现
2021/4/6
3
基因位置预测
统计方法:密码子选择的偏倚性 基于相似性基因预测:新测序的基因通常会与
2021/4/6
20
备忘录方法
备忘录方法的控制结构与直接递归方法的控制 结构相同
备忘录方法为每个解过的子问题建立了备忘录 以备需要时查看,避免了相同子问题的重复求 解
2021/4/6
21
内容
生物问题 动态规划 两序列比对(联配) 算法扩展
2021/4/6
22
序列比对中动态规划描述
指定所有点阵元素间的打分值 对于点阵中的每一个单元,检查回到序列起点
的所有可能途径(允许插入和删除)并给出单 元最大打分途径的值 在点阵中构建一个比对,从最后一个单元(或 最高分值单元)回溯给出最高打分的比对
2021/4/6
23
编辑距离与比对
DNA的突变是进化过 程
DNA复制错误引起核 苷酸的替换、插入和 缺失
2021/4/6
24
比对
联配
2021/4/6
街区的景点数目 出发点(源点):西北点 目的点(汇点):东南点 从源点到汇点的一条路的权
重和最大
1/4/6
14
曼哈顿游客问题
2021/4/6
15
曼哈顿游客问题
2021/4/6
16
有向无环图最长路线

第三章序列比对

第三章序列比对
多重序列比对: • 用于描述一组序列之间的相似性关系,以便了解一个
基因家族的基本特征,寻找motif,保守区域等。 • 用于描述一个同源基因之间的亲缘关系的远近,应用
到分子进化分析中。 • 其他应用,如构建profile,打分矩阵等。
3.3.1 序列对数据库的比对检索分 析
• 一条序列对整个数据库进行相似性分析,以发 现其同源性是生物信息学分析中一个极重要的 方面。本质上,这种分析方法类似于将序列两 两对齐重复成百上千次。
同源性(homology)
• 如果两个序列有一个共同的进化祖先,那么它 们是同源的。这里不存在同源性的程度问题。 这两条序列之间要么是同源的,要么是不同源 的。
• 所谓同源序列,简单地说,是指从某一共同祖 先经趋异进化而形成的不同序列。
• 同源蛋白质的氨基酸序列具有明显的相似性,这 种相似性称为序列同源性。
生物软件网: /
• 当然,DNAStar、DNAMan等软件也 可以进行比对。
• 载入的序列必须是fasta格式, 存储在记事本(.txt)中。
参数可以选择,或者默 认。
Clustal比对后的结果
3.3 多条序列比对方法
3.3.1 序列对数据库的比对检索分析 3.3.2 多重序列的本地化软件对齐 3.3.3 Clustal比对结果的编辑
• 对于DNA序列需要具有75%以上的同源性才可 能具有潜在的生物学意义。
3.2.2 采用本地化软件进行两条序列比 对
• 做多重比对分析的本地软件也可以做 两两比对分析,如clustalX软件等。
• Clustal是一个单机版的基于渐进比对 的多序列比对工具。其基本思想就是 基于相似序列通常具有进化相关性的 这一假设。
• BioEdit软件不能识别“.aln”格式,但可识别 “.pir”或“.phy”格式文件。

结构生物信息学3-序列比对

结构生物信息学3-序列比对

生物信息学培训班
蛋白质的打分矩阵 -- PAM
71个蛋白质家族的1572种变化; 序列相似性 > 85%
序列比对算法
功能同源的蛋白质 通过中性进化,引入 可接受的点突变; 进化模型:
A. 基本假设:中性进化,Kimura,1968; B. 进化的对称性: A->B = B->A; C. 扩展性:通过对较短时间内氨基酸替代关系 的计算来计算较长时间的氨基酸替代关系;
生物信息学培训班
基因的进化
生物学意义
直系同源(Orthologs):具有共同祖先与相似功能的 同源基因(无基因复制事件)。 旁系同源(Paralogs):两个物种A和B的同源基因, 分别是共同祖先基因组中由复制事件而产生的不同 拷贝的后代。 趋同进化(Convergent evolution):序列中的相似区 域可能不具有共同的祖先,而是通过两条进化路径 独立获得相同的功能
序列比对算法
生物信息学培训班
蛋白质的打分矩阵
疏水矩阵

序列比对算法
主要利用蛋白质统计信息和氨基酸与疏水级映射关系,提 出一种基于亲疏水性的替代矩阵HB62,解决蛋白质疏水 级序列相似性计算问题
生物信息学培训班
蛋白质的打分矩阵 -- 疏水矩阵
序列比对算法
生物信息学培训班
蛋白质的打分矩阵 -- PAM
空位权值恒定模型:
不允许有空位 Score: -21
序列比对算法
1 GTGATAGACAC ||| 1 GTGCATAGACAC
允许空位但不罚分 Score:
匹配 = 5 错配 = -4
55
1 GTG-ATAGACAC ||| |||||||| 1 GTGCATAGACAC

第三章 序列比较

第三章 序列比较

第三章序列比较序列比较是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。

序列比较的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。

在分子生物学中,DNA或蛋白质的相似性是多方面的,可能是核酸或氨基酸序列的相似,可能是结构的相似,也可能是功能的相似。

一个普遍的规律是序列决定结构,结构决定功能。

研究序列相似性的目的之一是,通过相似的序列得到相似的结构或相似的功能。

这种方法在大多数情况下是成功的,当然,也存在着这样的情况,即两条序列几乎没有相似之处,但分子却折叠成相同的空间形状,并具有相同的功能。

这里先不考虑空间结构或功能的相似性,仅研究序列的相似性。

研究序列相似性的另一个目的是通过序列的相似性,判别序列之间的同源性,推测序列之间的进化关系。

这里,将序列看成由基本字符组成的字符串,无论核酸序列还是蛋白质序列,都是特殊的字符串。

本章着重介绍通用的序列比较方法。

序列的相似性3.13.1序列的相似性序列的相似性可以是定量的数值,也可以是定性的描述。

相似度是一个数值,反映两条序列的相似程度。

关于两条序列之间的关系,有许多名词,如相同、相似、同源、同功、直向同源、共生同源等。

在进行序列比较时经常使用“同源”(homology)和“相似”(similarity)这两个概念,这是两个经常容易被混淆的不同概念。

两条序列同源是指它们具有共同的祖先。

在这个意义上,无所谓同源的程度,两条序列要么同源,要么不同源。

而相似则是有程度的差别,如两条序列的相似程度达到30%或60%。

一般来说,相似性很高的两条序列往往具有同源关系。

但也有例外,即两条序列的相似性很高,但它们可能并不是同源序列,这两条序列的相似性可能是由随机因素所产生的,这在进化上称为“趋同”(convergence),这样一对序列可称为同功序列。

直向同源(orthologous)序列是来自于不同的种属同源序列,而共生同源(paralogous)序列则是来自于同一种属的序列,它是由进化过程中的序列复制而产生的。

第三章 序列两两比对

第三章 序列两两比对
7


序列相似(similarity)与序列一致(identity)
序列比对中用到的另一对相关术语是序列相似与序列一致。这两个 概念对于核苷酸序列是同义的。而对于蛋白质序列,这两个概念是非常 不同的。在蛋白质序列比对中,序列一致是指待比对的两条序列中相同 残基匹配的比例;序列相似是指待比对的两条序列中很容易彼此替换具 有相似理化性质残基匹配的比例。有两种方法计算序列相似/一致度。 一种方法是用两条序列的全部长度,而另一种是利用较短的序列进 行标准化。第一种方法用如下公式计算序列相似度: S=[(Ls*2)/(La+Lb)]*100 其中S是序列相似的百分比,Ls是相似的残基数目,La和Lb分别是两条 序列的长度。
3

进化基础

DNA和蛋白质是进化的产物。它们可以被认为是编码数百万年 进化史的分子化石。在进化史上,这些分子经历了随机变化过程,期 中一些被进化所选择而保留了下来。这些被选择的序列逐渐积累突变 和交叉,进化的痕迹在序列的某些部分被保留下来从而可以识别它们 共同的祖先。进化痕迹的存在是由于一些对序列结构和功能起关键作 用的残基倾向于被自然选择所保留;而另一些不起关键作用的残基倾 向于频繁的改变。例如,一个酵母家族的活性位点残基倾向于被保存 下来是由于它们对催化功能起作用。所以,通过序列比对,保守的和 改变了的序列模式就能被识别出来。在比对中序列的保守度体现了不 同序列之间的进化关系。反之,序列之间的差别反映了在进化的过程 中序列以替换、插入和删除残基的形式发生了变化。
15
序列比对的方法
16
序列比对的方法
17
序列比对的方法
点阵方法
点阵法有许多变形。例如,一条序列可以和它自身比对以识别内部 重复元素。在自比对当中会存在一条主对角线以表示其完美匹配。如果 内部重复元素存在,会观察到在主对角线的上方或下方有短的对角线。 DNA序列的自补(也叫反向重复),例如那些存在发夹结构的家族,也 能用点距阵法识别。在这种情况下,一条DNA序列与它的反向补序列进 行比较。平行的对角线代表反向重复。为了比较蛋白质序列,必须使用 一个权重系统来描述氨基酸残基的相似度。

生物信学第三章序列比对

生物信学第三章序列比对
Prof. Gene从人的26873个蛋白质中预测了 2264个能结合某类金属离子X。现已知,人 的26873个蛋白质中有421个蛋白质具有某 种功能结构域D,而在预测的2264个X金属 蛋白中,有94个具有结构域D。
问:结构域D在2264个X金属蛋白中是显著 出现,显著不出现,还是随机出现?
例 3:超几何分布
打分模型
1. 字符相同:identity 2. 字符替代:similarity,相似性,氨基
P/NP/NPC问题
P问题: Polynomial Problems 可以在多项式( polynomial )时间内解决的问题; NP: “Non-deterministic Polynomial”,并非
“Non-Polynomial” 可以在多项式的时间里验证一个解的问题;
NPC: NP-complete
Nn
1.1591370e2818
例 3:超几何分布
非X金属蛋白 X金属蛋白 合计
不含结构域D N-M+m-n M-m
N-n
含结构域D n-m
m
n
合计
N-M
M
N
例 3:超几何分布
a+b+c+d=26873 c+d=2264 b+d=421 d=94
langsrud/fisher.htm
P value计算:
P (a = 3 | a+b=c+d=a+c=b+d=4 ) = 0.229 P (a = 4 | a+b=c+d=a+c=b+d=4 ) = 0.014
pvalu P(a e3)0.240 3.05 pvalu P(a e4)0.010 4.05
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多序列的目的:用于比较基因组研究
1) 用于描述一组序列(基因家族)之间的 相似性关系, 以便了解一个基因家族的基本 特征,寻找motif,保守区域等。 2) 可构建HMM模型,搜索更多的同源序列, Pfam,prints,prosite,interPro等 3) 分析结构用于构建进化树
第二节 序列比对的基本概念
9
9
8
8
7
P
3
3
4
4
6
6
7
8
8
8
8
8
9
9
9 10 10 10
9
9
9
8
7
V
3
3
4
4
5
5
7
7
7
8
8
8
8
8
9 10 10 10 10 10
9
8
7
L
3
3
3
3
5
5
7
7
7
7
8
8
8
8
9
9
9 10 10 10
9
9
8
I
3
3
3
3
5
5
7
7
7
7
8
8
8
8
9
9
9 10 10 10
9
9
8
Y
2
2
3
3
4
4
6
6
6
6
7
7
7
7
8
8
9
9
9
9 10 10
(BLOck SUbstitution Matrix,BLOSUM)
• 遗传密码矩阵
遗传密码矩阵通过计算一个氨基酸变成另 一个氨基酸所需的密码子变化的数目而得 到。通常为1 或 2,只有Met到Tyr为 3。
• 遗传密码矩阵 GCM矩阵
疏水矩阵
R
K
D
E
B
Z
S
N
Q
G
X
T
H
A
C
MP
V
L
I
Y
F
W
R 10 10
•利用每个氨基酸出现的频度对j 进行标准化 •取常用对数,得到PAM-1(i, j) •将PAM-1自乘N次,可以得到PAM-n
第一节 引言
序列比对的分类:双序列比对,多序列比对
双序列比对的目的:
同源物鉴定,功能预测
基本假设:
1)所有的生物都起源于同一个祖先 (物种间序列存在同 源关系,同源序列功能往往是相似的) 2)序列不是随机产生,而是在进化上不断发生着演变 (同源的序列存在高度相似性) 3)序列的相似性可以判断 序列的同源性,进而可以利用 同源物功能的相似性 来进行推断
1 i j Rij 0 i j
其中Rij代表打分矩阵元素 i、j分别代表字母表第i和第j个字符。
• (ii) 遗传密码矩阵(genetic code matrix,GCM ) • (iii)疏水性矩阵 (hydrophobic matrix) • (iv)PAM矩阵(point accepted matrix,PAM) • (v) BLOSUM矩阵
• 基于氨基酸进化的点突变模型
如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得 分就高
PAM矩阵的制作步骤 •构建序列相似(大于85%)的比对 •计算氨基酸 j 的相对突变率mj(j被其他氨基酸替换的次数) •针对每个氨基酸对 i 和 j , 计算 j 被 i 替换次数 •替换次数除以相对突变率(mj)
7
7
6
6
6
5
5
5
4
4
3
S
6
6
7
7
8
8 10 10 10 10
9
9
9
9
8
8
7
7
7
7
6
6
4
N
6
6
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
7
7
7
6
6
4
Q
6
6
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
7
7
7
6
6
4
G
ห้องสมุดไป่ตู้
5
5
6
6
8
8 10 10 10 10
9
9
9
9
8
8
8
8
7
7
6
6
5
X
5
5
5
5
7
7
9
9
9
9 10 10 10 10
9
9
8
8
6
6
6
5
5
5
5
5
4
3
3
3
3
3
2
1
0
K 10 10
9
9
8
8
6
6
6
5
5
5
5
5
4
3
3
3
3
3
2
1
0
D
9
9 10 10
8
8
7
6
6
6
5
5
5
5
5
4
4
4
3
3
3
2
1
E
9
9 10 10
8
8
7
6
6
6
5
5
5
5
5
4
4
4
3
3
3
2
1
B
8
8
8
8 10 10
8
8
8
8
7
7
7
7
6
6
6
5
5
5
4
4
3
Z
8
8
8
8 10 10
8
8
8
8
7
7
8
F
1
1
2
2
4
4
6
6
6
6
7
7
7
7
8
8
8
8
9
9 10 10
9
W
0
0
1
1
3
3
4
4
4
5
5
5
5
5
6
7
7
7
8
8
8
9 10
PAM & BLOSOM
• 这类矩阵列出同源蛋白质在进化过程中氨基酸变 化的可能性(统计学inference)是基于进化原理 的依据,更科学
PAM矩阵( point accepted mutaion)
a. 等价矩阵 (unitary matrix) b. BLAST矩阵 c. 转换-颠换矩阵(transition-transversion matrix)
(嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T)
表3.1 等价矩阵表 AT CG
A10 0 0 T01 0 0 C0 0 1 0 G0 0 0 1
表3.2 BLAST矩阵 AT CG
A 5 -4 -4 -4 T -4 5 -4 -4 C -4 -4 5 -4 G -4 -4 -4 5
表3.3 转移矩阵 AT CG
A 1 -5 -5 -1 T -5 1 -1 -5 C -5 -1 1 -5 G -1 -5 -5 1
(2)蛋白质打分矩阵
• (i)等价矩阵
同源性(homology)
• 如果两个序列有一个共同的进化祖先,那么它们 是同源的。这里不存在同源性的程度问题。这两 条序列之间要么是同源的,要么是不同源的
相似性 (similarity)
• 相似性是指序列比对过程中用来描述检测序列和目标 序列之间相同DNA碱基或氨基酸残基顺序所占比例的 高低。
• 当相似程度高于50%时,比较容易推测检测序列和目 标序列可能是同源序列;而当相似性程度低于20%时, 就难以确定是否具有同源性。
直系同源和旁系同源
直系同源(orthology)是指不同物种内的同源序列, 它们来源于物种形成时的共同祖先基因。
旁系同源(paralogy)是指同一物种中,由于基因的 复制而产生的几个同源基因。
直系同源和旁系同源的图示:
相似性分数的计算
1)编辑距离:两条序列对应位置上不同字符的个数 2)相似性得分:两条序列对应位置上相同字符的个数
相似分数越高,序列越相似,编辑距离越小,序列越相似 两条序列长度不一致时:空格(Gap)
编辑距离(edit distance)
相似性得分
打分规则就是后面的打分矩阵
第三节 打分矩阵(替换记分矩阵)
• 插入和缺失突变:序列比对采用空格(Gap)来处理 • 替换突变:替换计分矩阵即打分矩阵
• (1)核酸打分矩阵设DNA序列所用的字母表为 = { A,C,G,T }
9
9
8
8
8
8
7
7
5
T
5
5
5
5
7
7
9
9
9
9 10 10 10 10
9
9
8
8
8
8
7
7
5
H
5
相关文档
最新文档