生物信息学序列相似性的概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
13
Dotplots - 序列相似性的作图分析
利用计算机比较序列
因此,第一步首先制作一个表或距阵,用来标明各不同氨基 酸残基之间的相似度。这样一来,计算机就不会将亮氨酸变 为异亮氨酸与亮氨酸变为组氨酸等同对待。有好些这种氨基 酸相似度表或距阵已被制作出来,如PAM、BLOSUM、 BLOSUM32等,每个距阵都是根据不同的假设或实验数据制 作出来。计算机就根据这些表来判定残基之间的相似度。
1
Dotplots - 序列相似性的作图分析
序列比较的问题(The problem with sequence comparison)
序列比较:序列比较包括从两个或多个序列中找出所有显著 相似的区域。最主要的问题是必须首先作出定义,对于生物 序列来说何为显著相似。 在开始讲程序之前,让我们先了解一下它们做些什么和为什 么那样做。这一节主要是关于序列比较是如何进行的。
17
Dotplots - 序列相似性的作图分析
利用计算机比较序列
A| X . C| . X ATG CA G|X . X | | | | T| . X GATG C A| . X +---------------------G A T G C
18
Dotplots - 序列相似性的作图分析
利用计算机比较序列
它们似乎并无多少相似,是吗?当然,可以通过一些位移和 gaps增加相似度,好象也不存在明显的重复序列。然而,这两 个序列却给人相似的印象,只是第一眼看去不明显而已。只 要把其中一个序列水平打转,让其5‘端与3’端对调。
10
Dotplots - 序列相似性的作图分析
序列比较的问题(The problem with sequence comparison)
ATGCGACATTATATGGACGCCGACAATATGCATGACTAGCATAGCATGCGAT |||||||||| ||||||||| ||||||||| |||||| ||| |||||||||| ATGCGACATTCTATGGACGCTGACAATATGGATGACTTGCAGAGCATGCGAT
ATGCATGCATGCATGCATATATATATAT----ATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | || | | CGATCGATCGATCGATATATATATATGCATATAT----ATGCATGCATGCATGCAT
5
Dotplots - 序列相似性的作图分析
序列比较的问题(The problem with sequence comparison)
这里我们用了连字号(--)来标记插入/缺失的事件。仅仅观察两 个序列是很难知道是否有插入或缺失的发生的,因此我们将 它简称为一个“indel”。插入“indels”通常会大大增加匹配残 基的数目:在序列比较时必须考虑“gaps”的存在,采用 “gaps”通常 - 序列相似性的作图分析
利用计算机比较序列
当然,我们还希望计算机将两个序列逐个碱基相对错位,以 免忽略耷掉任何相似的区段。如果我们把这一过程做成一个 二维的图表,可能比较容易看出这个工作是如何完成的。在 图表中,将其中一个序列的残基与另一序列的所有残基逐一 比较。
15
Dotplots - 序列相似性的作图分析
是的,这一次序列已经被反转为互补的了。你看,除了简单 的将两个序列放到一起比较以外,还是有很多可以做的,而 且有时仅靠肉眼判断还是非常难的。这就是为什么我们非得 用计算机工具来帮助做这些工作的原因。
12
Dotplots - 序列相似性的作图分析
利用计算机比较序列
我们可以让计算机以最佳的方式来作序列比较。开始时,可 以先将两个序列摆在一起,数一数匹配的残基数。可是,这 样还没有考虑生物序列的另一相关因子:残基之间可以存在 不同的相似度。例如,亮氨酸与异亮氨酸的相似度大于其与 其它氨基酸如组氨酸等的相似度,尽管它们都属于不同的氨 基酸。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
3
Dotplots - 序列相似性的作图分析
2
Dotplots - 序列相似性的作图分析
序列比较的问题(The problem with sequence comparison)
当我们比较两个序列时,总是会对显著相似的区段比较感兴 趣,可是从生物学的角度如何定义何为“显著相似”?为了 更好的理解这一点,让我们先看看几个例子。首先从比较两 个简单序列开始。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC
CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
是的,有一个重复序列模体(motif)分布于序列中,从简单的排 比中是不可能使这种特异序列显现出来的。因那样只能使其 中一序列上的模体与另一序列上的模体匹配,而不能使所有 的模体在排比中互相匹配,我们需要更好的方式来比较序列 的相似度,而不仅仅是简单的排比。
很吃惊,是吧。让我们再看看下面的例子,找到相似的地方 吗?
ATGCGATCAGATGATCAGATGACATGACATAGGCATACCCAATTGACATACG |||| | | | || ||| CGTATGTCAATTGGGTATGCCTAT GTCATGTCAT CTGATCATCTGATCGCAT
6
Dotplots - 序列相似性的作图分析
序列比较的问题(The problem with sequence comparison)
但是,在加入“gaps”后又会出现一个问题:这个排比是否还 有意义呢?如上述例子,我们通过加入了许多“gaps”来增加 相似度,仅仅为了得到多一些匹配残基数就加入许多的 “gaps”,这样做是否值得呢?答案是:有时。(不很满意,是 吗?)有时确实值得,而有时又不划算。如果我们需要使序列 变化太大,那很可能是不值得的。怎样知道是否值得呢? 通过大量的观察研究表明,“indel”事件发生的机率远小于点 突变。而常识又告诉我们,在上述例子中,单碱基的“indels” 有可能破坏序列上原来的开放读码框,如果有的话。因此, “gaps”比单点突变代表了更大的生物学改变。“indels(gaps)” 在引入时必须格外小心。
9
Dotplots - 序列相似性的作图分析
序列比较的问题(The problem with sequence comparison)
可是,问题还不仅于此。让我们仔细看看以下两个序列,看 是否能找出显著相似的区段。
ATGCGACATTATATGGACGCCGACAATATGCATGACTAGCATAGCATGCGAT ||| | | | | | ||| TAGCGTACGAGACGTTCAGTAGGTATAACAGTCGCAGGTATCTTACAGCGTA
4
Dotplots - 序列相似性的作图分析
序列比较的问题(The problem with sequence comparison)
结论是,我们不能够简单的将两个序列头尾对应的排比,而 是对各种可能的排比方式都进行比较以找出最佳的排比结果。 可是,这还不行。生物体有许多变化的机制,简单的从一个 残基变为另一个残基只是其中之一,而插入和缺失也经常发 生,我们是否可以将插入和缺失考虑进去,以得到更好的排 比结果呢?
----AT--GCAT--GCATGC--ATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC | | | | | | | | | | | | | | | | | | | || | | | | || | | | | | | | | | || | | | | | CGATCG--ATCG--AT--CG--------ATATATATATATGCATATATATGCATGCATGCATGCAT
序列相似性的概念
序列比较是如何进行的? ----打分方案的原理(Principles of Scoring Matrices)
Blosum距阵(The Blosum matrices) 距阵的使用效果(Matrix Performance) 通过一些测试显示,Blosum距阵用于在数据库中查找同源性 序列时,效果比PAM距阵好。 •如上述,距阵从1到250PAM两极距离太远,可能引起不准确; 而Blosum直接从最同源的序列的区间排比获取匹配率,不考 虑进化距离。 •Blosum距阵的突变数据来源于未加gaps的序列区间排比,相 当于蛋白序列的保守区。
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC | | | | | | | | | | | | | || | | | | | | | | | | || | | | | | | | | | | | CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
这里,我们将主对角线用点标出以作参考。可以看出,相似 的区域表现为对角线。而相对的错位则简单的表现为移置的 对角线。孤立的匹配标记代表个别的匹配而不是区段的匹配, 因此将其忽略不计。
19
Dotplots - 序列相似性的作图分析
利用计算机比较序列
这一方法在查看反转序列时也很有用,反转的序列将简单的 表现为反对角线。 A| X T| X C G TA G| X C| X ATG C +-------------------A T G C 20
利用计算机比较序列
C| X G| X T| X A| X +--------------A T GC
AT G C | | | | ATG C
16
Dotplots - 序列相似性的作图分析
利用计算机比较序列
上图的对角线代表不作任何移位比较两个序列时的匹配残基。 就象前面举的第一个例子一样。而一系列的位移比较可以用 相邻的对角线表示:
ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT
8
Dotplots - 序列相似性的作图分析
序列比较的问题(The problem with sequence comparison)
11
Dotplots - 序列相似性的作图分析
序列比较的问题(The problem with sequence comparison)
ATGCGATCAGATGATCAGATGACATGACATAGGCATACCCAATTGACATACG |||| | | | || ||| CGTATGTCAATTGGGTATGCCTAT GTCATGTCAT CTGATCATCTGATCGCAT
7
Dotplots - 序列相似性的作图分析
序列比较的问题(The problem with sequence comparison)
如上述,将两个序列相对位移(shift),根据突变的情况引入 “gaps”可以得到更好的排比结果。但是,这样做是否就已经 发掘了所有的显著匹配?仔细再看看可以发现,我们还忽略 了一些重要的特征,让我们用不同颜色标出:
序列比较的问题(The problem with sequence comparison)
在这里我们只是简单的将两个序列并排比较,对比两个序列 之间的碱基,将匹配的残基用垂直线标出,可见一个保守的 区域。但是,是否还有更好的排比方式呢?显然,如果将其 中一个序列相对另一序列错开两个碱基位置,可以得到一个 更好的排比结果(这里说更好是指得到更多相匹配的碱基)