BLOSUM矩阵和其在生物信息学中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

[生工0902] BLOSUM矩阵及其在生物

信息学中的使用

生物信息学

齐阳,汪锴,袁理

2011/11/25

什么是BLOSUM矩阵?BLOSUM矩阵有什么使用?

BLOSUM矩阵及其在生物信息学中的使用

齐阳汪锴袁理

摘要BLOSUM矩阵是一种蛋白质序列对比的算法,在生物信息学领域中被广泛使用。本文综述了BLOSUM矩阵的由来、如何构建BLOSUM矩阵和其打分规则、使用以及现代算法。并指出了BLOSUM矩阵的发展前景。

关键词BLOSUM矩阵;生物信息学;使用

0 引言

序列比对是现代生物学最基本的研究方法之一, 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。

1BLOSUM矩阵概况

序列比对是现代生物学最基本的研究方法之一,常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,这两个方面都可能意味着突变「2」。在序列比对中,需要找到最优的比对即将匹配的数量最大化,将空格和不匹配的数量最小化。为了确定最优的比对,必须为每个比对进行评估和打分,于是引入了打分函数「3」。

当根据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见的多,比较保守的替换比起较随机替换更能维持蛋白质的功能,而且不容易被淘汰。因此,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多谢奖励,而对于那些大而带点氨基酸如赖氨酸的比对位点则相反。一旦和概算或氨基酸残基可能的两两比对得分都确定了,那么得到的打分矩阵就可以用来为比对中每个非空位位点进行评分。为了获得打分矩阵,最常用的方法是统计自然界中各种氨基酸残基的相互替换率「3」。

目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS(Box 1. BLOCKS基本概念)中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。

2BLOSUM矩阵的构建

2.1多序列比对

定义:一个多序列比对A 是一个

二维字符矩阵,即A={ni a}(n∈[1,N],

i∈[1,I]),其中ni a= ni s或‘-’,

并且满足下面三个条件:(1)序列的

数目等于矩阵的行数;(2)如果移去

每行中的‘-’字符,将得到原来的序

列;(3)将不同序列间相同或相似的

残基放入同一列,即尽可能将序列间相

同或相似残基上下对齐「5」。

从上面的定义可以看出,一个比

对实际上是DNA 或蛋白质经过一系列

突变事件(替代、插入、删除)的最后

结果,它最近似地表示了所有的进化过程。其中删除和插入没有区别,经过适当地插入删除(用insert ,delete 表示),可以使相同地保守残基位于同一列上,并使所有的结果序列具有相同的长度。例如:

VTISCTGSSSNIGAG-NHVKWYQQLPG

VTISCTGTSSNIGS--ITVNWTQQLPG

LRLSCSSSGFIFSS--YAMYWVRQAPG

PEVTCVVVDVSHEDPQVKFNWYVDG —

2.2 BLOSUM 打分规则「6」

BLOSUM 中得分主要采用Log-odds 得分,即同源和非同源的可能性的比率的对数。在BLOSUM 中两个残基i 和j 的得分s (a ,b )按照log-odds 方程计算,方程如下:

1(,)log ab a b p s a b f f =

λ-----------------------------------------------(1) 其中, ab p 是指假定残基对a 和b 是同源的, 在已有同源序列比对中出现的目标频率: ,a f f 是指假定残基a 和b 是非同源的和独立的, 残基a 和b 出现在任何一个蛋白质氨基酸序列中的平均背景频率: λ是尺度参数,每个得分四舍五人取整.

如果残基对a 和b 是同源的, 则它们出现在同源序列比对中目标频率

ab p >a b f f ,s(a,b)<0.

如果残基对a 和b 是非同源的, 则它们出现在同源序列比对中目标频率

ab p

以相同氨基酸: 色氨酸/色氨酸(w/w)比对得分和亮氨酸/亮氨酸(L/L)比对得分;不同氨基酸: 丙氨酸/亮氨酸(A/L)比对得分和赖氨酸/谷氨酸(K/E)比对得

分为例, 介绍计算过程.

p=0.0065,1)色氨酸/色氨酸(W/W)比对得分;在同源比对数据库中,测得ww

f=0-013,λ=0.347,代入(1)得s(W/W)=+10.5,取整得+11;

w

2)亮氨酸/亮氨酸(L/L)比对得分;在同源比对数据库中,测得ll p=0.0371,

l f=0.099,λ=0.347,代入(1)得s(L/L)=+3.8,取整得+4;

p=0.0044,3)丙氨酸/亮氨酸(A/L)比对得分;在同源比对数据库中,测得AL

f=0.074,L f=0.099 λ=0.347,代入(1)得s(K/E)=-1.47,取整得-1;

A

p=0.0041,4)赖氨酸/谷氨酸(K/E)比对得分;在同源比对数据库中,测得KE

k f=0.058,E f=0.054,λ=0.347,代入(1)得s(K/E)=+0.76,取整得+1;

将BLOSUM-1矩阵和自身相乘,可以近似得到高阶BLOSUM单位的替换率。可以根据序列的长度以及序列间的先验相似程度来选用特定的BLOSUM矩阵,低价BLOSUM矩阵更多是用来比较比较亲缘较远的序列,一般来说,BLOSUM-62矩阵适于用来比较大约具有62%相似度的序列,而BLOSUM-80矩阵更适合于相似度为80%左右的序列「3」。运用上述计算方法,就可得到BLOSUM62,见Table 1.Blosum62替代矩阵。

3BLOSUM矩阵的使用

基于进化原理的氨基酸保守性打分矩阵BLOSUM,原本是用于两条多肽链比对时使用的,其起源于相同的氨基酸模式之间氨基酸的保守性,即某种氨基酸对另一种氨基酸的取代数据,广泛用于蛋白质数据库的搜索。最近BLOSUM 被成功用于表面抗原分析、T细胞抗原决定簇预测「7」、氨基酸定点突变后蛋白质的稳定性等多种重要科学研究中,对于常用的数据集经过严格的交叉验证,人们已经发现BLOSUM矩阵明显优于目前通常采用的理化特性打分方法和单位打分方法「8」。随着后基因组时代的到来,适和远亲分析的BLOSUM一定可以有更大的用武之地,以解决生命科学中的诸多难题。

相关文档
最新文档