BLOSUM矩阵和其在生物信息学中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[生工0902] BLOSUM矩阵及其在生物
信息学中的使用
生物信息学
齐阳,汪锴,袁理
2011/11/25
什么是BLOSUM矩阵?BLOSUM矩阵有什么使用?
BLOSUM矩阵及其在生物信息学中的使用
齐阳汪锴袁理
摘要BLOSUM矩阵是一种蛋白质序列对比的算法,在生物信息学领域中被广泛使用。本文综述了BLOSUM矩阵的由来、如何构建BLOSUM矩阵和其打分规则、使用以及现代算法。并指出了BLOSUM矩阵的发展前景。
关键词BLOSUM矩阵;生物信息学;使用
0 引言
序列比对是现代生物学最基本的研究方法之一, 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。
1BLOSUM矩阵概况
序列比对是现代生物学最基本的研究方法之一,常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能。在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,这两个方面都可能意味着突变「2」。在序列比对中,需要找到最优的比对即将匹配的数量最大化,将空格和不匹配的数量最小化。为了确定最优的比对,必须为每个比对进行评估和打分,于是引入了打分函数「3」。
当根据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见的多,比较保守的替换比起较随机替换更能维持蛋白质的功能,而且不容易被淘汰。因此,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多谢奖励,而对于那些大而带点氨基酸如赖氨酸的比对位点则相反。一旦和概算或氨基酸残基可能的两两比对得分都确定了,那么得到的打分矩阵就可以用来为比对中每个非空位位点进行评分。为了获得打分矩阵,最常用的方法是统计自然界中各种氨基酸残基的相互替换率「3」。
目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」,为了满足大量生命科学研究的需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS(Box 1. BLOCKS基本概念)中找出一组替代矩阵,即BLOSUM系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。
2BLOSUM矩阵的构建
2.1多序列比对
定义:一个多序列比对A 是一个
二维字符矩阵,即A={ni a}(n∈[1,N],
i∈[1,I]),其中ni a= ni s或‘-’,
并且满足下面三个条件:(1)序列的
数目等于矩阵的行数;(2)如果移去
每行中的‘-’字符,将得到原来的序
列;(3)将不同序列间相同或相似的
残基放入同一列,即尽可能将序列间相
同或相似残基上下对齐「5」。
从上面的定义可以看出,一个比
对实际上是DNA 或蛋白质经过一系列
突变事件(替代、插入、删除)的最后
结果,它最近似地表示了所有的进化过程。其中删除和插入没有区别,经过适当地插入删除(用insert ,delete 表示),可以使相同地保守残基位于同一列上,并使所有的结果序列具有相同的长度。例如:
VTISCTGSSSNIGAG-NHVKWYQQLPG
VTISCTGTSSNIGS--ITVNWTQQLPG
LRLSCSSSGFIFSS--YAMYWVRQAPG
PEVTCVVVDVSHEDPQVKFNWYVDG —
2.2 BLOSUM 打分规则「6」
BLOSUM 中得分主要采用Log-odds 得分,即同源和非同源的可能性的比率的对数。在BLOSUM 中两个残基i 和j 的得分s (a ,b )按照log-odds 方程计算,方程如下:
1(,)log ab a b p s a b f f =
λ-----------------------------------------------(1) 其中, ab p 是指假定残基对a 和b 是同源的, 在已有同源序列比对中出现的目标频率: ,a f f 是指假定残基a 和b 是非同源的和独立的, 残基a 和b 出现在任何一个蛋白质氨基酸序列中的平均背景频率: λ是尺度参数,每个得分四舍五人取整.
如果残基对a 和b 是同源的, 则它们出现在同源序列比对中目标频率
ab p >a b f f ,s(a,b)<0.
如果残基对a 和b 是非同源的, 则它们出现在同源序列比对中目标频率