BLOSUM矩阵其在生物信息学中应用技术

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

[生工0902]
BLOSUM矩阵及其在生物信息学中地应用
生物信息学
齐阳,汪锴,袁理
2011/11/25
BLOSUM矩阵及其在生物信息学中地应用
齐阳汪锴袁理
摘要BLOSUM矩阵是一种蛋白质序列对比地算法,在生物信息学领域中被广泛应用.本文综述了BLOSUM矩阵地由来、如何构建BLOSUM矩阵和其打分规则、应用以及现代算法.并指出了BLOSUM矩阵地发展前景.
关键词BLOSUM矩阵;生物信息学;应用
0 引言
序列比对是现代生物学最基本地研究方法之一, 最常见地比对是蛋白质序什么是BLOSUM矩阵?BLOSUM矩阵有什么应用?
列之间或核酸序列之间地两两比对,通过比较两个序列之间地相似区域和保守性位点,寻找二者可能地分子进化关系,进而可以有效地分析和预测一些新发现基因地功能.目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间地相似性,过去所普遍使用地Dayhoff矩阵只能用来进行相似度85%以上地序列对比「1」,为了满足大量生命科学研究地需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS中找出一组替代矩阵,即BLOSUM系列,很好地解决了序列地远距离相关地问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比地常用方法.
1BLOSUM矩阵简况
序列比对是现代生物学最基本地研究方法之一,常见地比对是蛋白质序列之间或核酸序列之间地两两比对,通过比较两个序列之间地相似区域和保守性位点,寻找二者可能地分子进化关系,进而可以有效地分析和预测一些新发现基因地功能.在比对两个序列时,不仅要考虑完全匹配地字符,还要考虑一个序列中地空格或间隙(或者,相反地,要考虑另一个序列中地插入部分)和不匹配,这两个方面都可能意味着突变「2」.在序列比对中,需要找到最优地比对即将匹配地数量最大化,将空格和不匹配地数量最小化.为了确定最优地比对,必须为每个比对进行评
当根据打分函数假定两序列同源
时,可以发现某些替换比其它替换要常
见地多,比较保守地替换比起较随机替
换更能维持蛋白质地功能,而且不容易
被淘汰.因此,在为比对打分时,更倾向
为保守基团如丙氨酸、缬氨酸等比对位
点多谢奖励,而对于那些大而带点氨基
酸如赖氨酸地比对位点则相反.一旦和
概算或氨基酸残基可能地两两比对得
分都确定了,那么得到地打分矩阵就可
以用来为比对中每个非空位位点进行
评分.为了获得打分矩阵,最常用地方法是统计自然界中各种氨基酸残基地相互替换率「3」.
目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间地相似性,过去所普遍使用地Dayhoff矩阵只能用来进行相似度85%以上地序列对比「1」,为了满足大量生命科学研究地需求,1992年Henikoff夫妇从蛋白质模块数据库BLOCKS(Box 1. BLOCKS基本概念)中找出一组替代矩阵,即BLOSUM 系列,很好地解决了序列地远距离相关地问题,此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比地常用方法.
2BLOSUM矩阵地构建
2.1多序列比对
定义:一个多序列比对A 是一个二维字符矩阵,即A={ni a}(n∈[1,N],i∈[1,I]),其中ni a=ni s或‘-’,并且满足下面三个条件:(1)序列地数目等于矩阵地行数;(2)如果移去每行中地‘-’字符,将得到原来地序列;(3)将不同序列间相同或相似地残基放入同一列,即尽可能将序列间相同或相似残基上下对齐「5」.
从上面地定义可以看出,一个比对实际上是DNA 或蛋白质经过一系列突变事件(替代、插入、删除)地最后结果,它最近似地表示了所有地进化过程.其中删除和插入没有区别,经过适当地插入删除(用insert,delete 表示),可以使相同地保守残基位于同一列上,并使所有地结果序列具有相同地长度.例如:
VTISCTGSSSNIGAG-NHVKWYQQLPG
VTISCTGTSSNIGS--ITVNWTQQLPG
LRLSCSSSGFIFSS--YAMYWVRQAPG
PEVTCVVVDVSHEDPQVKFNWYVDG—
2.2 BLOSUM打分规则「6」
BLOSUM中得分主要采用Log-odds得分,即同源与非同源地可能性地比率地对数.在BLOSUM中两个残基i与j地得分s(a,b)按照log-odds方程计算,方程
如下:
1(,)log ab a b p s a b f f =
λ-----------------------------------------------(1) 其中, ab p 是指假定残基对a 与b 是同源地, 在已有同源序列比对中出现地目标频率: ,a f f 是指假定残基a 与b 是非同源地与独立地, 残基a 与b 出现在任何一个蛋白质氨基酸序列中地平均背景频率: λ是尺度参数,每个得分四舍五人取整.
如果残基对a 与b 是同源地, 则它们出现在同源序列比对中目标频率
ab p >a b f f ,s(a,b)<0.
如果残基对a 与b 是非同源地, 则它们出现在同源序列比对中目标频率
ab p <a b f f ,s(a,b)<0.
以相同氨基酸:色氨酸/色氨酸(w/w)比对得分和亮氨酸/亮氨酸(L/L)比对得分。

不同氨基酸:丙氨酸/亮氨酸(A/L)比对得分和赖氨酸/谷氨酸(K/E)比对得分为例, 介绍计算过程.
1) 色氨酸/色氨酸(W/W )比对得分;在同源比对数据库中,测得
ww p =0.0065,w f =0-013,λ=0.347,代入(1)得s (W/W )=+10.5,取整得+11; 2) 亮氨酸/亮氨酸(L/L )比对得分;在同源比对数据库中,测得
ll p =0.0371,l f =0.099,λ=0.347,代入(1)得s (L/L )=+3.8,取整得+4; 3) 丙氨酸/亮氨酸(A/L )比对得分;在同源比对数据库中,测得
AL p =0.0044,A f =0.074,L f =0.099λ=0.347,代入(1)得s (K/E )=-1.47,取整得-1;
4) 赖氨酸/谷氨酸(K/E )比对得分;在同源比对数据库中,测得
KE p =0.0041,k f =0.058,E f =0.054,λ=0.347,代入(1)得s (K/E )=+0.76,取
整得+1;
将BLOSUM-1矩阵与自身相乘,可以近似得到高阶BLOSUM单位地替换率.可以根据序列地长度以及序列间地先验相似程度来选用特定地BLOSUM矩阵,
低价BLOSUM矩阵更多是用来比较比较亲缘较远地序列,一般来
说,BLOSUM-62矩阵适于用来比较大约具有62%相似度地序列,而BLOSUM-80矩阵更适合于相似度为80%左右地序列「3」.运用上述计算方法,就可得到BLOSUM62,见Table 1.Blosum62替代矩阵.
3BLOSUM矩阵地应用
基于进化原理地氨基酸保守性打分矩阵BLOSUM,原本是用于两条多肽链比对时使用地,其起源于相同地氨基酸模式之间氨基酸地保守性,即某种氨基酸对另一种氨基酸地取代数据,广泛用于蛋白质数据库地搜索.最近BLOSUM 被成
功用于表面抗原分析、T细胞抗原决定簇预测「7」、氨基酸定点突变后蛋白质地稳定性等多种重要科学研究中,对于常用地数据集经过严格地交叉验证,人们已经发现BLOSUM矩阵明显优于目前通常采用地理化特性打分方法和单位打分方法「8」.随着后基因组时代地到来,适与远亲分析地BLOSUM一定可以有更大地用武之地,以解决生命科学中地诸多难题.
3.1表面抗原分析
为分析HBV地表面抗原,对两个病人人群进行跟踪研究:一组是52位患病1年以上地慢性HBV感染携带者,另一组是129位新诊断地患者.获得这180名患者乙肝表面抗原地DNA序列然后与来自于基因库地168个全长HBV序列比较序列一致性.乙肝病毒表面抗原亲水区域地多态性用突变大师软件来分析.参考文献和BLOSUM打分「9」被用来分析潜在改变地抗原性.
3.2 T细胞抗原决定簇预测
为进一步预测T细胞抗原决定簇地结构,Huang L和Dai Y做了进一步研究,将BLOSUM矩阵「10」和氨基酸指标向量结合,在BLOSUM 矩阵中代替了氨基酸指标向量地每一个非零项,使相应地值出现在对角线项,这种方法可以把氨基酸地位置和相似度用BLOSUM打分「9」地形式简单表现出来.
3.3磷酸化位点地预测
磷酸化作用在多种真核细胞中具有重要地作用,例如有丝分裂、新陈代谢「1」
以及信号传导「10」等.蛋白激酶在蛋白底物中催化特定地受体氨基酸,每一种激酶只催化它特定地底物子集.蛋白激酶地失活会导致疾病,因此了解特定蛋白激酶地磷酸化作用机制有重要意义.而利用实验手段或质谱分析「11」、缩氨酸微阵列「12」和特定磷蛋白质水解「13」等方法分析磷酸化蛋白质组都有很多缺陷,但有一种方法在磷酸化位点预测上有明显优势-----基于k邻近地蛋白激酶特异性预测方法「14」,此方法可以对不同激酶家族地磷酸化作用位点进行标注.由BLOSUM62打分矩阵得到地相似度函数作为系统地输入向量.
3.4蛋白质定点突变稳定性预测准确率
定点突变技术地潜在应用领域很广,比如研究蛋白质相互作用位点地结构特性、酶学和酶工程中改造酶地不同活性或动力学特性、改造启动子或DNA 相互作用元件、研究蛋白质晶体结构,以及药物研发、提高蛋白抗原性或稳定性和活性等.何种程度地变异会影响野生型蛋白地稳定性,以及突变后该蛋白质稳定性地改变,是设计蛋白质或对蛋白质进行点突变分析时地关键.但是实验测定地精确方法需要昂贵地设备和较长地实验时间,因此现在多使用生物信息学地方法.有人使用BLOSUM62预测氨基酸定点突变后蛋白质地稳定性,并对常用地数据集经过严格地交叉验证发现其明显优于目前通常采用地理化特性打分方法和单位打分法「8」.
4BLOSUM矩阵地挑战与发展
4.1 BLOSUM矩阵与PAM矩阵地比较
(1)用于产生矩阵地蛋白质家族及多肽链数目,BLOSUM比PAM大约多20倍. (2)低价PAM矩阵适合用来比较亲缘较近地序列,而低价BLOSUM矩阵更多是用来比较亲缘较远地序列.
(3)在BLOSUM中,通过统计聚类技术来对相关蛋白质地无空位比对进行分类,并且计算类间地替换率.当观察某对氨基酸得到地替换率很低时就会带来一些统计问题,而BLOSUM地方法正好能够避免此类问题.
4.2 基于BLOSUM矩阵地一些现代算法
由于BLOSUM打分矩阵地上述优点,已被各种现代算法所利用,发挥不同领域地作用于功能.下面将介绍几种使用BLOSUM打分矩阵最多地算法,对它们地优缺点进行简单阐述.
4.2.1 动态规划算法
其指导思想就是在多级过程地每一级上列出各种可行地局部解.该方法由Needle-man 和Wunsch 于1970 年提出,最初用于求两个序列地最佳比对.对于两两全局序列比对情况,该方法地关键是设计一个二维矩阵,该矩阵地两个轴就是要比对地两个序列.Needle man-Wunsch 算法可以直接用于三个序列地比对.多序列比对地积分是n 个序列中两两进行比对所得积分之和.对于N 个序列地比对其运算时间呈指数增长,所以动态规划算法不是很适用.
4.2.2 渐进算法
渐进算法最早由Feng 和Doolittle 提出.在算法中,首先采用Needleman-Wunsch 算法把需要比对地N个序列进行彼此两两比对,其结果
形成
2
N
C个实体,然后对这些实体排序,进行全局比对.这种方法一般在质量尤其是
计算速度、存储空间及可比对地序列数目方面比动态规划算法更优良.在比对过程中遵循“一旦有一个空位,总有一个空位”地规则..渐进算法实际上从历史和进化地观点比对多个序列,准确地反映了导致现代序列地一系列歧异进化过程,并
且可以直接用于构造进化树,其缺点是不能保证比对地结果是数学上地最优化比对.
4.2.3 随机算法「16」
(1)遗传算法
遗传算法使一类借鉴生物界地进化规律(适者生存、优胜劣汰和遗传学原理)演化来地全局意义上地自适应随机搜索方法.当用遗传算法进行生物序列分析时,假设每一代包含固定数量地个体(在序列分析中表示优化比对问题地一个可行解),这些个体用它们地适应度来评价.那些具有较高适应度地优良个体更适合于生存环境,将有很多地机会产生它们地后代,从而使优良特性得以遗传并强化.变
异则模拟了生物进化过程中地偶然残基突变现象.对产生地新一代群体进行重新评价、选择、交叉、变异,如此循环往复,使群体中地最优个体地适应度和平均适应度不断提高,直至最优个体地适应度和平均适应度不断提高,直至最优个体地适应度达到某一限定值或最优个体地适应度和群体地平均适应度不再提高,则迭代过程收敛,算法结束.在这种算法中,可以对各种变异、交叉和打分系统进行设置.
(2)模拟退火
模拟退火算法地思想是Kirkpartick 等人于1982 年引入组合优化领域,其源于对固体退火过程地模拟.模拟退火算法采用Meteropolis 接受准则,并用一组称为冷却进度表地参数控制算法进程,使算法在多项式时间内给出一个近似最优解.模拟退火方法是用于蛋白质三维结构比对地一种确定性方法.但是,作为一种多序列比对工具,它需要过长地计算时间,特别是当比对地序列数目较大时更为明显,所以只适于一些高性能地计算机.
5 总结
BLOSUM打分矩阵自1992年由Henikoff夫妇提出至今已近二十年,它地应用也从最初地多肽链比对,蛋白质定点突变稳定性预测扩展到表面抗原分析,T细胞表面抗原决定簇预测,磷酸化位点预测等多方面.虽然有文章表示近年来已被当做标准地BLOSUM打分矩阵并非完全正确且存在错误计算,但这没有影响到BLOSUM打分矩阵地应用,甚至从某种程度上提升了其在搜索中地表现「17」.随着后基因组时代地到来,适于远亲分析地BLOSUM矩阵一定可以有更大地用武之地.
参考文献
「1」Steven Henikoff, Jorja G Henikoff.Amino acid substitution matrices from protein block [J].Atlas of Protein Sequence and
Structure.1978,5(3):345-352.
「2」Chantle R.Korostensky.Algorithms for Building MultipleSequence Alignments and Evolutionary Trees.[Dissertation]Swiss Federal Institute of Technology.2000.
「3」孙啸,陆祖宏,谢建明等译.生物信息学概论.清华大学出版社.北京
「4」http://bioinformatics.weizmann.ac.il/blocks/about_blocks.html
「5」徐丽,康瑞华.生物信息学中地多序列比对算法.中国水运(理论
版).2006,4(6):118-119.
「6」孟翔燕,孟军,葛家麟.一种基于亲疏水性地替代矩阵.数学地实验与认识.
2009,39(7):105-112.
「7」Roque-Afonso AM,Ferey MP,Ly TD.Viral and clinical factors associated with surface gene variants among hepatitis B virus carriers. Antivir
Ther.2007,12(8):1255-1263
「8」基于进化信息改进蛋白质定点突变稳定性预测准确率, 刘建国, 刘建荣, 刘明, 闫蓬勃.生物物理学报.2009,25(5).
「9」Nielsen M,Lundegaard C,Worning P,et al.Reliable prediction of T-cell epitopes using netural networks novel sequence representations.Protein Sci.2003,12:1007-1017.
「10」Lou Yang,Yao Jianhui,Zereshki A,et al.NEK2A interacts withMAD1 and possibly functions as a novel integrator of the spindle checkpoint
signaling[J].J Biol Chem.2004,279:20049-20057.
「11」Meijer AJ,DubbelhuisPF.Amino acid signalling and the integration of metabolism [J].Biochem Biophys Res Commun.2004,313:397-403. 「12」Kraft C,Herzog F,Gieffers C,et al.Mitotic regulation of the human anaphase2promoting complex by
phosphorylation[J].EMBOJ,2003,22:6598-6609.
「13」Rychlewski L,Kschischo M,Dong Liying,et al.Target specificity analysis of the Abl kinase using peptide microarray data[J]. J
MolBiol.2004,336:307-311.
「14」Knight ZA,Schilling B,Row RH,et al.Phosphospecific proteolysis for mapping sites of protein phosphorylation [J].Nat
Biotechnol.2003,21:1047-1054.
「15」王明会,王立荣,许文龙,林晓君,江朝晖,冯焕清.基于k 近邻和BLOSUM62 矩阵方法地磷酸化位点预测.中国生物医学工程学报.2007,26(3).
「16」王槐春.核酸和蛋白质序列分析基础.北京.人民军医出版社.1994.
「17」Mark P Styczynski,Kyle L Jensen,Isidore Rigoutsos,Gregory Stephanopoulos. BLOSUM62 miscalculations improve search
performance.Nature Biotechnology.2008,26:274-275.
2 / 2。

相关文档
最新文档