_螺旋跨膜蛋白结构预测的研究进展

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

药 物 生 物 技 术

Pharm aceutical Biotechno logy 2010,17(5):466~470

螺旋跨膜蛋白结构预测的研究进展

杨洪乾,郭 城,方慧生

*

(中国药科大学 生命科学与技术学院,江苏南京210009)

摘 要 在基因组数据中,有20%~30%的产物被预测为跨膜蛋白,但由于实验测定的困难,在P DB 数据库中只有1%左右的跨膜蛋白结构。跨膜蛋白结构的缺乏,以及跨膜蛋白重要的生理功能,使得通过计算生物学的方法来获得新的结构显得尤为重要。这些方法主要涉及的内容有:膜蛋白跨膜片段和拓扑结构的预测分析,同源模建,从头预测等。在对前者的预测中,目前的预测方法都具有很好的预测精度,主要难点集中在后两者中。文章综述了近些年来跨膜蛋白结构预测的研究进展,并对目前流行的方法进行了介绍。

关键词 跨膜蛋白; 螺旋;拓扑结构;结构预测

中图分类号 Q51 文献标志码 A 文章编号 1005 8915(2010)05 0466 05

跨膜(T r ansmembrane,T M )蛋白在生物体中是一类

很重要的蛋白,它在细胞营养物质运输,细胞间信号转导,以及能量转换中都有着重要的作用。跨膜蛋白也是很多药物作用的靶点,如最典型的G 蛋白家族,据统计,药物研发中有60%~70%的目标蛋白是G 蛋白家族成员[1]。另外在基因组数据中,有20%~30%的基因产物被预测为膜蛋白[2],然而在PDB(Pr otein Data Bank)数据库中只有1%左右的跨膜蛋白结构[3]。测定跨膜蛋白结构的难点在于它的特殊结构:它需要与生物膜结合才能形成稳定的天然构象,难以得到晶体结构,不利于应用X 射线晶体衍射和核磁共振技术测定其三维结构[4]。因此应用生物信息学、计算机模拟预测的方法研究跨膜蛋白和它的结构显得尤为重要,对发现和认识新的跨膜蛋白以及研究其结构和生理功能有着重要的意义。

跨膜蛋白在结构上主要分为两大类:一种是跨膜区结构为 螺旋(alpha helix ),即T M H(T r ansmembrane alpha helical);一种跨膜区为 桶状(beta bar rel)结构,即T M B (T r ansmembrane beta bar rel),见图1。目前发现,除细菌和线粒体外膜蛋白的跨膜部分折叠成 桶状结构外,其它大多数的跨膜区均为 螺旋结构,因此现存的大部分方法都是针对螺旋膜蛋白来进行设计的。

螺旋跨膜蛋白结构的预测可分为以下几个步骤:1)跨膜片段的预测,并假定出其构象;2)拓扑结构的预测;3)三级结构的预测,即预测跨膜片段的组装方式。本文主

要针对这几方面的研究进展进行讨论。

1 螺旋跨膜蛋白拓扑结构的预测

由于跨膜蛋白穿过膜的磷脂双层,这种特殊的环境就决定了跨膜区必须由强疏水的氨基酸组成,同时,为了跨越双层膜,跨膜区一般由20个左右的氨基酸组成。1982年,K y te 等根据各个氨基酸在有机溶剂和水中的分布系数以及在蛋白质结构中的分布,给出它们各自的疏水标度值,然后根据疏水标度值,把氨基酸序列通过滑动的矩形窗转换成疏水图谱,设定合适的阈值,来判定可能的跨膜区。后来许多的跨膜蛋白预测算法都是根据其疏水特性来进行的,直到1986年V on H eijine 通过对各种跨膜蛋白的统计分析发现,带正电荷的氨基酸主要分布在紧靠

466

*收稿日期:2009 12 15 修回日期:2010 01 18

作者简介:杨洪乾,男,1986年10月生,汉族,江苏靖江人,硕士,主要从事药物生信息学研究,E mail:n sd27@ 。

*

通讯作者:方慧生,教授,研究方向:计算生物学,生物信息学,虚拟生命科学,计算化学。Tel:025 ********,E mail:hsfang889@ 。

膜内连接跨膜区的环上,这就是所谓的 正电荷居内规则(Po sitiv e inside r ule)。这条规律一经发现便被利用到跨膜蛋白的预测中,大大提高了其预测准确度。

1992年的T o pPred[5],是第一个结合疏水性分析和 正电荷居内规则的膜蛋白拓扑结构预测的软件。它先通过滑动的梯形窗将氨基酸序列转换成疏水图,然后通过2个阈值,来得到确定的跨膜区和可能的跨膜区。M EM SA T[6]是一个基于具有5个结构状态模型的预测软件。通过统计分析,得到各种氨基酸在膜内、膜外、跨膜核心区、跨膜末端区出现的频率和它们在整个跨膜蛋白序列中出现的频率,根据这两个频率的比值得到氨基酸出现的偏好性,最后根据所得到的偏好性通过动态规划算法对待预测的序列进行结构预测。随后,神经网络、隐马尔可夫模型、支持向量机被用于拓扑结构的预测中。如PH Dhtm[7],其设计思路是基于从预测蛋白的同源蛋白中获取信息,该方法的第一步是对预测蛋白在SW ISS PRO T数据库中进行BL A ST搜索,进行多重序列比对;然后通过神经网络来预测可能的跨膜区,得分最高的预测跨膜片段会被用来判断该蛋白是否是跨膜蛋白;第三步是应用动态规划算法预测最佳的跨膜区数目和位置;最后,根据 正电荷居内(posi t ive inside)规则预测跨膜的方向。PH Dhtm和其他预测软件相比,最大的优点在于它能给出预测模型的可信度。T M H M M[2]则是基于隐马尔可夫模型的预测软件,它采用了7个状态定义预测模型,这7个状态分别对应跨膜蛋白的不同区域,分别是跨膜核心(helix cor e),跨膜区两边的跨膜末端(cap cy l,cap non cyl),膜内的短环(shor t cy l),膜外的环、长环(sho rt loo p no n cy l,long loo p non cy l),远离膜的区域(g lobular)。每一种类型的状态都有一个分布概率,这些概率从已知膜蛋白的拓扑结构统计得出。T M HM M给出最可能的膜蛋白拓扑结构模型,将预测序列标记为3个部分:膜内区,跨膜螺旋区,膜外区,其中每个残基都会计算其位于膜内,跨膜区,膜外的概率,即p(i),p(h),和p(o)。H M M T O P[8]也是基于隐马尔可夫模型的预测软件,但它采用5个状态组成的模型,分别是膜内环,膜内螺旋尾部,螺旋区,膜外螺旋尾部和膜外环。通过此模型给出最可能的拓扑结构。除了考虑每个状态中氨基酸的组成外,还搜索氨基酸分布差异最大时的组合状态。该方法认为,拓扑结构的改变会直接导致氨基酸分布的变化。近来的O CT OP U S预测方法,结合了隐马尔可夫模型和人工神经网络的方法,文献报道预测准确度能达到94%[9]。支持向量机(suppo rt v ecto r machines,SV M)的应用,也使得跨膜蛋白拓扑结构的预测精度有了更大的提高[10]。T M H 的现有预测方法可见表1。

表1 跨膜蛋白拓扑结构预测方法

M ethod name U RL Descriptio n

DA S T M filter http://mendel.imp.ac.at/sat/DAS/DA S.html PR2*,WP*

HM M T O P2 0http://w ww.enzim.hu/hmmtop/PR3*

M EM SA T3/psipred/PR3

M IN N OU hmc.or g/PR2

OCT O PU S http://octo pus.cbr.su.se PR2,P R3

Or ienT M http://o2.bio l.uo a.g r/or ienT M/PR3

PH Dhtm http://r ostlab.o rg/predictpro tein/submit_adv.html PR3,W P

Phobius http://pho bius.cg b.ki.se/PR3+SP*

Split4http://split.pmfst.hr/split/4/PR2

T M H M M http://w ww.cbs.dtu.dk/ser vices/T M HM M/PR3,W P,database

T O P P RED http://biow eb.past eur.fr/seqanal/interfaces/to ppred.html PR3

*PR2:2个状态的预测,即跨膜和非跨膜;PR3:3个状态的预测,膜内,膜外,跨膜方向,即为拓扑结构预测;SP:N 端信号肽预测;WP:适用于全蛋白质组(w hole proteome)扫描

以上几种数学模型的应用大大提高了预测的准确度,与单依靠疏水性来预测的方法相比,显示了很好的优越性。但这些方法最大的难点在于他们需要足够的数据集用来训练和确证。目前公开的跨膜蛋白数据库可见表2。Rost[11]等人的研究显示,依靠数据统计的预测方法,其预测的准确度并非一定高于基于疏水性预测的一些方法。最近的一些研究也表示,当前流行的几大预测方法在预测一两个螺旋末端时会出错,特别是在预测一些半跨膜螺旋(half T M)时[12]。近来K it sas等的基于疏水性统计分析的预测方法表现出了很好的预测准确度[13]。

467

杨洪乾等: 螺旋跨膜蛋白结构预测的研究进展

相关文档
最新文档