蛋白质二级结构预测方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

蛋白质二级结构的预测方法初探

【摘要】提出了研究蛋白质二级结构预测的意义,介绍近三十多年来蛋白质二级结构预测的方法分类,分别列举出各类典型蛋白质二级结构预测方法的具体实现过程并最终对预测结果进行比较。【关键词】蛋白质二级结构

多序列比对法神经网络

蛋白质的二级结构指多肽链本身通过氢键沿一定方向盘绕、折叠而形成的构象。蛋白质分子并非如一级结构那样是展开的“线状”,而是出于更高级的水平,多肽链主链中各原子在各局部的空间排布如何,是蛋白质二级结构主要研究的问题。蛋白质的功能主要由特定的三维结构所决定,因此,为了了解蛋白质功能,人们迫切需要确定蛋白质的三维结构。目前测定蛋白质结构的方法有x-光线衍射、核磁共振以及电子显微镜方法。所有这些方法都是耗时的,并且受到较多限制,如需纯净蛋白、小蛋白等。这样结构测定技术远不能赶上每天数以千计的测序速度。为了缩小结构与已知序列之间的差距,发展理论的蛋白质结构预测方法势在必行。因此,在认为蛋白质的三维结构式由它的序列和环境所决定的情况下,促使人们利用蛋白质二级结构来预测其三维结构。蛋白质二级结构预测问题已成为生物信息学的经典问题之一。蛋白质二级结构预测已经有三十多年的历史,各种不同的预测方法可以分为三类:统计学方法、多重序列比对法、神经网络方法。本文将例举三种典型性的预测方法进行阐述和比较。

chou—fasman是一种典型的统计学预测方法,基于15个已知构象的蛋白质和2473个氨基酸确定蛋白质二级结构。它的经验规则是使用进行二级结构预测:寻找折叠核:从6个残基中找到了4个(hb或hb)便可以确定一个b折叠形成核,相反当(bb或bb)出现概率大于1/3时便不能确定;沿着多肽链向两个方向延伸b折叠形成核,直到遇到连续几个b折叠破坏者时才终止。b折叠破坏者包括b4,b3i等等;边界调整:glu很少出现在b区,pro也不会出现在b折叠中,带点荷氨基酸残基都很少出现在两端。trp频繁出现在n-末端。chou-fasman在实际运用中有50%-60%的准确率,似乎预测b折叠的精度较低。gamier,osguthorpe,robson是较之chou—fasman的一种全新的方法。最初的版本为“gor”,现在已经升级到gor-3。用一个可容17个氨基酸的窗口对残基进行检测。基于每个氨基酸独立影响中心残基很可能采取的二级结构。每个侧位需要独立估算就像pssm。步骤1:考虑氨基酸r出现在构象s中的联合概率,信息方程是参考chou—fasman中用的方法。步骤2:用特殊的方法计算出信息方法差。概率参数的计算基于1978年的已知结构数据库中的观测频率。事实上通过使用概率的总和来计算绝对概率是可行的,由此也能估计粗可能性。gor的预测结果达67%左右的准确率,同时可以用实验所得的信息(循环分色)来提高预测准确率。后来的版本允许侧区的氨基酸与中心蛋白质成对联合(gor-2),或是侧区的俩个氨基酸联合起来(gor-3)影响中心氨基酸的最终构型。

fdod方法是一种基于信息论的用于比较多序列间差异程度的方法,在多序列比对、蛋白质结构类预测等许多方面都有应用。实验中发现,fdod函数对于c预测的准确率偏低,借鉴chou—fasman 的构象理论,在判断时不光考虑单个残基,还考虑周围残基,因此规定h连续少于4个,或者e连续少于3个则将该片段判断为c。同时,引入psi—blast进行多序列比对,空位插值,使所选片段集合更具规律性。从预测结果比较看来利用psi—blast进行多序列比对后算法的预测准确率提高了3.5个百分点,与phd算法接近。神经网络理论是在现代神经科学研究成果的基础上通过简化、抽象和模拟提炼出来的,它反映了人脑的功能的若干特性,是一种抽象的数学模型。在蛋白质二级结构预测中应用最多的是bp神经网络模型,包括预处理和后处理的设计选择。对于蛋白质分子序列而言,预处理是将输入序列(字符串)转换成神经网络的输入向量(数字)。具体过程是:使用一个包含13—17个氨基酸的滑动窗,3个已经训练过的处理层:输入层,隐藏层,输出层。每个输入都用权重因子加权,然后传到隐藏层。隐藏层将输入信号叠加成一个总信号并通过模拟神经元发放或不发放状态的s出发函数处理,输出一个接近1或0的数。来自隐藏层的信号随后送到三个独立的输出元件中(a螺旋,b折叠或其他)。每个信号再次经过加权处理并叠加。最后三个输出元件将和信号转变为近似1(表征该输出元件反应的

二级结构)或0(不能预测结构)。当网络模型构建好后,预测时根据待预测序列的一级结构,计算除相应的输出层,然后根据输出层各

节点数的大小决定它属于哪种类型的二级结构。比如,如果输出层中德第1个节点的预测值最大,则将它归类为a螺旋(h);如果是第2个节点的数值最大,则将它归为b片段(e);同样,当第3个节点的数值最大,则将它归为无规则卷曲(c)。选择合适的编码方法很可能是决定最终系统性能的一种非常重要的因素,因为编码决定了提供给神经网络的信息内容。大多数后继的使用神经网络的二级结构预测工作都以上述的结构为基础,有时也会与诸如chou—fasman规则之类的方法相结合。原本预测方法的正确率低于65%-68%,使用进化信息可使预测正确率进一步提高大于72%,与phd 方法相当。

相关文档
最新文档