蛋白质结构预测原理概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

蛋白质结构预测原理概述

蛋白质结构预测技术已经有很多发展,但是基本原理未变,可以参考;基本操作也可以参考下文。

摘自:阎隆飞,孙之荣主编,蛋白质分子结构,清华大学出版社,1999.

现在计算机互联网高速发展,已经成为遍布全球的一个网络,成为科学研究的有力工具,也是进行蛋白质结构和功能研究的重要工具。国际上一些著名的分子生物学实验室都

在互联网上建立了蛋白质结构预测服务器。可以在互联网上进入这些服务器,利用这些服

务器提供的软件进行蛋白质结构预测研究。

下面以欧洲分子生物学实验室蛋白质结构预测服务器为例作一说明。

13.6.1欧洲分子生物学实验室蛋白质结构预测服务器

(1)该实验室提供的服务内容

欧洲分子生物学实验室(EuropeanMolecular BiologyLabraroty,EMBL)提供的服

务包括:①多序列联配的生成(MaxHom);②二级结构预测(PHDsec);③溶剂可及

性的预测(PHDacc);④跨膜螺旋预测(PHDhtm);⑤跨膜蛋白拓扑结构预测( PHDtopology);⑥用基于预测的Threading方法进行折叠子识别(PHDthreader);⑦

二级结构预测结果评估(EvalSec)。

用Email或WWW方式访问该服务器,可完成以上7种功能。其Email或WWW地

址如下:

WWW.embl—heidelberg.de/predictprotein/predictprotein.html

把要预测序列发往PredictProtein@EMBL-Heidelberg.DE;

如有问题可以给Predict-Help@EMBL-Heidelberg.DE发电子邮件。

(2)结构预测步骤

已知蛋白质一级序列的结构,预测步骤如下:①在序列库(SWISSPROT)中搜索同

源序列;②用MaxHom程序进行多序列联配;③把多序列联配的结果作为基于profile

的神经网络预测方法的输入,进行结构预测。

在交互验证实验中,其预测率如下:对水溶性球蛋白其三态预测率(螺旋、折叠和其他)大于72%[34,35];跨膜螺旋的两态(跨膜和非跨膜)预测率大于95%;优化后的跨膜螺旋和拓扑结构预测,螺旋预测率为89%左右,拓扑结构预测率大于86%[39]。

基于Threading预测的折叠子识别方法(prediction-basedthreading)把二级结构和可及性预测结果与PDB数据库中各蛋白联配,找出同源蛋白,从而预测未知空间结构蛋白的折叠类型。预测准确率的评估数据包括:总体三态预测准确率、相关系数、信息熵、部分片段重叠、二级结构预测内容和结构类型[40]。

下面介绍各种结构预测服务。

1)多序列联配的生成(MaxHom)

MaxHom主要由两部分组成:①用一标准动力学程序把数据库中各序列与待预测

序列进行联配。每联配一个序列后就编译生成profile,然后再联配下一个序列,如此反复

联配编译,直到联配完所有同源序列。②当所有同源序列联配上去后,重新编译profile,

再次运行动力学程序,利用以上生成的profile一个一个序列地进行重新联配。

2)二级结构预测(PHDsec)

经过多序列联配后,再利用神经网络方法预测,平均三态预测率大于72%[34,35]。比单独用一个序列进行三态预测预测率高10%,比基于统计的联配信息方法至少高6%。

3)溶剂可及性预测(PHDacc)

这是一种神经网络预测方法。在238个球蛋白组成的数据库中,进行交互验证,相关系数为0.54[34,35]。其输出结果中把分子的相对可及性分成10类,它比只用3个输出态(包埋、中间、暴露)的类似神经网络方法和不用多序列联配的预测方法,预测率均提高26%。

4)跨膜螺旋预测(PHDhtm)

预测方法仍旧为神经网络方法。在本程序中,消除了该方法的常见缺点,即预测出的螺旋往往过长。消除方法是利用经验值进行剪切[40]。

5)跨膜螺旋和拓扑结构预测的优化(PHDtopology)

PHDhtm预测结果用一类似动力学程序的算法进行优化。预测结果再用于拓扑结构

预测,如蛋白质N端相对于膜的取向。此方法比所有其他方法都好[40]。

6)基于结构预测Threading的折叠子识别(PHDthreader)

本程序用一种新型的基于Threading结构预测的方法[41~52],可以搜索到同源性在10~25%的蛋白。其原理是搜索与未知空间结构的蛋白具有相似的二级结构和可及性MOTIF的已知空间折叠类型的蛋白。对于整个折叠子相似性的识别,其准确率在60%左

右。如果要把短的同源肽段也准确预测出来,其准确率在30%左右(简单序列联配的准确

率只有14%左右)。

7)二级结构预测的三态预测法SSPRED

SSPRED方法可以通过WWW网进行访问和使用。有两种使用方法。其一应用于单

序列蛋白的二级结构预测,另一种用于多序列拼接后的蛋白序列的二级结构预测。对于第一种情况,SSPRED服务器自动对SWISSPROT数据库进行同源搜索,从而生成多序列

拼接的文件输入格式。然后再进行相当于第二种情况的结构预测。其具体过程如下:

①SWISSPROT数据库的同源性搜索。利用基于Smith和Waterman共同开发的局部最

优相似的BLITZ服务器,对SWISSPROT数据库进行同源性搜索(如果只进行同源蛋白

搜索,可以按一定格式直接给如下地址发Email

:blitz@embl-Heidelberg.de)。

②从数据库中提取同源序列并存成PIR格式备用。

③利用由EMBL的Tompson/Higgins/Gibson

开发的ClustalW程序进行多序列拼接,拼接后生成msf文件格式,作为SSPRED服务器

的输入文件。

④运行SSPRED,进行结构预测。预测的结果将以Email的形式邮回。

SSPRED可以自动预测蛋白质的二级结构。

它由3个计算步骤组成:①PreferCal用

于对每一可能的残基交换确定取舍权重。②PreferPred用于在多序列联配的基础上预测

二级结构片段。③PreferEval用于估计二级结构预测的准确度。

8)二级结构特异性残基交换矩阵的构建

PreferCal程序的输入取自Pascarella和Argos(1992)构建的包含70多个蛋白质家

族的3D-Ali数据库。在进行残基交换矩阵计算时,跨膜蛋白由于其特殊性不在统计之列。每一3D-Ali数据文件对应一个具有独特折叠域的蛋白质家族。首先对每一蛋白质家族内的所有蛋白序列进行空间上的同源联配,再标识出序列各残基的二级结构状态。然后,从巨大的分子生物学数据库中找出那些三级结构虽未确定但具有50%以上相同残基的蛋

白序列,与以上结构序列进行联配。另外需指出的是3D-Ali数据库中的蛋白质家族,有的

相关文档
最新文档