蛋白质结构预测原理概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

蛋白质结构预测原理概述
蛋白质结构预测技术已经有很多发展,但是基本原理未变,可以参考;基本操作也可以参考下文。

摘自:阎隆飞,孙之荣主编,蛋白质分子结构,清华大学出版社,1999.
现在计算机互联网高速发展,已经成为遍布全球的一个网络,成为科学研究的有力工具,也是进行蛋白质结构和功能研究的重要工具。

国际上一些著名的分子生物学实验室都
在互联网上建立了蛋白质结构预测服务器。

可以在互联网上进入这些服务器,利用这些服
务器提供的软件进行蛋白质结构预测研究。

下面以欧洲分子生物学实验室蛋白质结构预测服务器为例作一说明。

13.6.1欧洲分子生物学实验室蛋白质结构预测服务器
(1)该实验室提供的服务内容
欧洲分子生物学实验室(EuropeanMolecular BiologyLabraroty,EMBL)提供的服
务包括:①多序列联配的生成(MaxHom);②二级结构预测(PHDsec);③溶剂可及
性的预测(PHDacc);④跨膜螺旋预测(PHDhtm);⑤跨膜蛋白拓扑结构预测( PHDtopology);⑥用基于预测的Threading方法进行折叠子识别(PHDthreader);⑦
二级结构预测结果评估(EvalSec)。

用Email或WWW方式访问该服务器,可完成以上7种功能。

其Email或WWW地
址如下:
WWW.embl—heidelberg.de/predictprotein/predictprotein.html
把要预测序列发往PredictProtein@EMBL-Heidelberg.DE;
如有问题可以给Predict-Help@EMBL-Heidelberg.DE发电子邮件。

(2)结构预测步骤
已知蛋白质一级序列的结构,预测步骤如下:①在序列库(SWISSPROT)中搜索同
源序列;②用MaxHom程序进行多序列联配;③把多序列联配的结果作为基于profile
的神经网络预测方法的输入,进行结构预测。

在交互验证实验中,其预测率如下:对水溶性球蛋白其三态预测率(螺旋、折叠和其他)大于72%[34,35];跨膜螺旋的两态(跨膜和非跨膜)预测率大于95%;优化后的跨膜螺旋和拓扑结构预测,螺旋预测率为89%左右,拓扑结构预测率大于86%[39]。

基于Threading预测的折叠子识别方法(prediction-basedthreading)把二级结构和可及性预测结果与PDB数据库中各蛋白联配,找出同源蛋白,从而预测未知空间结构蛋白的折叠类型。

预测准确率的评估数据包括:总体三态预测准确率、相关系数、信息熵、部分片段重叠、二级结构预测内容和结构类型[40]。

下面介绍各种结构预测服务。

1)多序列联配的生成(MaxHom)
MaxHom主要由两部分组成:①用一标准动力学程序把数据库中各序列与待预测
序列进行联配。

每联配一个序列后就编译生成profile,然后再联配下一个序列,如此反复
联配编译,直到联配完所有同源序列。

②当所有同源序列联配上去后,重新编译profile,
再次运行动力学程序,利用以上生成的profile一个一个序列地进行重新联配。

2)二级结构预测(PHDsec)
经过多序列联配后,再利用神经网络方法预测,平均三态预测率大于72%[34,35]。

比单独用一个序列进行三态预测预测率高10%,比基于统计的联配信息方法至少高6%。

3)溶剂可及性预测(PHDacc)
这是一种神经网络预测方法。

在238个球蛋白组成的数据库中,进行交互验证,相关系数为0.54[34,35]。

其输出结果中把分子的相对可及性分成10类,它比只用3个输出态(包埋、中间、暴露)的类似神经网络方法和不用多序列联配的预测方法,预测率均提高26%。

4)跨膜螺旋预测(PHDhtm)
预测方法仍旧为神经网络方法。

在本程序中,消除了该方法的常见缺点,即预测出的螺旋往往过长。

消除方法是利用经验值进行剪切[40]。

5)跨膜螺旋和拓扑结构预测的优化(PHDtopology)
PHDhtm预测结果用一类似动力学程序的算法进行优化。

预测结果再用于拓扑结构
预测,如蛋白质N端相对于膜的取向。

此方法比所有其他方法都好[40]。

6)基于结构预测Threading的折叠子识别(PHDthreader)
本程序用一种新型的基于Threading结构预测的方法[41~52],可以搜索到同源性在10~25%的蛋白。

其原理是搜索与未知空间结构的蛋白具有相似的二级结构和可及性MOTIF的已知空间折叠类型的蛋白。

对于整个折叠子相似性的识别,其准确率在60%左
右。

如果要把短的同源肽段也准确预测出来,其准确率在30%左右(简单序列联配的准确
率只有14%左右)。

7)二级结构预测的三态预测法SSPRED
SSPRED方法可以通过WWW网进行访问和使用。

有两种使用方法。

其一应用于单
序列蛋白的二级结构预测,另一种用于多序列拼接后的蛋白序列的二级结构预测。

对于第一种情况,SSPRED服务器自动对SWISSPROT数据库进行同源搜索,从而生成多序列
拼接的文件输入格式。

然后再进行相当于第二种情况的结构预测。

其具体过程如下:
①SWISSPROT数据库的同源性搜索。

利用基于Smith和Waterman共同开发的局部最
优相似的BLITZ服务器,对SWISSPROT数据库进行同源性搜索(如果只进行同源蛋白
搜索,可以按一定格式直接给如下地址发Email
:blitz@embl-Heidelberg.de)。

②从数据库中提取同源序列并存成PIR格式备用。

③利用由EMBL的Tompson/Higgins/Gibson
开发的ClustalW程序进行多序列拼接,拼接后生成msf文件格式,作为SSPRED服务器
的输入文件。

④运行SSPRED,进行结构预测。

预测的结果将以Email的形式邮回。

SSPRED可以自动预测蛋白质的二级结构。

它由3个计算步骤组成:①PreferCal用
于对每一可能的残基交换确定取舍权重。

②PreferPred用于在多序列联配的基础上预测
二级结构片段。

③PreferEval用于估计二级结构预测的准确度。

8)二级结构特异性残基交换矩阵的构建
PreferCal程序的输入取自Pascarella和Argos(1992)构建的包含70多个蛋白质家
族的3D-Ali数据库。

在进行残基交换矩阵计算时,跨膜蛋白由于其特殊性不在统计之列。

每一3D-Ali数据文件对应一个具有独特折叠域的蛋白质家族。

首先对每一蛋白质家族内的所有蛋白序列进行空间上的同源联配,再标识出序列各残基的二级结构状态。

然后,从巨大的分子生物学数据库中找出那些三级结构虽未确定但具有50%以上相同残基的蛋
白序列,与以上结构序列进行联配。

另外需指出的是3D-Ali数据库中的蛋白质家族,有的
只含有一个蛋白质,其余含有两个以上蛋白质。

在对各二级结构类型计算残基交换矩阵时,只统计具有两个以上蛋白的蛋白家族。

在多序列联配后,各残基已标识出其对应的二级结构态(螺旋标识为H,折叠标识为E,其余标识为C)。

在每一匹配位置对每一可能的残基交换类型计算残基交换频率。

每一可能的交换计数一次。

然后对全部联配区进行总计,把结果输出成二级结构特异性的替换矩阵。

很明显,该矩阵关于对角线对称。

二级结构片段的长度,螺旋最小为5个氨基酸残基,折叠最小为3个氨基酸残基,无
规卷曲最小为5个氨基酸残基。

9)二级结构预测
3个二级结构状态对应的残基交换矩阵构建出来后,就可以进行二级结构预测了。

待预测的序列可以是单个蛋白质序列,也可以是多序列联配后的序列形式。

对于单个蛋白序列,SSPRED会自动在蛋白序列库中搜索同源蛋白,并进行多序列联配,然后由PreferCal
计算出残基交换矩阵。

预测过程如下:每一种残基类型出现一次,就在其对应的联配位点上标记一次。

对所
有可能的残基交换进行统计。

自交换权重矩阵得到的交换值对3种二级结构状态和每一
联配位点统计总和。

统计结果相加,并对每一结构类型在包含一定数目的连续联配位点的滑动窗口取平均。

窗口中心定位于要预测的位置。

对所有可能的联配窗口进行以上计算。

在每一窗口中心,窗口对3种二级结构状态取平均值,三者中最高的即为预测状态(H、E
或C)。

窗口长度从3个~13个残基,以步阶2个残基取不同值,直到达到最优预测效果。

参考文献
1.JohnsonMS,SrinivasanN,Sowdhamini R et al.CRC Crit Rev Biochem Mol Biol,1994,29:1
2.Orengo CA,Jones DT,Thornton J M.Nature,1994,372:631
3.MayACW,Blundell TL.Curr OpinBiotech.,1994,5:355
4.Sali A.Curr OpinBiotech.,1995,6:501
5.SrinivasanN,Blundell TL.ProteinEng.,1993,6:501
6.冯祖康,丁达夫.生物化学与生物物理学报,1995,27:173
7.赵善荣,唐斌,陈凯先.生物化学与生物物理进展,1996,23(5):422—426
8.TophamCM,McleodA,Eisenmenger F et al.J Mol Biol,1993,7:1412
9.Moult J,James MNG.Proteins,1986,1:146
10.SudarsanamS,DuBoseRF,MarchCJ et al.ProteinSci.,1995,7:1412
11.Koehl P,DelarueM.Nature Stru cBiol1995,2:163
12.HwangJ-K,LiaoW-F.ProteinEng.,1995,8:363
13.Sali A,PottertonL,YuanF et al.Proteins,1995,23:318
14.Sippl MJ.Curr OpinStrucBiol1995,5:229
15.ZhirongSun,Chun-TingZhang,Fei-hongWu,andLi-wei Peng,AVector ProjectionMethodfor Predicting Supersecondary Motifs,Journal of ProteinChemistry.1996,15(No)8:721—729
16.SunZR,RaoXQ,Peng LW&Xu Dong.Prediction of Protein Supersecondary Structures Based On Artificial Neural Network Method.Protein Engineering,1997,10(7):763—769
17.王彦力,来鲁华,韩玉真等.生物物理学报,1995,11:67
18.来鲁华等.蛋白质的结构预测与分子设计.北京:北京大学出版社,1993,49—61
19.Russell RB,andBartonGJ.Proteins.,1992,14:300—323
20.Havel TF,andSnowME.J.Mol.Biol,1991,217:1—7
21.Desmet J,Maeyer MD,Hazes B&Lasters I.Nature,1992,356:539—542
22.DunbrackRL,Karplus M.J.Mol.Biol,1993,230:543—574
23.Ponder J W,Richards FM.J.Mol.Biol.,1987,193:775—791
24.Summers NL,CarlsonWD,Karplus M.J.Mol.Biol,1987,196:175—198
25.SutcliffeMJ,Hazes FR,Blundell TL.Prot.Eng.,1987,1:385—392.
26.Collura V et al.Modeling of Protein Loops by Simulated Annealing.Protein Science,1993,2: 19:502—1510
27.Carlacci L,and Englander W.The Loop Problem in Proteins:A Monte Carlo Simulated Annealing Approach.Biopolymers,1993,33:1271—1286
28.Scarborough PE et al.Explorationof Subsite BindingSpecificity of Human Cathepsin D through Kinetics and Rule-based Molecular Modeling.Protein Science,1993,2:264—276
29.HobohmUet al.Seletctionof Representative Protein Data Sets.Protein Science,1992, 1:409—417
30.Bryant SH,andLawrence CE.An Empirical Energy Function for Threading Protein Sequence Through the Folding Motif.Proteins;Structure,Function and Genetics,1993,16:92—112
31.Colloch N,Etchebest C,Thoreau E,Henrisaat B,&Mornrn J parison of Three Algorithms for the Assignment of Secondary Structure in Proteins:The Advantage of a Consensus Assignment,ProteinEngineering1993,6(4):377—382
32.KabschW,Sander C.Dictionaryof Protein Secondary Structure:Pattern Recognition of Hydrogen-bonded and Geometrical Features,Biopolymers,1983,22:2577—2637
33.Pascarella S,Argos P.AD a ta bank Merging Related Protein Structures and Sequences, Protein Engineering,1992,5(2):121—137
34.Rost B,Sander C.Prediction of Protein Secondary Structure at Better Than70%Accuracy, J.Mol.Biol.,1993,232:584—599
35.Rost B,Sander biningEvolutionaryInformationandNeural Networks toPredict Protein SecondaryStructure,Proteins,1994,19:55—77
36.BoJ,GuoT,PengLW,Sun ZR.FoldingType-Specific SecondaryStructure Propensities of AminoAcids,Derivedfromα,β,α/βandα+βProteins of KnownStructures.Biopolymer
,1998,45
(1):35—49
37.Garnier J,OsguthorpeDJ,Robsonb,J.Mol.Biol.,1978,120:97—101
38.Gibrat J,Garnier J,RobsonB.J.Mol.Biol,1987,198:425—428
39.Rost B,Sander C,Conservation and Prediction of Solvent Accessibility in Protein Families. Proteins,1994,20:216—226
40.Rost Bet al.Predictionof Helical TransmembraneSegments at95%Accuracy.ProteinScience, 1995,(4):521—533
41.Jones DT,Taylor WR,ThorntonJ M,ANewApproachtoProteinFoldRecognition,Nature, 1992,358:86—89
42.BowieJ U,LuthyR,EisenbergD.AMethodtoIdentifyProteinSequences that FoldintoaKnown Three-dimensional Structure,Science,1991,253:164—170
43.Thomas P D.An Iterative Method for Extracting Energy-like Quantities from Protein Structures,
Proc.Natl.Acad.Sci.,1996,93:11628—11633
throp RH.Global Optimum Protein Threading with Gapped Alignment and Empirical Pair Score Functions,J.Mol.Biol,1996,255:641—665
45.Fischer D.Protein Fold Recognition Using Sequence-derived Predictions,ProteinSci.,1996,
5:947—955
46.DefayTR.Multiple Sequence Information for ThreadingAlgorithms,J.Mol.Biol.,1996,262: 314—323
47.Bryant SH.Evaluationof Threading Specificity and Accuray Proteins,Protein, 1996,26:172—185
48.Russell RB.Protein Fold Recognition by Mapping Predicted Secondary Structures,J.Mol. Biol,1996,259:349—365
49.Edwards YJK.Assessment of Protein Fold Predictions from Sequence Information:The Predicted
Alpha/beta Doubly Would Fold of the Von Willebr and Factor Type a Domain is Similar to its Crystal Structure,J.Mol.Biol.,1996,260:277—285
50.ChouKC.ANovel Approach to Predicting Protein Structure Classes ina(20-1)DA mino Acid CompositionSpace,Proteins,1995,21:319—344
51.ZhangCT,ZhangR.A new Criterion to Classify Globular Proteins Based on Their Secondary StructureContents.Bioinformatics,1998,14(10):1—9
52.Bryant SH.Evalution of Threading Specificity and Accuray Protein.Protein,1996, 26:172—185。

相关文档
最新文档