第五章蛋白质分析及预测方法(新)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

常采用参数Q3：Q3=（Pα+Pβ+Pcoil）/T，其中Pα、Pβ、Pcoil分别代表预测α螺旋、β 折叠和无规则卷曲正确的氨基酸残基数，T 为总氨基酸残基数。

亦有人建议用不同二级结构预测的相关系数 Ci来评估。如Cα表示α螺旋预测相关系数：
C (PN UO ) ( N U )(N O )(P U )(P O )
四、疏水性

在线可用ExPASy的 ProtScale(/cgibin/protscale.pl )程序。疏水性预测的方法依赖于疏水性的衡量尺度，这里每个氨基酸根据其一系列的物理特性（例如，溶解性、跨越水－汽相时产生的自由能等），被赋予一个数值以代表其疏水性。
Levin JM, Garnier J (1988) Mehta PK, Heringa J, Argos P (1995)
预测规则简述如下：

α螺旋规则：沿着蛋白质序列寻找α螺旋核，相邻6个残基中若有至少4个残基倾向于形成α螺旋，则认为是螺旋核。然后螺旋核向两端延伸，直至四肽片断的α螺旋倾向性因子的平均值Pα＜1.0为止。此外，Pro不容许在螺旋内部出现，但可出现于C末端以及N端的前三位，这也用于终止螺旋的延伸。最后，将螺旋两端各去掉3个残基，剩余部分若长于6个残基，而且Pα＞1．03，则预测为螺旋。
（四）、基于多重序列比对的二级结构预测

基于单个序列的二级结构预测方法经过近三十年的发展，虽然可以利用的实验数据有了数十倍的增长，但预测准确度提高得不明显。在单个残基基础上的预测准确度在58％左右。近年来将同源序列的信息引入二级结构预测中，可以将二级结构预测的准确度提高到70％左右。基于同源序列对比的二级结构预测方法有两类：一类是自动程序算法，如改进的GOR方法及PHD；另一类是专家参与的多重序列对比，然后进行二级结构预测。随着多重序列搜寻方法PSI-BLAST的发展，基于PSI-BLAST 多重序列比对的二级结构预测方法PSIPRED也见诸报道。PSIPRED利用PHD的算法，将PSI-BLAST产生的多重序列比对用于训练及预测，使预测准确度从70％提高到77％。
（一）、Chou-Fasman方法 Chou-Fasman方法曾经是现在仍然是最为普遍应用的方法。其基本出发点在于对于蛋白质20种不同的氨基酸残基在不同的二级结构中出现的几率进行统计分析得出在不同二级结构中出现的倾向性。利用这种倾向性，加之周围残基的信息，在一定规则的指导下就可以进行预测了。
GOR3 DSC
PREDATOR Yi & Lander NNSSP
Frishman D, Argos P (1996) Yi TM, and Lander S (1993) Salamov AA, Solovyev VV (1995)
PHD
Rost B, Sander C (1993)
SIMPA SSPRED
第二节蛋白质二级结构预测
预测方法可以分为三类：统计/经验算法，其中最为著名的有基于经验统计规则的Chou-Fasman方法及基于信息论算法的GOR方法；

物理—化学方法，基于对于蛋白质结构的物理及化学原理的预测，如Lim方法；

机器学习方法，致力于将前两种方法的优点结合起来。
一、二级结构预测方法：
三、二级结构预测的准确度总的来讲，单序列的预测准确度在60％左右，应用多重序列对比信息的二级结构预测准确度在65％～85％之间。从1994年起每两年国际上都要举行一届关于蛋白质结构预测进展方面的评估(critical assessment of protein structure prediction, CASP)
（二）、GOR方法

GOR(Gamier-Osguthorpe-Robson)方法基于信息论算法，是所有统计算法中理论基础最好的。其基本原理是将一级结构与二级结构看成是由一个转化过程相联系的两个信息。结构预测依赖于每个氨基酸残基及其周围的残基所携带的二级结构信息。为了避免需要大量的实验数据，GOR方法将信息函数分为多项加和形式，并且只考虑双残基及单残基所携带的信息：一个残基携带其自身的二级结构信息，同时携带有另一个残基的二级结构信息，包含不依赖于另一残基类型的和依赖于另一残基类型的信息。

用ProtScale中Kyte & Doolittle 算法分析人 NPD1蛋白结果示例

ProtScale除能分析蛋白质的亲/疏水性外，还能计算蛋白质的分子量、极性，预测二级结构等，共包括了50余种不同的算法。除ProtScale外，蛋白质序列统计分析（Statistical Analysis of Protein Sequences， SAPS）是另一个计算蛋白质序列性质的在线工具（http://www.isrec.isbsib.ch/software/SAPS_form.html），它可给出查询序列的氨基酸组成、电荷分布（包括正/负电荷聚集区的位置，强带电或不带电区段，电荷分布连续性和模式等）、高疏水性和跨膜区段、重复结构及周期性分析等属性。
第八章蛋白质分析及预测方法
一、分子量及等电点

蛋白质的一些基本性质可直接分析其一级序列而获得，如蛋白质的氨基酸组成、分子质量、等电点(pI)、亲水性和疏水性、信号肽、跨膜区等。蛋白质的分子量和等电点可用一些本地化的软件如MacVector、OMIGA、DNAMAN、 BioEdit等分析计算在线可通过ExPASy的Compute pI/Mw （/tools/pi_tool.html）或ProtParam（/tools/ protparam.html）计算。

Compute pI/Mw对pI的确定基于早期Bjellqvist等的实验，该实验根据多肽在含高浓度（9.2~9.8mol/L）尿素缓冲液中，酸性pH梯度（pH4.5至pH7.5）电泳中的迁移率来计算其pK 值和pI值，然后根据氨基酸序列和pI关系来预测，因此在计算碱性蛋白质的理论pI值时可能不准确。其分子量的计算是把序列中每个氨基酸的平均同位素分子量加在一起，再加上一个水分子的分子量。 ProtParam可计算蛋白质分子量、理论等电点、氨基酸组成、各原子组成、在280nm附近的吸光系数、估计半衰期、稳定指数等，但如蛋白质中含翻译后修饰过的氨基酸残基，则不计算在内。
二、蛋白质辨识
（一）、基于组成的蛋白质辨识
可利用ExPASy的AA CompIdent （/tools/aacomp/）去检索具有相同组成的已知蛋白。
（二）、二维凝胶电泳

在严格的标准化状况下，双向凝胶上的某些蛋白质图谱，可结合SWISS-2DPAGE （/ch2d/）数据库而得到鉴定。
三、酶切及断裂位点

ExPASy的PeptideCutter （/tools/peptidecutter /）工具可预测蛋白质序列在特定蛋白酶或化学试剂作用下的断裂位点 PeptideMass （/tools/peptidemass.html）是ExPASy中另一个分析内切产物的工具，它可计算蛋白质经特定酶水解得到的肽片段的分子量、理论等电点等。
二、二级结构在线预测
1．PSIPRED：基于多重序列比对算法，服务器网址为 /psipred/。
2．PredictProtein：基于PHD算法，网址： /predictprotein
北京大学生物信息中心有该网站的镜像： /mirror/predictpro tein/。

3．GOR：网址为 /compute/GO R.html 。
4、综合分析：位于法国里昂的CNRS （Centre National de la Recherche Scientifique）提供NPS@ （http://npsa-pbil.ibcp.fr/cgibin/npsa_automat.pl?page=/NPSA/npsa_ seccons.html）服务，其二级结构预测可由用户从SOPM、HNN、DPM、DSC、GOR、 PHD、PREDATOR、SIMPA96等12种方法中任选几种进行预测，然后根据预测结果汇集整理成一个“一致的结果”

β折叠规则相邻5个残基中若有3个倾向于形成β折叠，则认为是折叠核，折叠核向两端延伸直至4个残基的平均折叠倾向性因子Pβ＜1.0。若延伸后的片断Pβ＞1.05，则预测为β折叠。转角规则四肽片断，若位置专一性转角形成几率f i+1· i+2· i+3· i+4＞ 0.75×10-4 ，Pt ＞1.0， f f f 并大于Pα和Pβ，则预测为转角。重叠规则螺旋和折叠的重叠区域，按Ｐα和 Pβ的相对大小进行预测，如若Pα大于Ｐβ，则预测为螺旋，反之，则预测为折叠。
准确性作者评测：Q3=57% CASP2：Q3=55.4%（41.9-62.5）作者评测：Q3=63% 作者评测：Q3=70.1% CASP2：Q3=69.5% [57.3-87.2] 作者评测：Q3=75% 作者评测：Q3=68% 作者评测：Q3=72.2% CASP2：Q3=67.7% [40.8-82.4] 作者评测：Q3=72.2% CASP1：Q3=71.6% [46.3-94.1] CASP2：Q3=74% [53.1-92.9] 作者评测：Q3=63% 作者评测：Q3=70.9% CASP2：Q3=57.8% [43.6-67.1] 作者评测：Q3=64% CASP2：Q3=61.1% [51.5-69.7] 作者评测：Q3=76.4% 作者评测：Q3=76.5%-78.3% CASP3：Q3=75.7% [55.3-96.8]
ห้องสมุดไป่ตู้
（三）、质谱分析

应用质谱分析可进行蛋白质鉴定和序列测定，其基本原理是将样品分子离子化后，根据不同离子之间的质荷比的差异来分离并确定相对分子质量。应用蛋白酶将胶上或膜上分离出的蛋白断裂成肽片段，通过MALDI-MS或ESI-MS得到肽质指纹图谱，搜索数据库，可对蛋白质进行鉴定。常用的在线肽质指纹图谱分析工具有 ExPASy 的 PeptIdent （/tools/peptident.html）
（三）、神经网络方法神经网络学习系统是一组有相互联系强度的非线性的单元。用于二级结构预测的神经网络多为误差回传式反馈网络。用于二级结构预测的神经网络方法有许多种，其中代表性的为最早发表的Qian和Sejnowski方法以及广泛应用的PHD方法。相对而言神经网络方法便于应用，有较高的预测准确度。最大的缺点是没有明确的物理化学意义。
其中，Pα为预测是α螺旋且预测正确的残基数（positive），Nα为非α螺旋预测正确残基数（negative），Oα为非α螺旋却被错误预测为α螺旋的残基数（false positives），Uα为是α螺旋却未预测出的残基数（miss）。
算法 GOR1
作者 Garnier J, Osguthorpe DJ, Robson B (1978) Gibrat JF, Robson B, Garnier J (1987) King RD, Sternberg MJE (1996)

第五章 蛋白质分析及预测方法(新)

第五章蛋白质分析及预测方法(新)