第五章 蛋白质分析及预测方法(新)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(三)、质谱分析
应用质谱分析可进行蛋白质鉴定和序列测定,其 基本原理是将样品分子离子化后,根据不同离子 之间的质荷比的差异来分离并确定相对分子质量。 应用蛋白酶将胶上或膜上分离出的蛋白断裂成肽 片段,通过MALDI-MS或ESI-MS得到肽质指纹图 谱,搜索数据库,可对蛋白质进行鉴定。常用的 在 线 肽 质 指 纹 图 谱 分 析 工 具 有 ExPASy 的 PeptIdent (http://us.expasy.org/tools/peptident.html)
常采用参数Q3:Q3=(Pα+Pβ+Pcoil)/T, 其中Pα、Pβ、Pcoil分别代表预测α螺旋、β 折叠和无规则卷曲正确的氨基酸残基数,T 为总氨基酸残基数。
亦有人建议用不同二级结构预测的相关系数 Ci来评估。如Cα表示α螺旋预测相关系数:
C (PN UO ) ( N U )(N O )(P U )(P O )
(二)、GOR方法
GOR(Gamier-Osguthorpe-Robson)方法基于信 息论算法,是所有统计算法中理论基础最好的。 其基本原理是将一级结构与二级结构看成是由 一个转化过程相联系的两个信息。 结构预测依赖于每个氨基酸残基及其周围的残 基所携带的二级结构信息。 为了避免需要大量的实验数据,GOR方法将信 息函数分为多项加和形式,并且只考虑双残基 及单残基所携带的信息:一个残基携带其自身 的二级结构信息,同时携带有另一个残基的二 级结构信息,包含不依赖于另一残基类型的和 依赖于另一残基类型的信息。
其中,Pα为预测是α螺旋且预测正确的残基数 (positive),Nα为非α螺旋预测正确残基数 (negative),Oα为非α螺旋却被错误预测 为α螺旋的残基数(false positives),Uα为 是α螺旋却未预测出的残基数(miss)。
算法 GOR1
作者 Garnier J, Osguthorpe DJ, Robson B (1978) Gibrat JF, Robson B, Garnier J (1987) King RD, Sternberg MJE (1996)
(三)、神经网络方法 神经网络学习系统是一组有相互联系强度的 非线性的单元。用于二级结构预测的神经网 络多为误差回传式反馈网络。用于二级结构 预测的神经网络方法有许多种,其中代表性 的为最早发表的Qian和Sejnowski方法以及广 泛应用的PHD方法。相对而言神经网络方法 便于应用,有较高的预测准确度。最大的缺 点是没有明确的物理化学意义。
β折叠规则 相邻5个残基中若有3个倾向于形 成β折叠,则认为是折叠核,折叠核向两端延 伸直至4个残基的平均折叠倾向性因子Pβ<1.0。 若延伸后的片断Pβ>1.05,则预测为β折叠。 转角规则 四肽片断,若位置专一性转角形成 几率f i+1· i+2· i+3· i+4> 0.75×10-4 ,Pt >1.0, f f f 并大于Pα和Pβ,则预测为转角。 重叠规则 螺旋和折叠的重叠区域,按Pα和 Pβ的相对大小进行预测,如若Pα大于Pβ,则 预测为螺旋,反之,则预测为折叠。
二、二级结构在线预测
1.PSIPRED:基于多重序列比对算法,服 务器网址为 http://bioinf.cs.ucl.ac.uk/psipred/。
2.PredictProtein: 基于PHD算法,网址: http://cubic.bioc.columbia.edu/predictprotein
北京大学生物信息中心有该网站的镜像: http://www.cbi.pku.edu.cn/mirror/predictpro tein/。
3.GOR:网址为 http://molbiol.soton.ac.uk/compute/GO R.html 。
4、综合分析:位于法国里昂的CNRS (Centre National de la Recherche Scientifique)提供NPS@ (http://npsa-pbil.ibcp.fr/cgibin/npsa_automat.pl?page=/NPSA/npsa_ seccons.html)服务,其二级结构预测可 由用户从SOPM、HNN、DPM、DSC、GOR、 PHD、PREDATOR、SIMPA96等12种方法 中任选几种进行预测,然后根据预测结果 汇集整理成一个“一致的结果”
预测规则简述如下:
α螺旋规则: 沿着蛋白质序列寻找α螺旋核,相 邻6个残基中若有至少4个残基倾向于形成α螺旋, 则认为是螺旋核。然后螺旋核向两端延伸,直至 四肽片断的α螺旋倾向性因子的平均值Pα<1.0为 止。此外,Pro不容许在螺旋内部出现,但可出 现于C末端以及N端的前三位,这也用于终止螺 旋的延伸。最后,将螺旋两端各去掉3个残基, 剩余部分若长于6个残基,而且Pα>1.03,则 预测为螺旋。
(四)、基于多重序列比对的二级结构预测
基于单个序列的二级结构预测方法经过近三十年的发 展,虽然可以利用的实验数据有了数十倍的增长,但 预测准确度提高得不明显。在单个残基基础上的预测 准确度在58%左右。 近年来将同源序列的信息引入二级结构预测中,可以 将二级结构预测的准确度提高到70%左右。基于同源 序列对比的二级结构预测方法有两类:一类是自动程 序算法,如改进的GOR方法及PHD;另一类是专家参 与的多重序列对比,然后进行二级结构预测。随着多 重序列搜寻方法PSI-BLAST的发展,基于PSI-BLAST 多重序列比对的二级结构预测方法PSIPRED也见诸报 道。PSIPRED利用PHD的算法,将PSI-BLAST产生的 多重序列比对用于训练及预测,使预测准确度从70% 提高到77%。
准确性 作者评测:Q3=57% CASP2:Q3=55.4%(41.9-62.5) 作者评测:Q3=63% 作者评测:Q3=70.1% CASP2:Q3=69.5% [57.3-87.2] 作者评测:Q3=75% 作者评测:Q3=68% 作者评测:Q3=72.2% CASP2:Q3=67.7% [40.8-82.4] 作者评测:Q3=72.2% CASP1:Q3=71.6% [46.3-94.1] CASP2:Q3=74% [53.1-92.9] 作者评测:Q3=63% 作者评测:Q3=70.9% CASP2:Q3=57.8% [43.6-67.1] 作者评测:Q3=64% CASP2:Q3=61.1% [51.5-69.7] 作者评测:Q3=76.4% 作者评测:Q3=76.5%-78.3% CASP3:Q3=75.7% [55.3-96.8]
三、二级结构预测的准确度 总的来讲,单序列的预测准确度在60%左右, 应用多重序列对比信息的二级结构预测准确 度在65%~85%之间。 从1994年起每两年国际上都要举行一届关于 蛋白质结构预测进展方面的评估(critical assessment of protein structure prediction, CASP)
第二节 蛋白质二级结构预测
预测方法可以分为三类: 统计/经验算法,其中最为著名的有基于经 验统计规则的Chou-Fasman方法及基于信息 论算法的GOR方法;
物理—化学方法,基于对于蛋白质结构的物 理及化学原理的预测,如Lim方法;
机器学习方法,致力于将前两种方法的优点 结合起来。
一、二级结构预测方法:
Compute pI/Mw对pI的确定基于早期Bjellqvist等 的实验,该实验根据多肽在含高浓度 (9.2~9.8mol/L)尿素缓冲液中,酸性pH梯度 (pH4.5至pH7.5)电泳中的迁移率来计算其pK 值和pI值,然后根据氨基酸序列和pI关系来预测, 因此在计算碱性蛋白质的理论pI值时可能不准确。 其分子量的计算是把序列中每个氨基酸的平均同 位素分子量加在一起,再加上一个水分子的分子 量。 ProtParam可计算蛋白质分子量、理论等电点、 氨基酸组成、各原子组成、在280nm附近的吸光 系数、估计半衰期、稳定指数等,但如蛋白质中 含翻译后修饰过的氨基酸残基,则不计算在内。
GOR3 DSC
PREDATOR Yi & Lander NNSSP
Frishman D, Argos P (1996) Yi TM, and Lander S (1993) Salamov AA, Solovyev VV (1995)
PHD
Rost B, Sander C (1993)
SIMPA SSPRED
第八章 蛋白质分析及预测方法
一、分子量及等电点
蛋白质的一些基本性质可直接分析其一级序 列而获得,如蛋白质的氨基酸组成、分子质 量、等电点(pI)、亲水性和疏水性、信号肽、 跨膜区等。 蛋白质的分子量和等电点可用一些本地化的 软件如MacVector、OMIGA、DNAMAN、 BioEdit等分析计算 在线可通过ExPASy的Compute pI/Mw (http://us.expasy.org/tools/pi_tool.html) 或ProtParam(http://us.expasy.org/tools/ protparam.html)计算。
用ProtScale中Kyte & Doolittle 算法分析人 NPD1蛋白结果示例
ProtScale除能分析蛋白质的亲/疏水性外, 还能计算蛋白质的分子量、极性,预测二级 结构等,共包括了50余种不同的算法。 除ProtScale外,蛋白质序列统计分析 (Statistical Analysis of Protein Sequences, SAPS)是另一个计算蛋白质序列性质的在线 工具(http://www.isrec.isbsib.ch/software/SAPS_form.html),它可给 出查询序列的氨基酸组成、电荷分布(包括 正/负电荷聚集区的位置,强带电或不带电 区段,电荷分布连续性和模式等)、高疏水 性和跨膜区段、重复结构及周期性分析等属 性。
Levin JM, Garnier J (1988) Mehta PK, Heringa J, Argos P (1995)
(一)、Chou-Fasman方法 Chou-Fasman方法曾经是现在仍然是最为普 遍应用的方法。 其基本出发点在于对于蛋白质20种不同的氨 基酸残基在不同的二级结构中出现的几率进 行统计分析得出在不同二级结构中出现的倾 向性。利用这种倾向性,加之周围残基的信 息,在一定规则的指导下就可以进行预测了。
二、蛋白质辨识
(一)、基于组成的蛋白质辨识
可利用ExPAቤተ መጻሕፍቲ ባይዱy的AA CompIdent (http://us.expasy.org/tools/aacomp/)去检索 具有相同组成的已知蛋白。
(二)、二维凝胶电泳
在严格的标准化状况下,双向凝胶上的某 些蛋白质图谱,可结合SWISS-2DPAGE (http://us.expasy.org/ch2d/)数据库而 得到鉴定。
四、疏水性
在线可用ExPASy的 ProtScale(http://www.expasy.org/cgibin/protscale.pl )程序。疏水性预测的方法 依赖于疏水性的衡量尺度,这里每个氨基 酸根据其一系列的物理特性(例如,溶解 性、跨越水-汽相时产生的自由能等), 被赋予一个数值以代表其疏水性。
三、酶切及断裂位点
ExPASy的PeptideCutter (http://us.expasy.org/tools/peptidecutter /)工具可预测蛋白质序列在特定蛋白酶或 化学试剂作用下的断裂位点 PeptideMass (http://us.expasy.org/tools/peptidemass.html)是ExPASy中另一个分析内切产 物的工具,它可计算蛋白质经特定酶水解 得到的肽片段的分子量、理论等电点等。