生物信息学课程报告 几种蛋白质二级结构预测方法评价
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
几种蛋白质二级结构预测方法的评价
摘要蛋白质二级结构的预测是了解蛋白质空间结构及其作用机理的重要步骤,二级结构的预测方法也越来越多,为便于广大研究者选择合适的预测方法,本文利用SARS 数据集,采用统一的评价标准,对蛋白质二级结构预测的三种典型方法PSIPRED V3.0、APSSP2、GOR4进行评测。
结果显示,PSIPRED预测效果较好,可以作为相关研究的首选,而GOR4表现最差,对β折叠的预测能力最缺乏。
关键词二级结构PSIPRED SARS数据集
Evaluation on three prediction methods of protein
secondary structure
Abstract Protein secondary structure prediction plays a key role in recognizing the protein’s three-dimensional structure and mechanism. With more and more prediction methods developed, three prediction methods of protein secondary structure including PSIPRED V3.3,APSSP2,GOR4 had been utilized in SARS to evaluate their applicability. The findings suggested that PSIPRED performed best, and GOR4 had poor effect in the protocol, especially in the prediction of β strands.
Keywords protein secondary structure ;PSIPRED ; SARS
由于蛋白质的生物学功能在很大程度上依赖于其空间结构,因而进行蛋白质的结构预测对了解未知蛋白生物学功能具有重要意义[1]。
通常,蛋白质结构包括4个层次[2]:一级结构即氨基酸的排列顺序;二级结构主要是由氢键维持的α-螺旋和β-折叠;三级结构是完全折叠的蛋白质的空间结构残基的立体排列模式;四级结构是多个蛋白质亚基组成的蛋白质复合体的结构(即蛋白质之间的交互作用)。
用计算机对蛋白质二级结构的预测对认识蛋白质结构与功能的有重要意义。
一方面,蛋白质二级结构预测为三级结构模型构建的起点,是三、四级结构预测的基础[3]。
另一方面,由于利用X光绕射、核磁共振等实验方法对蛋白质二级结构预测受到一
定制约。
此外,在实际应用中,蛋白质二级结构的预测也扮演着重要角色:①可用于全新蛋白质的设计或蛋白质突变的设计;②有助于确定蛋白质空间结构与功能的关系;③有助于多维核磁共振中二级结构的指认以及晶体结构的解析[4]。
现在一般认为,如果蛋白质二级结构的预测准确率可以达到80%的话,就可以基本准确的预测一个蛋白质分子的三维空间结构[5]。
现阶段,蛋白质空间结构的研究方法依据其原理主要可分为三种类型:①折叠识别(Fold recognition);②从头预测(ab initio)③同源建模(Homology modeling)。
具体到蛋白质二级结构预测,有Chou、GOR、Cohen、PHD、PSIPRED等方法。
根据王鹏良[6]、张海霞等[5]的研究结果,可以推断各种预测方法又各有其优缺点。
同时,随着蛋白质结构数据库的不断更新,蛋白质二级结构预测方法层出不穷,为方便研究者根据试验数据选用最优的二级结构预测方法,对各种二级结构预测方法进行及时的评测是必要的,本文选取了三种有代表性的预测方法进行评测,以期探究各个方法的预测准确率。
1 方法、数据及评价指标
1.1预测方法
在众多蛋白质二级结构预测方法中,根据它们的利用频率、精确度及预测原理,本测试选取其中三种有代表性的预测方法,分别是PSIPRED V3.3[7-8]、APSSP2及GOR4,三种二级结构预测方法的服务器分别是PSIPRED(/psipred/),APSSP2(http://imtech.res.in/raghava/apssp2/和GOR4(http://npsa-pbil.ibcp.fr/cgi-bin/npsa_a utomat.pl?page=npsa_gor4.html)。
在结构预测时,选择各方法的最佳参数,以达到最佳效果。
本文三种结构预测方法均采用三态定义,即‘H’或‘h’代表α螺旋,‘E’或‘e’代表β折叠,‘C’或‘c’代表无规卷曲。
1.2测试数据
为便于研究,测试数据采用Severe Acute Respiratory Syndrome(SARS)数据集[3][9],并查询PDB数据库进行一定纠正,得到相关SARS数据集的结构信息,见表1,并按照吴琳琳等[3]的方法将信息缺失及缺失结构残基数记为C无规卷曲。
SARS数据集共有1600个氨基酸残基,其中α螺旋含量为28.6%,而β折叠含量为26.7%。
表1 SARS 数据集结构信息 Table1 Information of SARS
序号 PDB ID 氨基酸残基
H 含量/% E 含量/% 支链 缺失结构残基数
1 IP4X 250 58.4(146) 8.4(21) A 0
2 1P9S 300 23.0(69) 28.7(86) A 0
3 1Q2W 308 24.4(75) 28.3(87) A 13
4 1T4Y 10
5 37.1(39) 22.7(24) A 0 5 1UW7 143 9.8(14) 37.8(54) A 21
6 1UJ1 306 26.1(80) 29.7(91) A 5
7 1T4Z 105 32.4(34) 22.9(24) A 0 8
1XAK
83
0.00(0)
48.2(40)
A
15
1.3评价指标
评价蛋白质二级结构的预测性能,国际上通用的三个指标,如下: (1)三态准确率
()C E H FP TP TP Q i
i i
,,i i ∈+=
,
其中TP i 表示被正确预测为i 状态的残基个数,FP i 表示被错误预测为i 状态的残基个数。
(2)整体准确率
T
TP TP TP Q C
E H ++=
3
其中TP i (i ∈{H ,E ,C})分别表示被正确预测出三状态的残基个数,T 代表残基总数。
(3)Motthew 系数
{}C E H i o n u n o p u p o u n p C i i i i i i i i i
i i i i ,,)
)()()((∈++++-=
,
其中p i 表示i 态被预测为i 态的残基个数,n i 表示非i 态被预测为非i 态的残基个数,
u i表示i态被预测为非i态的残基个数,o i表示非i态被预测为i态的残基个数。
C i=0时,
称为随机预测;C i=l时,称为完全预测。
本文选择三态准确率及整体准确率作为评价指标。
2.结果及分析
2.1预测结果
将测试蛋白质氨基酸序列分别提交到上述三种方法的服务器上,选择合适的参数,即可得到返回的预测的目的蛋白的二级结构,各数据的二级结构详细预测结果见表2,
可以看出,三种预测方法得到的正确的二级结构并不相同。
表2 各方法关于α螺旋、β折叠及无规卷曲详细预测结果
Table2 Detailed prediction results by three methods
序号 1 2 3 4 5 6 7 8
二级结构H E C H E C H E C H E C H E C H E C H E C H E C PSIPRED V3.3 131 10 71 52 69 122 59 69 122 32 17 40 0 41 51 59 67 114 30 17 38 0 27 30 APSSP2 136 11 52 50 68 103 53 65 109 32 17 29 6 44 57 54 67 100 30 17 32 0 24 31 GOR4 112 8 52 42 45 100 37 53 111 31 6 28 6 25 52 36 58 98 29 6 31 0 12 35 PDB 146 21 83 69 86 145 75 87 146 39 24 42 14 54 75 80 91 135 34 24 47 0 40 43 注:H表示使用相应方法预测正确的α螺旋,表示使用相应方法预测正确的β折叠,C表示使用相
应方法预测正确的无规卷曲。
Notes: H indicates alpha helix; E indicates β strands; C indicates random coils.
2.2 三种方法关于Q i及Q3的比较
在表2基础上,按照上述整体准确率评价指标进行计算,得到三种方法预测的准确率,结果如表3。
根据三态准确率(Q i),无论是α螺旋、β折叠,还是无规卷曲,在预
测准确率上:PSIPRED>APSSP2>GOR4。
依据整体准确率(Q3),在预测正确率上仍然
表现为:PSIPRED>APSSP2>GOR4,且只有PSIPRED在整体正确率上比公布的更高,
其他两种皆低于公布的预测准确率,以APSSP2表现的更为明显。
在整体表现上,对于
SARS数据集中的蛋白质二级结构预测,PSIPRED优于APSSP2和GOR4。
表3 3种蛋白质二级结构预测方法的准确率比较
Table 3 Comparison of accuracies of 3 protein secondary structure prediction methods Method Q H(%) Q E(%) Q C(%) Q3(%) Q3 Claim (%) PSIPRED 79.4 74.2 79.6 78.1 76.5
APSSP2 79.0 73.3 71.6 74.2 82.5
GOR4 64.6 49.4 70.8 63.3 64.4
注:其中Q H表示α螺旋的预测准确率;Q E表示β折叠的预测准确率;Q C表示无规卷曲的预测准确率;Q3表示整体准确率,Q3 Claim表示各方法宣布的预测整体准确率。
Notes:Q H indicates alpha helix predicting accuracy; Q E indicates βstrands predicting accuracy; Q C indicates random coils predicting accuracy; Q3 indicates whole accuracy; Q3 Claim indicates official whole accuracy.
2.3 各具体二级结构预测准确率比较
在三态准确率(Q i)中,对于α螺旋的预测,PSIPRED、APSSP2两种方法预测准确率大致相当(分别为79.4%、79.0%),而GOR4预测准确率较低(64.6%);对于β折叠的预测,PSIPRED预测准确率最高(74.2%),而GOR4预测准确率最低(49.4%),其对β折叠结构预测能力不足;对于无规卷曲的预测,三种方法准确率均高于70%,差异不明显。
3 讨论
3.1各方法预测结果整理过程的简化
利用三种方法得到各蛋白质的二级结构,在结果整理中发现一个问题,即向各方法的服务器提交氨基酸序列后,返回得到的是各位点氨基酸的预测结构,并没有直接分析预测准确率,这需要研究者进行结果整理。
例如,PDB ID为IP4X的蛋白质在PDB数据库中显示其二级结构含58.4%的α螺旋(146个氨基酸残基)和8.4%的β折叠(21个氨基酸残基),利用PSIPRED预测结果显示其含有52.4%的α螺旋(131个氨基酸残基)和4.0%的β折叠,但这并不表示PSIPRED法预测结果中所有的α螺旋和β折叠都预测正确,例如IP4X的7到26位点(氨基酸残基序列:KIRDFIIIEAYMFRFKKKV)在PDB 中全为α螺旋,而在PSIPRED中却预测为5到25位点(氨基酸残基序列:
NHDKIRDFIIIEAYMFRFKKK)为α螺旋,即PEIPRED预测此段出现了3个α螺旋的错误。
为计算各方法预测准确率,就需要研究者对蛋白质各个氨基酸残基进行PDB数据库结构与各方法预测结果间的比对,工作量较大,也容易出现错误。
因此,在后续的研究中,可以利用编程软件如C++、Visual Basic等进行程序的编写,以简化此步骤。
3.2 三种方法预测准确率的探讨
PSIPRED采用神经网络方法进行预测,在三态准确率(Q i)、及整体准确率(Q3)上的表现均优于其他两种方法。
APSSP2采用混合方法预测蛋白质的二级结构,从理论上说,结合使用多种方法将提高预测的准确率,只是这些方法自身的缺陷是相互独立的[10],而且无法选择结合的各种方法所占权重,因此并不能很大程度上提高预测准确率,这或许能解释在本测试中,采用神经网络方法的PSIPRED法较APSSP2总体上表现出更高的准确率。
在方法上,与张海霞等[5]采用包含了PSIPRED、APSSP2及GOR4等10种二级结构预测方法对150条蛋白质(结构域)预测结果相比,本测试中PSIPRED在三态准确率(Q i)比张海霞等结果显示更高,在整体准确率(Q3)稍低一些;APSSP2在三态准确率及整体准确率上均明显低于张海霞的结果,这可能与SARS数据集较小相关;本测试中GOR4的Q H、Q C均高于张海霞等的结果,整体准确率几乎一致。
在使用测试数据上,利用相同的SARS数据集进行测试,相较于吴琳琳[3]、李元乐[9]等采用支持向量机(support vector machine ,SVM)法,本测试结果表现出较低的准确率,但并不能说明SVM方法一定比PSIPRED预测精度高,可能与数据更新、参数选择、预测原理相关。
同时,根据梁刚锋等[11]的研究结果,目前影响蛋白质二级结构预测准确率的因素主要包括蛋白质二级结构的不稳定性、蛋白质二级结构预测的系统误差,其中,系统误差大约为25%。
今后,随着已知空间结构的蛋白质数目的增加和多重序列比对方法的应用,蛋白质二级结构预测的精度可以进一步提高。
由于目前各种方法采用的原理不同,难以进行统一的、有效的评价,因此不同的测试数据应该选取相适应的预测精确度较高的方法,而并不是只选择其中一种方法。
4 结论
本测试利用数据集SARS,分别采用PSIPRED V3.3、APSSP2及GOR4三种方法进行二级结构预测,结果显示PSIPRED在三态准确率(Q I)及整体准确率(Q3)均优于其他两种方法。
同时,由于PSIPRED采用神经网络方法进行预测,而神经网络方法是目前公认的前景最乐观的二级结构预测方法之一,所以PSIPRED在蛋白质二级结构预测及研究中将发挥重要作用。
参考文献[References]
[1] 殷志祥. 蛋白质结构预测方法的研究进展[J]. 计算机工程与应用,2004,20:54-57.
[2] 阎隆飞,孙之荣.蛋白质分子结构[M].北京:清华大学出版社,1999.
[3] 吴琳琳,徐硕.基于SVM的蛋白质二级结构预测[J].生物信息学,2010,8(3):187-190.
[4] 赵国屏等,生物信息学[M].北京:科学出版杜,2002.
[5] 张海霞,唐焕文,张立震等.蛋白质二级结果预测方法的评价[J].计算机与应用化
学,2003,20(6):735-740.
[6] 王鹏良,江寿平,来鲁华等.蛋白质二级结构预测的综合分析[J].物理化学学
报,1990,6(6):686-692.
[7] Jones DT. Protein secondary structure prediction based on position-specific scoring
matrices[J]. J Mol Biol, 1999,292(2):195-202.
[8] LJ McGuffin,K Bryson,DT Jones. The PSIPRED protein structure prediction
sever[J].Bioinformatics,2000,16(4):404-405.
[9] 李元乐,陶兰.基于小波核支持向量机的蛋白质二级结构预测[J].深圳大学学报理工
版,2006,23(2):117-121.
[10] Burkhard Rost. Protein secondary structure prediction continues to rise[J].Journal of
Structure Biology,2001,134:204-218.
[11] 梁刚锋,谢涛,王勇献.蛋白质二级结构预测的系统误差[J].生物信息学,2005,4(3):
175-177.。