蛋白质相互作用预测方法研究进展
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蛋白质相互作用预测方法研究进展摘要:蛋白质间的相互作用是细胞实现功能的基础,其研究对疾病的诊断和治疗有着重要意义。蛋白质相互作用预测方法有实验方法和计算方法两大类。作为实验方法的有效补充和验证工具,计算方法受到越来越多人的重视。本文主要分析了预测蛋白质相互作用的主要方法及其优缺点,对当前需待解决的相关问题进行了阐述。
关键词:蛋白质相互作用预测;实验方法;计算方法
中图分类号:q51 文献标识码:a 文章编号:1007-9599 (2012)18-0000-02
1 引言
蛋白质间的相互作用是细胞实现功能的基础,几乎在所有的细胞活动中,蛋白质相互作用(ppis,protein-protein interactions)都发挥着关键性的作用,例如dna合成、生命代谢过程、产物分泌、病毒感染等[1]。任何一种疾病在表现出可察觉症状之前,体内就已经有一些蛋白质发生了变化,进而引起了相互作用关系、生物信号传递等变化。如果能够掌握蛋白质在不同时间、空间和不同环境中的相互作用,就会帮助我们了解这些蛋白质的功能,进而了解许多生命活动的分子机制,从而有利于疾病的诊断和病理的研究[2]。
总的来说,ppis预测方法有两大类:实验方法和计算方法。
2 预测ppis的实验方法
预测ppis的实验方法有两类:小规模实验和大规模实验。传统的小规模实验准确率高、目的性强,但是一次只能检测一对或几对蛋白质之间的相互作用。大规模实验一次可以获得很多个相互作用对,然而,实验设计条件要求较高,其所检测出的相互作用数据间的重合度又非常低,得到的蛋白质相互作用存在大量的假阳性和假阴性数据,并且并不是所有的ppis都能被实验方法所鉴定[3]。
3 预测ppis的计算方法
由于传统的实验方法耗时耗力,且检测出来的ppis数据都有着不同程度上的“假阳性”和“假阴性”特征,使结果分析起来非常困难,因此,研究人员开始转而寻求计算方法预测ppis:
3.1 基于基因组信息的方法
有三种典型方法是基于基因组信息的:系统发育谱、基因邻接和基因融合。但这种方法不能判断功能相关的蛋白是否“物理”上直接接触,准确性依赖于完成测序的基因组数量以及系统发育谱构建的可靠性,只适用于进化早期的结构简单的微生物,不适用于大多数生物都具有的蛋白质[4]。
3.2 基于进化信息的方法
这类方法基于“发生相互作用的蛋白质对有着共同进化的趋势”这一假设,也正因此,要同时考虑各个基因组中的相应蛋白质。
3.3 基于蛋白质结构的方法
结构决定功能,蛋白质所有的功能信息都蕴藏在其氨基酸排列中。此类方法都是从蛋白质的结构出发,使用从结构中所获得的信
息来研究ppis。然而,此类方法的一个难点是怎样选取合适的理化特征以及对蛋白质序列的矢量化,另外,现有的绝大多数基于结构的方法都没考虑到相同结构域复制和不同结构域组合对ppis的影响。
3.4 基于氨基酸序列的方法
这类方法基于蛋白质序列结合其理化属性进行预测。然而,由于氨基酸序列的理化属性较多,编码方式多种多样,如何提取氨基酸的特征并对编码方式进行有效整合以提高预测精度,一直以来是个难题。
3.5 基于自然语言处理的文献挖掘方法
目前,在生物医学的相关文献中,存在大量的ppis数据,这些数据促进了文献挖掘ppis方法的发展。然而,文本的复杂性和人类语言的不确定性使得处理的数据具有很高的噪声。同时,大部分出版刊物的全文是需付费的,这使得对数据的挖掘仅仅停留在扫描文献数据库中的标题和摘要上面。另外,基因名和蛋白质名称存在同义或多义的情况也使处理问题的难度增大。[5]
3.6 机器学习方法
机器学习方法包括核方法、svm、随机森林等。核方法通过坐标变换进行重新编码,能够高效率地分析数据之间的非线性关系,并避免过度拟合。svm能较好解决非线性、高维数、小样本和局部最小等问题。随机森林是一个由许多单棵分类回归树组合而成的组合分类器算法,适用于数据集中存在大量未知特征,当数据集中存在
大量的噪音时同样可以取得很好的预测性能。用机器学习方法预测ppis是当前的研究热点之一。
3.7 基于ppis网络的方法
基于蛋白质的序列同源性、拓扑结构及网络motif等,从网络层次考虑蛋白质之间的相互作用,通过网络比较[6]]等方法来预测ppis是目前比较新颖的一个研究方向。
目前,对于ppis的研究,计算方法在一定程度上取得了成功。但是计算方法与实验方法都存在同样的问题:第一、不同的计算方法对相同的数据对象评估结果不一致,有时差别甚至更大;第二、相同的计算方法对不同的数据对象的预测准确率不稳定;第三、两类方法所预测的结果都具有较高的假阳性和假阴性。因此,研发新的计算方法、分析和提取关键的蛋白质序列信息和改进目前的算法就成为当前ppis研究的重中之重[3]。
4 讨论与结束语
目前,ppis预测特别是利用计算方法预测ppis仍然是一个相对新的领域。虽然在这个领域的一些子问题己经被深入透彻地研究了很多,然而,目前ppis的研究还远没有达到系统地理解生命现象的要求,并且高通量的检测技术、预测方法及ppis数据都还没有精确标准,还有很多重要的问题有待于解决:
4.1 预测物种之间的ppis。研究物种之间的ppis,例如病毒和宿主蛋白质之间的相互作用有着一定的应用价值。在预测过程中,同样存在如数据噪声、特征提取、异源数据整合等问题,因此,如
何发展具有高鲁棒性的计算方法来鉴定可靠性高的ppis仍然是一个很有挑战性的问题。
4.2 研究与疾病相关的ppis。任何一种疾病在表现出可察觉症状之前,体内就已经有一些蛋白质发生了变化。用计算方法确定致病蛋白的相互作用关系有利于疾病(比如癌症、早老性痴呆等人类重大疾病)的诊断和病理的研究,推动生物医学更快的发展。
4.3 有效整合ppis数据。目前,存大大量的与ppis相关的数据库,如dip、mips、pdb等等,数据的大幅增加无疑将会提高其预测精度。然而,由于不同技术得到的ppis数据之间的覆盖率不同,为提供一个相对准确、较为可靠的数据源,需要把不同来源的ppis数据进行有效整合、优化,以建立一个针对各种数据源的整合模型。
4.4 集成学习方法的研究
现在,大多数ppis预测采用的都是单分类器,然而,单分类器的性能毕竟是有限的,所得数据精确度有待提高,我们可以考虑用多分类器,利用集成学习方法来进行ppis预测。
4.5 蛋白质编码方法的研究
蛋白质的编码方法对最终的预测性能具有很大的影响,如何对蛋白质提取有效特征并进行有效编码,一直是ppis预测的难点。随着人们对蛋白质认识的深入,利用其它特征参数对蛋白质进行特征编码己成为可能,可以将蛋白质的序列、结构、理化性质等特征结合起来,以提高相互作用预测的性能。