基于分段氨基酸组成成分的蛋白质相互作用预测
生物信息学研究中的蛋白质相互作用预测方法
生物信息学研究中的蛋白质相互作用预测方法蛋白质是生物体中最基本的结构和功能单位,其相互作用对于维持生物体内的各种生理过程至关重要。
蛋白质相互作用预测方法在生物信息学研究中发挥着重要的作用。
本文将介绍一些常见的蛋白质相互作用预测方法,并讨论它们的原理及应用。
一、亲和性纯化方法亲和性纯化方法通过利用蛋白质与特定配体(例如抗体、亲和素等)之间的非共价相互作用来实现蛋白质的纯化。
这种方法在确定特定蛋白质与其他分子的相互作用时非常有用。
此方法的原理是利用具有高度专一性的亲和素与目标蛋白质结合,然后通过洗脱操作从其它蛋白质中获取目标蛋白质。
这种方法广泛应用于蛋白质互作网络构建、酶底物筛选等领域。
二、酵母双杂交酵母双杂交是目前最常用的蛋白质互作方法之一。
该方法利用了酵母细胞内的转录和活性酶元件,能够使两个蛋白质之间产生可观察的物理交互作用。
酵母双杂交法的基本原理是将两个待测蛋白质的互作结构域分别连接到酵母细胞内的两个半酵母转录激活因子。
蛋白质之间的相互作用将导致酵母细胞内的报告基因表达,从而用于互作的鉴定。
这种方法已被广泛应用于蛋白质互作网络的构建和疾病相关蛋白质的筛选。
三、蛋白质结构预测方法蛋白质结构预测是蛋白质相互作用预测的重要一环。
蛋白质结构预测方法通常基于蛋白质序列信息和已知蛋白质结构之间的关系。
其中,比较常见的方法包括:1. 同源建模:根据目标蛋白质与已知结构相似的蛋白质序列,利用结构比对算法,推测目标蛋白质的结构。
2. 从头建模:根据目标蛋白质的氨基酸序列,利用物理化学原理和计算模拟等方法,预测目标蛋白质的结构。
蛋白质结构预测方法的应用主要在于辅助预测蛋白质相互作用的结构域和界面。
四、机器学习方法随着大数据时代的到来,机器学习方法正在蛋白质相互作用预测中扮演越来越重要的角色。
这些方法利用已知的蛋白质结构、序列和功能信息,通过训练模型并对目标蛋白质进行预测,从而预测蛋白质之间的相互作用。
机器学习方法常用于蛋白质互作预测、酶底物预测和药物设计等领域。
蛋白质相互作用的预测方法
蛋白质相互作用的预测方法全文共四篇示例,供读者参考第一篇示例:蛋白质相互作用是生物体内细胞信号传递以及代谢调控的核心机制之一。
研究蛋白质相互作用对于理解生命活动的规律以及疾病的发生发展具有重要意义。
在过去的几十年里,科学家们提出了许多方法来预测蛋白质相互作用,其中包括生物物理学方法、生物信息学方法以及机器学习方法等。
在生物物理学方法中,双杂交技术是最常用的方法之一。
这是一种通过将感兴趣的两个蛋白质分子分别与酵母细胞的DNA结合,来判断它们是否有相互作用的技术。
双杂交技术可以大规模地筛选出潜在的蛋白质相互作用,但是其结果需要后续的验证。
生物信息学方法主要利用蛋白质的序列信息以及结构信息来预测蛋白质相互作用。
基于同源结构的方法通过比对蛋白质序列及结构来发现具有相似结构的蛋白质,从而提前推测它们可能具有相似的功能与相互作用关系。
还有一些基于蛋白质结构的模拟方法,如分子对接技术,通过计算两个蛋白质的结构与相互作用方式,来预测它们之间的相互作用模式。
近年来,随着人工智能技术的发展,机器学习方法在蛋白质相互作用预测领域也取得了一定的进展。
机器学习方法通过训练大量的蛋白质相互作用数据,来构建预测模型并对新数据进行预测。
支持向量机、神经网络以及随机森林等方法都被广泛应用于蛋白质相互作用的预测。
除了以上提到的方法外,一些综合方法也被提出来提高蛋白质相互作用预测的准确性。
将生物物理学方法和生物信息学方法相结合,可以综合利用蛋白质序列、结构以及相互作用信息来进行预测。
还有一些基于网络的方法,通过构建蛋白质相互作用网络,来分析蛋白质之间的关联性以及预测潜在的相互作用关系。
预测蛋白质相互作用是一个复杂的问题,需要多种方法的综合应用。
随着科学技术的不断进步,我们相信未来会有更多更准确的方法被提出来帮助我们更好地理解蛋白质相互作用的规律,从而为生命科学研究和药物研发提供更多的帮助。
第二篇示例:蛋白质相互作用是细胞内复杂生物过程中的一部分,它对于细胞的正常功能以及疾病的发生起到非常重要的作用。
蛋白质相互作用预测方法的研究
蛋白质相互作用预测方法的研究一、本文概述蛋白质是生命体系中的关键分子,它们在细胞的各种生命活动中发挥着至关重要的作用。
蛋白质之间的相互作用是许多生物过程的基础,如信号转导、基因表达、细胞代谢等。
因此,研究蛋白质相互作用对于理解生命的本质和疾病的发生机制具有重要意义。
然而,由于蛋白质相互作用的复杂性和多样性,准确预测蛋白质相互作用仍然是一个巨大的挑战。
本文旨在探讨和研究蛋白质相互作用预测方法的发展和应用。
我们将首先介绍蛋白质相互作用的基本概念和研究背景,阐述蛋白质相互作用预测的重要性和挑战性。
接着,我们将综述现有的蛋白质相互作用预测方法,包括基于基因组学、蛋白质组学、结构生物学等多种方法的原理和优缺点。
我们还将介绍近年来新兴的预测方法,如基于机器学习和深度学习的预测模型,以及它们在蛋白质相互作用预测中的应用和前景。
通过本文的综述和探讨,我们希望能够为蛋白质相互作用预测领域的研究者提供全面的参考和启示,推动蛋白质相互作用预测方法的不断发展和完善。
我们也期望这些方法能够在实际的生物医学研究中发挥更大的作用,为疾病诊断和治疗提供新的思路和方法。
二、蛋白质相互作用预测方法的分类蛋白质相互作用预测方法根据其所采用的技术和策略,可以大致分为以下几类:基于基因组学的方法:这类方法主要利用大规模基因组测序数据,通过比对不同物种或同一物种不同条件下的基因表达谱,来预测蛋白质间的相互作用。
例如,基因共表达分析、基因敲除或敲降后的表达变化等,都可以为蛋白质相互作用提供线索。
基于生物化学的方法:这类方法通过生物化学实验,如酵母双杂交、免疫共沉淀等,直接检测蛋白质间的物理相互作用。
这类方法具有较高的准确性和可靠性,但通常成本较高,且难以在大规模范围内进行。
基于计算生物学的方法:计算生物学方法主要依赖于计算机算法和数学模型,通过分析蛋白质的序列、结构和功能信息,预测其可能的相互作用伙伴。
例如,序列比对、蛋白质结构预测、网络模型构建等,都属于计算生物学方法的范畴。
基于序列的蛋白质相互作用预测方法研究
基于序列的蛋白质相互作用预测方法研究【摘要】:生物信息学研究生物数据的分析处理方法。
生物信息学的发展过程是分子生物学与计算机技术、数学、信息学和工程领域不断交叉与融合的过程。
分子生物学在分子层面关注生命活动的各种问题,对DNA,RNA和蛋白质的结构与功能以及生物分子之间相互作用的研究构成分子生物学的主要研究内容。
蛋白质是生命的物质基础,几乎参与了生命活动的全部过程。
蛋白质相互作用是指蛋白质分子之间的相互作用,绝大部分的蛋白质都是通过与其它的蛋白质相互作用来完成特定的功能。
蛋白质相互作用在许多细胞活动中扮演重要角色,如细胞周期控制、蛋白质折叠、转录、翻译以及翻译后修饰等。
研究蛋白质相互作用有助于增进对蛋白质功能的了解。
研究蛋白质相互作用的方法有两类:生物实验方法和计算方法。
目前人们提出了多种用于预测蛋白质相互作用的计算方法。
基于序列的蛋白质相互作用预测方法,由于不需要太多的先验知识,受到广泛关注。
本文主要研究从序列出发预测蛋白质相互作用的方法。
首先介绍了数据预处理方法,包括序列表示方法,特征选择方法以及数据集构造方法。
然后使用支持向量机作为学习模型,通过实验比较了影响蛋白质相互作用预测正确率的各种因素。
最后鉴于相互作用数据的不平衡性,使用粒度支持向量机处理蛋白质相互作用预测问题。
本文的实验结果对蛋白质相互作用的研究工作具有一定的参考价值。
【关键词】:蛋白质相互作用特征选择支持向量机不平衡分类【学位授予单位】:山西大学【学位级别】:硕士【学位授予年份】:2013【分类号】:Q51;TP181【目录】:中文摘要8-9ABSTRACT9-11第一章绪论11-231.1生物信息学简介11-131.2蛋白质相互作用13-191.2.1蛋白质简介13-161.2.2蛋白质相互作用16-171.2.3研究方法17-191.3研究现状19-201.4文章结构20-23第二章预处理方法23-372.1序列表示23-292.1.1三联体组合信息编码242.1.2自协方差编码24-262.1.3自相关描述符262.1.4分段局部描述符26-282.1.5氨基酸索引分布28-292.2特征选择292.3数据集构建29-342.3.1数据库简介30-312.3.2正样本抽取31-322.3.3负样本构造32-342.4数据集的平衡性34-352.5本章小结35-37第三章基于SVM预测蛋白质相互作用37-433.1SVM简介37-383.2实验结果38-423.2.1实验说明38-403.2.2结果分析40-423.3本章小结42-43第四章基于粒度SVM预测蛋白质相互作用43-474.1粒度SVM算法43-444.2实验结果44-454.2.1实验说明444.2.2结果分析44-454.3本章小结45-47第五章总结与展望47-49参考文献49-53攻读学位期间取得的研究成果53-55致谢55-57个人简况及联系方式57-61 本论文购买请联系页眉网站。
生物信息学中的蛋白质相互作用预测方法研究
生物信息学中的蛋白质相互作用预测方法研究蛋白质是生命体内最重要的功能分子之一,它们通过相互作用参与细胞内的许多生物过程,如信号转导、代谢途径和基因调控等。
因此,准确预测蛋白质之间的相互作用对于理解细胞功能和疾病机制具有重要意义。
生物信息学方法在此领域发挥了关键作用,下面将介绍一些常见的蛋白质相互作用预测方法以及它们的研究进展。
1. 基于结构的预测方法基于结构的预测方法使用蛋白质的三维结构信息来预测蛋白质之间的相互作用。
这些方法通常依赖于蛋白质结构的物理特性和互作界面的结构特征。
其中,蛋白质结构对接方法是最常用的一种预测方法。
它通过计算两个蛋白质结构在互作状态下的最佳配位方式来预测它们之间的相互作用。
此外,还有一些基于结构信息的机器学习方法,如支持向量机(SVM)和深度学习方法,可以利用已知的相互作用蛋白质的结构特征来预测未知蛋白质之间的相互作用。
2. 基于序列的预测方法基于序列的预测方法是一种简单而有效的蛋白质相互作用预测方法。
它利用蛋白质序列的保守性和功能域的序列模式来预测蛋白质之间的相互作用。
这些方法通常基于互作蛋白质的序列相似性和特征域之间的序列特征进行预测。
例如,通过比对蛋白质序列与已知相互作用蛋白质序列库中的序列相似性,可以预测出新的相互作用蛋白质对。
此外,还有一些基于序列特征的机器学习方法,如随机森林和神经网络模型,可以从大规模的蛋白质序列数据库中学习序列特征,预测未知蛋白质之间的相互作用。
3. 基于功能基因组学的预测方法基于功能基因组学的预测方法主要利用基因表达数据和蛋白质相互作用网络来预测蛋白质之间的相互作用。
这些方法认为在相同的生理条件下,参与相似生物过程的蛋白质可能存在相互作用关系。
因此,通过分析基因表达数据和蛋白质相互作用网络之间的关联性,可以预测出新的蛋白质相互作用关系。
此外,还有一些基于功能模块和通路注释的方法,可以根据参与相同功能模块或通路的蛋白质之间的相互作用来预测未知蛋白质之间的相互作用。
氨基酸结构序列研究与蛋白质功能预测分析
氨基酸结构序列研究与蛋白质功能预测分析在生物学研究中,了解蛋白质的结构和功能对于理解生命的基本原理具有重要意义。
而氨基酸结构序列的研究和蛋白质功能的预测分析则是了解蛋白质特性的关键步骤。
本文将介绍氨基酸结构序列研究和蛋白质功能预测分析的基本原理和方法。
首先,氨基酸结构序列研究是探索蛋白质结构和功能的重要手段之一。
蛋白质是由氨基酸残基连接而成的,不同的氨基酸序列会导致不同的蛋白质结构和功能。
因此,研究氨基酸结构序列可以帮助我们理解蛋白质的功能和机制。
氨基酸结构序列的研究涉及到多种技术和方法。
其中,序列比对是一种常用的技术,可以用来找出蛋白质序列中的共同特征。
序列比对可以通过计算和统计学方法来识别相似的氨基酸序列,并根据序列之间的相似性进行分类和分析。
另外,进化分析也是一种常用的方法,通过比较不同物种中的蛋白质序列,可以推断出蛋白质的功能和结构。
在蛋白质功能预测分析方面,有多种方法可供选择。
功能预测的目标是预测蛋白质的功能和结构,以帮助研究者更好地理解蛋白质的特性。
其中,序列激发区域的预测是一种常用的方法。
序列激发区域是指在特定条件下,蛋白质序列中具有重要功能的区域,例如结合位点或活性位点。
通过分析氨基酸序列,可以预测和标识出序列激发区域,从而推断蛋白质的功能。
另外,蛋白质二级结构的预测也是一种常见的功能预测方法。
蛋白质的二级结构是指蛋白质分子中氨基酸残基的排列方式。
通过分析氨基酸序列,可以预测蛋白质的二级结构,例如α-螺旋、β-折叠和无规卷曲等。
二级结构的预测可以帮助研究者了解蛋白质的结构和功能,为其进一步的研究提供基础。
此外,还有结构域的预测和功能域的预测等方法可用于蛋白质功能预测分析。
结构域是具有特定结构和功能的蛋白质区域,通过预测和分析结构域,可以推断蛋白质的功能和结构。
而功能域是具有特定功能的氨基酸序列区域,通过预测和分析功能域,可以预测蛋白质的功能。
总而言之,氨基酸结构序列研究和蛋白质功能预测分析是了解蛋白质特性的基本方法。
基于生物信息学的蛋白质相互作用网络分析与预测研究
基于生物信息学的蛋白质相互作用网络分析与预测研究生物信息学是一门揭示生命活动规律的新兴学科,通过对生物基因组序列的研究和分析,可以获取大量有价值的生物信息。
蛋白质是生物体中最基本的功能分子,蛋白质之间的相互作用对于生命活动的调控起着至关重要的作用。
因此,研究蛋白质相互作用网络的分析与预测,对于理解生命活动的本质和疾病的发生机制具有重要意义。
蛋白质相互作用网络是指蛋白质分子之间通过物理相互作用而形成的复杂网络结构。
在生物学中,蛋白质相互作用网络可以用来模拟和预测蛋白质功能和信号传递的调控过程。
通过对蛋白质相互作用网络的研究,可以发现蛋白质之间的关联关系,探索蛋白质功能的调控机制,并预测新的蛋白质相互作用对于疾病的诊断和治疗具有重要的价值。
在蛋白质相互作用网络的分析中,生物信息学起到了重要的作用。
首先,生物信息学可以通过分析蛋白质序列的相似性和结构域的保守性来预测蛋白质相互作用的潜在部位。
例如,可以通过比对蛋白质序列与已知蛋白质相互作用的数据库,来发现新的蛋白质相互作用对。
其次,生物信息学可以通过对蛋白质结构的预测和模拟,来研究蛋白质相互作用的机理和特点。
例如,可以利用分子模拟的方法来探索蛋白质相互作用的空间构象和结合亲和力等重要参数。
除了研究蛋白质相互作用网络的分析,生物信息学还可以用于预测蛋白质相互作用。
利用机器学习算法和统计模型,可以从大量的生物信息数据中挖掘出蛋白质相互作用的规律和模式。
例如,可以利用已知的蛋白质相互作用对训练机器学习模型,然后使用这些模型来预测新的蛋白质相互作用对。
此外,还可以利用系统生物学的方法,构建蛋白质相互作用网络的动态模型,并通过模拟和预测来研究蛋白质相互作用的变化和调控机制。
然而,要完善和提高蛋白质相互作用网络的分析和预测方法仍然面临一些挑战。
首先,蛋白质相互作用网络的数据量庞大,分析和挖掘这些数据需要强大的计算和存储资源。
此外,蛋白质相互作用的多样性和复杂性也给分析和预测带来了困难。
蛋白和氨基酸结合位点预测-定义说明解析
蛋白和氨基酸结合位点预测-概述说明以及解释1.引言1.1 概述:蛋白和氨基酸结合位点预测是生物信息学领域的重要研究内容之一。
通过准确地预测蛋白和氨基酸的结合位点,可以帮助科研人员理解蛋白质的功能及其在生物体内的作用机制。
同时,这也有助于药物设计和疾病治疗方面的应用。
因此,蛋白和氨基酸结合位点预测具有重要的科学研究和应用价值。
本文将深入探讨目前蛋白和氨基酸结合位点预测方法的现状和局限性,同时也会介绍一些新的研究方向和方法。
通过本文的阐述,希望读者能够对蛋白和氨基酸结合位点预测有更深入的了解,并为相关研究和应用提供一定的参考和借鉴。
1.2 文章结构文章结构部分的内容:本文将分为引言、正文和结论三个部分。
在引言部分,将包括概述、文章结构和目的三个小节,通过引言部分的阐述可以使读者对接下来的内容有一个清晰的认识和了解。
正文部分将包括蛋白和氨基酸结合位点的重要性、目前的蛋白和氨基酸结合位点预测方法以及新的蛋白和氨基酸结合位点预测方法的探索三个小节,通过对这些内容的深入探讨和分析,可以使读者对蛋白和氨基酸结合位点预测有更深入的了解。
在结论部分,将包括总结、展望和结论三个小节,通过结论部分的概括和展望可以使读者对整篇文章的内容有一个清晰的理解,并能够对未来的研究方向有一定的展望。
整篇文章结构清晰,内容连贯,逻辑严谨,希望读者能够从中获取到有益的信息和启发。
1.3 目的本文旨在探讨蛋白和氨基酸结合位点预测的重要性,并综述目前已有的预测方法。
同时,我们也将介绍一种新的蛋白和氨基酸结合位点预测方法,通过对比和分析与已有方法的差异和优势。
最终,我们旨在为蛋白和氨基酸结合位点预测领域的研究提供新的思路和方法,为相关领域的科研人员提供有益的参考和启发。
`请编写文章1.3 目的部分的内容2.正文2.1 蛋白和氨基酸结合位点的重要性蛋白和氨基酸结合位点是蛋白质和小分子之间相互作用的关键部位。
这种相互作用可以影响蛋白质的功能,稳定性和活性。
生物信息学中的蛋白质相互作用预测研究
生物信息学中的蛋白质相互作用预测研究生物信息学是一门涉及生物学、计算机科学和数学等多个学科的前沿科学,它利用计算机技术对生物学研究中的数据进行处理、分析和解释。
其中,蛋白质相互作用预测研究是生物信息学领域的一个重要方向。
蛋白质是生物体内最为重要的分子,它们能够参与到生物体内的各种生命活动中。
蛋白质相互作用是指两个或多个不同蛋白质之间的相互作用,并且这种相互作用通常会影响到蛋白质的结构、功能或在细胞内的定位。
因此,了解蛋白质相互作用的机制和特征对于理解生物体内的生命过程具有非常重要的意义。
传统上,研究人员通过实验手段来验证蛋白质相互作用。
这些方法通常是耗时耗力的,而且还可能需要一些之前已经知道的前提条件。
因此,生物信息学中的蛋白质相互作用预测研究就显得尤为重要了。
蛋白质相互作用预测方法主要分为基于序列的方法和基于结构的方法两类。
基于序列的方法主要是通过分析蛋白质的氨基酸序列,来推测其相互作用关系。
具体来说,这类方法通常会利用序列相似性、功能域和模体等信息来推断蛋白质相互作用。
不过,由于这类方法考虑的是蛋白质序列的共同点,因此可能会忽略蛋白质结构和动态变化等因素,从而导致预测结果的不准确性。
基于结构的方法则是利用已知的蛋白质结构,来推测其相互作用关系。
具体来说,这类方法通常会利用分子对接和分子动力学等技术,来预测蛋白质相互作用的结合方式和稳定性等因素。
由于这类方法考虑了蛋白质的三维结构和动态变化等因素,因此通常比基于序列的方法更加准确。
目前,生物信息学中的蛋白质相互作用预测研究还存在一些挑战和亟待解决的问题。
其中,最为突出的问题之一就是蛋白质相互作用预测的精度仍然不够高。
为了提高预测精度,研究人员正在探索新的数据表示方法和深度学习模型等技术,来提取更多的蛋白质结构和动态变化等信息,从而提高预测精度。
还有一个问题就是生物信息学中的蛋白质相互作用预测研究还需要更多的实验验证。
尽管生物信息学在预测蛋白质相互作用方面已经有了不少成果,但是这些预测结果还需要在实验中得到验证,才能更加可靠和准确。
如何利用生物大数据进行蛋白质相互作用预测
如何利用生物大数据进行蛋白质相互作用预测蛋白质是生物体中的重要分子,它们参与了许多关键的生物过程和功能。
蛋白质之间的相互作用对于理解生物体内的复杂网络和调控机制至关重要。
然而,实验室进行蛋白质相互作用预测的成本高昂且耗时,因此需要寻找其他方法来加快预测过程。
近年来,随着生物大数据的快速发展和大规模生物信息学数据库的建立,利用生物大数据进行蛋白质相互作用预测成为一个重要的研究领域。
通过分析大规模的基因组、蛋白质组和互作组学数据,可以揭示潜在的蛋白质相互作用网络,并预测蛋白质之间的相互作用。
下面将介绍几种利用生物大数据进行蛋白质相互作用预测的方法。
首先,结构基因组学方法是一种常用的蛋白质相互作用预测方法。
该方法通过分析蛋白质的结构信息,包括二级结构、三级结构和蛋白质结构域等,来推断蛋白质之间的相互作用。
例如,可以通过比对已知的蛋白质结构域库,如PFAM或CATH等,来预测蛋白质之间的相互作用。
此外,基于蛋白质结构的基因组学方法也可以根据蛋白质的相互作用模式,如接触区域和结合构象等,来推断蛋白质之间的相互作用。
其次,序列基因组学方法是另一种常用的蛋白质相互作用预测方法。
该方法通过分析蛋白质的序列信息,包括氨基酸序列和保守区域等,来推断蛋白质之间的相互作用。
例如,可以利用序列比对算法,如BLAST和PSI-BLAST等,来比较蛋白质序列的相似性,并通过相似性来预测蛋白质之间的相互作用。
此外,还有基于基因组学的方法,如拓扑相似性网络(TSN)和邻居相似性网络(NSN)。
这些方法基于大规模的基因组数据,如基因共表达和遗传之间的关联等,来推断蛋白质之间的相互作用。
例如,可以利用基因共表达网络来预测蛋白质之间的相互作用,因为相互作用的蛋白质通常在基因表达上有相似的模式。
除了以上方法,还有一些机器学习算法被应用于蛋白质相互作用预测。
这些算法通过训练和学习大规模的生物数据,如蛋白质序列、结构和功能等,来构建预测模型,并预测蛋白质之间的相互作用。
基于深度学习的蛋白质相互作用预测
基于深度学习的蛋白质相互作用预测蛋白质是组成生命机体的重要物质之一,其相互作用对于生命活动的调节和维持至关重要。
而蛋白质相互作用则是指两种或多种蛋白质分子之间的相互作用,它们通过特定的相互作用结构进行结合,从而实现多种生物学过程。
因此,准确预测蛋白质之间相互作用的能力对于诊断、治疗和新药研发都有很大的潜力。
传统的实验方法可以获得关于蛋白质相互作用的实验数据,但实验成本高昂,且实验过程中可能会出现偏差。
近年来,随着深度学习的兴起,越来越多的研究者开始将其应用于预测蛋白质之间的相互作用。
深度学习是一种机器学习技术,它基于神经网络模型,能够从大规模的数据中挖掘出有用的信息。
而在蛋白质相互作用预测中,深度学习可以通过学习蛋白质序列和结构之间的关系,进行相互作用预测。
具体来说,深度学习在蛋白质相互作用预测中,可依据各蛋白质的氨基酸序列建立神经网络。
在神经网络模型中,输入是两种蛋白质序列,而输出将给出它们是否存在相互作用。
在神经网络模型中,神经元彼此连接,以产生检测算法和预测结果。
随着深度学习技术的不断发展,越来越多的模型诞生并被用于蛋白质相互作用预测。
其中,基于复杂卷积神经网络的模型表现十分出色。
例如,研究团队通过训练这种卷积神经网络模型预测非同源蛋白质之间的相互作用,结果表明这种模型的表现要好于传统的序列比对算法等方法。
除了基于卷积神经网络的模型之外,在蛋白质相互作用中也有一些其他的深度学习模型。
例如,研究团队开发出一种名为DoriC 的神经网络模型,在深度残差网络架构中对蛋白质序列和结构的信息进行学习。
同样的,他们证明了这一模型比传统算法更加有效。
不仅如此,还有特定于小数据集深度学习框架,如Verial和Ding等人的工作所述。
它们都适用于实验数据有限的情况下,从而实现更加精确的相互作用预测。
然而,任何机器学习算法都不是完美的。
目前,深度学习在预测蛋白质相互作用时,还无法完美解决所有问题。
许多研究者也在持续地改进深度学习模型,以在蛋白质相互作用预测方面取得更好的结果。
蛋白质复杂和相互作用的预测技术
蛋白质复杂和相互作用的预测技术蛋白质是生命中的重要分子,细胞内几乎所有的化学反应都需要蛋白质的参与。
研究蛋白质的结构和相互作用对理解生命活动有着重要的意义。
然而,蛋白质的复杂性和多样性给研究带来了巨大的挑战。
为了了解蛋白质的结构和相互作用,科学家们开发了各种预测技术。
首先,我们来看看蛋白质的复杂性。
蛋白质的结构可以分为四个层次:一级结构、二级结构、三级结构和四级结构。
一级结构指的是蛋白质的氨基酸序列,二级结构指的是蛋白质中α螺旋和β折叠的形成,三级结构指的是蛋白质的立体结构,即蛋白质的折叠形态,四级结构则是由多个蛋白质子单位组成的整体结构。
蛋白质的复杂性不仅在于其结构的多层次性,还在于其结构的多样性。
同一种蛋白质可能会有多个不同的构象,这些构象可能会影响蛋白质的功能。
此外,不同蛋白质之间的结构差异更是千差万别,导致不同蛋白质的功能也大相径庭。
为了了解蛋白质的结构和相互作用,科学家们开发了各种预测技术。
其中,蛋白质的结构预测是最重要的一个研究方向。
近年来,随着计算机技术的快速发展,大规模计算和机器学习研究成为了当前蛋白质结构预测研究的主要方向。
其中,机器学习技术特别受到研究者们的青睐。
机器学习是人工智能的重要分支,其主要目的是让计算机通过学习来识别、模拟、预测人类分析任务中的模式和规律。
在蛋白质结构预测研究中,机器学习技术被广泛应用于蛋白质分类、折叠预测、配体结合位点预测等方面。
在蛋白质折叠预测方面,机器学习技术已经取得了一定的成果。
蛋白质折叠是指氨基酸链在热力学驱动下形成三维结构的过程。
该过程对于蛋白质结构和功能的研究具有重要的意义。
在过去的几十年里,科学家们已经开发了多种折叠预测方法。
一个著名的例子是分子动力学模拟。
但是,分子动力学模拟需要大量的时间和计算资源。
为了解决这个问题,研究者们开始使用机器学习技术预测蛋白质折叠。
其中,最常用的是神经网络方法。
神经网络是一种模仿人脑神经元联结的计算模型,可以通过学习来对不同的输入数据进行分类、识别等任务。
氨基酸序列分析在蛋白质结构预测中的应用
氨基酸序列分析在蛋白质结构预测中的应用蛋白质是生命体内最为重要的分子之一,它在维持生命活动中发挥着重要的作用。
因此,对蛋白质的结构和功能进行深入研究,对于揭示生命活动的机理,促进药物研发等都有着重要意义。
然而,通过实验手段研究蛋白质的结构和功能是一项费时费力的工作,因此人们一直在努力寻求更为有效的方法来进行蛋白质结构预测。
而氨基酸序列分析作为一种重要的方法已经在这方面发挥了重要的作用。
氨基酸序列是蛋白质结构和功能的基础,因此,对氨基酸序列进行分析可以为蛋白质结构和功能的预测提供重要信息。
基于氨基酸序列分析的蛋白质结构预测主要分为两类,即序列比对和序列模拟。
在序列比对方面,利用不同物种间非常接近的蛋白质序列和功能同源性的假设,通过比较不同生物的同源蛋白质序列,来推断未知蛋白质的结构和功能。
这种方法基于蛋白质序列的保守性来推断未知蛋白质的结构和功能。
这种方法的优点在于比较直观、有效,还可以对新蛋白质进行检验验证,但是该方法的一个缺陷是依赖于相关蛋白质的起源和进化关系,对于一些已知蛋白质的结构和功能不能找到足够的同源结构,这种方法就不再适用。
而对于序列模拟方面,目前较为常见的方法是利用蛋白质三维结构拓扑特征来建立蛋白质模型,再利用分子动力学或蒙特卡罗方法进行模拟。
由于大多数蛋白质的三维结构是由氨基酸序列直接决定的,因此,通过建立蛋白质模型,可以预测蛋白质的三维结构和功能。
目前这种方法是最为先进和精确的蛋白质结构预测方法之一,但是,其前提是需要建立结构模型,而这需要大量的实验数据和计算能力。
除了序列比对和序列模拟外,相信还有很多其他的方法和策略可以用来预测蛋白质的结构和功能,例如利用机器学习的方法建立简单的模型,或者利用大规模的实验数据来进行分析。
不过,这些方法与氨基酸序列的关系较为间接,有待于进一步研究和探索。
总的来说,氨基酸序列分析在蛋白质结构预测中的应用是非常重要的。
无论是序列比对还是序列模拟,都离不开氨基酸序列。
《基于结构信息和伪氨基酸组分信息预测抗凋亡蛋白质与促凋亡蛋白质》范文
《基于结构信息和伪氨基酸组分信息预测抗凋亡蛋白质与促凋亡蛋白质》篇一一、引言在细胞生物学和分子生物学领域,蛋白质的凋亡功能扮演着至关重要的角色。
抗凋亡蛋白质和促凋亡蛋白质的相互作用和平衡在维持细胞生命活动中起着关键作用。
因此,准确预测抗凋亡蛋白质与促凋亡蛋白质对于理解细胞生命过程以及治疗相关疾病具有重要意义。
本文将介绍一种基于结构信息和伪氨基酸组分信息来预测这两种蛋白质的新方法。
二、研究背景与目的随着生物信息学和计算生物学的发展,基于计算机的蛋白质预测技术已广泛应用于生命科学领域。
目前,预测蛋白质的功能主要通过分析其序列、结构以及与其他已知蛋白质的相似性等信息。
然而,对于抗凋亡和促凋亡蛋白质的预测,仅依靠这些信息往往难以达到较高的准确度。
因此,本研究旨在开发一种新的预测方法,结合结构信息和伪氨基酸组分信息来提高预测的准确性。
三、方法与数据1. 数据收集:首先,我们从公共数据库中收集了大量已知的抗凋亡和促凋亡蛋白质的序列信息。
同时,我们还收集了这些蛋白质的结构信息。
2. 伪氨基酸组分提取:我们使用特定的算法从蛋白质序列中提取伪氨基酸组分信息。
这些信息可以反映序列的物理化学性质和结构特征。
3. 结构信息提取:我们利用生物信息学软件和算法分析蛋白质的三维结构,提取出关键的结构信息。
4. 模型构建:我们结合提取的结构信息和伪氨基酸组分信息,使用机器学习算法构建预测模型。
5. 模型验证:我们使用独立的数据集对模型进行验证,评估模型的预测性能。
四、结果与讨论1. 结果:通过结合结构信息和伪氨基酸组分信息,我们构建的预测模型在抗凋亡蛋白质和促凋亡蛋白质的预测上取得了较高的准确率。
与传统的仅基于序列信息的预测方法相比,我们的方法在敏感性和特异性方面均有显著提高。
2. 讨论:我们的研究结果表明,结合结构信息和伪氨基酸组分信息可以有效地提高抗凋亡蛋白质和促凋亡蛋白质的预测准确性。
这主要是因为结构信息可以提供更详细的分子构象和相互作用信息,而伪氨基酸组分则可以反映序列的物理化学性质和功能特征。
《基于结构信息和伪氨基酸组分信息预测抗凋亡蛋白质与促凋亡蛋白质》范文
《基于结构信息和伪氨基酸组分信息预测抗凋亡蛋白质与促凋亡蛋白质》篇一一、引言在细胞生物学和分子生物学领域,蛋白质的凋亡调控机制一直是研究的热点。
抗凋亡蛋白质与促凋亡蛋白质之间的平衡是细胞维持生命活动的重要环节,二者相互拮抗又相互协作,对于细胞的存活与凋亡过程至关重要。
随着生物信息学和计算生物学的发展,基于结构信息和伪氨基酸组分信息预测抗凋亡与促凋亡蛋白质的方法逐渐成为研究的新趋势。
本文旨在探讨基于结构信息和伪氨基酸组分信息预测抗凋亡蛋白质与促凋亡蛋白质的方法,以期为相关研究提供参考。
二、结构信息在蛋白质预测中的应用结构信息是蛋白质功能预测的重要依据之一。
通过分析蛋白质的三维结构,可以了解其空间构象、折叠方式以及与其他分子的相互作用。
在抗凋亡与促凋亡蛋白质的预测中,结构信息的应用主要体现在以下几个方面:1. 结构相似性分析:通过比较目标蛋白质与已知的抗凋亡或促凋亡蛋白质的结构相似性,可以初步判断其可能的生物功能。
2. 结构域分析:分析蛋白质的结构域,了解其与凋亡相关的功能区域,如信号传导、受体结合等。
3. 动力学模拟:利用分子动力学模拟等方法,分析蛋白质的动态变化过程,了解其在细胞凋亡过程中的作用机制。
三、伪氨基酸组分信息在蛋白质预测中的应用伪氨基酸组分信息是一种基于氨基酸序列的预测方法,通过分析序列中的物理化学性质和进化信息来预测蛋白质的功能。
在抗凋亡与促凋亡蛋白质的预测中,伪氨基酸组分信息的应用主要体现在以下几个方面:1. 特征提取:根据氨基酸序列的物理化学性质和进化信息,提取出能够反映蛋白质特性的特征向量。
2. 机器学习:利用机器学习算法,如支持向量机、神经网络等,对特征向量进行训练和分类,以预测蛋白质的功能。
3. 分类与评估:通过对比已知的抗凋亡与促凋亡蛋白质的伪氨基酸组分信息,建立分类模型,并对模型进行评估和优化。
四、基于结构信息和伪氨基酸组分信息的综合预测方法综合利用结构信息和伪氨基酸组分信息进行抗凋亡与促凋亡蛋白质的预测,可以更全面地了解蛋白质的功能和作用机制。
基于序列的蛋白质相互作用预测方法研究的开题报告
基于序列的蛋白质相互作用预测方法研究的开题报告一、研究背景与意义蛋白质相互作用在细胞中发挥着至关重要的作用,如细胞信号传递、代谢调控、基因表达调控等均与蛋白质相互作用密不可分。
因此,对于蛋白质相互作用的研究对于生命科学领域有着重要的意义。
目前,通过实验研究可以得到蛋白质相互作用信息,但是实验成本高、周期长、效率低,因此发展有效的蛋白质相互作用预测方法具有重要的研究意义。
基于序列的蛋白质相互作用预测方法可以通过对蛋白质序列信息的分析与处理,预测蛋白质相互作用的可能性,不仅可以提高研究效率,而且可以为探究生命科学领域中蛋白质相互作用提供重要的理论基础。
二、研究现状与不足现有的蛋白质相互作用预测方法主要包括基于结构的方法和基于序列的方法。
基于结构的方法因需要经过大规模的蛋白质结构鉴定工作,因此存在数据不足、计算时间长等问题,而基于序列的方法具有数据充足、计算时间短等优势,具有较好的发展前景。
目前主要的基于序列的蛋白质相互作用预测方法包括基于机器学习的方法、基于进化信息的方法以及基于统计学模型的方法等,但是这些方法在预测精度和计算效率方面还存在一定的不足。
因此,如何提高基于序列的蛋白质相互作用预测方法的预测精度和计算效率,仍然需要进一步的研究。
三、研究目的和内容本研究的目的是开发一种高效、准确的基于序列的蛋白质相互作用预测方法,用于预测蛋白质相互作用,并为探究蛋白质相互作用在生命科学领域中的作用提供理论基础。
本研究将以序列信息为基础,探索建立适用于蛋白质相互作用预测的模型,具体内容包括:1. 确定特征集:根据蛋白质序列信息确定一系列特征,如氨基酸组成、结构域信息等,对其进行进一步筛选和优化,确定最终的特征集合。
2. 构建预测模型:根据已有数据,应用机器学习、统计学等方法,构建蛋白质相互作用预测模型,并使用交叉验证等方法验证模型的预测精度。
3. 优化模型:根据实验结果对模型进行优化,包括特征的再筛选以及模型的参数调整等,提高其预测精度和计算效率。
2009-基于改进伪氨基酸组成的蛋白质相互作用预测
收稿日期:2009205220基金项目:国家自然科学基金资助项目(60573065);山东省自然科学基金资助项目(Y 2007G 33)作者简介:许传轲(19842 ),男,硕士,主要研究方向为智能计算与生物信息学.Email :xuchuanke @ 3通讯作者:陈月辉(19642 ),男,教授,博士,主要研究方向为智能计算与生物信息学.Email :yhchen @ 文章编号:167129352(2009)0920017205基于改进伪氨基酸组成的蛋白质相互作用预测许传轲,陈月辉3,赵亚欧(济南大学信息科学与工程学院,山东济南250022)摘要:提出了一种新的基于改进的伪氨基酸组成特征模型与随机森林的蛋白质相互作用预测方法。
首先利用基于G eary 自相关函数的伪氨基酸组成特征模型,对与蛋白质相互作用相关的氨基酸属性进行评价,然后根据评价结果选择相关的属性整合到基于M inkowski 距离的伪氨基酸特征模型中,并使用随机森林作为分类器进行学习和预测,实验结果表明该方法相对于传统方法提高了正确率。
关键词:蛋白质相互作用;伪氨基酸组成;随机森林中图分类号:TP181 文献标志码:APrediction of protein 2protein interaction based onim proved pseudo amino acid com positionX U Chuan 2ke ,CHE N Y ue 2hui 3,ZH AO Y a 2ou(School of In formation Science and Engineering ,University of Jinan ,Jinan 250022,Shandong ,China )Abstract :A new prediction method for protein 2protein interaction (PPI )was proposed based on an im proved pseudo amino acid com position (PseAA )feature m odel and random forest.A new PseAA feature m odel based on the G eary autocorrelation function is used to evaluate amino acid properties related to PPI.Then according to the results of evaluation ,relevant properties are select 2ed to integrate together by another new PseAA feature m odel based on the M inkowski function.The random forest is adopted as classifier for learning and prediction.The results obtained in the experiment indicate that this method can im prove accuracy.K ey w ords :protein 2protein interaction ;pseudo amino acid com position ;random forest0 引言蛋白质相互作用在很多生化过程中起着主要作用,例如代谢过程,DNA 转录,信号传导等。
【别构】基于共进化的氨基酸相互作用分析推断蛋白质功能
【别构】基于共进化的氨基酸相互作用分析推断蛋白质功能2018年7月,来自芝加哥大学的Rama Ranganathan教授组在eLIFE上发表了题为“Coevolution-based inference of amino acid interactions underlying protein function”的文章,介绍了基于共进化的氨基酸相互作用分析来推断蛋白质的功能。
——简要介绍——蛋白质的基本生物学特性比如结构和功能特性,来源于氨基酸残基之间的能量相互作用的模式。
这些模式是定义蛋白质如何工作以及通过进化过程理解蛋白质起源的基础。
然而,推断这种模式非常困难。
目前有一些基于序列来推断这种模式的方法,但是缺少实验验证以及基准数据。
这篇文章发展了一种深度突变的技术-深度耦合扫描(Deep Coupling Scan,DCS),能够测量一个蛋白质家族的几个同源物中的几千个氨基酸对之间的耦合。
推断氨基酸残基之间相互作用模式的常用实验方法是热力学双突变体循环(图1A),通过研究那些位置的单突和双突的影响来探测蛋白质中两个残基之间的能量耦合。
但是这个方法有一定的局限性。
最近蛋白质大规模突变技术的进步提供了解决问题的新策略。
本文将DCS应用在PDZ domain家族的几个同源物上(图1B),α2螺旋是配体结合的主要位点(图1C)。
D和E这两张图显示的是实验测定的结合自由能的分布。
D图是α2螺旋上的单点突变,E图是几乎所有的双点突变。
这些数据构成了后面深入分析PDZ家族中保守热力学耦合的基础。
图1. PDZ结合口袋的深度耦合扫描——结果——实验测量了5个PDZ同系物中的α2螺旋上的所有残基在单突和双突情况下的能量耦合,实际收集了56694个双突变体循环数据。
对5个同系物做了平均以后就得到了图2。
每个子图表示的是α2螺旋上的每个残基对的突变耦合自由能的分布,但是是5个同系物平均以后的结果。
每个分布用单或双高斯来拟合,零耦合的位置由上面的实线和圆圈表示,群体加权的平均值由虚线表示。
蛋白和氨基酸结合位点预测
蛋白和氨基酸结合位点预测蛋白和氨基酸结合位点预测是生物信息学领域中的重要研究方向。
通过预测蛋白质序列中的氨基酸残基与其他分子相互作用的位置,可以揭示蛋白质的功能和结构。
这对于理解生物体内的生命活动以及疾病发生机制具有重要意义。
本文将从人类的视角来描述蛋白和氨基酸结合位点预测的相关内容。
蛋白质是生命体中最重要的分子之一,它们参与了几乎所有生物过程。
蛋白质的功能与其结构密切相关,而蛋白质的结构则由其氨基酸序列决定。
因此,研究蛋白质与氨基酸结合位点的预测对于理解蛋白质的功能至关重要。
蛋白质与氨基酸结合位点的预测是通过分析蛋白质序列和结构的特征来实现的。
研究人员通过收集大量已知的蛋白质-氨基酸结合位点的信息,将其作为训练集,利用机器学习算法来构建预测模型。
这些算法可以根据蛋白质序列的特征来预测其结合位点的位置。
蛋白质的氨基酸序列是决定其功能和结构的重要因素之一。
不同的氨基酸在蛋白质中扮演着不同的角色。
有些氨基酸具有亲疏水性,可以与其他分子形成氢键或疏水作用。
而有些氨基酸则具有电荷,可以与其他带电分子相互作用。
因此,通过分析氨基酸序列中的这些特征,可以预测出蛋白质的结合位点。
除了氨基酸序列外,蛋白质的结构也对其结合位点的预测起着重要作用。
蛋白质的结构可以通过实验方法如X射线晶体学或核磁共振等得到,也可以通过计算方法如蛋白质结构预测软件进行预测。
通过分析蛋白质的结构特征,如二级结构和空间构象等,可以进一步提高结合位点的预测准确性。
蛋白质和氨基酸结合位点预测的研究不仅可以帮助我们理解蛋白质的功能和结构,还可以为药物设计和疾病治疗提供重要的依据。
许多药物的作用机制都与蛋白质的结合有关,因此,通过预测蛋白质的结合位点,可以为药物的设计和优化提供指导。
蛋白质和氨基酸结合位点预测是一项重要的研究方向,它可以帮助我们理解蛋白质的功能和结构,为药物设计和疾病治疗提供重要的依据。
通过分析蛋白质序列和结构的特征,可以预测蛋白质与其他分子相互作用的位置。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不同的研究对象,可通过试验选取。本文选取 M=3,其预测结果较好。
Table 1 Results (in percentage) of segmented amino acid composition with support vector machine in 10CV test
Test number
数[13]。Aloy 和 Russel[14]基于蛋白质三维结构对公认 的相互作用进行建模;Deng 等人[15]利用最大似然 估计来推断与已知蛋白质作用一致的相互作用区 域;Han 等人[16]提出基于域 - 域相互作用的蛋白质 相互作用预测系统,取得了较好效果。然而,这些 方法需要基因信息和蛋白质空间结构信息。为此, Bock 和 Gough[17]提出了从蛋白质序列出发预测蛋 白 质 作用 , Guo [18] 提 出 用 相关 函 数 表 示 蛋 白 质 序 列,基于支持向量机预测蛋白质作用,收到了较好 的效果。文献[17,18]从整条序列出发表示蛋白质, 而蛋白质在二级结构上一般由 琢 螺旋、茁 折叠片和 无规卷曲组成,有些区域为 琢 螺旋区域,有些区 域为 茁 折叠片;另一方面蛋白质在发生相互作用 时,仅有一部分氨基酸在空间上接触,因而蛋白质 序列应该有局部特征信息,也就是说蛋白质的二级 结构影响蛋白质间的相互作用[19]。鉴于此,本文构 建蛋白质相互作用数据库,从蛋白质序列出发,基 于我们以前提出的蛋白质序列分段思想,提出分段 氨基酸组成成分方法表示蛋白质序列,应用支持向 量机预测蛋白质相互作用。
收稿日期:2009-04-27 基金项目:国家自然科学基金项目(60775012,60634030),西北工 业大学科技创新项目(KC02) 通讯作者:张绍武,电话:(029)88431308, E-mail:zhangsw@
第4期
基于分段氨基酸组成成分的蛋白质相互作用预测
283
[c1k,,mj …
c
k ,j i,m
…
c ] k,j T 20,m
表示第
k
个蛋白质子链对中第
j 条子链序列 pk,j 的第 m 段的氨基酸组成成分, c
k ,j i,m
如下定义,
ck,j i,m
=p
k ,j i,m
/Lmj
,
m=1,2,…,M,i=1,…,20,j =1,2
(2)
这里,
p
k ,j i,m
M
Sn
1
85.41
2
85.48
3
86.11
4
85.53
5
83.63
6
82.01
Sp 82.93 85.89 86.31 86.42 86.90 86.82
Q 83.90 85.71 86.21 86.04 85.50 84.77
2.3 与现有其它方法对比 为验证分段氨基组成成分的有效性,本文采用
文献[18]构建的数据库,与文献[18]的自相关函数 特征提取方法进行比较。
文献[18]在验证其算法有效性时,从数据库中 分别随机抽取 3/5 的正、负样本构成训练集 (7130 对),剩余 2/5 的正、负样本作为测试集 (4576
对),同时为了测试算法的鲁棒性,随机选取五次, 分别进行预测。为了便于与文献[18]的方法比较, 本文按照文献[18]的方法选取训练集和测试集,同 样随机选取五次,构成五个数据集,其实验结果对 比如表 3 所示。
蛋白质相互作用研究方法大致分为两类:生物 实验方法和计算预测方法。实验方法主要有酵母双 杂交系统[1,2]、质谱技术[3,4]、蛋白质芯片[5]等,但随 着基因和蛋白质数据的高速增长,这些实验方法的 局限性越来越明显,不仅耗时耗力、成本高,而且 实验准确性也受到偶然性和实验条件等因素影响, 所以发展有效的计算方法预测蛋白质相互作用极其 重要。
近年来,利用计算方法预测蛋白质相互作用取 得了较大进展。为了预测新的蛋白质相互作用对, 大多数计算方法都尝试利用事先由实验得来的相互 作用信息[6]。整合基因信息的预测方法就利用了完 整基因序列中的信息,比如系统发育谱 (phylogenetic profile)[7,8]、 基 因 邻 接 [9]、 基 因 融 合[10,11]等,另外也有人用蛋白质之间进化关系来预 测 蛋 白 质 作用 , 包 括 相 关 变 异 、 [12] 相 关 进 化 系
SA A Ck,j=扇缮设 设 设c…1k,,1j 墒设 设 设ck2,0j,1
… … …
c k ,j 1,m
ck,j i,m
ck,j 20,m
… … …
c k ,j 1,M
…
伤商设 设 设
ck,j 20,M
赏设 设 设20伊M
(1)
其中,M 表示分段的段数,k 表示蛋白质子链对
编 号 , j 表 示 子 链 对 中 子 链 编 号 ( j=1,2) ,
用蛋白质对,剩余的蛋白质子链对为非相互作用蛋
白质对,即负样本集,例如某一蛋白质中有 A、
B、C、D 四条链,其中 AB、AC、BD 发生相互作
用,则将 AD、BC、BD 视为蛋白质非相互作用
对;
2) 样本集中任一条链的氨基酸序列长度大于 50;
3) 样本集中任意蛋白质子链对间的序列一致 性 (identity) 小于 40%;
测蛋白质 - 蛋白质相互作用,其特征向量可能捕获 了蛋白质的二级结构信息。
2.2 分段段数对分类结果的影响 本文还研究了分段段数对预测结果的影响,
10CV 检验下,不同分段段数 M 的氨基酸组成成分 的预测结果见表 2。
从表 2 可以看出,分段段数 M 对预测结果有
284
生物物理学报
2009年
一定的影响,预测精度随分段段数 M 的变化呈波 动趋势,因而有一个最佳 M 值的选取问题,针对
生物物理学报 第二十五卷 第四期 二九年八月 ACTA BIOPHYSICA SINICA Vol.25 No.4 Aug. 2009
基于分段氨基酸组成成分的蛋白质相互作用预测
罗 丽, 张绍武, 陈 伟, 潘 泉
(西北工业大学自动化学院,西安 710072)
摘要:蛋白质相互作用研究有助于揭示生命过程的许多本质问题,也有助于疾病预防、诊断,对药物研制具 有重要的参考价值。文章首先构建出蛋白质作用数据库,提出分段氨基酸组成成分特征提取方法来预测蛋白质相 互作用。10CV 检验下,基于支持向量机的 3 段氨基酸组成成分特征提取方法的预测总精度为 86.2%,比传统的 氨基酸组成成分方法提高 2.31 个百分点;采用 Guo 的数据库和检验方法,3 段氨基酸组成成分特征提取方法的预 测总精度为 90.11%,比 Guo 的自相关函数特征提取方法提高 2.75 个百分点,从而表明分段氨基酸组成成分特征 提取方法可有效地应用于蛋白质相互作用预测。
Table 3 Performance comparisons (in percentage) of SAAC and Guo's approach
Random data set 1
Sn 88.17
SAAC (M=3) Sp
91.59
Q 90.04
Sn 90.87
Guo's method[18]
Sp 83.28
4) 由于负样本数大于正样本数,在负样本集 中随机抽取与正样本数相同的样本构成非作用蛋白
质子链对集。
于是,构建的数据库共有 13020 个样本,其中
蛋白质作用子链对和蛋白质非相互作用子链对各有
6510 个。
1.2 分段氨基酸组成成分特征提取方法 基于以前我们提出的蛋白质序列分段思
Hale Waihona Puke 想[20~22],先将第 k 个蛋白质子链对中的一条蛋白质 序列 pk,j 分成 M 段,然后计算每一段中 20 种氨基 酸在该段序列中所占的百分比。因此序列 pk,j 就可 以用下列公式表示:
从表 3 可以看到,采用本文算法预测结果好于 Guo 的 方 法 , 其 平 均 预 测 总 精 度 比 Guo 提 高 2.75%,且偏差小于 Guo 的方法,说明我们的分段 氨基酸组成成分特征提取方法对蛋白质作用预测是 有效的。Guo 基于氨基酸的物化特性,采用自相关 函数特征提取方法预测蛋白质作用,其自相关函数 特征向量不仅包含氨基酸序列的全局信息,且包含 氨基酸的物化及序列的顺序信息,而分段氨基酸组 成成分特征向量仅包含序列的局部统计信息,若基 于分段思想,引入氨基酸的物化信息及序列的顺序 信息构成分段伪氨基酸组成成分特征向量表示蛋白 质作用子链对,预测蛋白质作用可能会收到更好的 效果,这也将是我们下一步要研究的内容。
表示氨基酸
ai
在
p k,j
序列的第
m
段出现
的次数,Lmj 表示序列 pk,j 第 m 段序列的长度。
对第 k 个蛋白质子链对,其分段氨基酸组成成 分特征提取方法 (sequence-segmented amino acid
composition,SAAC) 提取的特征向 量可 用式 (3)
表示:
SA A Ck=[SA A Ck,1,SA A Ck,2]
(3)
其中,SA A Ck,1,SA A Ck,2 分别表示第 k 个蛋白质子链
对中第 1、2 两条链的分段氨基酸组成成分。
1.3 系统评估
本文采用敏感性 (Sn)、特异性 (Sp) 和预测总 精度 (Q) 评估分类系统预测性能。三个参数定义
如下:
Sn=
TP TP垣FN
(4)
Sp=
TP TP垣FP
(5)
1 数据库与方法
1.1 数据库 先从 .tr/prism/ 上搜集相
互作用蛋白质对名称,然后在 PDB 数据库中找到
这些相互作用蛋白质对所对应的所有蛋白质子链,
并根据以下规则构建蛋白质相互作用数据库: