蛋白质结构预测方法综述
蛋白质定位预测方法综述及比较分析
蛋白质定位预测方法综述及比较分析引言:蛋白质是细胞中最重要的生物大分子之一,其功能与其所处的亚细胞定位密切相关。
准确预测蛋白质定位是理解蛋白质功能的重要一环。
随着计算机科学和生物学的快速发展,越来越多的蛋白质定位预测方法被提出。
本文将对常见的蛋白质定位预测方法进行综述和比较分析,以期为进一步研究提供参考。
一、蛋白质定位预测的重要性蛋白质在细胞内发挥特定的功能,其定位信息对于理解和研究蛋白质功能至关重要。
准确预测蛋白质的定位可以为进一步研究蛋白质的功能和相互作用提供指导。
二、蛋白质定位预测方法的分类1. 基于氨基酸序列的方法这种方法根据蛋白质的氨基酸序列进行预测。
其中,物化性质(如蛋白质溶解性、亲水性等)、序列模式(如信号肽、跨膜蛋白等)及机器学习算法(如隐马尔科夫模型、支持向量机等)是常用的预测依据。
2. 基于蛋白质相似性的方法这种方法通过比对已知定位的蛋白质序列和待预测的蛋白质序列的相似性来预测其定位。
常用的方法有同源比对、核酸水平的序列相似性等。
3. 基于蛋白质结构的方法这种方法通过预测蛋白质的三维结构来预测其定位。
常见的方法有蛋白质结构模拟、蛋白质结构域预测等。
三、常见蛋白质定位预测方法的综述与分析1. 密集神经网络(DNN)方法DNN方法利用神经网络模型和大量的训练数据来预测蛋白质的定位。
该方法具有较高的准确性和可靠性,但需要大量的训练数据和计算资源。
2. 支持向量机(SVM)方法SVM方法利用训练集中已知定位的蛋白质特征,建立分类模型来预测待测蛋白质的定位。
该方法较为简单,但需要手动提取特征。
3. 隐马尔科夫模型(HMM)方法HMM方法通过使用隐马尔科夫模型对序列数据进行建模,预测蛋白质的定位。
该方法能够捕捉到序列中的潜在模式,但对训练数据的依赖较大。
四、基于机器学习的蛋白质定位预测方法比较分析1. 准确性比较DNN方法在大规模训练数据和计算资源的支持下,具有较高的准确性。
SVM方法相对简单,准确性较低。
生物信息学中的蛋白质结构预测方法
生物信息学中的蛋白质结构预测方法蛋白质是生命体中重要的基本组成部分之一,它们的结构决定了它们的功能和相互作用方式。
然而,实验方法较为耗时且成本较高,因此,生物信息学中的蛋白质结构预测方法的发展对于研究人员来说具有重要意义。
本文将介绍几种常见的蛋白质结构预测方法。
1. 基于序列比对的方法基于序列比对的方法是最常用的蛋白质结构预测方法之一。
它通过将待预测蛋白质的序列与已知结构的蛋白质序列进行比对,并利用相似区域的结构信息来预测待预测蛋白质的结构。
这种方法的优势在于它可以快速预测蛋白质的结构,并且适用于大规模分析。
然而,由于序列比对的限制,这种方法的结构预测准确性较低。
2. 基于模板的方法基于模板的方法是一种常用的蛋白质结构预测方法。
它利用先前已知的蛋白质结构的模板,将待预测蛋白质序列与模板进行比对,并通过从模板中提取结构信息来预测待预测蛋白质的结构。
这种方法在蛋白质结构预测中具有较高的准确性,尤其是在与已知结构相似的蛋白质上。
然而,对于没有已知结构模板的蛋白质,这种方法就无法有效预测。
3. 蛋白质折叠机制方法蛋白质折叠机制方法是一种基于蛋白质的物理和化学性质来预测蛋白质结构的方法。
它通过分析蛋白质序列中氨基酸的相互作用和构象稳定性来推断蛋白质的结构。
这种方法能够提供相对准确的蛋白质结构预测,但由于计算复杂性和需要大量计算资源,使用该方法进行结构预测较为困难。
4. 基于机器学习的方法基于机器学习的方法是近年来发展起来的一种蛋白质结构预测方法。
它利用已知的蛋白质结构数据建立模型,通过学习这些模型来预测新的蛋白质结构。
这种方法可以快速预测蛋白质的结构,并且在一定程度上提高了准确性。
然而,由于模型的训练和参数调整等问题,该方法仍然面临挑战。
除了上述提到的方法,还有一些其他的蛋白质结构预测方法,如基于演化信息的方法和基于物理力学模拟的方法等。
这些方法不同于传统的结构预测方法,针对不同的蛋白质结构预测问题具有独特的优势。
蛋白质结构预测的算法及其评价
蛋白质结构预测的算法及其评价蛋白质是生命体最基本的构成因素之一,通过研究蛋白质结构,可以深入了解生命的本质。
然而,在实验室中对蛋白质的研究成本十分昂贵,不仅需要大量的时间和人力,同时还可能因样本数量和质量的不足而导致结果不准确。
在此背景下,蛋白质结构预测的算法应运而生。
一、蛋白质结构的预测蛋白质结构预测是指通过计算机模拟、统计预测等方法,对蛋白质的结构进行推测。
在蛋白质研究中,结构预测是非常重要的一研究方向。
它可以在一定程度上帮助预测一个蛋白质的功能、化学性质等,并深入了解生命体系的本质。
根据计算方法的不同,目前可用的蛋白质结构预测算法主要有以下几种。
1.模板比对法模板比对法是目前最为常用的蛋白质结构预测方法之一,其核心理念是参照已知的蛋白质结构,利用比对的方法来预测目标蛋白的结构。
该方法较为准确,且时间上相对较短,最为重要的是其通用性较高,几乎适用于所有不同的蛋白质。
2.物理模型法物理模型法是另一种蛋白质结构预测的算法,它基于蛋白质分子的物理特性,通过数学模拟来预测目标蛋白的结构。
与模板比对法不同,物理模型法不依赖于已知的结构数据。
但该方法因其复杂度极高,对计算机硬件的资源要求也非常高,目前还需要进一步的改进。
3.二级结构预测法二级结构预测法是另一种目前被广泛应用的蛋白质结构预测方法。
它是一种基于蛋白质中氨基酸序列的预测方法,通过对氨基酸的特性进行分析,预测蛋白质的二级结构,再根据二级结构推算出三维空间的结构。
该方法在研究中被广泛应用,尤其是在药物研发上,但是存在准确性较低的问题。
二、评价蛋白质结构预测算法的标准对于蛋白质结构预测算法的评价标准,世界卫生组织以及美国生物技术学会提出了较为严格的标准,以下为其详解。
1. 准确性准确性是评价蛋白质结构预测算法的最基本和最重要的标准,它包括了预测结构与实验测量结构的相似程度、对各种蛋白质的适用性等指标。
一般来说,准确性越高,预测的结果越可靠。
2. 规模评价蛋白质结构预测算法的规模,包括其适用范围、预测样本的数量以及计算机处理的时间等指标。
蛋白质结构预测方法综述
蛋白质结构预测方法综述蛋白质是生命体内重要的基本组成部分,它们在维持生物体正常生理功能和参与生物化学反应中起着至关重要的作用。
蛋白质的结构决定了其功能和性质,因此对蛋白质结构的预测具有重要的科学意义。
随着计算机和生物技术的发展,人们已经开发出了多种蛋白质结构预测方法。
蛋白质结构预测方法可分为实验和计算两类。
实验方法包括X射线晶体学、核磁共振、电子显微镜等技术,这些方法以高精度获得蛋白质的三维结构,但实验过程复杂、昂贵且时间消耗大。
相比之下,计算方法具有更高的效率和经济性,被广泛应用。
在计算方法中,蛋白质结构预测的主要方法有以下几种:序列比对、模板建模、折叠动力学模拟和基于物理的方法。
序列比对是最常用的蛋白质结构预测方法之一。
通过将待预测蛋白质的氨基酸序列与已知结构的蛋白质进行比对,找到相似的蛋白质作为模板,从而预测目标蛋白质的结构。
序列比对方法包括本地比对和全局比对,其中本地比对常用于预测蛋白质的区域结构。
模板建模是一种基于已知蛋白质结构的预测方法,通过将目标蛋白质序列与已知结构的模板进行比对,并利用比对结果进行结构模型的构建。
模板建模方法包括同源建模、远源建模和蛋白质片段拼接等。
同源建模是指在达到一定相似度的情况下,利用已知结构的同源蛋白质作为模板进行结构预测。
而远源建模则是指在序列相似度较低甚至没有同源关系的情况下,利用构建的模型进行结构预测。
折叠动力学模拟是模拟蛋白质在原子级别上的折叠过程,根据蛋白质上的势能函数和动力学方程,利用计算机对蛋白质进行模拟,以寻找稳定的三维结构。
折叠动力学模拟方法包括分子动力学模拟和蒙特卡洛模拟,它们模拟蛋白质在不同时间尺度上的动态行为。
基于物理的方法是利用物理原理来预测蛋白质结构的方法。
这些方法包括能量函数优化、碰撞互助搜索和充分采样等。
能量函数优化方法通过最小化蛋白质分子力场能量函数来预测蛋白质的结构。
碰撞互助搜索方法基于蛋白质分子力场和碰撞算法来搜索蛋白质的结构。
蛋白质结构预测方法
蛋白质结构预测方法随着生物科技和计算机技术的快速发展,蛋白质结构预测方法已经成为当今生物学中的热门话题。
蛋白质是生命体中最基本的一种生物大分子,对于许多生命活动和疾病的研究都具有重要的作用。
然而,了解蛋白质的结构对于研究其功能和相互作用至关重要。
本文将介绍一些常见的蛋白质结构预测方法。
一、亚氨酸序列分析法亚氨酸序列分析法是一种基于蛋白质多肽链上各个氨基酸的组成及其排列顺序来预测蛋白质空间结构的方法。
这种方法在理论上已经被证明是可行和准确的。
然而,由于该方法在预测过程中可能会受到亚氨酸序列中缺失信息的影响,因此需要借助其他方法进行补充。
二、同源建模法同源建模法是一种比较广泛使用的蛋白质结构预测方法。
该方法依据细胞中已知结构的蛋白质对于待预测蛋白质的模板效应进行预测,从而得到待预测蛋白质的结构。
该方法的优点在于它能够对大量的蛋白质进行预测,并且往往能获得高质量的结构预测结果。
然而,该方法的主要缺点是仅适用于那些与已知结构相似的蛋白质。
三、Ab initio方法Ab initio方法是一种从头开始预测蛋白质结构的方法,它不依赖于与已知结构相似的蛋白质。
这种方法基于物理力学和统计学知识进行计算,尝试预测分子的基本构筑原理。
这种方法在处理具有折叠密码学特性的蛋白质时比较准确,但是在面对大分子的复杂蛋白质时常常出现预测的误差。
四、网络方法网络方法是一种将蛋白质折叠预测看作一个大型优化问题的方法,它通过构建各种相互作用网络来预测蛋白质的结构。
这种方法在处理大分子蛋白质的折叠过程中具有较好的表现,也是目前研究中的热门和前沿方向之一。
五、机器学习方法机器学习方法是一种基于人工智能理论和算法的蛋白质结构预测方法。
该方法可以构建出一个有效的预测模型,然后通过灵活的机器学习算法对蛋白质信息进行分析来预测蛋白质的结构。
该方法在处理大分子的复杂蛋白质时常常具有很好的预测效果,但是它的缺点在于需要大量的已知数据用于训练模型。
蛋白质结构预测技术发展综述
蛋白质结构预测技术发展综述蛋白质是组成生命活动的重要基础物质,其结构和功能之间的关系是生命科学和医学领域的重要研究方向。
因此,对蛋白质结构进行预测和分析,已成为当前生命科学、生物工程和计算机科学等领域的重要课题。
随着计算机技术和生物信息学的不断发展,蛋白质结构预测技术也取得了长足的进步和发展。
蛋白质结构预测技术的发展历程早期,蛋白质结构的预测多采用实验手段进行,例如X射线晶体衍射和核磁共振技术等。
但这些实验方法的成本和时间代价较高,仅适用于结构较小的蛋白质分子,而对于较大和复杂的蛋白质分子则多不适用。
因此,人们开始尝试用数学模型和计算机模拟的方法来预测蛋白质结构。
20世纪60年代,Pauling和Corey首次提出了"多肽链折叠概念",并开发出基于"菊花链"模型的蛋白质结构预测方法。
此后,人们提出了许多简化模型和分类模型,如Helix、Loop和Beta sheet。
这些模型的作用是减少蛋白质结构预测的计算量,提高预测准确性。
20世纪80年代,人们开始尝试用分子动力学模拟技术预测蛋白质结构。
分子动力学模拟是通过计算分子的平衡轨迹和能量状态,来预测分子的结构和性质的一种方法。
此外,还有一些基于序列和结构比对的反演预测方法,如PSI-BLAST和PHYRE。
21世纪以来,以机器学习和深度学习为代表的人工智能技术的快速发展,为蛋白质结构预测提供了新的思路和方法。
此外,利用分子动力学仿真和一些先进的计算机算法来研究蛋白质分子的空间结构和功能之间的关系,也成为了当前的研究热点。
蛋白质结构预测技术的应用价值蛋白质结构预测技术的应用价值是多方面的。
首先,它有助于解决部分蛋白质结构无法通过实验手段确定的问题,可以辅助实验进行验证和理解蛋白质功能和机理。
其次,它可用于药物研究和设计,避免药物和蛋白质之间的非特异性作用,增强药物的选择性和效果。
此外,蛋白质结构预测技术还可应用于食品添加剂、生物肥料、重金属污染等环节的治理和监管。
蛋白质结构预测方法综述
蛋白质结构预测方法综述蛋白质是构成生命体的基本单元之一,它们在生命过程中扮演着重要的角色。
蛋白质的功能通常与其三维结构密切相关,因此,准确地预测蛋白质的结构对于深入理解其功能和生命过程至关重要。
本文将综述几种常见的蛋白质结构预测方法。
一、基于模板的方法基于模板的方法是指利用已知蛋白质结构作为模板,预测未知蛋白质结构的方法。
这种方法又可分为序列比对和结构比对两种。
1. 序列比对序列比对是将待预测蛋白质的氨基酸序列与已知蛋白质结构的氨基酸序列进行比对,通过寻找序列相似性来预测未知蛋白质的结构。
这种方法的关键是在序列比对时找到相较于已知蛋白质更多的同源序列。
常见的序列比对工具包括BLAST、PSI-BLAST、HMMER等。
2. 结构比对结构比对是将待预测蛋白质的氨基酸序列与已知蛋白质结构的三维结构进行比对,通过寻找结构相似性来预测未知蛋白质的结构。
这种方法的关键是在结构比对时找到相较于已知蛋白质更多的同源结构。
常见的结构比对工具包括DALI、CE、TM-align等。
二、基于物理力学的方法基于物理力学的方法是指根据蛋白质结构和物理力学原理,通过计算机模拟和数学建模来预测蛋白质的结构。
这种方法的基本思路是根据蛋白质的氨基酸序列和结构参数作为输入,通过计算机模拟和数学建模来组织蛋白质的三维结构。
常见的基于物理力学的方法包括能量函数法和蒙特卡洛法。
1. 能量函数法能量函数法是指利用能量最优化原则,将蛋白质的三维结构作为一个能量函数的最小值,通过调整结构参数来最小化能量函数,得到最优化的蛋白质结构。
常见的能量函数包括力场法、分子动力学法、蛋白质力学法等。
2. 蒙特卡洛法蒙特卡洛法是指通过数值方法,在结构空间内进行搜索,采样概率分布,得到蛋白质的稳定结构。
该方法通过调整结构参数,使得目标函数(通常是能量函数)最小,从而得到最优化的蛋白质结构。
三、神经网络方法神经网络方法是指通过深度学习算法,利用大量的蛋白质序列和结构数据,以自主学习的方式预测蛋白质的结构。
蛋白质结构的预测与验证
蛋白质结构的预测与验证随着生物学研究的深入,我们对蛋白质的结构和功能也有了更深入的了解。
蛋白质结构的预测和验证是蛋白质学研究的重要分支,也是现代计算生物学的一个热门领域。
预测蛋白质结构的方法有很多,其中最受欢迎的是基于序列的预测方法。
一、基于序列的蛋白质结构预测方法基于序列的蛋白质结构预测方法是通过分析蛋白质序列的基本信息,如氨基酸成分、生物学功能等,来推断蛋白质的三维结构。
这些方法包括比较序列、融合序列和比较与融合序列。
比较序列法将一个蛋白质序列与已知结构的其他蛋白质序列进行比较,然后使用软件获得可能的结构信息。
融合序列法则将多个蛋白质序列融合在一起,并使用最新的匹配算法来验证可能的结构信息。
比较与融合序列则是将两者结合起来,以提高结构预测的准确性。
在蛋白质结构预测的研究中,特别是在基于序列的方法中最常用的工具是模拟器。
这些模拟器往往是通过重复输入和输出数据,以便自我“训练”的过程。
这样,模拟器可以学习如何正确识别蛋白质序列,并推断其结构。
模拟器的训练结果与使用的输入数据密切相关。
目前,研究人员已经成功地训练了许多不同的模拟器,以应对不同类型的蛋白质序列。
二、如何验证蛋白质结构预测完成蛋白质结构预测后,如何验证其准确度?验证蛋白质结构预测的程序通常包括两个关键部分: 结构评估和实验验证。
在结构评估过程中,预测的结构与实际结构进行对比。
这个对比可以使用不同的评估方法,如Root Mean Square Deviation(RMSD)评估方法。
RMSD是计算两个结构间原子的平均距离的指标,类似于基于均方根误差的评估方法,评价结构预测的质量。
通常的规则是RMSD值越小,预测的结构质量越好。
实验验证方面,采用的实验方法包括核磁共振波谱(NMR)、X射线衍射和冷冻电子显微镜(Cryo-EM)。
这些技术可以被用于检验预测的结构是否和实验证明的结构匹配,并确定预测的结构是否正确。
三、基于序列的方法的优势和不足基于序列的方法是蛋白质结构预测的一种非常强大、有前途的方法。
生命科学中的蛋白质结构预测方法
生命科学中的蛋白质结构预测方法蛋白质是生命体中最复杂的生物大分子之一,它在人体内扮演着重要的生物功能角色,例如重要的代谢反应、信号传递、基因调控、细胞增殖、细胞分化等。
它的结构对于其生物学功能至关重要。
通常蛋白质结构可以通过X-射线衍射和核磁共振等技术进行决定,但是这些技术的前提是获得高纯度、高质量的蛋白样品,这在实际应用中往往不太现实。
因此,蛋白质结构预测技术的发展至关重要。
目前,蛋白质结构预测方法主要包括基于物理力学、统计学和机器学习算法的方法。
物理力学方法中包括分子动力学模拟和构象采样,这两种方法通过追踪蛋白质分子的演化过程,提供了可靠的蛋白质结构预测结果。
但是这些方法需要大量的计算资源和时间,预测速度很慢,难以应用于大规模、高通量的蛋白质结构预测中。
此外,即使使用这些方法获得了大量蛋白质结构信息,我们也需要进行快速的数据挖掘和分类,以实现有效的结构预测和功能注释。
统计学方法主要基于蛋白质结构中保守的序列和结构特征,通过从大量已知蛋白质结构数据库中提取这些特征,从而进行分类和预测。
这些方法通常具有较快的预测速度,广泛应用于一些生物信息领域,如基因组学、转录组学和蛋白质组学等。
不过,统计学方法通常不能处理结构的灵活性和可变性,并限制于数据集的选取和质量。
机器学习方法主要基于多种预测因素,包括序列、结构和功能特征,结合现代计算机处理技术和算法优化,通过多种特征的高效筛选和加权,从而实现高精度、高速度的蛋白质结构预测。
机器学习方法通过大量的训练数据和复杂的模型学习,能够发现蛋白质结构与其生物学功能之间的关系,并提供更准确的预测结果,同时它也经常被应用于蛋白质结构模拟和设计。
总的来说,蛋白质结构预测方法依旧存在着不少的挑战和限制,如计算、数据集、算法和模型等,研究者们需要不断地完善和改进这些方法,以获得更加准确、高效的预测结果,并为人类疾病的研究和治疗提供重要的数据基础。
蛋白质结构预测方法总结
蛋白质结构预测方法总结蛋白质是生物体内最为重要的分子之一,其结构决定了功能和活性。
然而,实验性确定蛋白质的三维结构是一项复杂且昂贵的任务。
因此,研究人员发展了多种计算方法来预测蛋白质的结构。
本文将总结几种常见的蛋白质结构预测方法。
1. 基于比对的方法一种常用的蛋白质结构预测方法是基于比对。
这种方法使用已知结构的蛋白质作为模板,将目标蛋白质的序列与模板进行比对,从而预测其结构。
比对可以使用多种方法,如BLAST、PSI-BLAST和HHpred等。
这些方法根据序列之间的相似性来预测结构,通常适用于那些与已知结构相似的蛋白质。
2. 基于折叠的方法基于折叠的方法是通过在能量最小化的条件下预测蛋白质的结构。
这些方法利用原子间相互作用的物理性质来预测蛋白质的稳定结构。
其中,分子力学模拟是常用的方法之一,通过计算分子中原子的相互作用以及能量最小化来预测蛋白质的结构。
此外,还有蒙特卡洛模拟和分子动力学模拟等方法用于蛋白质结构的预测。
3. 基于碱基预测的方法基于碱基预测的方法是根据目标蛋白质的氨基酸序列来预测其结构。
这些方法利用氨基酸的特性,如溶解度、疏水性和电荷分布等,来推断蛋白质的结构。
在这种方法中,常用的技术包括人工神经网络和随机森林等。
4. 基于演化信息的方法基于演化信息的方法是利用多个序列的比较来预测蛋白质的结构。
这些方法假设在进化过程中,保守的残基通常对于结构和功能至关重要,因此可以通过比较不同蛋白质序列之间的保守性来预测其结构。
常用的技术包括多序列比对和物种树建构等。
5. 基于统计的方法基于统计的方法是从大量已知结构的蛋白质中提取统计学规律,以预测新蛋白质的结构。
在这种方法中,通过分析蛋白质的物理特性和氨基酸残基之间的相互作用,建立统计学模型,从而预测目标蛋白质的结构。
常见的方法包括聚类分析、SVM和隐马尔可夫模型等。
综上所述,蛋白质的结构预测是一项复杂而具有挑战性的任务。
虽然没有一种方法能够完美地预测蛋白质的结构,但结合不同的预测方法可以提高预测的准确性和可靠性。
蛋白质结构预测方法及其应用技巧介绍
蛋白质结构预测方法及其应用技巧介绍蛋白质是生物体内一种非常重要的生物大分子,它在维持细胞结构稳定、参与代谢调控、传递信号等方面起着巨大的作用。
蛋白质的功能与其三维结构密切相关,因此探究蛋白质的结构对于理解其功能至关重要。
然而,实验手段获取蛋白质结构的成本高昂,耗时长,因此,研究人员开发了一系列的蛋白质结构预测方法,从而快速获得蛋白质的结构信息。
蛋白质结构预测方法主要可以分为两大类:实验方法和计算方法。
一、实验方法1. X射线晶体学:这是目前最常用的蛋白质结构确定方法之一。
利用X射线的衍射现象,可以测定蛋白质晶体的结构。
通过收集衍射图像以及应用一系列的数学算法,可以重建出蛋白质的原子级别结构信息。
2. NMR:核磁共振技术通过测量蛋白质分子中原子之间的磁性相互作用,来获取其结构信息。
然而,这种方法适用于短蛋白质或者在溶液中的蛋白质,对于大蛋白质的结构预测存在一定的困难。
二、计算方法1. 基于模板的方法:这种方法是根据已知结构的蛋白质(模板)与目标蛋白质的相似性来预测目标蛋白质的结构。
该方法利用已知蛋白质库中的数据,通过比对蛋白质序列的差异性,找到与目标蛋白质最相似的模板,并利用建模软件进行结构拟合。
然而,这种方法需要目标蛋白质与已知蛋白质之间具有很高的结构相似性。
2. 基于物理原理的方法:这种方法通过计算蛋白质的能量,并且对蛋白质进行力学模拟,从而获得最稳定的蛋白质结构。
该方法包括蒙特卡洛模拟、分子动力学模拟等。
主要的挑战是计算复杂度较高,需要大量的计算资源和时间。
除了这两类方法外,还有一种混合方法也被广泛使用,即将实验数据与计算方法相结合,通过实验数据辅助计算方法进行结构预测。
在实际的蛋白质结构预测中,研究人员需要考虑一些重要的技巧和注意事项:1. 数据库选择:选择合适的蛋白质数据库对于结构预测非常重要。
一些常用的数据库包括PDB(蛋白质数据库)和SCOP(蛋白质分类数据库)等。
合理选择数据库可以提高预测的准确性。
蛋白质结构预测方法及其应用前景
蛋白质结构预测方法及其应用前景引言:蛋白质是构成生物体的重要组成部分,它们在细胞内发挥着关键的功能。
了解蛋白质的结构对于理解其功能和参与药物开发具有重要意义。
然而,实验手段通常耗时、昂贵且可能有限,因此研究人员一直在寻求一种准确、高效的方法来预测蛋白质的结构。
本文将介绍几种常见的蛋白质结构预测方法,并探讨其在生物医学领域中的应用前景。
一、同源建模方法同源建模是一种基于相似蛋白质序列的结构预测方法。
它假设具有相似序列的蛋白质可能具有相似的结构,因此通过与已解析的蛋白质结构进行比较,可以推断出目标蛋白质的结构。
这种方法的优势在于准确性高、时间效率高,已被广泛应用于生物医学研究中。
例如,同源建模方法可以用于预测蛋白质-蛋白质相互作用,帮助研究人员理解蛋白质间的相互作用机制,有助于药物研发和疾病治疗。
二、蛋白质折叠动力学模拟蛋白质折叠动力学模拟是一种基于物理力学原理的结构预测方法。
它通过模拟蛋白质分子的运动过程,推测出最稳定的蛋白质结构。
这种方法的优势在于可以考虑蛋白质分子的动态过程,从而更好地预测其结构。
蛋白质折叠动力学模拟在酶的催化机制研究、蛋白质结构稳定性预测等方面具有广泛的应用前景。
三、基于机器学习的方法随着机器学习的快速发展,越来越多的研究人员开始将其应用于蛋白质结构预测中。
例如,基于深度学习的神经网络模型可以通过学习大量已知蛋白质结构的数据,来预测未知蛋白质的结构。
这种方法的优势在于可以自动从大量数据中提取特征,并学习蛋白质的结构模式。
基于机器学习的方法在蛋白质药物设计、蛋白质功能预测等领域有着广阔的应用前景。
四、蛋白质结构预测的应用前景蛋白质结构预测方法的不断发展,为生物医学领域带来了广泛的应用前景。
首先,结构预测可以帮助揭示蛋白质的功能机制,从而推动药物研发和疾病治疗。
其次,结构预测可以用于预测蛋白质-蛋白质或蛋白质-小分子/药物的相互作用,为药物设计和药效评估提供重要信息。
再者,结构预测还可以用于研究蛋白质折叠与稳定性,有助于理解蛋白质的功能和突变对其结构和功能的影响。
蛋白质结构预测研究方法预测
蛋白质结构预测研究方法预测1.基于模板的结构预测:这是最常用和最有效的一种方法,其基本思想是将目标蛋白质的序列与已知结构的蛋白质库进行比较,找到相似的结构作为模板。
基于模板的方法可以进一步细分为下述几种方法:-比对模板方法:使用蛋白质序列比对算法,如BLAST、PSI-BLAST等,将目标序列与已知结构的蛋白质库进行比对,根据比对结果来确定最好的模板。
-符合片段拼接方法:将目标序列切割成一系列较短片段,然后根据这些片段与已知结构片段之间的相似性进行拼接,以获得整个蛋白质的结构。
-聚类模板方法:将蛋白质结构数据库中的已知结构进行聚类,然后确定蛋白质序列在聚类中最接近的模板的结构。
2.基于物理的结构预测:这类方法根据蛋白质结构的物理性质,如键角、相互作用力等,通过物理模型进行预测。
基于物理的方法可以进一步细分为下述几种方法:-动力学模拟方法:通过模拟蛋白质分子的动力学过程,包括蛋白质分子的构象变化、能量泛函的优化等,从而得到最稳定的结构。
-能量函数优化方法:根据蛋白质的物理性质,设计能量函数来评估不同构象的稳定性,并通过优化算法来寻找最低能量的结构。
-亚稳态方法:将蛋白质结构的空间划分为不同的亚稳态,通过算法,如模拟退火、遗传算法等,在不同的亚稳态中寻找最优的结构。
3.基于机器学习的结构预测:这类方法通过训练已知结构的蛋白质和其对应的序列之间的关系,来预测新的蛋白质结构。
基于机器学习的方法可以进一步细分为下述几种方法:-神经网络方法:使用多层感知机或深度学习的方法,通过训练大量的蛋白质序列和结构对,建立序列和结构之间的非线性映射关系。
-统计学习方法:通过分析已知结构的蛋白质序列和结构之间的统计特征,来预测新的蛋白质结构。
-比对模式方法:通过比对已知结构的蛋白质序列和结构,寻找相似的比对模式,并用这些比对模式来预测新的蛋白质结构。
需要注意的是,由于蛋白质结构预测是一个非常复杂的问题,目前还没有一种方法可以预测所有蛋白质的结构。
蛋白质结构预测方法和应用
蛋白质结构预测方法和应用蛋白质是生物体内的重要功能分子之一,其结构对其功能起着至关重要的作用。
准确预测蛋白质的结构对于深入理解其功能和研究相关疾病的发病机制具有重要意义。
本文将介绍蛋白质结构预测的方法和应用。
蛋白质结构预测是通过一系列计算方法来推测蛋白质的三维空间结构。
目前,主要有三种预测方法:序列比对法、基于物理性质的方法和基于机器学习的方法。
序列比对法是最常用的蛋白质结构预测方法之一。
它通过将待预测蛋白质的氨基酸序列与已知结构的蛋白质进行比对,从而预测出待预测蛋白质的结构。
这种方法基于生物学的观察,即具有相似序列的蛋白质通常会有相似的结构。
尽管序列比对法可以得到大致的结构信息,但由于蛋白质结构的多样性,其准确度有限。
基于物理性质的方法则从蛋白质的化学和物理性质出发,通过模拟蛋白质的构象空间来预测其结构。
这种方法通常基于几何学和力场理论,模拟蛋白质的原子间相互作用力,进而寻找最稳定的结构。
然而,由于蛋白质的结构空间极其庞大,这种方法的计算复杂度很高,限制了其在大规模结构预测中的应用。
基于机器学习的方法是目前蛋白质结构预测的热门方向。
这种方法通过以往蛋白质结构和性质的数据作为训练集,使用各种机器学习算法来建立模型,从而预测未知蛋白质的结构。
这种方法的优势在于:可以通过大数据的学习提高预测准确度;计算速度相对较快,适用于大规模结构预测。
常见的机器学习算法包括神经网络、支持向量机和随机森林等。
蛋白质结构预测的应用非常广泛。
首先,它对于揭示蛋白质的功能和机制至关重要。
蛋白质的结构与其功能密切相关,通过预测蛋白质结构,可以更好地理解其功能。
其次,蛋白质结构预测在药物设计和疾病治疗方面具有巨大潜力。
许多药物的设计和优化需要了解蛋白质的结构,预测蛋白质结构可以为药物发现和设计提供重要参考。
此外,蛋白质结构预测还可以预测蛋白质的变异和突变对结构和功能的影响,对疾病的发病机制研究和治疗策略的制定都有重要意义。
当前,随着计算能力的不断提高和大规模结构数据的积累,蛋白质结构预测已经取得了长足的进展。
蛋白质结构预测方法及其准确度评估
蛋白质结构预测方法及其准确度评估概述蛋白质是生物体内不可或缺的重要大分子,其结构决定了其功能。
然而,实验测定蛋白质结构的方法复杂、昂贵且耗时,因此,发展蛋白质结构预测方法成为研究的热点。
本文将深入探讨蛋白质结构预测方法及其准确度评估。
方法一:相似性建模相似性建模方法是当前最常用的蛋白质结构预测方法之一。
它将待预测的蛋白质序列与已知结构的蛋白质序列进行比对,寻找具有相似序列的蛋白质的结构,并将其作为预测结果。
该方法的优点在于速度快、准确性高,适用于大规模蛋白质结构预测。
然而,由于蛋白质序列之间的相似性不能完全决定其结构,这种方法存在一定的局限性。
方法二:基于物理原理的建模基于物理原理的建模方法通过数学模型来模拟蛋白质的结构形成过程。
这种方法利用物理力学和统计力学的原理,如质点势能场和分子动力学模拟等,来预测蛋白质的结构。
这种方法的优势在于可以更好地了解蛋白质的物理性质和结构稳定性,提供了更准确的结构预测。
然而,由于计算复杂度和时间成本较高,这种方法目前仍面临挑战。
方法三:机器学习方法机器学习方法是近年来发展迅猛的蛋白质结构预测方法之一。
该方法利用大量已知结构的蛋白质数据作为训练集,通过算法学习蛋白质序列与结构之间的关系,以预测未知蛋白质的结构。
机器学习方法的优点在于可以从海量的数据中挖掘出蛋白质的模式和规律,提高结构预测的准确性。
然而,该方法对于训练集的质量和数量要求较高,并且容易受到数据集的偏差影响。
准确度评估为了评估不同蛋白质结构预测方法的准确性,科学家们开发了多种衡量指标。
其中,最常用的指标是Root-Mean-Square Deviation (RMSD)和Global Distance Test (GDT)。
RMSD通过计算预测结构与实验测定结构之间的原子坐标差异来评估预测的准确度,其值越小代表准确度越高。
而GDT则是通过将预测结构与实验测定结构进行整体比对,计算他们之间的相似度,其值范围为0到100,值越高代表预测结果与实验结果越接近。
蛋白质结构预测及折叠速度研究方法总结
蛋白质结构预测及折叠速度研究方法总结蛋白质是生物体内极其重要的分子机器,其功能与结构密切相关。
为了更好地理解蛋白质的结构以及其折叠速度,科学家们一直在致力于研究开发预测蛋白质结构和折叠速度的方法。
本文将对目前常用的蛋白质结构预测和折叠速度研究方法进行总结。
蛋白质结构预测是指通过一系列计算方法或实验手段,预测蛋白质的三维结构。
在过去几十年的发展中,科学家们已经开发出了许多有效的蛋白质结构预测方法。
其中,蛋白质序列比对是最基本的预测方法之一。
它通过比对目标蛋白质的氨基酸序列与已知结构的蛋白质序列,找到相似的序列以及结构,从而预测目标蛋白质的结构。
此外,蛋白质的二级结构预测也是一个重要的研究领域。
通过分析蛋白质的氨基酸序列及其在二级结构中的空间排布,科学家们可以预测出蛋白质的二级结构类型,如α螺旋、β折叠等。
还有一种常见的蛋白质结构预测方法是基于蛋白质折叠的物理原理,通过建立蛋白质结构的力场模型,进行计算模拟,以预测蛋白质的三维结构。
此外,还有许多基于机器学习和人工智能的算法被应用于蛋白质结构预测,如神经网络、支持向量机等。
然而,蛋白质的折叠速度研究是一个极具挑战性的课题。
蛋白质的折叠速度涉及到众多分子间相互作用、热力学和动力学过程。
为了研究蛋白质的折叠速度,科学家们采用了多种方法。
其中,光谱法是一种常用的研究蛋白质折叠速度的方法。
通过监测蛋白质溶液中的特定光谱信号的变化,可以获得蛋白质折叠过程中的速度信息。
另外,拉曼光谱技术也被广泛应用于研究蛋白质折叠速度。
拉曼光谱具有高灵敏度和分辨率的优势,可以提供有关蛋白质折叠中的分子结构和动态变化的信息。
此外,核磁共振(NMR)也是一种常用的研究蛋白质折叠速度的方法。
通过监测蛋白质溶液中核磁共振谱的变化,可以获得有关蛋白质折叠速度的信息。
除了上述实验方法,还有一些计算方法被应用于蛋白质折叠速度的研究。
分子动力学模拟是其中一种常见的计算方法,通过模拟蛋白质分子的运动轨迹和相互作用力场,预测蛋白质折叠的速度。
蛋白质结构预测与分析
蛋白质结构预测与分析蛋白质是构成生物体的重要有机分子,具有复杂的结构和多种生物作用。
研究蛋白质的结构预测和分析是生命科学的重要研究领域之一。
本文将从蛋白质结构预测的方法、蛋白质结构的分析和应用方面对蛋白质结构预测与分析进行探讨。
一、蛋白质结构预测的方法蛋白质的结构决定了其生物功能,因此蛋白质结构预测成为生物学研究的重要方向。
目前,通过生物实验手段进行蛋白质结构研究较为困难,而计算机辅助预测方法可以快速准确地预测蛋白质的结构。
常见的蛋白质结构预测方法主要有以下四种:1、模板比对法模板比对法是以已知结构的蛋白质为模板,通过比对该蛋白质和待预测蛋白质的序列相似性,预测待预测蛋白质的结构。
该方法因依赖于已知结构的蛋白质,仅适用于序列相似性较高的蛋白质。
2、剪切组装法剪切组装法是基于“妇女的裙子原理”进行的结构预测方法,通过将蛋白质结构进行剪切,然后组装配对,最终合成蛋白质的整体结构。
该方法适用于蛋白质序列较长的情况。
3、物理场模拟法物理场模拟法是基于物理学的原理进行的结构预测方法,通过模拟氨基酸的位移和环境对结构的影响,来预测蛋白质的最终结构。
该方法机制比较清晰,但需要耗费大量的时间和计算资源。
4、蛋白质构象库法蛋白质构象库法是通过收集已知的蛋白质结构数据进行计算,然后根据各种参数进行结构的匹配和比对,最终得到预测蛋白质的结构。
该方法适用于蛋白质序列比较短的情况。
二、蛋白质结构的分析蛋白质结构的分析是揭示蛋白质性质和生物功能的重要手段。
具体来说,蛋白质结构的分析包括以下几个方面:1、序列分析序列分析是通过分析蛋白质序列来了解其基本属性和功能。
通过对氨基酸序列进行分析,可以推测蛋白质的化学性质、空间构象和分子特征等信息。
序列分析是蛋白质结构基础的关键环节。
2、结构分析结构分析是对蛋白质结构进行深入的解剖,通过分析蛋白质的二级结构、三级结构和四级结构等不同层面的结构信息,了解蛋白质分子内部的氢键、离子键、疏水相互作用等信息,揭示其生物活性和生理功能等方面的信息。
蛋白质结构预测方法研究
蛋白质结构预测方法研究随着生命科学的发展,越来越多的生物学家开始关注蛋白质结构研究。
因为蛋白质是细胞中最重要的分子之一,同时也是生物学的重要组成部分。
蛋白质结构的研究对我们了解生物体系的功能发挥至关重要。
本文旨在介绍蛋白质结构预测的方法以及相关的研究。
1. 蛋白质的基本结构蛋白质是由氨基酸分子通过肽键连接而成。
而氨基酸分子包含氨基、羧基、同种类的侧链和大部分已知的蛋白质,拥有20种氨基酸。
不同的氨基酸序列确定了蛋白质的种类,而蛋白质的空间结构则决定了蛋白质的功能和性质。
2. 蛋白质结构预测方法蛋白质结构预测方法可以分为两类:实验法和计算法。
实验法是通过实验手段来进行蛋白质结构的测定。
常见的实验方法有X光晶体学、核磁共振和电子显微镜等。
但是,由于这些实验方法需要特殊设备和条件的支持,所以成本较高且操作复杂。
计算法是一种将实验结果进行数学模拟来完成蛋白质结构分析的方法。
这种方法更加灵活,成本和工作量较小,而且在大多数情况下可以取得更加准确的结果。
现在常用的计算法包括:(1) 基于氨基酸序列的方法:即通过算法计算出氨基酸序列来推断蛋白质的结构,这种方法包括模板或同源(homology)建模,序列比较和蒙特卡罗模拟等。
模板或同源建模方法依靠已知的蛋白质结构来预测未知的蛋白质结构。
序列比较方法使用已有的结构和新蛋白的氨基酸序列的相似度来预测新蛋白的结构。
而蒙特卡罗方法则是一种随机计算方法。
(2) 基于碳-α原子的方法:这种方法是一种高效而精确的计算法。
它通过整合已知蛋白质结构中所有或部分的碳-α原子坐标来构建新蛋白的结构。
(3) 基于精细建模的方法:这种方法是一种计算初始的算法,它利用氨基酸残基的物理和化学性质来计算蛋白质的潜在结构。
该方法需要进行大量的计算,运行时间较长,但在一定情况下可以得到更准确的结果。
3. 蛋白质结构预测应用蛋白质结构预测方法在生物学研究中有着广泛的应用。
在新药物设计和发现中,蛋白质结构预测方法可以预测化合物与靶蛋白之间的相互作用,从而指导药物分子的设计。
蛋白质结构预测的五大方法
蛋白质结构预测的五大方法蛋白质是生物体中最基本、最关键的分子之一,是生命活动中最重要的组成部分之一。
蛋白质结构决定了其功能,也决定了它在生命活动中的作用。
因此,蛋白质结构预测是分子生物学中的一个重要课题。
在这篇文章中,我们将讨论蛋白质结构预测的五种方法。
第一种方法是通过X射线晶体学。
这种方法是最早开发的方法之一,也是最准确的方法之一。
通过X射线晶体学,科学家可以获得非常精确的三维分子结构,并且可以确定分子的原子位置。
这种方法非常适用于纯高分子量蛋白质,但对于复杂的蛋白质则不是很适用。
第二种方法是通过核磁共振(NMR)。
这种方法可以在非晶态条件下获得蛋白质的结构,并且还可以在生理条件下观察蛋白质的构象。
这种方法的优势在于其速度和实时观察能力,但是其分辨率不如X射线晶体学。
第三种方法是通过电子显微镜。
这种方法可以获得非常高清晰度的二维或三维图像,并且可以解析蛋白质的结构。
这种方法非常适用于大分子复杂结构的蛋白质。
第四种方法是通过计算机模拟。
在大量的实验基础上,科学家们可以构建出一个蛋白质的计算模型,然后使用计算机模拟方法来预测其结构。
这种方法虽然存在误差,但是在现代生命科学中得到广泛的应用。
第五种方法是通过生物信息学方法。
这种方法利用数学模型和统计方法,对已知的蛋白质结构进行分析,并在分析中发现共有特征和规律,从而推导出其它的蛋白质结构。
这种方法非常适用于大规模预测和分析,在基因组学和药物研发领域得到了广泛应用。
总的来说,这些方法各有优缺点,科学家需要根据不同的蛋白质特征和结构来选择合适的方法,从而获得精确的蛋白质结构预测。
随着科学技术的不断发展和应用,相信蛋白质结构预测也会越来越精确和可靠,为人类健康和生命做出更深远的贡献。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蛋白质结构预测方法综述卜东波陈翔王志勇《计算机不能做什么?》是一本好书,其中文版序言也堪称佳构。
在这篇十余页的短文中,马希文教授总结了使用计算机解决实际问题的三步曲,即首先进行形式化,将领域相关的实际问题抽象转化成一个数学问题;然后分析问题的可计算性;最后进行算法设计,分析算法的时间和空间复杂度,寻找最优算法。
蛋白质空间结构预测是很有生物学意义的问题,迄今亦有很多的工作。
有意思的是,其中一些典型工作恰恰是上述三步曲的绝好示例,本文即沿着这一路线作一总结,介绍于后。
1 背景知识生物细胞种有许多蛋白质(由20余种氨基酸所形成的长链),这些大分子对于完成生物功能是至关重要的。
蛋白质的空间结构往往决定了其功能,因此,如何揭示蛋白质的结构是非常重要的工作。
生物学界常常将蛋白质的结构分为4个层次:一级结构,也就是组成蛋白质的氨基酸序列;二级结构,即骨架原子间的相互作用形成的局部结构,比如alpha螺旋,beta片层和loop区等;三级结构,即二级结构在更大范围内的堆积形成的空间结构;四级结构主要描述不同亚基之间的相互作用。
经过多年努力,结构测定的实验方法得到了很好的发展,比较常用的有核磁共振和X光晶体衍射两种。
然而由于实验测定比较耗时和昂贵,对于某些不易结晶的蛋白质来说不适用。
相比之下,测定蛋白质氨基酸序列则比较容易。
因此如果能够从一级序列推断出空间结构则是非常有意义的工作。
这也就是下面的蛋白质折叠问题:1蛋白质折叠问题(Protein Folding Problem)输入: 蛋白质的氨基酸序列输出: 蛋白质的空间结构蛋白质结构预测的可行性是有坚实依据的。
因为一般而言,蛋白质的空间结构是由其一级结构确定的。
生化实验表明:如果在体外无任何其他物质存在的条件下,使得蛋白质去折叠,然后复性,蛋白质将立刻重新折叠回原来的空间结构,整个过程在不到1秒种内即可完成。
因此有理由认为对于大部分蛋白质而言,其空间结构信息已经完全蕴涵于氨基酸序列中。
从物理学的角度讲,系统的稳定状态通常是能量最小的状态,这也是蛋白质预测工作的理论基础。
2 蛋白质结构预测方法蛋白质结构预测的方法可以分为三种:同源性(Homology )方法:这类方法的理论依据是如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。
有工作表明,如果序列相似性高于75%,则可以使用这种方法进行粗略的预测。
这类方法的优点是准确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况。
从头计算(Ab initio ) 方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。
生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。
然而由于巨大的计算量,这种方法并不实用,目前只能计算几个氨基酸形成的结构。
IBM 开发的Blue Gene 超级计算机,就是要解决这个问题。
穿线法(Threading )方法:由于Ab Initio 方法目前只有理论上的意义,Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,对于其他大部分蛋白质来说,有必要寻求新的方法。
Threading 就此应运而生。
以上三种方法中,Ab Initio 方法不依赖于已知结构,其余两种则需要已知结构的协助。
通常将蛋白质序列和其真实三级结构组织成模板库,待预测三级结构的蛋白质序列,则称之为查询序列(query sequence)。
3 蛋白质结构预测的Threading 方法Threading 方法有三个代表性的工作:Eisenburg 基于环境串的工作、Xu Ying 的Prospetor 和Xu Jinbo 、Li Ming 的RAPTOR 。
Threading 的方法:首先取出一条模版和查询序列作序列比对(Alignment),并将模版蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。
比对的过程是在我们设计的一个能量函数指导下进行的。
根据比对结果和得到的查询序列的空间坐标,通过我们设计的能量函数,得到一个能量值。
将这个操作应用到所有的模版上,取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。
需要指出的是,此处的能量函数却不再是热力学意义上的能量函数。
它实质上是概率的负对数,即,我们用统计意义上的能量来代替真实的分子能量,这两者有大致相同的形式。
p E log −=如果沿着马希文教授的观点看上述工作 ,则更有意思:Eisenburg 指出如果仅仅停留在简单地使用每个原子的空间坐标(x,y,z)来形式化表示蛋白质空间结构,则难以进一步深入研究。
Eisenburg 创造性地使用环境串表示结构,从而将结构预测问题转化成序列串和环境串之间的比对问题;其后,Xu Ying 作了进一步发展,将蛋白质序列表示成一系列核(core )组成的序列,Core 和Core 之间存在相互作用。
因此结构就表示成Core 的空间坐标,以及Core 之间的相互作用。
在这种表示方法的基础上,Xu Ying 开发了一种求最优匹配的动态规划算法,得到了很好的结果。
但是由于其较高的复杂度,在Prospetor2上不得不作了一些简化;Xu Jinbo 和Li Ming 很漂亮地解决了这个问题,将求最优匹配的过程表示成一个整数规划问题,并且证明了一些常用的求解整数规划问题的技巧,都已经自然地包含在约束中。
3.1 Eisenburg 基于环境串的方法结构的形式化表示:环境串,其中每个特殊字符表示一种环境。
求解算法:序列串和环境串之间的比对 复杂度:O(mn)对于模板库中每个已知结构的蛋白质,将其转化成由特殊字符组成的一个串。
即对于每个氨基酸,研究其所处的环境,包括疏水性、包埋面积等,并据此分为多个不同的类别,每一类都使用一个特殊字符表示。
至于对于多个度量形成的空间,如何划分成一些子空间,Eisenburg 在已知数据的基础上做了比较精细的工作。
将已知结构转化成特殊字符形成的环境串,则结构预测问题就转化成序列串和环境串的比对问题,即寻找序列串和环境串之间的最佳联配。
那么如何来衡量联配的优劣呢?解决这个问题必需设置一种打分系统。
Eisenburg 还是沿着概率和统计的路线,统计了每种氨基酸在每种环境下出现频率,计算出一个分数,从而构成打分系统。
对于一些蛋白质,Eisenburg 的方法取得了很好的结果,比如在对几个蛋白质家族globin, cyclic AMP receptor-like protein 以及actin 中的蛋白质进行相似性搜索时,就发现了一些从序列上无法看出相似性但却在结构上相似的蛋白质。
3.2 Xu Ying 的动态规划算法结构的形式化表示:由core 构成的串,core 与core 之间存在相互作用; 求解算法:动态规划方法求最优匹配复杂度:O( ),M,N,TC 与core 的划分有关。
2/TC TC N Mn mn + 在Threading 基本方法的基础上,PROSPECT 引入核(core )的概念。
整条序列分成一段段的core 和loop 区(loop 是指core 之间的部分)。
这样做的前提是生物学中的一个现象:肽链在细胞中很多局部先折叠成比较保守的二级结构(主要是α螺旋和β折叠),形成了一条由二级结构连成的链。
在此基础上,二级结构链折叠成一个整体的三级结构。
core 是一种加了一些限制的二级结构,引入这个概念相当于在预测算法中一定程度上反映了蛋白质折叠的生化过程中经过二级结构这一事实,因此直观上讲应该能提高算法的效率。
如何来衡量序列和结构之间的相似性呢?PROSPECT 采用了能量函数的方法,包含4个部分:i)变异项值,ii)单独残基适合项值,iii)残基对相互作用势能项值,iv)gap 罚分。
当前的PROSPECTS 版本只考虑core 之间的残基对相互作用,并假设gap 仅限于loop 区域内。
在只考虑近距离的残基对相互作用时,PROSPECT 可以有效地找出全局最优的threading 比对。
PROSPECT 允许用户自行添加一些特殊的约束条件,例如:二硫键、活动位点、NOE 1距离约束。
系统将严格地在指定条件下寻找全局最优解。
PROSPECT 与其它的threading 方法相比关键的提高在于:1)它严格地推广了以前只考虑core 内残基比对的threading 方法(在以前的方法内,也没有显式地提出core),使得可以考虑loop 上残基的比对;2)显著提高计算效率;3)允许已知的部分结构信息作为约束条件。
具体的数学描述如下: 能量函数:gap gap pair pair s s mutate mutate total E E E E E ωωωω+++=[J1]1Nuclear Overhauster Effectgap pair s mutate ωωωω,,,为权重,通过对一些训练集进行训练获得。
mutate E ),(21a a :指比对结果中变异位置上氨基酸对应的变异罚分值的和。
PROSPECT 中使用PAM250作为变异罚分值矩阵。
21,a a s E ])2[;;(J t s a :度量了对结果中氨基酸a 排在模板上时,对二级结构的适应程度s,和a 的亲水性在这个位置的适合程度。
pair E ),(21a a :当比对结果中,在空间上的距离比较近的时候,给出了两者之间的相互作用势能,这是一个统计意义上的能量,而不是物理学定义的能量。
),(21a a pair E ),(21a a gap E )1]3[(6.08.10)(−×+=J g gPROSPECT 就是在模板库里找到一个模板,它和待查序列使得达到最小比对结果对应的是模板库里所有模板和待查序列比对结果所能使达到的最小值[J4]。
total E total E total E 即:设T 是模板库,其中的元素t=(q, ss, acc, xyz) q 是序列信息,ss 是二级结构信息, acc 是亲水性信息, xyz 是三级结构坐标信息。
记待查序列为Q 。
记Ali(Q,t)为Q 和t 的所有比对方式的集合,其中的元素a 的能量打分为(a),则PROSPECT 算法就是求解如下最优化问题:total E (a))min arg (min arg ),(total t Q Ali a total Tt E E ∈∈在PROSPECT II 中有如下改进:1、引入z-score 2对预测结果作出评价。
2、由于考虑pairwise 相互作用对比对过程的精确程度影响不大,所以在PROSPECT II 中,先进行不考虑pairwise 相互作用的比对,使用动态规划的算法,以获得更高的效率。
再对这个比对的结果加入pairwise 相互作用,进行折叠识别。