Protein Fold Prediction Using Attributed Graph Matching with Parallel Computing
蛋白质修饰位点预测
蛋白质修饰位点预测
蛋白质修饰位点预测是生物信息学领域的一个重要研究方向。
蛋白质修饰是一种在蛋白质翻译后发生的化学变化,对蛋白质的功能和活性产生重要影响。
目前,许多生物信息学方法已经被开发用于预测蛋白质修饰位点,主要包括以下几种:
1. 基于机器学习的方法:这类方法通过训练一个分类器(如支持向量机(SVM)、神经网络等)来预测蛋白质修饰位点。
这类方法通常需要大量的已知修饰位点和非修饰位点的蛋白质序列作为训练数据。
例如,研究人员针对水稻蛋白质磷酸化位点开发了一种基于SVM的预测工具[1]。
2. 基于氨基酸序列特征的方法:这类方法通过分析蛋白质序列中的氨基酸特征(如氨基酸频率、组成等)来预测修饰位点。
这类方法不需要依赖蛋白质结构信息,仅通过序列信息进行预测。
例如,研究人员利用氨基酸频率计算方法来进行特征提取,并结合SVM算法构建了一种针对水稻蛋白质磷酸化位点的预测工具[2]。
3. 基于结构的方法:这类方法通过分析蛋白质三维结构来预测修饰位点。
由于蛋白质结构与功能密切相关,这类方法具有较高的预测准确性。
然而,结构信息通常不易获取,且计算成本较高。
4. 集成学习方法:这类方法将多个预测模型进行集成,以提高预测准确性。
例如,研究人员将多个基于机器学习的预测模型进行集成,构建了一种针对蛋白质翻译后修饰位点的预测工具[3]。
总之,蛋白质修饰位点预测是一个具有挑战性的课题。
随着生物信息学技术的发展,未来可能会出现更多高效、准确的预测方法。
同时,蛋白质修饰位点预测在生物学研究中的应用也将越来越广泛,有助于揭示蛋白质功能和调控机制。
蛋白质结构预测中的机器学习方法
蛋白质结构预测中的机器学习方法蛋白质是生命体系中非常重要的分子,因为它们的结构和功能对细胞的正常运作至关重要。
预测蛋白质结构是生物科学领域中的一个重要问题,因为它有助于我们更好地理解蛋白质的生物功能、药物作用等方面。
通过理解蛋白质结构预测中的机器学习方法,我们可以更好地了解这个问题。
在科学家开始研究蛋白质结构预测之前,了解蛋白质结构的基本知识是很有必要的。
蛋白质具有四级结构,包括原生、二级、三级和四级结构。
原生结构是在蛋白质合成过程中形成的。
二级结构是由蛋白质内α-螺旋和β-折叠形成。
三级结构描述的是蛋白质的立体构象,包括螺旋、β-折叠、卷曲和其他结构特征。
最后,四级结构描述的是由多个蛋白质聚合而成的蛋白质复合物结构。
在蛋白质结构预测中,机器学习方法是非常有用的。
机器学习技术是一种通过数据和模型进行预测、分类和决策的方法,而不是基于人工指定规则的方法。
这些方法通过让计算机学习大量的数据,来预测和分类输入数据。
在蛋白质结构预测中,机器学习方法可以帮助我们更好地理解蛋白质结构的模式。
机器学习中的一种常用方法是神经网络。
神经网络是一种通过相互连接的神经单元来模拟人脑神经细胞网络的模型。
在蛋白质结构预测中,神经网络可以用来预测蛋白质的二级结构。
使用神经网络进行二级结构预测的一种流行方法是使用全卷积神经网络,这种网络可以将所有的输入序列转换为输出序列。
另一种机器学习方法是支持向量机(SVM)。
SVM是一种算法,可以将输入数据映射到高维空间中,并在其上构建超平面。
在蛋白质结构预测中,SVM可以用于预测蛋白质的三级结构。
它可以通过提取结构特征来预测蛋白质的空间构型,在进行预测之前,需要对原始蛋白质序列进行处理。
处理过程包括对序列进行特定的编码,并使用特征提取算法,将蛋白质序列的结构信息转换为特征向量。
总的来说,机器学习方法在蛋白质结构预测中是非常重要的。
预测蛋白质结构是一个大型的计算任务,需要消耗大量的计算资源和数据。
蛋白质结构域预测
蛋白质结构域预测蛋白质结构域预测是蛋白质功能注释中的一个重要任务。
蛋白质结构域是指在蛋白质中具有特定结构和功能的连续序列段。
准确地预测蛋白质结构域可以帮助我们理解蛋白质的功能和作用机制,对药物设计和疾病治疗等领域具有重要意义。
随着高通量测序技术的迅猛发展,大量的蛋白质序列数据被积累,蛋白质结构域预测方法也得到了长足的进步。
基于比对的方法是将待预测序列与已知结构域库中的序列进行比对,根据比对结果来判断待预测序列是否含有特定的结构域。
通过这种方法可以预测到已知结构域的序列,但是对于新发现的结构域或者与已知结构域相似度较低的序列预测效果较差。
基于机器学习的方法是利用已知结构域的序列和非结构域的序列作为训练集,通过机器学习算法构建一个预测模型,然后用该模型对待预测序列进行预测。
这种方法可以预测到新发现的结构域,并且可以预测与已知结构域相似度较低的序列。
目前,基于机器学习的方法在蛋白质结构域预测中占据主导地位。
常见的机器学习算法包括SVM(支持向量机)、DT(决策树)、RF(随机森林)等。
这些算法可以通过学习已知结构域的特征和非结构域的特征,来区分结构域和非结构域的序列。
除了机器学习算法,人工神经网络(ANN)也是常用的预测模型。
人工神经网络模型可以建立一个多层的神经网络,通过自我调整权重和阈值参数来计算输入和输出之间的关系。
通过训练样本,可以优化神经网络的参数,使之能够对待预测序列进行准确的预测。
此外,一些新兴的预测方法也逐渐得到应用。
例如,通过整合不同的预测结果进行综合预测。
这种方法可以利用多个预测方法的优势,提高预测的准确性。
同时,一些基于深度学习的方法也逐渐应用于蛋白质结构域预测中。
深度学习利用多层神经网络模型进行特征学习和表征学习,可以从海量的数据中发现隐藏的规律和模式,进一步提高预测效果。
总的来说,蛋白质结构域的准确预测对于研究生命科学和药物设计具有重要意义。
基于比对和机器学习的方法已经取得了显著的进展,通过不断地创新和技术的进步,预测方法将会更加精确和有效。
生物信息学中的蛋白质折叠预测算法综述
生物信息学中的蛋白质折叠预测算法综述蛋白质是生物体内最重要的分子之一,它们在维持细胞结构和功能、参与代谢过程、传递信号等方面起着重要作用。
蛋白质的功能与其结构密切相关,因此了解蛋白质的结构对于理解其功能具有重要意义。
然而,实验测定蛋白质的结构是一项费时费力的工作,而且有很多蛋白质至今还无法获得高分辨率的结构信息。
为了弥补这一缺陷,生物信息学中的蛋白质折叠预测算法应运而生。
本文将综述目前常用的蛋白质折叠预测算法,并对其优缺点进行讨论。
本文将从以下几个方面来介绍蛋白质折叠预测算法:序列比对方法、二级结构预测方法、三级结构预测方法和模型评估方法。
首先,序列比对方法是一种通过对比待预测蛋白质序列与已知结构蛋白质序列之间的相似性来进行预测的方法。
这种方法主要依赖于两个蛋白质序列之间的保守性,即相同的序列具有相似的结构。
其中,最常用的方法是使用多序列比对算法,例如ClustalW和MUSCLE等。
这些算法可以将多个不同物种的蛋白质序列进行比对,并根据相似性得分来对预测的结构进行评估。
然而,由于序列比对方法依赖于已知结构的蛋白质序列数据库,对于与已知结构蛋白质相似度较低的序列预测效果则不佳。
其次,二级结构预测方法是一种通过预测蛋白质中的α-螺旋、β-折叠和无规卷曲等二级结构元件的位置来进行预测的方法。
这种方法主要基于蛋白质序列中存在的序列模式和统计信息。
目前,常用的二级结构预测算法包括Chou-Fasman算法、Gor算法和PSIPRED算法等。
这些算法通过分析蛋白质中的氨基酸序列中出现的二级结构元件相对位置频率来预测蛋白质的二级结构。
然而,二级结构预测的准确性受到序列相似性的影响,对于高度相似的序列而言预测准确度较高,而对于低相似性的序列而言预测准确度较低。
再次,三级结构预测方法是一种通过预测蛋白质中不同氨基酸之间的空间关系来进行预测的方法。
目前,常用的三级结构预测方法包括基于模板比对的方法、基于物理化学性质的方法和基于机器学习的方法。
生物信息学中的蛋白质折叠问题研究
生物信息学中的蛋白质折叠问题研究简介蛋白质折叠是生物学中一个重要且困难的问题,也是生物信息学领域的研究重点之一。
蛋白质是生物体内的重要分子,其功能与其特定的三维结构紧密相关。
因此,探究蛋白质在生物体内如何正确折叠成具有特定结构的形状,对于理解生物体内的生物学过程具有重要意义。
本文将介绍蛋白质折叠问题的研究背景、相关方法和最新进展。
背景蛋白质在生物体内具有多样的功能,例如酶活性、信号传导和结构支撑等。
这些功能与其特定的三维空间结构密切相关,而这种结构又是由蛋白质的氨基酸序列决定的。
然而,仅凭蛋白质的氨基酸序列无法准确预测其折叠结构,因为蛋白质的折叠过程涉及众多相互作用,并受到各种因素的影响。
因此,蛋白质折叠问题一直是生物学中的一个重要研究课题。
方法在生物信息学中,为了解决蛋白质折叠问题,研究者们提出了一系列的方法和算法。
其中,蛋白质结构预测是其中的一项主要任务。
蛋白质结构预测可以分为三个层次:一级结构预测、二级结构预测和三级结构预测。
一级结构预测旨在确定蛋白质的氨基酸序列;二级结构预测则是根据氨基酸序列预测蛋白质的α-螺旋、β-折叠等二级结构元件;而三级结构预测则是根据蛋白质的二级构象等信息,尽可能准确地预测蛋白质的整体三维结构。
蛋白质结构预测的方法有许多种,如比较法、机器学习法、模型生成法等。
比较法是将目标蛋白质的氨基酸序列与已知结构的蛋白质进行比对,通过找到相似的序列及其结构来预测目标蛋白质的结构。
机器学习法则是利用已知结构的训练集,建立模型并将其应用于目标蛋白质的结构预测中。
模型生成法则是根据物理特性和化学特性等知识,通过一些数学模型来模拟和预测蛋白质的结构。
进展随着生物信息学和计算机技术的快速发展,蛋白质折叠问题的研究取得了许多重要进展。
例如,利用高通量结构生物学技术,研究者们已经获得了大量蛋白质的结构信息,并建立了相应的数据库。
这些数据库对于蛋白质结构预测和功能研究提供了重要参考。
此外,蛋白质折叠的模拟和模型生成技术也取得了长足进步,使得我们能够更好地理解蛋白质折叠的机理和过程。
Nature|人工智能助力蛋白质折叠预测
Nature|人工智能助力蛋白质折叠预测2021年11月23日,Nature杂志发表文章Artificial intelligence powers protein-folding predictions。
在该文章中,多位专家对AI 应用于蛋白质折叠预测的现状和问题进行了评述。
以下是全文内容。
摘要AlphaFold2和RoseTTAFold等深度学习算法现在可以根据蛋白质的线性序列预测其三维形状,这对结构生物学家来说是一个巨大的福音。
前言很少有科学软件能引发如此轰动。
英国广播公司(BBC)宣称:"生物学中最大的谜团之一被人工智能'基本解决'了"。
福布斯称其为"有史以来人工智能领域最重要的成就"。
谷歌DeepMind的人工智能系统AlphaFold2于2020年11月首次亮相,用于预测蛋白质的三维结构,自从该工具在7月免费提供以来,人们对它的讨论更加激烈。
使用AlphaFold2和结构数据建立的人类核孔复合体的模型。
资料来源:Agnieszka Obarska-Kosinska这种兴奋与该软件有可能解决生物学中最棘手的问题之一(从线性氨基酸序列中预测蛋白质分子的功能性折叠结构,以及3D空间中每个原子的位置)有关。
蛋白质如何形成其三维结构的基本物理化学规则仍然过于复杂,人类无法解析,因此这个"蛋白质折叠问题"几十年来一直没有解决。
研究人员已经研究出了大约16万种蛋白质(来自所有生命世界)的结构。
他们一直在使用实验技术,如X射线晶体学和冷冻电子显微镜(cryo-EM),然后将其三维信息存入蛋白质数据库。
计算生物学家在开发补充这些方法的软件方面取得了稳步的进展,并且已经正确地预测了一些来自研究良好的蛋白质家族的分子的三维形状。
尽管取得了这些进展,研究人员仍然缺乏大约4800个人类蛋白质的结构信息。
不过AlphaFold2已经将结构预测策略提升到了一个新的水平。
生物学中的蛋白质折叠研究
生物学中的蛋白质折叠研究蛋白质折叠是生物学中的一个重要问题,也是一个极其复杂的问题。
蛋白质(protein)是生命体中最重要的大分子,它的性质和功能取决于它的三维结构,也就是所谓的蛋白质结构。
而蛋白质的结构是由蛋白质分子中的氨基酸(amino acid)所组成,这些氨基酸通过互相连接形成了一个线性的多肽链(peptide chain),然后在一定的条件下,整个多肽链会经历一种特殊的自组织现象,最终形成了一个稳定的、具有空间结构的蛋白质分子。
这个自组织现象就被称为蛋白质折叠(protein folding),它同时也是一种能量最低化的过程。
化学上所谓的“能量最低化”,其实是指在一定的条件下,多肽链中的每一个氨基酸都会倾向于采取最佳的构象(conformation),在这个构象中,每一个氨基酸的电子云都能够保持最稳定的状态,同时也能同时满足蛋白质分子内部的相互作用和外部环境的影响。
最终形成的蛋白质结构,就是由无数个氨基酸所构成的“折叠图谱”(folding landscape)所决定的。
美国生命科学研究所的Gregory S. Patience教授曾经将蛋白质折叠比喻为一个“生命大拼图”,他说:“如果我们把一个完全由氨基酸所构成的蛋白质比作一个亿级别的拼图,那么其中有数以亿计的互动环节,甚至比宇宙中的星系还要多!”所以,迄今为止,几乎所有的科学家都认为,蛋白质折叠是生命科学中最重要、同时也是最难的问题之一。
在许多领域,如生物医学、生物工程和生物计算等,蛋白质折叠都具有举足轻重的地位。
然而,正因为其复杂性和重要性,蛋白质折叠问题难以被完全理解和解决。
在现代生物学和计算机科学的帮助下,科学家们利用各种技术手段,通过对蛋白质折叠过程的不断研究,逐渐揭示了折叠过程中的一些规律和机理。
其中,使用凝胶过滤、光散射、表面等离子共振、荧光共振能量转移、小角X射线散射等手段测量蛋白质分子稳定性、热力学和动力学性质等方法属于常用技术。
生物信息学中蛋白质结构预测研究
生物信息学中蛋白质结构预测研究生物信息学(Bioinformatics)是生物学、计算机科学和统计学等多个领域的交叉学科,它以细胞和生物体分子水平的信息,利用计算机和网络技术进行提取、整合、存储、分析和应用。
作为生物信息学领域的一个重要方向,蛋白质结构预测研究(Protein Structure prediction)又称为蛋白质三维空间结构预测,它是模拟和推断未知蛋白质的三维结构的能力。
蛋白质是细胞中功能最重要的分子之一,然而,现在我们仍无法直接通过实验手段解析大多数天然蛋白质在生化环境中的三维空间结构。
因此,蛋白质结构预测在现代生命科学和药物设计中的地位非常重要。
一、蛋白质结构预测的意义预测蛋白质结构具有重要的生物学意义。
蛋白质是细胞中最重要的分子,决定着各种细胞的功能,它的空间构型直接影响它的生物活性。
因此,了解蛋白质的耳熟能详的空间形状和结构基本信息是探索蛋白质功能和物质性质的基础。
对于任何一种生物大分子而言,它的“空间面貌”是实现它的生物学功能所必须的。
实质上,蛋白质的结构存在于蛋白质序列之中。
通过已有的序列信息,预测该蛋白质的三维结构,可以帮助我们解决与大量蛋白质相联系的各种问题,例如:如何寻找药物靶点,如何设计更好的酶,如何改造大分子来修饰纳米器件等。
所以,通过计算机模拟方法探究蛋白质的结构成为了可行的手段。
二、蛋白质结构预测的方法在生物信息学领域,蛋白质结构预测的方法主要分为两大类:模板辅助(Template-based)预测和自由模型(Free modeling)预测。
模板辅助预测通常以已知蛋白质结构为模板,根据氨基酸序列和同源比对分析,将序列比对到已知结构为模板来构建预测。
模板辅助预测不仅具备定量化预测结果、速度较快和可操作性强的优点,而且预测精度一般比自由模型更高。
自由模型预测是将未知的氨基酸序列称为模型,在预测过程中不采用参考蛋白质结构。
通常采取纯自由模型预测方法的普通蛋白质结构预测方法是多构象聚类方法(Monte Carlo method)。
蛋白质结构预测算法研究进展
蛋白质结构预测算法研究进展蛋白质是生物体内最重要的生物大分子之一,对于生命的正常运行起着至关重要的作用。
蛋白质的功能与其三维结构密切相关,因此对蛋白质结构的准确预测对于理解蛋白质功能、药物设计以及疾病治疗等领域具有重要意义。
在过去几十年里,科学家们致力于发展各种蛋白质结构预测算法,取得了长足的进展。
蛋白质的结构通常由其氨基酸序列决定,但是现有的实验方法并不能直接测定蛋白质的空间结构。
于是,通过计算机模拟和算法来预测蛋白质的三维结构成为一种重要的手段。
目前主要的蛋白质结构预测方法可以分为基于序列比对、基于物理模型以及基于机器学习的方法。
第一类蛋白质结构预测算法是基于序列比对的方法。
这些方法通过比较待预测蛋白质的氨基酸序列与已知结构蛋白质序列的相似性来预测其结构。
这种方法的基本思想是,如果两个蛋白质具有相似的序列,那么它们的结构也可能是相似的。
这类方法的优点是速度快,但是其准确性依赖于已知结构的蛋白质数据库的质量和覆盖率。
第二类蛋白质结构预测算法是基于物理模型的方法。
这些方法试图通过计算物理力学和化学原理,模拟蛋白质的折叠过程,从而预测其最终的三维结构。
例如,常见的方法有分子力学模拟、分子动力学模拟以及蒙特卡罗模拟等。
这种方法的优点是能够考虑蛋白质的具体物理化学特性,但是由于计算复杂度较高,常常需要使用大量计算资源和时间。
第三类蛋白质结构预测算法是基于机器学习的方法。
这些方法利用大量已知结构的蛋白质数据集,通过训练模型来预测未知蛋白质的结构。
常见的机器学习算法包括支持向量机、决策树、神经网络等。
这类方法的优点在于可以从海量的数据中学习到模式和规律,进而预测蛋白质的结构。
由于机器学习算法的快速发展,该方法在蛋白质结构预测中逐渐发挥了重要作用。
除了以上提到的方法,还有一些新兴的蛋白质结构预测算法在不断涌现。
例如,一种基于深度学习的方法——卷积神经网络(CNN),利用其强大的图像处理能力,可以处理蛋白质胺基酸序列的二维图像表示,从而得到更准确的蛋白质结构预测结果。
蛋白质折叠问题___50年回顾
1、蛋白质折叠的自然代码
• 疏水的相互作用。
蛋白质滚成紧密球状,使疏水氨基酸在内核,亲水氨 基酸在表面。
• 熵链。
当蛋白质由许多开放的变性构象到紧密的自然状时, 做反折叠进程在熵链上会造成巨大损失。
力场
这些自然力同几乎被描绘成“力场”。在计算机模拟 中是势能的模型,广泛适用于蛋白质均势和动态的研究。 在计算机模型中,一个蛋白质分子常常随机地置于一种初 始配置。构象变换模拟进程是通过用力场能量重复地解决 蛋白质和溶剂原子的牛顿动力学运动定律。根据势力学定 律,系统趋向于最低自由能量的状态。 小蛋白质结构能完全 成功抵达热力学平衡状态。 模型成功仅限于小和简单 的蛋白折叠,且不能精确 预测蛋白质稳定和热力性 质。更好的力场,蛋白质 -水交互模型,用今天最 强大的计算机也难实现。
CASP的成就
从CASP1(1994)到CASP5(2002) 提高基于如下发展: 1.本期PDB从约1600到1.9万 个结构的增长; 2.更好的序列搜索和排列工 具,如Position-Specific Iterated Basic Local Alignment Search Tool (PSIBLAST),使更多远程进化关系探 测和更多精确序列排版成为可能。 3.一种策略,“片段装配方 法”,被开发出来,在PDB中不 能找到时常常能提高预测。
在CASP9中最全面自动服务预测的两个性能工具: hhpred,一种纯正模板基础模型工具;rosetta,一种杂交 (混合)工具,有所有原子提纯的模板模型和组合片段组 装。最好的预测现在能解释生物机理,指导生物化学学习 或开辟药物开发程序(需要结构错误少于2-3埃).
二、蛋白质折叠研究展望
蛋白质折叠是基础科学的遗产。尽管有许多问题未解 决,但其进步导致如下副产物: • 蛋白质结构数据库的增长 • 计算技术的提高 • 分子力场的进步 • 科学单位的新社会结构 • 新材料:特定序列可折叠聚合物 • 蛋白质折叠疾病
蛋白质的折叠破译“第二遗传密码”
蛋白质的折叠破译“第二遗传密码”您知道蛋白质折叠吗?这是一个很新的词。
新到什么程度?您可以上网到著名的不列颠百科全书网站检索一下proteinfolding(即蛋白质折叠),还没有相应的解释。
您知道“蛋白质折叠病”吗?疯牛病、老年性痴呆症、囊性纤维病变、家族性高胆固醇症、家族性淀粉样蛋白症、某些肿瘤、白内障等等都是“折叠病”。
就是相关蛋白质的三维空间结构异常。
这种三维空间结构异常是由于致病的蛋白质分子通过分子间作用感染正常蛋白质而造成的。
请注意,致病蛋白质分子与正常蛋白质分子的构成完全相同,只是空间结构不同。
您知道蛋白质折叠有多复杂吗?美国“科学美国人”曾经载文称,用当今最快的计算机模拟计算蛋白质折叠,要花一百年!而当今最快的计算机已经达到每秒几万亿甚至十几万亿次浮点运算的高速了。
对于生命奥秘的探索,将贯穿新世纪乃至新千年人类的历史。
而蛋白质折叠,就是其中的一大课题。
请您认真阅读王志珍研究员的这篇文章。
不要害怕肽键、肽链、分子伴侣这类专业名词,因为它们与您、您的健康息息相关。
读完这篇文章,这些专业名词将成为您的朋友。
提要研究蛋白质的折叠,是生命科学领域的前沿课题之一。
蛋白质是一种生物大分子,基本上是由20种氨基酸以肽键连接成肽链。
一条肽链在空间卷曲折叠成为特定的三维空间结构,包括二级结构和三级结构二个主要层次。
有的蛋白质由多条肽链组成,每条肽链称为亚基,亚基之间又有特定的空间关系,称为蛋白质的四级结构。
所以蛋白质分子有非常特定的复杂的空间结构。
通过“蛋白质结构预测”破译“第二遗传密码”,是蛋白质研究最后几个尚未揭示的奥秘之一。
天津大学和中国科学院生物物理所的科学家已经做出了优秀的研究成果。
他们预测,蛋白质的种类虽然成千上万,但它们的折叠类型却只有有限的650种左右。
我国科学家在分子伴侣和折叠酶方面有特色的研究成果,也已经赢得了国际同行的注意。
外界环境的变化可以导致蛋白质空间结构的破坏和生物活性的丧失,但却并不破坏它的一级结构(氨基酸序列),这称为蛋白质的变性。
生物信息学中的蛋白质折叠预测算法研究
生物信息学中的蛋白质折叠预测算法研究蛋白质折叠预测是生物信息学领域中的一个重要研究方向。
了解蛋白质折叠结构对于研究蛋白质的功能和相互作用至关重要。
但由于实验方法成本高昂和时间消耗长,大多数蛋白质的折叠结构是通过计算方法进行预测的。
本文将介绍蛋白质折叠预测的算法研究。
蛋白质折叠预测算法的目标是根据蛋白质的氨基酸序列预测其三维结构。
早期的蛋白质折叠预测算法主要基于相似性比对和模板建模,即将未知蛋白质序列与已知的结构相似的蛋白质进行比对,从而预测其折叠结构。
然而,相似性比对和模板建模方法仅适用于已知结构与未知序列的相似度较高的情况,对于结构没有相似模板的蛋白质来说,这些方法的准确性较低。
随着计算机技术和生物信息学的发展,蛋白质折叠预测算法也逐渐得到改进和完善。
现代的蛋白质折叠预测算法主要包括物理模拟方法、统计学习方法和进化模拟方法。
物理模拟方法是通过模拟蛋白质的物理和化学特性来预测其折叠结构。
这些方法基于力场和能量函数,通过最小化能量或模拟分子动力学来搜索最稳定的蛋白质结构。
物理模拟方法的优点是能够考虑到蛋白质的物理约束,但由于蛋白质的折叠过程是一个高度复杂的非线性问题,计算复杂度较高,并且容易陷入局部极小值。
统计学习方法是通过学习已知蛋白质序列和结构之间的关系来预测未知蛋白质的折叠结构。
这些方法基于机器学习算法,如神经网络、支持向量机和决策树等,通过训练数据集来建立预测模型。
统计学习方法的优点是计算速度较快,能够处理大规模数据集,但由于需要大量的训练数据和特征工程,对于数据集较小或者特征不充分的情况,其准确性较低。
进化模拟方法是通过模拟蛋白质的进化过程来预测其折叠结构。
这些方法利用蛋白质序列的保守性和辅助结构信息,通过比较不同物种的蛋白质序列和结构,来推断未知蛋白质的折叠结构。
进化模拟方法的优点是可以处理没有相似模板的蛋白质序列,但由于对于蛋白质的进化信息的理解还不够全面,其准确性仍然有待提高。
总结来说,在生物信息学中,蛋白质折叠预测是一个具有挑战性的问题。
生命科学中蛋白质折叠和翻译的研究
生命科学中蛋白质折叠和翻译的研究蛋白质是生命中不可或缺的一种分子。
它们在机体内扮演着极为重要的角色,一个细胞中包含了数百万甚至上亿个蛋白质,其中每一个蛋白质都拥有着特定的生物学功能。
然而,蛋白质的构成并不是固定不变的,而是需要经过折叠和翻译的过程,这也是生命科学中极为关注的领域。
在本文中,我们将探讨生命科学中蛋白质折叠和翻译的研究。
蛋白质折叠蛋白质折叠是指蛋白质线性序列在空间中的构象变化,包括疏水效应、氢键、疏水键、离子键和范德华力等作用。
蛋白质在折叠的过程中,对于变化的构象非常敏感,即使是很小的构象变化也可能导致其生物学功能失调。
因此,蛋白质的折叠错误或失调可能引发众多疾病,如阿尔茨海默氏病、克罗恩病、帕金森病以及囊性纤维化等。
在蛋白质折叠研究方面,科学家们探索了许多方法来研究蛋白质的折叠过程,例如光学光谱学、核磁共振技术、X射线晶体学等技术手段。
此外,分子动力学模拟也成为了近年来蛋白质折叠研究的热点领域。
蛋白质翻译蛋白质翻译是指RNA通过载体mRNA所携带的信息,被翻译为蛋白质的过程。
蛋白质是由氨基酸组成的,翻译过程需要依赖着RNA、核糖体、tRNA等多种分子的协同作用。
蛋白质的翻译速度非常快,每秒钟可以合成数千个氨基酸。
翻译过程的可控性非常重要,翻译的准确性和速度直接影响蛋白质的功能和机能。
在蛋白质翻译的研究方面,科学家们主要关注着RNA的结构和作用,RNA是生命中重要的核酸之一,其在翻译过程中发挥着关键作用。
去年,美国加州大学圣克鲁兹分校(UC Santa Cruz)的科学家们发现,一类新的蛋白质——CCR4-Not复合物,可以调控编码RNA的稳定性和组装过程,这为RNA在生命中发挥作用提供了全新的视角。
结语蛋白质折叠和翻译是生命科学中极为关注的领域,它们的研究不仅涉及着生物学的基础研究,还直接关系到医学上的临床应用。
未来,我们相信新的技术手段和科学家们的不断努力,能够深化我们对蛋白质折叠和翻译这一重要生命现象的理解。
生物信息学技术在预测蛋白质折叠中的应用
生物信息学技术在预测蛋白质折叠中的应用蛋白质是生物体中最重要的分子之一,它们在生命过程中扮演着重要的角色。
蛋白质的结构是它的功能的基础,但是大部分蛋白质的结构都无法直接地从基因序列中预测出来。
这也是蛋白质结构和功能研究一直以来的难题之一。
近年来,生物信息学技术的飞速发展使得预测蛋白质折叠成为可能。
本文将从蛋白质折叠的基本原理入手,介绍生物信息学技术在预测蛋白质折叠中的应用。
蛋白质折叠的基本原理蛋白质的结构主要分为四级结构:一级结构是由多个氨基酸残基组成的多肽链;二级结构是由氨基酸残基间的氢键形成的α螺旋和β折叠片等;三级结构是由多条二级结构间的相对排列所形成的完整的立体结构;四级结构是由多个多肽链相互作用而形成的聚合体。
蛋白质的折叠在自然状态下是一个非常复杂的过程。
对于小分子的蛋白质来说,它们可以自行折叠成为一个稳定的三维空间结构,但是大分子的蛋白质则无法通过简单的自我组装而成。
蛋白质折叠的过程是非常复杂的,需要多种蛋白质、酶和分子伴侣等参与其中,这个过程有时需要几个小时,有时需要几天或者更长的时间。
生物信息学是将计算机科学、数学和统计学等技术应用于生物学研究领域的一门交叉学科。
生物信息学技术在蛋白质折叠研究中的重要性不言而喻。
以下是一些现代生物信息学技术在蛋白质折叠研究中的应用。
1. 模拟分子动力学(Molecular Dynamics,MD)Molecular Dynamics是一种计算模拟方法,可以通过解析牛顿运动方程模拟分子的动力学行为。
对于蛋白质折叠中的问题,MD可以用来模拟蛋白质在不同环境下的行为,如在各种温度、压力、溶液条件下的动态变化。
这种模拟对于准确预测蛋白质的变形和折叠状态具有重要的参考意义。
2. 配体-受体对接(Ligand-receptor Docking)蛋白质作为一种分子参与到一些生物过程中时,往往会和其他分子互相作用,例如和药物反应等。
配体-受体对接可以用于预测小分子化合物(药物)与蛋白质的互作模式。
生命科学中的蛋白质结构预测方法
生命科学中的蛋白质结构预测方法蛋白质是生命体中最复杂的生物大分子之一,它在人体内扮演着重要的生物功能角色,例如重要的代谢反应、信号传递、基因调控、细胞增殖、细胞分化等。
它的结构对于其生物学功能至关重要。
通常蛋白质结构可以通过X-射线衍射和核磁共振等技术进行决定,但是这些技术的前提是获得高纯度、高质量的蛋白样品,这在实际应用中往往不太现实。
因此,蛋白质结构预测技术的发展至关重要。
目前,蛋白质结构预测方法主要包括基于物理力学、统计学和机器学习算法的方法。
物理力学方法中包括分子动力学模拟和构象采样,这两种方法通过追踪蛋白质分子的演化过程,提供了可靠的蛋白质结构预测结果。
但是这些方法需要大量的计算资源和时间,预测速度很慢,难以应用于大规模、高通量的蛋白质结构预测中。
此外,即使使用这些方法获得了大量蛋白质结构信息,我们也需要进行快速的数据挖掘和分类,以实现有效的结构预测和功能注释。
统计学方法主要基于蛋白质结构中保守的序列和结构特征,通过从大量已知蛋白质结构数据库中提取这些特征,从而进行分类和预测。
这些方法通常具有较快的预测速度,广泛应用于一些生物信息领域,如基因组学、转录组学和蛋白质组学等。
不过,统计学方法通常不能处理结构的灵活性和可变性,并限制于数据集的选取和质量。
机器学习方法主要基于多种预测因素,包括序列、结构和功能特征,结合现代计算机处理技术和算法优化,通过多种特征的高效筛选和加权,从而实现高精度、高速度的蛋白质结构预测。
机器学习方法通过大量的训练数据和复杂的模型学习,能够发现蛋白质结构与其生物学功能之间的关系,并提供更准确的预测结果,同时它也经常被应用于蛋白质结构模拟和设计。
总的来说,蛋白质结构预测方法依旧存在着不少的挑战和限制,如计算、数据集、算法和模型等,研究者们需要不断地完善和改进这些方法,以获得更加准确、高效的预测结果,并为人类疾病的研究和治疗提供重要的数据基础。
生物信息学中的蛋白质折叠及结构预测研究
生物信息学中的蛋白质折叠及结构预测研究生物信息学是一门跨学科的学科,它所研究的对象是生物信息,这些生物信息涵盖了生物体的形态、结构、功能以及生理、生化等多方面内容。
而其中,蛋白质的折叠及其结构预测是生物信息学中的重要研究方向之一。
一、蛋白质折叠的重要性蛋白质是生命体内最为重要的分子之一,它承担着许多生理功能,如酶促反应、信号传导、结构支撑等。
而蛋白质的功能与其结构密切相关,不同的蛋白质结构决定了不同的生物功能,因此研究蛋白质的结构对于理解其生物学功能具有重要意义。
然而,不同的蛋白质分子具有不同的结构,而这种结构是由蛋白质分子中的氨基酸序列所决定的。
在细胞内,蛋白质分子的合成往往是由氨基酸链逐一连接,最终形成一条长链。
然而,蛋白质分子的生物功能是由其折叠后的3D结构所决定的,而这种折叠过程是由氨基酸的物理性质所控制的。
因此,蛋白质折叠成为研究生物学中的核心问题之一。
而蛋白质折叠的研究,又被称为蛋白质折叠动力学,是生物化学、生物物理学、计算机科学、统计学等多学科的交叉领域。
蛋白质折叠的研究对于深入理解蛋白质的生物学功能、研究蛋白质相关疾病等都有着重要的意义。
二、蛋白质折叠的难点然而,尽管蛋白质折叠这一问题至少已有80年的研究历史,但依然存在着许多难点。
其中最突出的问题之一是:如何预测蛋白质分子的3D结构?回答这个问题并不容易。
因为一般而言,氨基酸序列中的信息并不足以准确描述蛋白质分子的3D结构,而3D结构又受到多种因素的影响,如氨基酸间的作用力、溶液环境、温度、PH值等等。
因此蛋白质折叠的过程涉及到了多个因素的耦合作用。
在这样艰巨的背景下,各种蛋白质结构预测方法应运而生三、蛋白质结构预测的方法在现代计算机和数学理论的支持下,蛋白质折叠问题已经成为了计算生物学中非常重要的问题之一。
常见的蛋白质结构预测方法主要包括:1、模板比对法模板比对法是最常用的蛋白质结构预测方法之一,它基于能够找到与已知结构类似的蛋白质分子这样的假设,通过比对已知结构的蛋白质序列,构建拓扑结构模型,然后利用分子力学、分子动力学等方法进一步优化模型的稳定性和可靠性。
蛋白质折叠与功能相关解析及方法验证
蛋白质折叠与功能相关解析及方法验证蛋白质是生命体中参与几乎所有生物学过程的关键分子。
在细胞内,蛋白质的功能与其所采取的特定三维结构密切相关。
蛋白质的三维结构是通过一种称为折叠的过程生成的,这是一个极其复杂的过程,涉及到蛋白质链的自组装和特定的相互作用。
蛋白质的折叠过程是一个自发的过程,但鉴于蛋白质链上存在数百个氨基酸残基,准确地预测蛋白质的结构对于理解其功能至关重要。
目前,科学家们采用多种方法来研究蛋白质的折叠与功能,以及验证这些研究结果的有效性。
在解析蛋白质折叠与功能的关系时,生物物理学和结构生物学的技术起到了关键的作用。
生物物理学研究了蛋白质结构的物理特性,包括其热力学性质、稳定性和动力学等。
它们通过测量蛋白质的结构、热力学稳定性和动力学参数来研究蛋白质的折叠过程和稳定性。
这些技术包括核磁共振(NMR)、质谱(MS)、圆二色光谱(CD)和荧光光谱(Fluorescence)等。
核磁共振技术是一种主要用于研究蛋白质结构的方法。
它通过测量蛋白质中氢原子或其他核自旋之间的相互作用来确定蛋白质的三维结构。
这项技术在解析蛋白质折叠过程中起着重要的作用,因为它可以提供关于蛋白质分子中不同部分的空间排布和相互作用的信息。
质谱技术可以通过测量蛋白质中的质子, 离子或分子团的质量/电荷比, 来研究蛋白质的结构和折叠过程。
此外,圆二色光谱和荧光光谱是用于研究蛋白质的二级结构(如α-螺旋和β-折叠)的常用方法。
圆二色光谱通过测量蛋白质在可见紫外区域的环境下对旋光的吸收来研究蛋白质的二级结构。
荧光光谱测量蛋白质分子在受激发态下发出的荧光,以研究蛋白质的结构和折叠状态。
验证蛋白质折叠与功能的方法通常涉及到功能酶学和遗传学实验。
功能酶学是通过测量蛋白质的催化活性和底物特性来研究蛋白质的功能。
这些实验可以提供对蛋白质折叠正确性的间接证据。
例如,通过比较蛋白质在夏普利奥-韦斯滕综合症等致病突变中的催化活性和正常变体的活性,可以研究蛋白质的折叠和功能之间的关系。
了解生物大数据技术中的蛋白质相互作用预测流程
了解生物大数据技术中的蛋白质相互作用预测流程生物大数据技术在生物科学领域中扮演着重要的角色,其中蛋白质相互作用预测是一项关键的研究任务。
蛋白质相互作用是生物体内许多生命过程的基础,了解蛋白质相互作用的预测流程对于研究生物学中的复杂问题是至关重要的。
蛋白质相互作用预测的流程通常分为四个主要步骤:数据收集与预处理、特征提取、模型构建、性能评估与结果解释。
下面将逐步介绍这些步骤。
首先,数据收集与预处理是蛋白质相互作用预测流程的第一步。
在这一步中,研究人员收集大量的蛋白质序列和结构数据,这些数据可以来自不同的数据库或实验技术,如基因组学、蛋白质组学和结构生物学等。
然后,这些数据需要进行预处理,例如去除重复数据、处理缺失值和异常值等,以确保数据的质量和可靠性。
第二步是特征提取。
在这一步中,研究人员将从预处理的数据中提取可描述蛋白质相互作用特征的相关信息。
这些特征可以包括物理化学性质、亚细胞定位、互作结构域和进化保守性等。
特征提取的目标是从海量的数据中提取有用的信息,以便进行后续的分析和模型构建。
第三步是模型构建。
在这一步中,研究人员使用机器学习、深度学习等方法构建预测模型。
常用的方法包括支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest)、神经网络(Neural Network)等。
这些模型可以通过学习已知的蛋白质相互作用数据,来预测未知的蛋白质相互作用。
模型的训练过程需要采用交叉验证等技术来评估模型的性能和优化参数。
最后一步是性能评估与结果解释。
在这一步中,研究人员需要评估预测模型的性能,以确定模型的准确性和可靠性。
评估指标可以包括灵敏度、特异度、准确度等。
此外,还需要对模型预测的结果进行解释,以揭示蛋白质相互作用的潜在机制和生物学意义。
尽管蛋白质相互作用预测流程已经取得了一些进展,但仍面临一些挑战。
首先,数据的质量和可靠性是影响预测结果的重要因素。
生物信息学中的蛋白质折叠模拟研究
生物信息学中的蛋白质折叠模拟研究蛋白质是大分子有机化合物,是构成细胞的重要基本组成单元。
它们的功能与能力与其结构密切相关。
蛋白质的结构通常分为四个层次。
第一层次是氨基酸序列,第二层次是二级结构(包括α-螺旋和β-折叠),第三层次是三级结构,包括不同的链之间的空间关系,第四层次是四级结构,描述不同蛋白质之间的联系。
在这些不同的层次上,重点看重的是蛋白质的折叠模式,因为它会直接影响蛋白质的功能和活力。
蛋白质折叠模拟子属于蛋白质折叠问题的一个重要分支。
蛋白质折叠问题涉及到的是如何进行蛋白质的正确折叠,此过程需要产生一种特定的构象,这种特定的构象决定了蛋白质的生物功能。
蛋白质折叠模拟则是使用计算机模拟的手段,尝试还原真实的蛋白质折叠,通过对这个过程进行模拟和研究,揭示蛋白质折叠过程中的一些规律和机理。
在计算机模拟中,蛋白质分子通常被视为一个复杂的三维结构,而且蛋白质层次中的每个层次都与其它层次的结构因素有交织、相互影响的关系。
通常采用2和3维结构研究蛋白质的折叠过程,其中,2D结构主要包括二面干凝胶层析、电泳和纤维素鞘层析、SPR等技术,它们适用于小分子的结构分析,在折叠过程研究中的作用比较有限。
3D结构则适用于大分子的结构分析,通常采用X射线晶体学、核磁共振等技术。
另外,随着生物信息技术的发展,计算机模拟在蛋白质折叠研究中的地位越来越重要。
有关蛋白质折叠研究已经历了一个漫长的发展过程:(1)初期是简单的多肽链和小蛋白分析模型的应用。
(2)中期是发展CPU模拟技术和网络模型的普及。
(3)现在是基于GPU的并行计算的技术进步,使用分子动力学、分子力学和蒙特卡罗方法等多种算法。
这些算法不允许完全预测过程中的每一个步骤,但它们可以在不同的折叠阶段和构象之间穿梭来查找最优的结构。
从研究中,我们亦可以发现因外部环境和蛋白质自身的变化而带来的影响。
针对蛋白质折叠模拟中的问题,生物信息学提供了多种快速且准确的方法。
例如,从分子结构到分子力学、蒙特卡罗模拟等技术。
蛋白催化位点预测
蛋白催化位点预测蛋白催化位点预测是一项重要的研究领域,在药物设计和生物工程等领域具有广泛的应用前景。
通过预测蛋白质分子中的催化位点,我们可以更好地理解蛋白质的功能和作用机制,从而为新药的开发和治疗疾病提供重要的指导。
催化位点是蛋白质分子中具有催化活性的特殊位置。
它们通常由氨基酸残基组成,具有特定的结构和功能。
在蛋白质的结构中,催化位点通常位于活性中心附近,与底物分子发生特定的相互作用,从而催化化学反应的进行。
为了预测蛋白质中的催化位点,研究人员通常使用一系列的计算方法和算法。
这些方法可以分为结构基于方法和序列基于方法两大类。
结构基于方法主要是基于蛋白质的三维结构进行预测。
通过分析蛋白质的结构特征,如氨基酸的侧链构象、残基间的相互作用等,可以预测催化位点的位置和性质。
这些方法通常需要蛋白质的结构信息,因此需要进行蛋白质结构的解析和模拟。
序列基于方法则是基于蛋白质的氨基酸序列信息进行预测。
通过分析蛋白质序列中的保守位点和保守模体,可以预测催化位点的位置和特征。
这些方法通常不需要蛋白质的结构信息,因此可以应用于未知结构的蛋白质。
除了结构和序列信息,催化位点的预测还可以利用生物信息学数据库和机器学习算法。
通过分析已知催化位点的特征和模式,可以训练模型来预测未知蛋白质中的催化位点。
这些方法在大规模的蛋白质数据分析中具有较高的准确性和效率。
尽管蛋白质催化位点预测在理论和方法上取得了一定的进展,但仍然存在一些挑战和难题。
首先,蛋白质的结构和功能非常复杂,催化位点的预测仍然存在一定的误差和不确定性。
其次,蛋白质的结构和序列信息在不同的物种和组织中可能存在差异,这也给催化位点的预测带来了一定的困难。
为了进一步提高蛋白质催化位点预测的准确性和效率,需要不断开展基础研究和方法改进。
同时,加强数据共享和合作,建立更加完善和准确的数据库,也是推动该领域发展的重要方向。
蛋白质催化位点预测是一项具有挑战性和重要性的研究课题。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Protein Fold Prediction Using Attributed Graph Matching with Parallel ComputingA LPER K UÈCËUÈKURAL-U GÏUR S EZERMANFaculty of Engineering and Natural Sciences,Sabanci University,TurkeyAbstract.±3D structures of proteins can be represented by graphs.The simila-rities between protein families can be found using with attributed sub-graph matching algorithms and they can align using their structural futures such as cliquishness, connectivity,sequence similarity and secondary structure information.Since time and memory consumption of these algorithms high,parallel processing algorithms are using to reducing these problems.Keywords.Graph Matching,Sub-Graph Matching, Parallel processing,and Protein fold prediction.1.IntroductionGraph theory is used for data representation.[1]There are numerous fields in biology which can utilize graph representation methods such as evolutionary pathway graphs[2],protein interaction networks[3],the chemical structure graphs of proteins and biological pathways.If the graphs represent contacts that are made between the amino acids consisting a protein when they are folded into their3D form,the name of this special graph is called contact graph.These graph give information about the globular structural properties of a protein.Finding structural homologies between proteins is an important topic of study and research.Our aim is to discover homolog domains in different protein families.To this end,graph matching and sub-graph matching algorithms can be used to determine similar regions in the protein structuresusing the conatt graphs.Furthermore matching sub-graphs between two graphs can be homologous domains of these proteins.These contacts are assumed to be preserved for certain domains.Graph matching algorithms are computationally expensive as far as thousands of separate graphs and their matching processes are concerned.Accomplishment of these processes is only possible by using super computers and parallel processing techniques in an affordable time period.A parallel algorithm can divide the whole process into many completely independent parts and will reduce the running time of graph matching algorithm.2.Problem StatementThere are extremely large amounts of3D protein structure data is represented in our dataset.The graph nodes are amino acids.The graphs are built up with their3D proteinPROTEIN FOLD PREDICTION USING ATTRIBUTED GRAPH MATCHING ETC.491 structures.There are many proteins whose functions and crystal structures are not known.If the graph matching algorithms,whose structure and function is already known,are properly utilized,unknown proteins can be found by only examining their amino acid sequence.In addition,by using sub-graph matching algorithms important domains are possible to detect which are functionally significant.There are10K graph and10M sub-graphs which exist in our database.In order to reduce running time,the parallel algorithms have to be used.Each parallel process starts with the heavily connected nodes in the graph and begins to search the best possible matching as a sub-graph.All the algorithms are working mainly based on this idea.The processes must communicate with each other.Each one has to inform others about their state.The fact that they know the states of each other will prevent the extra work load on each process.3.Background and Related WorkThere are numerous implementations about structural alignment of proteins in the literature.M AM M OTH uses molecular models of proteins.[4]Krissinel et al.has novel approaches to find secondary structure matching with new functions[5,6]and one is multiple alignment.[7]Yuzyen He et al.presented structural divergence and flexibility of the proteins with multiple alignment using partial order graphs.[8] On the other hand a significant number of graph isomorphism and parallel processing algorithms can be found in the literature.A graph is a useful representation method for real world situations if the objects of the structure interconnect.[9]Since the graph matching algorithms are computationally expensive,researchers are work-ing to find the best graph matching algorithm.Their aim is to reduce memory consumption and processing time,which are the most important constraints in the algorithms as in graph matching theory.Obviously brute force solutions for graph matching would be very slow and inefficient.In1974,Ullman proposed his algorithm, based on elimination of successor nodes in tree search.[10]Today,the most useful and effective algorithms are VF algorithms as far as time and memory consumptions concerned.There are various types of exact matching algorithms such as monomorph-ism,isomorphism and graph-subgraph isomorphism.[12]All of these algorithms are related with exact graph matching.These algorithms are not for solving problems that contain errors or inexact matching.If the inexact matching algorithms want to include these problems,computational complexity will increase.VF algorithm was compared with Ullmann's algorithm in another research by Cordella et al.The computational complexity of Ullmann's algorithm is U(N3)in the best case,if considering the exploring states is N.However the complexity of VF algorithm is U(N2).In the worst case,Ullmann's Algorithm will give U(N!N3);and VF algorithm U(N!N).When we look at the memory consumption of each case,the VF algorithm is U(N2)in both cases, which are the best and the worst cases.On the other hand the memory consumption of Ullmann's algorithm is U(N3)in both cases.[11]Scientists prefer to use Ullman's algorithm in solving exact matching problems,due to its generality and effectiveness.[13]On the other hand VF algorithm is improved by Cordella et al.They named this new492ALPER KUÈCËUÈKURAL-UGÏUR SEZERMANversion as VF2,and it is useful for matching large algorithms.The search space and data structure are modeled differently.The memory usage is reduced in this new structure.In addition,this new algorithm can handle large graphs more efficiently.[12] There are numerous graph matching algorithms produced in the last three decades. Some of these algorithms are capable of reducing computational complexity by using constraints and restrictions.Others are capable of reducing memory consumption using streaming technology.Some methods have extremely large memory consumption,but when attempts to reduce overall computational cost for matching are made for a sample graph against a large set of prototypes,memory consumption is exponentially increas-ing.[12]For that reason scientists have attempted to solve this problem by using parallel algorithms such as divide and conquer[9].The real problems of biology have extremely large graphs.Parallel algorithms reduce the processing time by parallel search on the graph trees.Data streaming technologies are also using for the reduction of memory consumption.[14]Yu Sheng et al.claim in their research that their algorithm is suitable for the parallel computer system,especially for the one who works with distributed memory because the time is growing in the polynomial shape in graph isomorphism.In their implementation, asynchronous parallel algorithms are used.Their result show that as the processor amount increases the necessary time decreases;in addition,algorithm efficiency increases for higher numbers of nodes.The basic idea of this parallel algorithm is based on the communication of each process when one of them succeeds.The main algorithm has three steps.The first step is that the master processor broadcasts the two graphs to all processors such as A an B.In the second step,each processor starts searching with own processor number.For example,we show this value as i.We define sub-graph as C2A i and D2B i.If the amount of processor is P,every loop in the search operation increased by P.This means that the search operation time is divided by P.If any of the processors finds that C and D are isomorphic,it informs the other processors.In the third step,all the processors finish their work properly.The search operation can be finished for these two graphs.[15]4.DatasetWe used the data set created by Capriotti et.al.(2004)[18].The sequence similarity of the proteins is very low but their structures are very similar for pairs.We extend the dataset using Globins family from SCOP[19].5.Implementation of Parallel Algorithm5.1.General View of Parallel AlgorithmParallel processing is exactly fit into find out similar parts of the proteins which have lesser sequence identity.MPICH2was used to message passing between processes.MPICH2is one of the best MPI implementation.PROTEIN FOLD PREDICTION USING ATTRIBUTED GRAPH MATCHING ETC.493 We used graph representations of the proteins to find out their structural similarities.First two proteins are chosen and contact map matrices are built according to their neighborhood.The criteria for neighborhood are the distance between C b atoms of residues and Ca atoms for Glycine.If the distance is smaller than7.3AÃ,then the residues are in contact.The sums of the rows in the contact map graph give connectivity values.Initiation nodes array consists of heavily connected residues which are specified by ranking the connectivity values in descending order of the first protein.Initiation node array size is defined as%10of the protein length.Binding residue matrices(BRM)are constructed using with attributes such as cliquishness,connectivity,sequence similarity and secondary structure values for both proteins.In our approach we used a master process and child processes.Master manages the child processes and hold their states in each level and send them necessary information what they need when the algorithm goes in asynchronous nature.This approach is similar to approach of Yu Sheng et al.[15]Child processes addressed to do matching operation and inform the master in every state.Master process can send three different signals to inform child processes about their states such as new file,new initiation node and stop signals.If new proteins or first two proteins will be matched,new file signal is sent to inform the child processes about sending BRM that previously prepared by master process.Then master sends BRM to each child process and once they got BRM they are ready to begin processing.In this state child process is waiting for an initiation node to begin graph matching which is coming from initiation nodes array.Once the initiation node distribution made between child processes,the child process will begin graph matching operation until all the nodes in the initiation array is finished.When the matching operation for an initial node is finished,the child process sends a signal to the master process to inform its state.Now this process also added free process array.Now this process is ready to have a new initial node to begin matching operation.If some nodes remain in initiation array,master process sends new initial node message to inform the free child process and then new initial node can send to start matching operation in the child process.When all the elements in initiation array are finished,master sends to stop signal to the child processes to close their connections.Let's look at scoring function,constraints and how child processes are using them in their matching operation.5.2.Scoring FunctionScoring function is using to determine a matching is valid or not according to the threshold values.It is consisted of three terms as given in equation1.First term Sc represents similarity between the structural features which is obtained from compari-sion of cliquishness and connectivity values.Second term,sim,represents the sequence similarity of the mapped regions of the proteins.Third term SS represents similarity of the secondary structural features.1TS c1ÃSc c2ÃSim c3ÃSS494ALPER KUÈCËUÈKURAL-UGÏUR SEZERMANThis function enables us to determine structurally and sequencewise similar regions of proteins.5.3.Child ProcessesThe architecture of the parallel communication in this project is based on asynchronous communication.If a child process run faster this process can finish its job earlier and then can begin new matches with new initiation node.Child processes wait for a signal from Master process to start.A child process can receive three signals from master process such as new initiation node,new file or stop signals.First new file message has to be received to have a new BRM and then new initiation node is received.Once a child process received a BRM and an initial node,it is time to create first solution list.Every match is in second protein according to scoring function with initial node which comes from first protein puts into solution list.First solution list includes matches between an initial node and matched nodes coming from second protein.Solution list ranked with matching scores which are the result of scoring function because the algorithm has to be walked on the best matching nodes.To continue the algorithm,first solution in the solution list is taken and found all the neighbors of the nodes to find new matches between neighbors of the nodes. Before any matches transferred into solution list,they put into child list after the control with constraints and scoring function.Possible matches are hold by child list send to master process to check whether this matching operation has been made with another process or not.If this node has been matched with the same node by anotherprocess,the master process removes it from child list and sends back the child listwithF IGURE1PROTEIN FOLD PREDICTION USING ATTRIBUTED GRAPH MATCHING ETC.495 this information to the child process.Remaining matches in the child list directly insert into the same solution list with parent id to indicate its parent solution in child process. The most important part of the view of this solution list structure collects all the solutions in the same list.The similar structure holds the solution in the master process.In addition to this the parent list in the master process collects all the solutions which are coming from the all processes.When the algorithm ends,the solutions in the master process got separated each other with back propagation.The solutions have one of the best scores obtain from only limited number of intital nodes.We are calling these initial nodes as winner nodes.Because when some matches find correctly,this can spread out easily then the others therefore the solutions scores are produced by winner nodes are higher and their lengths are obtained longer.A simple example about the parallel communication which is checking occupied matches is given in the Figure1.6.ResultsWe applied the algorithm to the dataset obtained from our colleagues at Bologna University.We compared the results with CE algorithm.In majority of the cases we obtained lower RMSD than CE but our predictions were relativily shorter than CE.In its current form algorithm helps to determine conserved core segments of proteins rather than giving the optimum alignment of two structures like CE.Currently we are trying to optimize parameters of our target function.Our experience in CINECA was great.The problem we were trying to tackle was a really difficult one and we had great help from the colleagues at CINECA.The solutions we get from the parallel algorithm are much better than the serial code so parallelizing enabled us to explore the search space more efficiently.References[1]H ARARY F RANK,Graph Theory,Addison-Wesley,Reading,MA,1969[2]L IEBERMAN E.,H AUERT C.and N OWAK M.A.,Evolutionary dynamics on graphs.Nature,(2005),433,312-316.[3]F LORIAN I RAGNE,M ACHA N IKOLSKI,B ERTRAND M ATHIEU,D AVID A UBER and D AVID S HERMAN,facilities for navigating in large graphs and exploring biologically relevant features,and adopts emerging standards such as GO and PSI-2,(2005),272-274.[4]O LMEA O.,S TRAUS C.E.and O RTIZ A.R.,MAMMOTH(matching molecular models obtainedfrom theory):an automated method for model comparison.Protein Sci,(2002),11,2606-21.[5]E.K RISSINEL and K.H ENRICK,Protein structure comparison in3D based on secondarystructure matching(SSM)followed by C-alpha alignment,scored by a new structural similarity function.In:A.J.Kungl and P.J.Kungl,Editors,Proceedings of the Fifth international Conference on Molecular Structural Biology,Vienna,3-7September,(2003), p.88.496ALPER KUÈCËUÈKURAL-UGÏUR SEZERMAN[6]E.K RISSINEL and K.H ENRICK(2004),Secondary-structure matching(SSM),a new tool for fastprotein structure alignment in three dimensions.Acta Cryst.D60,2256-2268.[7]E.K RISSINEL and K.H ENRICK(2005),Multiple Alignment of Protein Structures in ThreeDimensions.In:M.R.Berthold et.al.(Eds.):CompLife,(2005),LNBI3695,67-78.Springer-Verlag Berlin Heidelberg.[8]Y.Y E and A.G ODZIK,``Multiple flexible structure alignment using partial order graphs''Bioinformatics,(2005),21(10),2362-2369.[9]M.K ARPINSKI and W.R YTTER,Fast Parallel Algorithms for Graph Matching Problems,Oxford Lecture Series in Math.and its Appl.Oxford University Press,1998.[10]J.R.U LLMAN,An Algorithm for Sub graph Isomorphism,Journal of the Association forComputing Machinery,(1976),23(1).[11]L.P.C ORDELLA,P.F OGGIA,C.S ANSONE and M.V ENTO,Performance Evaluation of the VFGraph Matching Algorithm,Proceedings of the10th International Conference on Image Analysis and Processing,(1999),p.1172,September27-29.[12]L.P.C ORDELLA,P.F OGGIA,C.S ANSONE and M.V ENTO,An Improved Algorithm for MatchingLarge Graphs,Proc.of the3rd IAPR-TC-15International Workshop on Graph-based Representation,Italy,2001[13]B.T.M ESSMER,Efficient Graph Matching Algorithms for Preprocessed Model Graphs,Ph.D.Thesis,Inst.of Comp.Sci.and Applied Mathematics,University of Bern,1996.[14]R OBERT A LLEN,L UIGI C INQUE,S TEVEN L.T ANIMOTO,L INDA G.S HAPIRO and D EAN Y ASUDA,AParallel Algorithm for Graph Matching and Its MasPar Implementation,Electronic Edition(IEEE Computer Society DL),(1997),8(5),490-501.[15]Y U E N S HENG,W ANG X ICHENG,L U J IE and L I C HUNLIAN,A New Algorithm For GraphIsomorphism And Its Parallel Implementation.[16]W ATTS D.J.and S TROGATZ S.H.,Collective dynamics of'small-world'networks.Nature,(1998),393,440-442.[17]W ALLQVIST A.,F UKUNISHI Y.,M URPHY L.R.,F ADEL A and L EVY R.M.,Iterative sequence/secondary structure search for protein homologs:comparison with amino acid sequence alignments and application to fold recognition in genome databases.Bioinformatics, (2000),16(11),988-1002.[18]C APRIOTTI E.,F ARISELLI P.,R OSSI I.and C ASADIO R.,A Shannon entropy-based filter detectshigh-quality profile-profile alignments in searches for remote homologues.Proteins (2004),54,351-360.[19]M URZIN A.G.,B RENNER S.E.,H UBBARD T.and C HOTHIA C.,SCOP:a structural classification ofproteins database for the investigation of sequences and structures.J.Mol.Biol.,(1995), 247,536-540.[20]S HINDYALOV I.N.and B OURNE P.E.,Protein structure alignment by incremental combina-torial extension(CE)of the optimal path.Protein Engineering,(1998),11(9),739-747.。