结构生物信息学3-二级结构预测
蛋白质结构和功能关系的二级结构预测
蛋白质结构和功能关系的二级结构预测蛋白质是生命的重要组成部分,在细胞内担任着多种功能的角色。
蛋白质的结构决定了其功能和活性,因此准确预测蛋白质的结构对于理解其功能关系具有重要意义。
蛋白质结构可以分为四个不同的层级:一级结构、二级结构、三级结构和四级结构。
在这些层级中,二级结构是最基本和常见的一种。
蛋白质的二级结构描述了氨基酸残基之间的局部空间排列方式,主要有α螺旋、β折叠、无规则结构和卷曲结构等几种主要类型。
这种结构的形成通过氢键、范德华力和静电相互作用等相互作用方式维持着。
二级结构在蛋白质结构和功能中起着基础性的作用,对于蛋白质的稳定性和折叠过程具有至关重要的影响。
在过去的几十年里,许多方法和算法被开发出来,用于预测蛋白质的二级结构。
这些方法基于不同的原理和假设,例如统计学、机器学习和模拟等。
统计学方法通过分析已知的蛋白质结构数据集来预测目标蛋白质的二级结构。
机器学习方法则利用已知的蛋白质二级结构进行训练,建立模型并预测目标蛋白质的结构。
模拟方法则使用物理原理和计算机模拟技术来模拟蛋白质的折叠和动力学过程,从而预测蛋白质的二级结构。
其中,最常用的蛋白质二级结构预测方法之一是基于氨基酸序列的机器学习方法。
这种方法通过收集大量的已知蛋白质二级结构数据集,提取相关特征并利用机器学习算法进行训练和预测。
特征可以包括氨基酸序列、物理化学性质、生物信息学特征等。
常用的机器学习算法包括支持向量机、随机森林和深度学习等。
另一种常见的蛋白质二级结构预测方法是基于氨基酸序列的模拟和计算技术。
这些方法通过使用力场模型和分子动力学模拟等技术,模拟蛋白质的折叠过程和结构动力学行为,从而预测蛋白质的二级结构。
这些方法往往需要大量的计算资源和时间,但由于其基于物理原理的优势,能够提供更为准确的预测结果。
最近的研究表明,将不同的预测方法进行组合和集成可以获得更准确的蛋白质二级结构预测结果。
这种组合方法可以充分利用不同方法的优势,并根据不同的蛋白质特征进行灵活调整和选择。
蛋白质结构预测及其在结构生物学中的应用
蛋白质结构预测及其在结构生物学中的应用蛋白质是生命体内最基础的分子,是构成生命物质的基本单位。
每个蛋白质都具有一定的空间结构,这个结构决定了蛋白质的功能。
因此,蛋白质结构的预测对于生命科学、药物设计等领域具有重要的意义。
本文将探讨蛋白质结构预测的基本原理以及在结构生物学中的应用。
一、蛋白质结构预测的基本原理蛋白质的空间结构可以分为四个层次:一级结构(序列)、二级结构(α-螺旋、β-折叠等)、三级结构(多肽链的空间构象)和四级结构(多个多肽链之间的空间关系)。
预测蛋白质的空间结构,从根本上来说就是预测其三级结构的问题。
目前,大部分蛋白质结构预测方法都是基于基因组学的大规模测序数据的,结合一些现有的晶体结构数据库和序列数据库。
基本上,它们都大致包含以下三个步骤:第一步,根据蛋白质的氨基酸序列和模板数据,在蛋白质数据库中寻找最相似的结构;第二步,将找到的最相似的结构作为一个初始模型,使用蛋白质结构预测算法进行优化;第三步,选择最优解或者最优模型。
目前使用最广泛的预测方法是同源建模和蒙特卡罗模拟。
同源建模通过寻找蛋白质序列和已经被解析的蛋白质晶体或者核磁共振数据的相似性,构建一个已知的三维模型。
蒙特卡罗模拟是一种基于优化的预测方法,模拟蛋白质在空间中不同构象的状态,最后得到最佳的构象。
二、蛋白质结构预测在结构生物学中的应用蛋白质的结构预测对于结构生物学的发展起到了重要的推动作用。
此外,它还可以在多个领域中发挥重要的应用。
1.药物设计药物设计是利用化学或者生物学方法开发药品的过程。
在药物设计过程中,蛋白质结构预测是不可或缺的一步。
通过预测蛋白质的结构,科学家可以根据药物和靶标蛋白质之间的相互作用原理来精确设计和优化药物分子结构。
2.蛋白质工程蛋白质工程是指利用基因工程技术对蛋白质分子进行改造的过程。
结合蛋白质结构预测的结果,科学家可以从理论上探究如何改变蛋白质的某些特性,例如抗原性、稳定性、活性等,以实现特定的应用需求。
蛋白质二级结构的预测以及二级结构与三级结构之间关联的探讨
蛋白质二级结构的预测以及二级结构与三级结构之间关联的探讨蛋白质的生物功能以其结构为基础。
随着人类基因组计划的顺利实施,蛋白质序列信息的积累速度远快于蛋白质结构数量的增长速度。
实验上研究蛋白质结构的主要手段有X射线晶体学技术、核磁共振衍射技术、电子纤维技术等。
然而,通过实验手段确定蛋白质的结构,不但成本高、耗时,而且实验中还会遇到一些目前无法解决的技术困难,因此人们非常希望利用理论计算的方法直接从序列信息出发来预测蛋白质结构,这是生物信息学研究的重要课题之一。
目前,直接从氨基酸序列信息出发来预测蛋白质三级结构还是有很多困难。
更多的焦点集中在去预测蛋白质二级结构。
由于二级结构单元是多肽链在三维空间折叠的基本元素,二级结构预测通常作为蛋白质空间结构预测的第一步,是蛋白质三级结构预测中重要的中间步骤,也是蛋白质折叠理论研究的重要挑战。
本文重点介绍了一种新的方法,即基于4肽结构字的多样性增量二次判别法(简称TPIDQD算法),对2个大小不同的数据库进行了二级结构的预测。
同时对325个标准样本集合,进行了二级结构和三级结构关联的研究。
(1)新的预测算法大体分三步:首先用定义的三种4肽结构字(alpha、beta、coil)在序列中出现的频次作为多样源,从而建立标准源;然后用多样性增量结合二次判别法对任何一个序列片段中心残基的二级结构进行预测;最后进行一些修正后处理,包括:消除预测中的结构涨落以及用4肽边界字来修正预测后的结构边界。
(2)用TPIDQD算法首次对CB513数据库的二级结构进行了预测,3折交叉检验的预测精度Q<sub>3</sub>达到79.19%。
(3)建立了一个新的包括1645个非冗余蛋白质链的数据库,其中蛋白质结构分辨率高于3 Angstroms,序列相似性小于25%。
用TPIDQD算法对其中21残基片段中心残基的结构性质进行预测,10折交叉检验得到Q<sub>3</sub>为79.68%。
基于生物信息学的RNA二级结构预测
基于生物信息学的RNA二级结构预测RNA二级结构预测是生物信息学中一个非常重要的问题。
RNA分子是生命中最重要的分子之一,它不只是蛋白质的重要合成媒介,还具有许多重要功能,包括参与基因调控、RNA编辑、RNA修饰等。
确定RNA二级结构不仅可以帮助我们理解RNA的功能和机制,还可以帮助我们研究各种致病和基因缺陷。
本文将介绍RNA二级结构预测的一些基础知识、方法和现状。
一、RNA的结构和功能RNA分子的结构是一个相对简单的单链;但在生命中,RNA 分子通常会折叠从而形成多种不同的结构。
这些结构通常由较短的RNA碱基序列和互补配对所形成的“二级结构”组成。
RNA二级结构是指RNA单链中互补碱基之间形成的配对。
配对产生的氢键形成了RNA的二级结构,而不同的二级结构相互之间的相对位置和方向可以是不同的。
这些相互关系产生复杂的RNA三维结构。
RNA的二级结构影响了RNA分子的许多重要功能,例如,它们可能会影响RNA的稳定性,调节RNA蛋白互作,以及可能为RNA编辑等重要功能的基础。
二级结构还是RNA信息编码的主要载体,起到了保护RNA核心区域的作用。
二、RNA二级结构的预测方法RNA二级结构预测有许多方法,这些方法的复杂性各不相同。
虽然没有一种方法或工具能够完全准确地预测出RNA二级结构,但是这些方法为基于RNA二级结构的机制研究提供了有用的信息。
现在,我们概述了四种常见的RNA二级结构预测方法。
1.基于比对的RNA二级结构预测基于比对的RNA二级结构预测通常基于对多个RNA序列进行比对,从而能够准确的确定RNA相似性和区域位置。
这种方法通常涉及到“比对搜索和计算”,它们根据RNA的结构和序列信息推断出RNA的二级结构。
2. RNA合成和干扰这种方法是通过合成RNA复合物,从而实现RNA二级结构的预测。
它通常针对“内切酶”和“RNA编辑酶”等控制发育和调节基因表达的关键RNA酶进行分析。
3.推断RNA互补模型Acta Cryst Sect D最近发表的一篇论文描述了X-ray晶体学方法,可以在原子分辨率下推断出RNA中两个碱基对之间的对应关系。
生物信息学中的序列分析和结构预测研究
生物信息学中的序列分析和结构预测研究生物信息学是一门可以将计算机科学与生物学相结合的学科。
生物信息学中的序列分析和结构预测是其中一个重要的研究方向。
随着DNA测序技术的发展,越来越多的生物数据被生成和解析,因此,对生物序列数据的分析和解释变得越来越重要。
本文将介绍生物信息学中的序列分析和结构预测的相关概念和方法。
一. 序列分析序列分析是通过对蛋白质、核酸、氨基酸或者整个基因组序列的分析,得到更深刻的生物学认识的一种方法。
序列分析是从原始的序列数据出发,提取特征,并进行分析、统计和比较的过程,可以用于证实两个生物体之间的亲缘关系、预测基因或蛋白质的功能、寻找生物学上的信号和标志,还可以发现新的蛋白质或RNA序列。
在序列分析中,最重要的任务是进行序列比对。
序列比对是找到两个以上的序列之间的相同部分或相似部分的过程。
基于全序列比对的方法,常见的是Smith-Waterman算法和Needleman-Wunsch算法。
虽然都是动态规划算法,但细节不同,算法时间复杂度、空间复杂度、对gap处理策略不同。
对于一些特殊的比对问题,如短序列比对、大规模序列比对,则需要采用一些高速的快速比对算法,如BLAST和FASTA。
基于序列比对的序列多重比对是一种常见的方式,它用于对多个序列进行分析。
一般有两种方法:动态规划算法和基于计算机Cluster算法。
其中动态规划算法包括POA(Partial Order Alignment)算法、MFA(Multiple sequence alignments by progressive alignment)算法、T-Coffee等,而Cluster算法则有CLUSTAL、MUSCLE等。
序列聚类是生物信息学中的一项重要任务。
序列聚类是指将已知的序列按照一定的规则分成若干个类别,从而对进化树或者结构预测等研究提供比对的基础。
经典的序列聚类算法有UPGMA、NJ、BOT等,通过这些算法可以从序列中找到相似性,更快地分析生物学中的相似性和差异性。
几类常见的RNA二级结构预测方法
几类常见的RNA二级结构预测方法摘要:RNA作为生物遗传信息传递和复制的重要组成部分,其结构非常复杂。
使用计算机算法预测大分子量的RNA二级结构将是一个行之有效的途径。
本文将介绍目前常用的几种RNA二级结构预测算法,并对其特点进行初步的比较分析。
关键词:RNA二级结构;算法;自由能;茎区RNA分子是生物体内参与各种如细胞分化、代谢、记忆存储等重要生命活动的一类大分子,其常见种类有:rRNA、mRNA、tRNA。
其中除tRNA分子量较小外,其余RNA分子都具有非常大的分子量且结构复杂。
传统的物理、化学结构预测方法只适用于测量分子量较小的RNA。
而针对大分子量的RNA二级结构预测,使用计算机技术预测是一条行之有效的方法。
本文主要介绍基于系统发育比较和自由能最小两种技术的RNA二级结构预测算法,并对算法的特点做出简单的阐述。
1RNA二级结构的预测方法从1960年fresco等提出第一个RNA二级结构预测算法开始,RNA二级结构的预测算法经历了近半个世纪的发展,已日趋成熟。
1987年V on heijin对各种预测RNA二级结构的方法进行了综述[1]。
1971年Tinoco et.al首次估算了与二级结构相关的能量,包括双链区中堆叠碱基对相关的稳态能量和未配对区域的稳定影响。
1975年Pipas和McMahon开发出计算机程序可以列出tRNA序列中所有可能的螺旋区。
直到1980年Nussinov和Jacobson首次设计出一个用于预测二级结构的精确而有效的算法,该算法运用了类似动态规划的相关技术,产生了两个记分矩阵,用于记录推测出的RNA分子中碱基的相关信息。
目前,研究人员开发出多种RNA二级结构预测方法。
但总体来说,这些方法可以从研究的数据量出发将其分为两大类:基于系统发育比较技术的预测算法和基于自由能最小技术的预测算法。
1.1基于系统发育比较技术的预测算法基于系统发育比较技术的预测算法即序列比较分析方法(comparative sequence analysis),或称系统发育方法(phylogenetic methods)。
生物信息学中蛋白质二级结构预测算法研究
生物信息学中蛋白质二级结构预测算法研究蛋白质是细胞中最重要的分子之一,它们执行着包括催化、结构支撑以及调节生物过程等重要功能。
在研究蛋白质功能的过程中,蛋白质的二级结构信息尤为关键。
二级结构通常指的是蛋白质中由氢键连接的α-螺旋、β-折叠等构像单元,是描述蛋白质内部空间结构的重要参数。
因此,准确预测蛋白质二级结构对于深入了解蛋白质结构与功能之间的关系,具有重要的意义。
在生物信息学领域,蛋白质二级结构预测一直是一个备受关注的研究方向。
这项工作旨在通过从蛋白质序列中推断出其氢键连接的二级结构信息。
在寻找二级结构预测算法的过程中,生物学家们研究发现,蛋白质二级结构具有一定的“规律性”以及模板性。
因此,大多数的蛋白质二级结构预测算法都仰仗于这些规律性的特征。
蛋白质二级结构预测算法主要分为两类:基于机器学习和基于规则的模型。
其中,机器学习算法是近年来发展最快的一种,并且取得了许多优异的预测效果。
前期的一些经典机器学习算法主要是基于统计方法的,如隐马尔科夫模型、支持向量机、人工神经网络等等。
它们的主要特点是利用大量已知结构的训练数据,不断调整模型参数和训练方法,最终实现对新序列的二级结构预测。
近年来,随着深度学习算法的兴起,目前最先进的蛋白质二级结构预测算法也以深度学习模型为主。
这些模型具有如下显著特点:首先,它们能够从蛋白质原始序列数据中提取出更多的相关特征,直接生成蛋白质二级结构。
其次,深度学习算法具有极强的自适应性和泛化性,能够对不同蛋白质序列和二级结构之间的关系进行建模与预测。
这种算法在特定数据集上表现优异,但与模型规则性比起来,其可解释性要差一些。
不同的蛋白质二级结构预测算法在算法内部的实现和技术细节上也各不相同。
举例来说,有一些算法采用分成多段预测或者是分类器配合来处理较复杂的结构;而有的算法则使用局部和全局的特征结合,减缓了中间序列长度增长所带来的影响。
它们在预测准确率、计算效率和模型可解释性等方面各有优缺点。
生物信息学中的基因组分析与功能预测方法研究
生物信息学中的基因组分析与功能预测方法研究简介:生物信息学是研究生物学数据的收集、存储、检索、分析和解释的一门学科,它结合了生物学、计算机科学和统计学的知识。
基因组分析和功能预测是生物信息学中的重要研究内容,旨在了解生物体的遗传信息和功能。
一、基因组分析方法基因组分析是对生物体中的基因组结构和组成进行研究和分析的过程。
下面介绍几种常见的基因组分析方法。
1.基因组测序:基因组测序是获取生物体基因组的完整序列信息的方法。
常见的基因组测序方法包括Sanger测序、Illumina测序和Oxford Nanopore测序等。
通过基因组测序,我们可以了解生物体基因组中的基因、非编码RNA、调控序列等信息,为功能预测提供数据基础。
2.基因组比对:基因组比对是将新测序的基因组序列与已知的参考序列进行比对,以找出两者之间的相似性和差异性。
常见的基因组比对方法包括BLAST、Bowtie、BWA等。
基因组比对可以帮助我们发现新的基因、突变、重排等结构变化。
3.基因组结构与注释:基因组结构与注释是对基因组中的基因进行识别和注释的过程。
常用的基因组结构与注释方法包括基于比对的方法、基于转录组的方法和基于比较基因组学的方法。
这些方法可以帮助我们了解基因的外显子、内含子、起始密码子、终止密码子等信息。
二、功能预测方法基因组的功能预测是根据基因组序列信息推测基因的功能和参与的生物学过程。
下面介绍几种常见的功能预测方法。
1.同源比较:同源比较是通过比对已知功能的基因组序列来推测新基因的功能。
常见的同源比较方法包括BLAST、HMMER、PHYRE等。
通过同源比较,我们可以从已知功能的基因中找到与待预测基因相似的序列,从而推测其功能。
2.基因家族预测:基因家族预测是通过分析基因组中的重复序列来推测基因的功能。
常用的基因家族预测方法包括Pfam、SUPERFAMILY等。
这些方法可以将基因分为不同的家族,并预测其功能。
3.结构与功能预测:结构与功能预测是通过预测蛋白质的二级结构、三级结构和功能来推测基因的功能。
生物信息学中的序列分析与结构预测研究
生物信息学中的序列分析与结构预测研究序列分析与结构预测是生物信息学中的重要研究领域。
生物信息学是应用计算机科学、数据科学和统计学等技术来研究生物学问题的学科。
序列分析和结构预测是生物信息学中的两个核心任务,它们可以揭示生物分子的功能和结构,进而为疾病治疗、药物设计等领域提供重要的理论依据。
1. 序列分析序列分析是指对生物分子序列(如DNA、RNA和蛋白质序列)进行研究和分析的过程。
通过序列分析,我们可以了解到生物分子的组成、结构和功能。
在序列分析中,常用的方法包括序列比对、序列搜索以及序列分类等。
序列比对是将不同生物分子序列进行比对,找出它们之间的相似性。
通过比对分析,可以推测不同生物分子之间的亲缘关系,进而研究它们的功能和进化历史。
序列比对中的常见算法包括Smith-Waterman算法和Needleman-Wunsch算法。
序列搜索是从大量的生物序列数据库中搜索与目标序列相似的序列。
这种方法可以帮助研究人员找到与目标序列功能相似的已知序列,从而推断目标序列的功能和结构特征。
常用的序列搜索算法包括BLAST算法和FASTA算法。
序列分类是根据生物分子的序列特征将它们分为不同的家族或亚型。
通过序列分类,可以对生物分子进行分类研究,从而揭示它们的功能和结构变化。
常用的序列分类方法包括聚类分析、物种分类和基于机器学习的分类模型。
2. 结构预测结构预测是基于生物分子的序列信息来预测其三维结构的方法。
生物分子的结构决定了其功能和相互作用方式。
结构预测可以帮助我们理解生物分子的功能和相互作用机制,并为药物设计和疾病治疗等领域提供有力的支持。
蛋白质结构预测是结构预测中的重要任务之一。
蛋白质是生物体内最重要的功能分子,其结构与功能密切相关。
蛋白质结构预测可以通过多种方法进行,包括基于比对的模板建模、蛋白质折叠动力学模拟以及基于物理力学模型的结构预测等。
核酸结构预测是研究DNA和RNA分子的三维结构的过程。
DNA和RNA是生物体内的遗传物质,其结构和功能的解析对生物学的研究具有重要意义。
蛋白质结构预测和功能预测的生物信息学算法研究
蛋白质结构预测和功能预测的生物信息学算法研究蛋白质是生物体中一种非常重要的分子,它们在细胞代谢过程中扮演着重要的角色,例如:催化反应、运输物质、支撑结构、调节信号传导等等。
我们人类的身体中,就有数以百万计的不同种类的蛋白质,而这些蛋白质都是由氨基酸(Amino Acids)构成的。
在国际上,对蛋白质立体构型(Protein Conformation)和功能的研究一直是生物信息学领域的一个热点。
因此,本文就来探讨一下蛋白质结构预测和功能预测的生物信息学算法研究。
一、蛋白质结构预测算法1. 介绍蛋白质的结构预测是对蛋白质分子结构进行预测的过程,可以分为三种类型:一级结构、二级结构和三级结构预测。
一级结构是指蛋白质的氨基酸序列,二级结构是指蛋白质中α螺旋和β折叠的相对排列,三级结构是指蛋白质的完整三维结构。
蛋白质结构预测的研究可以追溯到上世纪50年代,当时是通过实验方法来寻找蛋白质结构的。
而随着计算机技术的发展,蛋白质结构预测的研究逐渐趋于计算机模拟方法。
2. 常见的蛋白质结构预测算法(1)序列比对序列比对是通过比较不同蛋白质的氨基酸序列,找出它们的相同区域来推测蛋白质结构。
这种方法通常适用于寻找已知结构的蛋白质的未知序列,而对于全新的未知蛋白质序列,这种方法存在较大的误差。
(2)拓扑结构模拟拓扑结构模拟是建立在拓扑学基础上的一种新型方法,通过模拟拓扑结构的各种表现形式,例如多面体和环等,在根据实验数据优化模拟结果,获得预测结论。
拓扑结构模拟方法克服了许多传统算法存在的局限性,并且在计算时间上也得到了较大的改善,因此具有广泛应用价值。
(3)机器学习机器学习方法在蛋白质结构预测中也有广泛应用,这种方法主要是利用大量已知的蛋白质结构和对应的氨基酸序列,通过机器学习算法建立预测模型,再使用模型对未知蛋白质结构进行预测。
这种方法不仅准确度高,而且预测速度也非常快。
二、蛋白质功能预测算法1. 介绍蛋白质的功能预测是指比较已知的功能和未知蛋白质序列之间的相似性来预测其功能。
生物信息学中的蛋白质序列分析
生物信息学中的蛋白质序列分析随着生物技术的不断发展,人们对于生物体内各种蛋白质的研究愈发深入。
而蛋白质序列分析则是生物信息学中重要的一环,可以用于蛋白质结构预测、功能分析、进化研究等方面。
在这篇文章中,我们将探讨蛋白质序列分析在生物信息学中的应用以及涉及到的技术和算法。
一、蛋白质序列的组成蛋白质由氨基酸组成,而蛋白质序列指的是氨基酸连接的线性序列。
氨基酸是构成蛋白质的基本单元,不同的氨基酸组合构成不同的蛋白质。
目前已知的氨基酸有20种,它们由不同的侧链和碳氮骨架组成,这种多样性导致了蛋白质具有丰富多样的结构和功能。
二、蛋白质序列分析的应用1、预测蛋白质结构蛋白质结构与其功能息息相关,因此对于蛋白质结构的预测一直是研究的热点问题。
蛋白质序列是进行蛋白质结构预测的重要依据之一。
一般来说,蛋白质结构预测可分为二级结构和三级结构预测。
二级结构指的是蛋白质中α-螺旋、β-折叠和无规则卷曲等局部的结构。
目前,常用的二级结构预测方法有Chou-Fasman算法、GOR算法等。
而三级结构预测指的是蛋白质整体的三维结构,其预测难度更大,目前还没有完全解决。
但是,针对蛋白质结构的许多研究都是基于蛋白质序列的分析和预测。
2、鉴定蛋白质功能蛋白质的功能与其序列和结构有关,因此通过分析蛋白质序列也可以预测蛋白质的功能。
一般来说,蛋白质的功能可以分为三类:催化、结构和调节。
催化作用指的是酶类蛋白质对化学反应的促进作用。
结构作用指的是蛋白质形成结构,对于细胞和组织的形态和机能具有重要作用。
调节作用指的是蛋白质对细胞、胚胎、发育和免疫系统等的调节作用。
对于蛋白质功能的鉴定,目前的方法主要有以下几种:1)基于序列的比对方法;2)结构基因学方法;3)基于基因组的方法。
三、蛋白质序列分析的技术和算法1、BLAST算法BLAST(Basic Local Alignment Search Tool)算法是常用的序列比对算法之一,它通过比对两条序列后,计算两个序列之间的相似性得分。
RNA二级结构预测技术的研究现状与未来发展
RNA二级结构预测技术的研究现状与未来发展RNA是一种重要的生物分子,是转录过程中的关键物质,因为RNA分子的二级结构决定着它的功能。
因此,对RNA二级结构的预测研究具有重要的意义。
在过去几十年中,许多研究人员致力于RNA二级结构预测技术的研究,取得了许多有意义的成果,未来还有更多的发展空间。
RNA二级结构预测的意义RNA二级结构预测技术可以通过解析RNA序列的碱基配对关系来预测RNA的结构,从而为研究RNA功能和作用机制提供基础和指导。
RNA的功能和二级结构密切相关,二级结构决定了RNA分子的折叠状态,进而影响着RNA分子的生物学特性和功能。
此外,二级结构也包含了RNA分子的折叠状态、相互作用等信息,因此RNA二级结构预测技术也可以为RNA三级和四级结构的研究提供重要信息。
值得注意的是,由于RNA的特殊性质,预测RNA二级结构的难度要比预测蛋白质结构的难度要大很多,因此RNA二级结构预测技术的研究也是生物信息学领域的一个重要研究方向。
RNA二级结构预测的技术路线RNA二级结构预测技术的研究方法通常可以分为两种:一是基于实验数据,如NMR、X-ray、化学修饰等方法获取RNA的三维结构,然后通过计算机算法推断出RNA的二级结构;二是使用计算机算法快速地推断RNA的二级结构,如目前广泛使用的动态规划算法和基于机器学习的算法,其中动态规划算法是最常用的方法之一,因为它稳定可靠、易于实现。
近年来,随着计算机和算法的不断发展,现代RNA二级结构预测技术已经具备了很高的准确性和可靠性。
例如,目前预测RNA二级结构的最好算法比以前的算法只多了一些百分点的准确性,但它已经具备了快速、计算成本低,同时还是开源的,适用于促进RNA研究的实质性进展。
RNA二级结构预测技术的未来发展虽然现代RNA二级结构预测技术非常成熟和可靠,但仍然存在很多挑战和机遇。
例如,预测RNA的三维结构和结构稳定性等仍然是一个难题,需要进一步完善算法和技术。
生物科技-生物信息学PowerPointPresentatio 精品
Domains:Motifs的组合
一个或多个domains
六种蛋白质的结构类型
(1) Domains: 螺旋束通过loops连接 (2)b Domains: 主要是反平行b片,两对b片形成
sandwich结构 (3)bDomains: 螺旋连接的平行的b片 (4) bDomains: 螺旋和b片各自形成单独的
膜蛋白 (Membrane proteins): 特定的疏水表面
亚稳态 (marginally stable): 折叠之后的蛋白质 无序性 (Intrinsically disordered): 许多蛋白质必须
与其他蛋白质结合后才能够获得稳定的结构
因此,预测蛋白四个基本层面
1.PDB (Protein Data Bank): 蛋白质结构数 据库
/pdb/home/home.do
2. MMDB (Molecular Modeling Database): 分子模拟数据库
/sites/entrez?d b=structure
结构 (5) Multidomain ( b):包含多种domains (6) Membrane & cell-surface proteins
-domain structures: 4-helix bundles
Up-and-down sheets and barrel
Greek key motifs
b-Strands & Sheets
1. 一般不单独出现,成对或多个出现 2. b链通过氢键连接,稳定结构 3. 相互作用的部分通过短的/长的loop连
接 4. 平行或反平行的bsheet
反平行的b-sheet
平行的b-sheet
生物信息学课程报告 几种蛋白质二级结构预测方法评价
几种蛋白质二级结构预测方法的评价摘要蛋白质二级结构的预测是了解蛋白质空间结构及其作用机理的重要步骤,二级结构的预测方法也越来越多,为便于广大研究者选择合适的预测方法,本文利用SARS 数据集,采用统一的评价标准,对蛋白质二级结构预测的三种典型方法PSIPRED V3.0、APSSP2、GOR4进行评测。
结果显示,PSIPRED预测效果较好,可以作为相关研究的首选,而GOR4表现最差,对β折叠的预测能力最缺乏。
关键词二级结构PSIPRED SARS数据集Evaluation on three prediction methods of proteinsecondary structureAbstract Protein secondary structure prediction plays a key role in recognizing the protein’s three-dimensional structure and mechanism. With more and more prediction methods developed, three prediction methods of protein secondary structure including PSIPRED V3.3,APSSP2,GOR4 had been utilized in SARS to evaluate their applicability. The findings suggested that PSIPRED performed best, and GOR4 had poor effect in the protocol, especially in the prediction of β strands.Keywords protein secondary structure ;PSIPRED ; SARS由于蛋白质的生物学功能在很大程度上依赖于其空间结构,因而进行蛋白质的结构预测对了解未知蛋白生物学功能具有重要意义[1]。
预测蛋白质二级结构的快速方法[Word文档]
预测蛋白质二级结构的快速方法本文档格式为WORD,感谢你的阅读。
最新最全的学术论文期刊文献年终总结年终报告工作总结个人总结述职报告实习报告单位总结演讲稿预测蛋白质二级结构的快速方法蛋白质二级结构预测方法是首先预测蛋白质的结构类型,下面是一篇探究预测蛋白质二级结构方法的,欢迎阅读参考。
1、研究背景及意义蛋白质二级结构的预测是生物、数学与计算机交叉领域的课题,进行二级结构预测对于理解蛋白质结构与功能的关系,以及分子设计、生物制药等领域都有重要的现实。
随着人类基因组计划的顺利实施,已知氨基酸序列的蛋白质数量成级数增长,目前试验手段主要依靠X射线晶体衍射与核磁共振方法测定蛋白质二级结构,但测定周期较长,导致已测定二级结构的蛋白质数量与已知氨基酸序列的蛋白质数量差距越来越大,要求有一种快速简洁而适用性强的预测蛋白质二级结构的方法。
而蛋白质的氨基酸排列顺序决定了它的空间结构,空间结构体现了蛋白质的生理功能,那么就可以从已知序列和结构的蛋白质出发,挖掘出其中的关系,就可以预测出其他已知序列的蛋白质的二级结构。
如果准确率达到要求则对于了解生命现象的本质,解释疾病的发生机制,诊断、治疗疾病、设计新药、通过不同生物蛋白质结构研究生物进化、利用其他生物为人类服务等都有着非常重要的意义。
综上,蛋白质结构的预测对于蛋白质的研究与应用领域具有很好的推动作用。
2、预测方法二级结构预测一直都是学者喜欢研究的问题,研究时间长,目前预测二级结构预测的方法已经有很多,但是在准确率上都达不到所希望的要求,因此无数的人依然为此努力着(1)经验参数法。
经验参数法是一种基于单个氨基酸残基统计的经验预测方法。
通过统计分析,获得的每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。
1970年由PeterY.Chou和GeraldD.Fasman提出Chou-Fasman方法是预测蛋白质二级结构的经验方法。
这种方法基于每个氨基酸在α螺旋的相对频率,测试表,和通过X射线晶体学已知的蛋白质结构。
序列分析的原理和方法+结构的预测+全序列分析和进化分析
(一)几种主要记分法
所谓记分法(scoring method)是 将被分析的序列中的元素通过某 种手 段转化为简单的、直观的、便于计算 机处理的数值的方法。
生物信息学将被分析的序列中的氨基 酸或核苷酸称为“元素”。
记分法主要有如下几种:
1.性质矩阵法
用能体现元素特征的理化性质来描述序列中出现的特定元素。
酸 序
2)项目开始
列 分
3)输入序列
File Menu---New PSeroqjueectnce Menu---Import
析 4)选择范围 Edit Menu--- Select All
步 骤 5)搜寻Blocks Alignment ---Search For
6)保存项目 File menu---save project
His-57---Asp-102---Ser-195 (H----------D-----------S)
高等生物至低等生物其丝氨酸蛋白酶均具有类似的功能和结构。将这些物种的 相应蛋白序列利用生物信息学上述方法进行分析,得到下图。
H------D------C/S
Alignment Block Motifs #
Sequence typeP: rotein
Score: BLOSUM-62
3)输入序列 4)选择范围 5) 搜寻Blocks 6) 保存项目 7) 转换成文本文件
另外,Clustal X也是多重序列对齐分析的常用软件。
·Gibbs Sampler
Regular Expression
Search Results
Keep m
len
Info.
+3
22
0.109
3
生物信息学第七章蛋白质结构分析和预测
提交氨基酸序列
/~phyre/
五、蛋白质跨膜区预测
膜蛋白结构
脂双层
1
2
3
6 NH3
P
P
胞质
COOH
4
5
7
五、蛋白质跨膜区预测
跨膜区特点
➢ 膜蛋白跨膜区氨基酸具有极强疏水性 ➢ 跨膜区的二级结构一般为α螺旋和β筒状结构
20-30个连续高度疏水氨基酸可以α螺旋形式穿越 脂双层;β筒跨膜区的氨基酸只有20个左右。
构象分布概率、氨基酸在蛋白质中的相对出现 概率以及残基出现在结构中的频率,最后得到 构想参数,根据此参数得出氨基酸形成二级结 构的倾向性,从而预测二级结构。
Chou-Fasman二级结构预测经验规则
α螺旋规则
➢ 相邻的6个残基中如果有至少4个残基倾向于形 成α螺旋,则认为是螺旋核。
➢ 然后从螺旋核向两端延伸,直至四肽α螺旋倾 向性因子的平均值pα<1.0为止。此外,不容许 脯氨酸在螺旋内部出现,但可出现在C末端以 及N端的前三位。
蛋白质的结构层次:
一级结构(氨基酸序列) 二级结构 三级结构 四级结构
采用ProtParam软件[1] (/tools/protpa ram.html)分析蛋白质的分子量、理论 等电点、氨基酸组成、带正负电荷的氨 基酸残基数目、消光系数、吸光系数、 疏水系数和半衰期等基本理化性质。
信号肽预测
分泌蛋白新生肽链N端的一段20~30氨 基酸残基组成的肽段。将分泌蛋白引导 进入内质网,同时这个肽段被切除。现 这一概念已扩大到决定新生肽链在细胞 中的定位或决定某些氨基酸残基修饰的 一些肽段。
信号肽预测
预测给定的氨基酸序列中是否存在潜在 的信号肽剪切位点及其所在
生物信息学第六章蛋白质结构预测及分子设计
4、点击”Go” 5、点击感兴趣的结果(1W36,进入MMDB) 结果列表中包含相关蛋白(powered by BLAST)、文献、结构域 (domain)、配体(ligand)、3D缩略图、三维查看器
在MMDB看搜到蛋白的结构(NCBI)
实验数据
数据库搜索
结构域匹配
已知结构的 同源蛋白?
有
同源 建模
无 二级
结构预测 有
串线法
三维结构模型
可用的折 叠模型?
无
从头 预测
蛋白质的基本性质
蛋白质的基本性质:
相对分子质量 氨基酸组成 等电点(pI) 消光系数
半衰期
不稳定系数 总平均亲水性 …….
蛋白质理化性质分析工具
工具
网站
备注
AACompldent
对氨基酸序列多个物理和化学参 数(分子量、等电点、吸光系数 等)进行计算
PeptideMass SAPS
/tools/pept ide-mass.html
计算相应肽段的pI和分子量
http://www.isrec.isbsib.ch/software/SAPS_for
▪ MMDB (Molecular Modeling Database): NCBI的大分子三维结构 数据库,数据来自PDB
▪ 打开的单个蛋白的页面中包括 ▪ 文献、简单描述、入库日期、物种(taxonomy) ▪ 该蛋白的PDB, VAST链接(entire chain/View 3D Alignment) ▪ 三维查看器(Cn3D) ▪ 分子成分(图): chain, 3D domain, classification/family, ligand
结构生物信息学5-二级结构预测
生物信息学培训班
二级结构预测方法 - 经验参数法
预测算法
生物信息学培训班
二级结构预测方法 - 经验参数法
经验参数法:
预测算法
基本思想是在序列中寻找规则二级结构的成核位点和终止位 点 扫描输入的氨基酸序列,利用一组规则发现可能成为特定二 级结构成核区域的短序列,然后对于成核区域进行扩展,不 断扩大成核区域,直到倾向性因子小于1.0为止 规则:
由蛋白质二级结构统计分析得到的规则可用于全新蛋白质设 计或蛋白质突变体的设计; 当序列同源性较低时,二级结构的指认有助于确定蛋白质间 结构与功能的关系; 同源蛋白质模建中,二级结构预测有助于建立正确的序列比 对关系; 基于二级结构片段堆积的三级结构预测中正确的二级结构预 测是第一步;
I(S; R)在二级结构预测中的含义 R代表中心氨基酸及其所处环境 S代表二级结构类型 I(S; R)代表中心氨基酸处于S的信息值
生物信息学培训班
二级结构预测方法 - GOR算法
例子:
预测算法
假定数据库中有1830个残基, 780个处于螺旋态,1050个处于 非螺旋态; 库中共有390个丙氨酸(A),有240个A处于螺旋态,其余 150个 A 处于非螺旋态。
生物信息学培训班
二级结构预测方法 - 经验参数法
经验参数法:
生物信息学技术在蛋白质结构预测中的方法与实践指南
生物信息学技术在蛋白质结构预测中的方法与实践指南引言:随着基因组学和蛋白质组学的发展,蛋白质结构预测成为生物信息学中的重要研究方向之一。
蛋白质的结构决定了其功能和相互作用的方式,因此准确预测蛋白质结构对于生物学研究具有重要意义。
本文将介绍生物信息学技术在蛋白质结构预测中的常用方法,并提供一些实践指南,帮助读者对蛋白质结构预测有更深入的了解。
一、序列比对和同源建模序列比对是蛋白质结构预测的第一步,它通过比较待预测蛋白质的氨基酸序列与已知结构的蛋白质序列进行比对,寻找同源蛋白质以便进行结构模型的构建。
同源建模是一种常用的蛋白质结构预测方法,它利用已知结构的同源蛋白质进行模板提取,并将这些模板的结构信息应用于待预测蛋白质。
同源建模的成功与否取决于序列比对的准确性和模板的选择。
二、蛋白质二级结构预测蛋白质的二级结构(包括α-螺旋、β-折叠等)对于蛋白质的功能起着重要作用。
许多生物信息学方法可以用于蛋白质二级结构的预测,如Chou-Fasman算法、PSIPRED等。
这些方法主要基于氨基酸序列中的局部信息进行预测,具有一定的准确性。
三、从序列到三维结构在蛋白质结构预测中,从序列到三维结构的过程被称为“折叠”。
折叠过程是非常复杂的,仍然是一个挑战性的问题。
生物信息学领域已经发展出了多种方法用于模拟蛋白质的折叠过程,如蒙特卡洛模拟、分子力学模拟等。
这些方法可以根据蛋白质的物理性质和化学性质对其进行模拟,并通过寻找能量最低的构型来获得蛋白质的三维结构。
四、辅助实验技术虽然生物信息学技术在蛋白质结构预测中已经取得了很大的进展,但目前仍然难以高精度地预测蛋白质的结构。
因此,辅助实验技术在蛋白质结构预测中扮演重要的角色。
例如,核磁共振(NMR)和X射线晶体学是两种常用的实验方法,可以通过测量蛋白质的不同性质(如距离、角度、化学位移等)来解析蛋白质的结构。
五、实践指南1.了解生物信息学方法:要进行蛋白质结构预测,首先需要对生物信息学技术有一定的了解。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
l
剩余部分若长于6个残基,而且{Pα} >1.03,则 预测为螺旋。
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法 – β折叠规则:
l
沿蛋白质序列寻找β折叠核
u
延伸
成核区
延伸
l
相邻的6个残基中如果有至少4个残基倾向于形 成β折叠,则认为是折叠核。 从螺旋核向两端延伸 直至四肽片段的β螺旋倾向性因子的平均值{Pβ }<1.0为止。 若延伸后的片段的{Pβ}>1.05,则预测为β折叠
Ø 由蛋白质二级结构统计分析得到的规则可用于全新蛋白质 设计或蛋白质突变体的设计; Ø 当序列同源性较低时,二级结构的指认有助于确定蛋白质 间结构与功能的关系; Ø 同源蛋白质模建中,二级结构预测有助于建立正确的序列 比对关系; Ø 基于二级结构片段堆积的三级结构预测中正确的二级结构 预测是第一步;
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法:
l
倾向性因子:一个氨基酸残基的构象倾向性因子定义为 残基A处于构 象态i 的比例 所有被统计残 基处于构象态 i的比例
Pi = Ai / Ti (i = α , β , c, t )
大于1.0表示该残基倾向 于形成二级结构构象i α -- 螺旋 β--折叠; c --转角; t -- 无规卷曲
l
每种氨基酸出现在各种二级结构中倾向或者频率是不同的
u Glu主要出现在α螺旋中 u Asp和Gly主要分布在转角中 u Pro也常出现在转角中,但是绝不会出现在α螺旋中
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法:
l l
由Chou 和Fasman在70年代提出来 是一种基于单个氨基酸残基统计的经验预测方法。通过 统计分析,获得的每个残基出现于特定二级结构构象的 倾向性因子,进而利用这些倾向性因子预测蛋白质的二 级结构
Ø 将蛋白质序列看作是由各种氨基酸字符组成的字符 序列,将氨基酸残基片段作为输入的一串语言字符 ,二级结构即为对应的输出。 Ø 神经网络可以有效地学习蛋白质二级结构形成的复 杂规律或模式,提取更多的信息,并利用所掌握的 信息进行预测。 Ø 利用神经网络方法可以提高二级结构预测准确率。
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法:
l
基本思想是在序列中寻找规则二级结构的成核位点和终 止位点 扫描输入的氨基酸序列,利用一组规则发现可能成为特 定二级结构成核区域的短序列,然后对于成核区域进行 扩展,不断扩大成核区域,直到倾向性因子小于1.0为止 规则:
l
背景简介
l l
通过序列比对可以得到蛋白质序列的进化信息,得到蛋 白质家族中的特定残基替换模式; 通过序列的比对也可以得到长程信息 使二级结构预测的准确程度有了比较大的提高,特别是 对β折叠的预测准确率有较大的提高,预测结果与实验 观察趋于一致。
生物信息学培训班
Outline
Ø 背景简介 Ø 蛋白质二级结构预测算法 Ø 蛋白质二级结构常用软件
l
生物信息学培训班
二级结构预测方法 – 立体化学 方法 Ø 立体化学方法 --点模式方法:
l l l l
预测算法
将20种氨基酸残基分为亲水、疏水以及两性残基三类; 用八残基片段表征亲疏水间隔模式; 一个二进制位代表一个残基,疏水为1,亲水为0,共8位; 八残基片段的亲疏水模式可用0∼255的数值来表示 α螺旋的特征模式对应的值为: 9,12,13,17,……,201,205,217,219,237 β折叠的特征模式: 由连续的1或交替的01构成
f H = 780 / 1830 f H ' = 1050 / 1830 f H , A = 240 / 390 f H ', A = 150 / 390
I (ΔH ; A) = log( f H , A / f H ', A) log( f H ' / f H ) + = log((240 / 390) / (150 / 390)) + log((1050 /1830) / (780 /1830)) = 0.7650
生物信息学培训班
预测算法 二级结构预测方法 – 立体化学 方法 Ø 立体化学方法,基于氨基酸疏水性的预测方法:
l l
l
l
氨基酸的理化性质对二级结构影响较大 在进行结构预测时考虑氨基酸残基的物理化学性质,如 疏水性、极性、侧链基团的大小等; 根据残基各方面的性质及残基之间的组合预测可能形成 的二级结构。 Lim等人对α螺旋和β折叠归纳出了一套预测模式:
学习分类规则
生物信息学培训班
蛋白质二级结构预测基本方法
Ø 第一代是基于单个氨基酸残基统计分析
l
背景简介
从有限的数据集中提取各种残基形成特定二级结构的 倾向,以此作为二级结构预测的依据。
Ø 第二代预测方法是基于氨基酸片段的统计分析
l l l l
统计的对象是氨基酸片段 片段的长度通常为11-21 片段体现了中心残基所处的环境 在预测中心残基的二级结构时,以残基在特定环境形成 特定二级结构的倾向作为预测依据
l
预测算法
l
α螺旋的形成规律: u 在一段序列中发现第i、i+3、i+4位(如1、4、5)是 疏水残基时,这一片段就被预测为α螺旋; u 当发现第i、i+1、i+4位(如7,8,11)为疏水残基时 ,这一片段也被预测为α螺旋。 β折叠的形成规律: u 埋藏的β折叠通常由连续的疏水残基组成,一侧暴露的 β折叠则通常具有亲水-疏水的两残基重复模式 原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式 ,就可以预测α螺旋和β折叠
u u u u
l
l
α螺旋规则 β折叠规则 转角规则 重叠规则
延伸
成核区
延伸
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法 -- α螺旋规则:
l
沿蛋白质序列寻找α螺旋核
u
延伸
成核区
延伸
l
相邻的6个残基中如果有至少4个残基倾向于形成 α螺旋,则认为是螺旋核。 从螺旋核向两端延伸 直至四肽片段的α螺旋倾向性因子的平均值{Pα }<1.0为止。 将螺旋两端各去掉3个残基
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法 –重叠规则:
l
l l
对于螺旋和折叠的重叠区域,按{Pα }和{Pβ }的相对 大小进行预测 若{Pα }大于{Pβ },则预测为螺旋; 反之,预测为折叠。
生物信息学培训班
二级结构预测方法 - GOR算法
预测算法
生物信息学培训班
蛋白质二级结构预测
背景简介
Ø 蛋白质二级结构预测的基本依据是: 每一段相邻的氨基酸残基具有形成一定二级结构的 倾向。 Ø 二级结构预测问题:模式分类和识别问题 Ø 二级结构预测的目标:
判断每一段中心的残基是否处于α螺旋、β折叠、转角( 或其它状态)之一的二级结构态。 l 蛋白质中约85%的氨基酸残基处于三种基本二级结构状态
Ø 定义信息为:
l
预测算法
I ( S ; R) = log[ P( S | R) / P( S )]
l l l
P(S|R):两个事件S和R的条件概率,即在R发生的条件下 ,S发生的概率 若S和R无关,则 I(S; R)=0 若R的发生有利于S的发生,则I(S; R)>0 若R的发生不利于S的发生,则I(S; R)<0
u
l
生物信息学培训班
二级结构预测方法 - 经验参数法 预测算法
Ø 经验参数法 –转角规则:
l
转角的模型为四肽
f j +1 ⋅ f j +2 ⋅ f j +3 ⋅ f j +4 > 7.5 ×10
u u
−5
四肽片段Pt的平均值大于100
l
Pt的均值同时大于Pα 的均值以及Pβ 的均值 则可以预测这样连续的4个氨基酸形成转角
预测算法
是将待预测二级结构的蛋白质U与多个同源序列 进行多重比对,对于U的每个残基位置,其构象 态由多个同源序列对应位置的构象态决定,或 取出现次数最多的构象态,或对各种可能的构 象态给出得分值。
生物信息学培训班
预测算法 二级结构预测方法 – 神经网 络法 Ø 人工神经网络是一种复杂的信息处理模型,
Ø I(S; R)在二级结构预测中的含义 l R代表中心氨基酸及其所处环境 l S代表二级结构类型 l I(S; R)代表中心氨基酸处于S的信息值
生物信息学培训班
二级结构预测方法 - GOR算法
Ø 例子:
l
预测算法
l
假定数据库中有1830个残基, 780个处于螺旋态,1050 个处于非螺旋态; 库中共有390个丙氨酸(A),有240个A处于螺旋态, 其余150个 A 处于非螺旋态。
行相似性比较,利用打分矩阵计算出相似性得分, 根据相似性得分以及数据库中的构象态,构建出待 预测片段的二级结构 Ø 该方法对数据库中同源序列的存在非常敏感,若数 据库中有相似性大于30%的序列,则预测准确率可 大大上升
生物信息学培训班
预测算法 二级结构预测方法 – 同源分 析法 待预测二级结构的氨基酸片段
假设已知二级结构的氨基酸片段 T=STNGIYW T的二级结构为 CHHHHHT H代表α螺旋, T代表转角, C代表无规卷曲 U=ATSGVFL
序列比对: T=STNGIYW U=ATSGVFL