蛋白质结构分析原理及工具-文献综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蛋白质结构分析原理及工具
(南京农业大学生命科学学院生命基地111班)
摘要:本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具,系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举,并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。
关键词:蛋白质;结构预测;跨膜域;保守结构域
1 蛋白质相似性检测
蛋白质数据库。由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源,它们通常具有相似的功能;由基因复制而来的序列称为旁系同源,它们通常有不同的功能[1]。因此,推测全新蛋白质功能的第一步是将它的序列与进化上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。
表一常用蛋白质数据库
网址可能有更新
氨基酸替代模型。进化过程中,一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵[2]、JTT模型[3]。
序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局部联配工具有BLAST和SSEARCH,它们使用了Smith-Waterman 算法。全局联配工具有FASTA和GGSEARCH,基于Needleman-Wunsch算法。多序列相似性搜索常用于构建系统发育树,这里不阐述。表二列举了常用的成对序列相似性比对搜索工具
表二成对序列相似性比对搜索工具
网址可能有更新
2 蛋白质一级结构分析(含保守结构域)
蛋白质结构的基本信息来源于它的一级结构,分析蛋白质一级结构的第一步是将它们分成其组成部分,然后处理每个部分的结构[4]。这种拆分常常是根据蛋白质具有的相互作用的结构域进行的[5, 6]。蛋白质结构域或蛋白质家族数据库对分析未知蛋白质的功能是很有用的,这些数据库通常被称为“特征数据库(signature databases)”。“基序(Motifs)”通常指没有间隔的多序列队列,通常由10-20个氨基酸构成。一系列基序构成的蛋白质域家族叫做“指纹(fingerprint)”。使用它们的优势是可以检测远距离的序列关系[7]。基序的典型例子是位置加权矩阵(position-specific score matrix,PSSM)。PSSM计算基序中每一位置的分数。任何一个保守位置的信息被缩小到一个叫“序列模式(sequence patterns)”的共同序列结果。“序列谱(sequence profiles)”用来描述一个较长的可能含有有用信息的保守序列片段。它们被用来较大结构域的检测。隐马尔可夫模型(Hidden Markov Models,HMMs)即是一种和序列谱有关的模型。表三列举了主要的蛋白质特征数据库。
表三常用蛋白质特征数据库
MSA:多序列比对;CDD:保守结构域数据库
值得一提的是,CDD数据库包含了蛋白质保守结构域分析。
上述数据库都有自带的搜索引擎供搜索,它们采用的算法也不尽相同,此处不再列举。
3 蛋白质二级结构分析
蛋白质的二级结构是由氨基酸骨架间的氢键决定的,通常有三种形态,螺旋(H),β
链(E)和卷曲(C)。为了从蛋白质原子的结构中获得更多的信息,蛋白质二级结构字典(DPSS)定义了蛋白质二级结构的八种状态:三种螺旋,H (α-helix)、G (310-helix) 和I (π-helix),β链两种,E (extended strand in parallel and/or anti-parallel β-strand conformation) 和B
(β-bridge),三种卷曲,S (bend)、T (turn) 和C (coil)。预测二级结构的第一步是搜索PDB
数据库寻找与查询蛋白质同源的蛋白质的实验三维结构,例如FDM(Fragment Database Mining)算法首先会对PDB数据库进行搜索。早期的二级结构预测主要基于单个氨基酸的形成结构的倾向,GOR算法采用这种方式,但现在的GOR算法通过贝叶斯统计等方法改进。CDM算法(Consensus Data Mining)结合了FDM和GOR的优势。还有很多方法各有其特点:PSIPRED,PSSM等。更现代的方法利用了最新的机器学习技术例如SVMs(Support Vector Machines)和NNs(Neural Networks)。还有一些方法还考虑了氨基酸残基的相对溶解度(RSA)。表四列举了常用的蛋白质二级结构在线预测工具。
表四蛋白质二级结构在线预测工具
5 蛋白质跨膜结构域分析
跨膜(TM)蛋白跨过整个脂膜[8],通常被分为两类α-helical TM (AHTM) 和TM β-barrel (TMB) proteins。AHTM定位在细菌细胞膜的内膜和真核生物的细胞膜上。它们的跨膜区域有极性的环链接而成的α螺旋。对TMB蛋白的了解还不多,它们的跨膜域为反向平行的桶装β链通道[9]。
通过实验的方法(X-ray和NMR等)来决定TM蛋白的结构,相比较于球状蛋白,解析的TM蛋白3D结构非常有限。因此,人们开发了很多的方法用来预测蛋白质的跨膜结构域。这些方法中的大部分都只根据序列来识别跨膜结构。表五列举了常用的在线跨膜结构域预测工具。
表五在线跨膜结构域预测工具
6 蛋白质三维结构分析
蛋白质的三维结构通常比其一级结构更加保守。目前最可靠的蛋白质三维结构预测方法是同源建模法。同源建模通常有三步:1选择模板,2目标模板分析,3三维模型的构建。有些同源建模法专注于同源建模的某些特定步骤,例如CPHmodels和Domain Fishing专注于模板的选择;ESyPred3D和Geno3D专注于目标模板的分析。
SWISS-MODEL是一个高度自动化的同源重组建模综合服务[10],其他的在线同源重组建模工具如表六所示
表六在线同源重组建模工具
蛋白质三维结构预测还有其他的方法和工具例如折叠识别法和从头计算法,这里不再列举。
7 结论
本文列举了一系列对生物学有用的蛋白质生物信息学工具,但是,随着越来越多的物种被测序,越来越多的蛋白质功能被注释以及更多的蛋白质三维结构被解析,生物信息学的分析方法会更多,也会更准确。最后只得一提的是,生物性息学分析目前只能作为辅助工具,作为实验前的初步筛选,而其分析结果并不能作为准确的结论,准确结论的得出还有赖于实验的验证。