蛋白质二级结构预测软件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
预测蛋白质二级结构的算法大多以已知三维 结构和二级结构的蛋白质为依据,用过人工 神经网络、遗传算法等技术构建预测方法。
目前较为常用的几种方法有:PHD、PSIPRED、 Jpred、PREDATOR、PSA,其中最常用的是 PHD。PHD结合了许多神经网络的成果,每个结果 都是根据局部序列上下文关系和整体蛋白质性质 (蛋白质长度、氨基酸频率等)来预测残基的二级 结构。那么,最终的预测是这些神经网络每个输出 的算术平均值。这种结合方案被称为陪审团决定法 (jurydecision)或者称为所有胜利者(winnertake-all)法。PHD被认为是二级结构预测的标准。 总的来说,二级结构预测仍是未能完全解决的问题, 一般对于α螺旋预测精度较好,对β折叠差些,而对 除α螺旋和β折叠等之外的无规则二级结构则效果很 差。
其它特殊局部结构的预测软件 其它特殊局部结构包括膜蛋白的跨膜螺旋、 信号肽、卷曲螺旋(Coiled Coils)等,具有 明显的序列特征和结构特征,也可以用计算 方法加以预测。
卷曲螺旋 COILS: http://www.ch.embnet.org/software/COILS_form.htm l 卷曲螺旋预测方法,将序列与已知的平行双链卷曲螺旋数据库 进行比较,得到相似性得分,并据此算出序列形成卷曲螺旋的 概率。COILS算法将查询序列在一个由已知包含卷曲螺旋蛋白 结构的数据库中进行搜索。程序也将查询序列与包含球状蛋白 序列的PDB次级库进行比较,并根据两个库搜索得分的不同决 定输入序列形成卷曲螺旋的概率。COILS可以下载到 VAX/VMS系统上使用,也可通过简单的Web界面使用。
蛋白质预测分析网址
物理性质预测: Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemasshttp://expaxy.hcuge.ch/sprot/pept ide-mass.html TGREASE ftp://ftp.virginia.edu/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch/ch2d/aacompi.htmlAAC ompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.emblheidelberg.de/prs.html
二级结构和折叠类预测 nnpredict http://www.cmpharm.ucsf.edu/~nom i/nnpredict Predictprotein http://www.emblheidelberg.de/predictprotein/SOPMA http://www.ibcp.fr/predict.html SSPRED http://www.emblheidelberg.de/sspred/ssprd_info.html
程序要求序列数据为GCG或FASTA格式,一次可以提交一条或 多条序列。除了序列,用户还能在两种打分矩阵中选择一种: MTK是根据肌球蛋白、原肌球蛋白和角蛋白序列得到的打分矩 阵;或MTIDK,是根据肌球蛋白、原肌球蛋白、中间纤维类蛋 白Ⅰ-Ⅴ、桥粒蛋白和角蛋白得到的打分矩阵。程序作者引述了 两种矩阵的适用特点:MTK更适合检测双链结构,而MTIDK适 合其它情形。用户还能启动一个选项给予每个卷曲a和d位置上 残基(通常为亲水性)相同的权重。如果COILS在无权重和有 权重情况下得到的结果相差很大,则可能表明存在正错误。程 序的作者警告说COILS是用来检测与溶液接触的左手性卷曲螺 旋的,对于包埋的或右手性卷曲螺旋则可能检测不到。若一个 序列被提交到服务器,程序会整理出一张预测结果图,显示沿 着序列各个部分形成卷曲螺旋的倾向性。
特殊结构或结构预测 COILS http://ulrec3.unil.ch/software/COILS_ form.html MacStripe http://www.wi.mit.edu/matsudaira/m acstripe.html
与核酸序列一样,蛋白质序列的检索往往是进行相 关分析的第一步,由于数据库和网络技校术的发展, 蛋白序列的检索是十分方便,将蛋白质序列数据库 下载到本地检索和通过国际互联网进行检索均是可 行的。 由NCBI检索蛋白质序列 可联网到: “http://www.ncbi.nlm.nih.gov:80/entrz/qu ery.fcgi?db=protein”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:http://srs.ebi.ac.uk/”,可利用EMBL 的SRS系统进行蛋白质序列的检索。
疏水性分析 位于ExPASy的ProtScale程序 ( http://www.expasy.org/cgibin/protscale.pl)可被用来计算蛋白质的疏水性 图谱。该网站充许用户计算蛋白质的50余种不同 属性,并为每一种氨基酸输出相应的分值。输入的 数据可为蛋白质序列或SWISSPROT数据库的序列 接受号。需要调整的只是计算窗口的大小(n)该 参数用于估计每种氨基酸残基的平均显示尺度。 进行蛋白质的亲/疏水性分析时,也可用一些 windows下的软件如, bioedit,dnamana等。
跨膜区分析 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨 基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种 更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们 的膜向性。这些技术主要是基于对已知跨膜螺旋的研究而得到 的。自然存在的跨膜螺旋Tmbase 数据库,可通过匿名FTP获 得(http://www.isrec.isb-sib.ch/ftp-server/tmbase),参 见表一 资源名称 网址 说明 TMPRED http://www.ch.embnet.org/software/TMPRED_form.ht ml基于对tmpred数据库的统计分析PHDhtm http://www.embl-heidelberg.de/se ... tprotein.htmlMEMSAT ftp://ftp.biochem.ucl.ac.uk
PHD的使用请见人工神经网络方法中的“基于人工神经网络模型的预 测软件PHDsec使用简介”. nnPredict: http://www.cmpharm.ucsf.edu/~nomi/nnpredict.html nnpredict算法使用了一个双层、前馈神经网络去给每个氨基酸分配 预测的类型。在预测时,服务器使用FASTA格式的文件,其中有单字 符或三字符的序列以及蛋白质的折叠类(α、β或α/β)。残基被分为 几类,如α螺旋(H)、β链(E)或其它(-)。若对给定残基未给 出预测,则会标上问号(?),这说明无法作出可信的分配。若没有 关于折叠类的信息,预测也能在不定折叠类的情况下进行,而且这是 缺省的工作方式。据报道,对于最佳实例的预测,nnpredict的准确 率超过了65%。 PredictProtein: http://cubic.bioc.columbia.edu/predictprotein/ 国内镜像:http://www.cbi.pku.edu.cn/predictprotein/
PredictProtein在预测中应用了略为不同的方法。 首先,蛋白质序列被作为查询序列在SWISSPROT库中搜索相似的序列。当相似的序列被找到 后,一个名为MaxHom的算法被用来进行一次基 于特征简图的多序列比对。 MaxHom用迭代的方法来构造比对:当第一次搜 索SWISS-PROT后,所有找到的序列与查询序列 进行比对,并构造出一个比对后的特征简图。然后, 这个简图又被用来在SWISS-PROT中搜索新的相 似序列。由MaxHom产生的多序列比对随后被置 入一个神经网络,用PHD的方法进行预测。 SOPMA:http://pbil.ibcp.fr/
信号肽 SignalP: http://www.cbs.dtu.dk/services/SignalP/ 丹麦技术大学的生物序列分析中心开发了SignalP 这个强大的信号肽及其剪切位点检测工具。该算法 基于神经网络方法,用已知信号序列的革兰氏阴性 原核生物、革兰氏阳性原核生物及真核生物的序列 分别作为训练集。SignalP预测的是分泌型信号肽, 而不是那些参与细胞内信号传递的蛋白。
跨膜区域 TMpred: http://www.ch.embnet.org/software/TMPRED_form.ht ml 预测蛋白质的跨膜区段和在膜上的取向,它根据来自SWISSPROT的跨膜蛋白数据库Tmbase,利用跨膜结构区段的数量、 位置以及侧翼信息,通过加权打分进行预测。Tmpred的Web 界面十分简明。用户将单字符序列输入查询序列文本框,并可 以指定预测时采用的跨膜螺旋疏水区的最小长度和最大长度。 输出结果包含四个部分:可能的跨膜螺旋区、相关性列表、建 议的跨膜拓扑模型以及代表相同结果的图。
蛋白质二级结构预测软件 蛋白质二级结构的预测通常被认为是 蛋白结构预测的第一步,二级结构是 指α螺旋和β折叠等规则的蛋白质局部 结构元件。不同的氨基酸残基对于形 成不同的二级结构元件具有不同的倾 向性。按蛋白质中二级结构的成分可 以把球形蛋白分为全α蛋白、全β蛋白、 α+β蛋白和α/β蛋白等四个折叠类型。
通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时, 可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析Leabharlann Baidu蛋白质序列分析的基本方面,一 般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和 疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的 很多功能特征可直接由分析其序列而获得。例如,疏水性图谱 可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将 目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子 是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。 WEB中有很多此类资源用于帮助预测蛋白质的功能。
位于法国里昂的CNRS(Centre National dela Recherche Scientifique)使用独特的方法进行 蛋白质二级结构预测。它不是用一种,而是5种相 互独立的方法进行预测,并将结果汇集整理成一个 “一致预测结果”。这5种方法包括:GarnierGibrat-Robson(GOR)方法、Levin同源预测方 法、双重预测方法、PHD方法和CNRS自己的 SOPMA方法。简单的说,SOPMA这种自优化的预 测方法建立了已知二级结构序列的次级数据库,库 中的每个蛋白质都经过基于相似性的二级结构预测。 然后用次级库中得到的信息去对查询序列进行二级 结构预测。
基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch/ch2d/aacomp i.htmlAACompSim http://expaxy.hcuge.ch/ch2d/aacsim. html PROPSEARCH http://www.emblheidelberg.de/prs.html
MacStripe:一个基于Macintoshi系统的应 用程序,使用了Lupas的COILS的预测方法, 能输出较简单的预测结果。MacStripe要求 输入文件为FASTA、PIR或其它普遍文件格 式,并象COILS一样产生一个图形文件,包 含形成卷曲螺旋的概率,以及用柱状图显示 七连体重复模式的连续性。