蛋白质功能预测的计算机方法_概述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Computational Approaches for Protein Function Prediction: A Survey
蛋白质功能预测的计算机方法:概述
camelbbs@ 译
蛋白质是生命中最必需和最通用的大分子,对它们的功能的认识与新药的发展、农作物的收成以及生化合成如生物燃料的发展有着重要的联系。

实验手段来预测蛋白质功能本身就是低通量的,已经不能用来注释在高速发展的基因组测序技术中所获得的大量蛋白质。

这促使人们通过计算机技术,利用各种高通量的实验数据来进行蛋白质预测,如蛋白质和基因组序列、基因表达数据、蛋白质相互作用网络以及系统发生谱等等。

事实上,在过去的短短的十年里,关于这个课题已经发表了几百篇文章。

本概述的目的在于,根据这些预测方法所用到的数据类型将它们分类并加以讨论,以便对这一重要领域的发展趋势作出预测。

希望本文能帮助计算生物学家和生物信息学工作者获得一个关于蛋白质功能的计算机预测这一领域的总览,并找出那些值得进一步研究的地方。

关键词和短语:蛋白质功能预测生物信息学基因分类多重生物数据类型高通量实验数据数据挖掘基于非同源性方法
1 前言 (5)
2 什么是蛋白功能 (7)
2.1功能分类计划(Schemes)
2.2 GO是途径 (10)
2.3讨论 (12)
3蛋白质序列 (13)
3.1介绍 (13)
3.2基于同源性的注释转换:用于功能预测的优点 (15)
3.3简单同源注释转换之外的方法 (15)
3.3.1基于同源性的方法(homology-based)
3.2.2基于亚序列的方法(subsequence-based)
3.3.3基于特征的方法(feature-based)
3.4讨论 (24)
4。

蛋白质结构 (25)
4。

1 简介 (25)
4.2 结构与功能有联系吗? (28)
4。

3 已存在的方法 (29)
4.3.1 基于结构相似性的方法(structural similarity-based)
4.3.2基于三维基序的方法(three-dimensional motif-based)
4.3.3基于表面的方法(surface-based)
4.3.4 基于学习的方法(learning-based)
4.4讨论 (35)
5 基因组序列 (35)
5.1 简介 (35)
5.2 现有方法 (35)
5.2.1基于基因组范围的同源性的注释转换(genome-wide homology-based) 5.2.2利用基因邻居的方法(neighborhood)
5.2.3 利用基因融合的方法(fusion)
5.3 方法的比较和互补(comparison and assimilation)
6 系统发生数据(phylogenetic data)
6.1 简介 (42)
6.2已有方法 (43)
6.2.1 使用系统发生谱的方法(phylogenetic profiles)
6.2.2 系统发生树方法(phylogenetic trees)
6.2.3 杂合方法(hybrid)
6.3讨论 (49)
7 基因表达数据 (49)
7.1 简介 (49)
7.2 已有方法 (51)
7.2.1 基于聚类的方法(clustering-based)
7.2.2基于分类的方法(classification-based)
7.2.3基于动态性的分析方法(temporal analysis-based)
7.3讨论 (59)
8 蛋白相互作用网络 (61)
8.1 简介 (61)
8.2 蛋白相互作用网络的功用 (62)
8.3已有方法 (63)
8.3.1基于邻接的方法(neighborhood-based)
8.3.2基于全局最优化的方法(global optimization)
8.3.3基于聚类的方法(clustering-based)
8.3.4基于相关分析的方法(association analysis-based)
8.4讨论 (71)
9文献和文本 (72)
9.1简介 (72)
9.2已有方法 (72)
9.2.1 基于IR的方法 (74)
9.2.2基于文本挖掘的方法 (74)
9.2.3基于NLP的方法 (76)
9.2.4关键字搜索 (77)
9.3 标准化举措(standardization initiatives)
9.3.1 BioCreAtIvE. 79
9.3.2 TREC 2003 Genomics Track. 81
9.4讨论 (81)
10 多样数据类型 (82)
10.1简介 (82)
10.2已有方法 (82)
10.2.1使用一个普通数据格式的方法 (83)
10.2.2 使用独立的数据格式的方法 (86)
10.3讨论 (91)
11 结论 (91)
1 前言
蛋白质是构成一个细胞的组成和功能成分的大分子,是继水之后细胞重要的第二大组成。

蛋白质对应于生物体中的一些最重要的功能,如器官的构造(结构蛋白),新陈代谢所需的生化反应的催化(酶),细胞环境的维持(跨膜蛋白)。

所以,蛋白质是生命中最必需和用得最多的大分子,对它们功能的认识联系到新药的发展、农作物的收成以及生化合成如生物燃料的发展。

早期预测蛋白质功能的方法是实验而且经常集中于一个特定的基因或蛋白,或者一小簇形成蛋白质复合物等天然组成的蛋白质。

这些途径有基因敲除、定位突变以及基因表达抑制。

然而,在不要求非常细致的情况下,这些方法是低通量的而且需要大量的实验和人力来分析一个单独基因或蛋白。

结果是,即便是大规模的实验注释,如EUROFAN计划,还是不能充分注释在高速发展的基因组测序技术中产生的大量蛋白。

这导致序列和功能之间的空白在现有蛋白质中不断扩大。

为了缩小这个差距,大量高通量的实验手段被用来研究导致蛋白质功能得以完成的机制。

这些方法产生了多种有用的数据,从单个蛋白序列到复杂的高通量数据,如基因表达数据簇和蛋白质相互作用网络。

这些数据提供了对一个蛋白质的功能和相关概念的不同见解。

例如,蛋白质相互作用数据展示了一些蛋白共同执行一个特定的功能,同时蛋白质的三维结构决定了其它蛋白与它结合的精确位点。

而且,近年来这些数据被记录在非常标准和专业的数据库里如SWISS-PROT、MIPS、DIP和PDB。

人工分析近年大量堆积的数据使得生物学的发掘变得乏味和枯燥。

现在使用来自生物信息学的技术已成为必要。

这种方法当今迅速产生和储存的生物数据所必需的。

生物信息学主要利用来自计算机科学的技术以及新发展的计算机方法来解决分子生物学和相关科学中的问题。

实际上,最近更多的提到一个生物学研究的途径是通过适当的生物信息学方法来缩小研究的范围并提出假说,然后通过验证这些假说得到最后的结论。

标准的序列比较工具如BLAST、数据库如PROSITE、Pfam、PRINTS等,都是生物信息学对分子生物学有好处的证据。

随着计算机技术在解决一些重要问题中的成功,如序列比对和比较,基因组片段聚类等,加上蛋白质功能十分重要,大量的计算机技术也被用于预测蛋白质功能。

早期的方法利用序列相似性工具如BLAST,从最相似的蛋白质中得到功能注释。

之后,另一些计算机技术使用其它类型的生物数据来进行蛋白质功能预测,如基因表达数据、蛋白质相互作用网络和系统发育谱系。

在短短十年里,关于这个课题已经有数百篇文章,包括几篇概述文章,试图提供不同时期的不同工作的总览。

根据Hodgman的研究,这个领域的发展分为四个不同的阶段:利用BLAST进行双序列比对,使用如motif之类的序列特征,利用数据挖掘方法进行单序列分析,最后是基因组水平的序列分析。

Rost等分析了生物学上的重要信号,如序列同源性,亚细胞定位,转录后修
饰以及蛋白质相互作用,对蛋白质功能预测的优势和劣势。

他们同时也提出了建立一个标准数据库的重要性如DIP(Database of Interacting Proteins),并且通过数据挖掘技术从这些数据库中提取有用信息。

Seshasayee和Bahu概述了关于直接预测功能的技术。

本文作者讨论了最为广泛的利用基因组和大规模实验数据的技术,如蛋白质相互作用网络,转录调控网络,和基因共表达网络。

他们也讨论了最早用来提出一个多重数据类型的综合的技术,如[marcotte]。

然而,对这篇文章的全面关注是对利用一个蛋白质可用的上下文关系的技术的回顾。

最终,形成了关于功能基因组这一领域的一系列的概述,涉及到使用基因组信息来预测蛋白质的功能和功能相关性。

除了讨论最流行的基于基因组的功能预测技术(第5章),这些文章也促进了新的使用基因组信息的方法,如基因组水平的蛋白质功能网络,和基因组序列的生物学相关特征,如核苷酸频率和重复以及调控区域,来进行功能预测。

早期的使用计算机技术从不同生物学数据来预测蛋白质功能的工作已经得到了认可。

尽管大量的方法都集中于发掘计算机在预测蛋白质功能的潜力,仍然有一部分通过计算机手段预测的相互作用或者功能的例子被实验所证实。

Table I列出了一些在基因融合,基因邻接法以及系统发育谱(PP)等方面成功的例子(第5章)。

即便多种多样的计算机技术被用来进行蛋白质功能预测,也很难弄清这一领域和知道它的优势,弱势和需求。

根据它的需求,我们确保这篇概述能提供一个广泛的视角关于蛋白质功能预测。

下面是这篇概览的目的和贡献:
(1)提供一个包括使用各种类型的生物学数据来进行蛋白质功能的计算机预测的集合。

许多提到的方法已经表明可以得到有希望的结果,另一些方法的结果用来进一步证实。

(2)强调不同生物学数据之间的内在联系,并举例说明用来分析一种数据类型的思想如何是影响分析其它数据类型的思想的。

例如,为了发掘基因组数据的全部潜能,了解使用蛋白质序列的方法所表达的新思想是有益处的。

类似地,将多种数据综合起来分析比单个分析它们要更有用。

实际上,有些好的结果总是来自于应用这种思想的方法。

(3)识别这一领域的开放性问题是迫切需要的。

如同现在看到的一样,这个领域中的大多数方法是特定的和有限制的,例如它们仅可用于蛋白和功能类别的特定亚集。

因此,一些理论和数据方法被提出以适应更加全面的功能预测问题。

(4)展示数据挖掘和机器学习(machine learning)对于功能预测的潜力,从大量的数据噪音中得到想要的结果。

实际上,这一领域中的最好结果已经通过智能学习和预测技术得到。

我们相信这篇概论有助于计算机学家和进行大量生物数据工作的实验生物学家。

我们将每种主要的生物数据作一节,最后把这些数据综合起来进行蛋白功能预测。

如下:
(1)氨基酸序列(第3节)
(2)蛋白质结构(第4节)
(3)基因组序列(第5节)
(4)系统发育数据(第6节)
(5)芯片表达数据(第7节)
(6)蛋白相互作用网络和蛋白复合物(第8节)
(7)生物医学文献(第9节)
(8)多种数据综合(第10节)
在我们进行这些技术的讨论之前,有必要了解两个关于蛋白质功能的要点。

第一,蛋白质功能是一个难以捉摸的概念,在分子生物学中对它的定义还有争论。

所以,第2节对这个概念中的多种观点和使用这些策略的不同计划进行了详细讨论。

技术上讲,一个基因的真实功能是编码一个或多个有实际功能的蛋白。

然而,因为在遗传水平进行实验要相对简单,许多时候基因产物的功能被视作基因自身的功能。

所以我们在下文中没有把基因功能和蛋白功能区分讨论。

2 什么是蛋白功能
蛋白功能的概念具有高度的上下文敏感性而且没有被很好地定义。

实际上,这个概念就像一个伞状的术语一样涉及到蛋白的所有活性类型,如细胞的、分子的或是生理上的。

一个蛋白的功能类型的分类已被Bork等提出。

(1)分子功能(molecular function):由一个蛋白质实现的生化功能,如连接结合,生化反应的催化以及形态改变。

(2)细胞功能(celluar function):许多蛋白合在一起行使复杂的生理功能,如新陈代谢通路的操纵以及信号转导,保持生物体多种成分工作正常。

(3)生理功能(phenotypic function):生理亚系统的整合,行使细胞功能的多个蛋白质的结合,以及与环境刺激相互作用的系统决定了表型特征以及生物体的行为。

很明显,这三个类别不是独立的,而且如Fig 1中一样是等级相关的。

这也不是唯一被提出的分类。

例如,Gene Ontology分类计划将蛋白功能分为细胞成分、分子功能和生物学过程。

面对这样一个有多种形式的概念,我们遵从Rost提出的定义:功能是任何在蛋白中发生或通过蛋白发生的事情。

实际上,我们通过考虑功能上的联系以及一个蛋白的功能信息来扩展这个概念。

2.1功能分类计划(Schemes)根据上面的讨论,蛋白功能作为一个非常主观的概念出现,不同的研究者对此会有不同的观点。

第一步是给这些蛋白分派自然语言标签,如同它们的功能被定义一样。

实际上,这种命名习惯有时会造成完全不同的标签如:Yippe和Starry Night。

很清楚,这样一个命名系统无法由一个人或者一台计算机来进行分析,因为它的可变性太大了。

所以,一个标准化的功能标签计划必须确立,一些小组针对这个需要提出了一些非常新的建议。

在讨论这些建议之前,有必要列出这个计划应具有的一些特性。

(1)广泛的覆盖度(wide coverage):这是最重要的特性,任何功能计划都必须尽可能多地覆盖各种功能情况,在尽可能多的物种中。

(2)标准化格式(standardized format):功能标签应该具有最小的可变性并且可以接受一个标准的数据结构,以便这个计划能够更容易地被计算机程序所阅读,并显著增加它们的印象。

(3)等级结构(hierarchical structure):如被看到的一样,可能的功能并不形成一个平面列表,而是形成概念上的等级结构。

功能分类从特定的功能到普通的功能,使研究者能够选择合适的水平来进行自己的分析。

(4)类别分解(disjoint categories):功能有多种类型:细胞成分、分子功能和生物学过程。

所以,一个分散的层次能够为每一种类型构建,而没有之间的联系。

这使得可以选择合适的功能类型进行研究。

(5)多种功能(multiple functions):将一个涉及到上下文多种生物学过程的蛋白的可能的生物学功能模型化,有必要作一个功能计划使一个具有多个功能的蛋白标签化。

(6)动态属性(dynamic nature):这项计划至少不能是静态的,当新的功能知识被发现时,它要被修饰。

如同被提到的,许多功能计划被提出来定义这些特性,已经被成功地运用到这些范围,每一个都有不同的领域。

最早的系统计划在这个领域提出是酶分类(EC, enzyme classification),由生化和分子生物学国际联盟提出。

这个计划分割了酶的分类,这些酶是催化新陈代谢反应所必需的,基于它们的化学组成,分为6组。

这个分类随后又被分成3个等级,进一步指定一个特定的酶所涉及到的精确反应。

然而,这个计划的局限在于,它本质上是一个对反应的分类,而不是多个催化酶的特性。

在酶分类之后,许多功能计划被提出作一个更广泛的蛋白质分类。

Ouzounis[2003]和Rison[2000]对这些计划作了完美的综述,列在Table II中。

这些计划中的很多,如EcoCyc 和SubtiList,最初是为特别的物种设计,为了研究它们的基因组和一致基因的特性。

它们不久就被改进并应用得更加广泛。

这些功能计划中最流行的是那些不为任何一个特定物种设计的计划,而是基于多种生物体包括真核生物中广泛具有的生物基本现象。

MIPs/PEDANT是当前最受欢迎的一种计划,用来进行功能预测技术的验证,由于它具有广泛的覆盖度和一个标准的等级结构。

不过,Gene Ontology(GO)是最近提出的一个功能分类系统,基于计算机科学和生物学原理,被认为是进行功能注释计划的最普遍的计划,涉及到大量的生物数据。

TIGR家族是另一个被用来进行全基因组功能注释的计划。

总的说来,几乎所有计划都给出了上面提到的一个功能分类计划的一个子集,涉及到其中之一的方法的证实,并给出了关于这些方法的普遍适用度的一个估计,缓解了对一个特别的标签计划的“过适”的担心。

一个非常有趣的关于Table II中列出的前六种计划的一个定量比较被Rison等报道。

这是一个艰巨的任务,因为所有这些计划都是独立发展,而且很难将一个与其它的比较。

然而,Rison等仍提出了一个两步联合的策略来进行比较。

第一步,一个结合计划(CS)被创建,通过人工定位功能簇到这些计划中的每一个,并用过滤技术消除了针对任何一个特定计划的偏见。

第二步,每一个原始计划的代表性子集被挑出来,通过将CS返回定位到计划中。

因而,一个关于所有计划的代表性的和可比较的版本被获得。

根据评估,MIPS与CS有最大的覆盖度,表明它有最好的覆盖度和普遍性。

这是对MIPS功能分类在蛋白质功能预测文献中广泛使用的定量证明。

关于这个研究的另一个结论是所有这些计划与CS的总体重叠度很高,因而表明所有这些计划在概念上是相似的。

这个结论被Ouzounis提出,他提出功能分类计划之间的重叠要高于结构分类计划如SCOP和CA TH之间的重叠,尽管其可变性也比
后者高。

因此,这些研究为上面提到的计划提供了证明。

根据这些计划得到的功能预测技术计划,如果处理正确,就会提供可信的结果。

不过,还应该通过努力使用最好的选择。

现在,如果没有对GO和它的重要特性的讨论,对功能预测计划的任何综述都是不完全的。

这些特性已被大量使用GO进行不同类型的功能分类的研究所展示。

关于GO的流行性的一个数字证明是GO文献学最近列出了1081篇根据Gene Ontology发表的研究,给人印象深刻。

这里,我们将要提出一个详细的讨论关于Gene Ontology为什么是最合适的进行基因和蛋白功能分析的计划。

2.2 GO是途径
本体论(ontology)被认为是对所有重要的物体和概念的分类的系统编排,存在于这一领域的相关综述中。

这个概念,最初起始于哲学,是对一定区域内可用知识进行组织的最有效的方法。

由于这些优点,本体论在计算机的多个领域应用广泛,如数据挖掘,人工智能,软件工程和电子商务等。

有效组织知识的能力,对生物学来说是关键的,研究是高度分散的,引导着Gene Ontology 的构建。

在最高水平,GO是一个功能分类系统,由三种不连续的功能本体组成,即细胞成分(Fig 2a);分子功能(Fig 2b)和生物学过程(Fig 2c),每一个都代表蛋白功能的不同方面。

每个本体都是等级结构并且是一个directed acyclic graph(DAG)的模型,每个节点对应一个功能标签,每一页对应一个和一部分关系。

因此,尽管GO看上去在方法论上和其它功能计划如MIPS和TIGR相似,基本的不同是GO比其它计划更加普遍。

几乎所有别的计划都为特定基因组的功能注释而设计,并在随后产生。

不过,GO的设计者的目的是创建一个普遍的多维功能本体,而不考虑整个基因组,因而使得GO具有广泛的适用性。

这个认识中的根本区别使得GO对基因产物的功能分类重新进行了思考。

有趣的是,GO提出了前面列出的一个功能分类系统所有合适的特性。

实际上,它的设计理念合并了所有这些特性。

下面描述的是GO如何满足这些特性,并且说明了它的多个方面和提供历史信息。

(1)广泛覆盖(wide coverage):GO是三个物种特异的基因组数据库FlyBase,SGD和MGI 的综合,它第一次意识到需要创建一个物种交叉的功能分类系统,去解决大量独立的基因组测序计划所造成的数据整合问题。

最近,另一些数据库,如TAIR,也加入了GO合作体,所以GO的覆盖度变得非常宽广,一个广泛多样的生物系统中发生的生物现象被考虑,当给本体加上的新的标签时。

关于这个覆盖度的一个证据是大量的基因组,包括人的基因组,已经被GO标签所注释。

(2)标准化格式(standardized format):构成GO的本质模式化为一般的图形类别,即directed acyclic graphs(DAGs),在计算机科学中有大量的应用,如Bayesian网络,由编译器创建的编译树。

这些图形中的每个节点都代表一个特异的功能标签,给每个GO格式分派一个独立的GO id,每个边界代表一个is:a或一个part:of联系。

这个完美定义的结构使得GO容易被人和计算机共同使用。

(3)等级结构(hierarchical structure):如Fig 2所示,GO中所有的本体都是天生具有等级结构的。

不过,它比如MIPS之类的其它计划(等级模式是一棵树)要复杂得多。

GO中的
本体模式化为DAGs,使节点不只一个起源。

这是生物上适用的,因为一个特定的功能可能是多个高级功能的一部分。

(4)不连续分类(disjoint categories):GO是由三个不连续的本体所组成:细胞成分(Fig 2a)、分子功能(Fig 2b)、生物过程(Fig 2c),每一个都是蛋白质功能的不同方面。

任意两个本体之间并没有连接,因而满足不连续的条件。

这也是与一个分类计划的多维属性是一致的,这个计划由Riley提出,为的是分别针对一个蛋白的不同功能方面,依赖于研究的上下文(context)。

(5)多重功能(multiple functions):GO的结构具有内在的多维性,如上面讨论的一样。

另外,在一个单个的本体中,一个蛋白在等级化的不同水平用多个节点来打标签。

每个等级定义好的结构使它既能延伸一个注释到所有祖先,或者在相反方向上归纳它们。

实际上,所有根的注释的可延伸性是几种功能预测策略的基础。

(6)动态属性(dynamic nature):最后但不是最少,GO是一个开放的行为,在Sourceforge 网站上有一个用户界面,作为一个提交新的功能标签和其它形式的功能知识的渠道。

这些提交被管理者不断地回顾并科学地勘误然后将其整合到GO数据库中。

上面的计划列举了关于GO是一个成功的详细原因。

这个成功不仅是由于GO的强大的理论基础,而且是因为它在功能预测方面的应用取得了很好的成果。

另外,大量的蛋白功能预测策略都使用GO作为功能标签的来源,并作为证实。

对功能预测的逐渐增加的计算机方法被提议将GO的等级结构整合到预测算法中。

而且,迅速增加的操作GO的简易工具,如AmiGO 浏览器,以及采用运行Semantic web革命的技术,也显著地增强了GO,使它前景光明。

这个讨论使Gene Ontology在任何功能预测计划中的使用变清楚,不管是算法设计上的证实,还是自然地将重要的生物学概念整合到策略中,因此使GO变得更加可靠并可用,另外提供了其它优势如覆盖度和精确性的增强。

这就是为什么我们要写这一节给蛋白功能预测。

2.3讨论
在前面的讨论中,尝试着对蛋白功能的意思作更精确的定义。

不过,蛋白功能是一把概念伞,有多个面,如分子功能,细胞功能和表型功能,最合适的形式化一般是将功能看作是分等级的、多维的概念。

这种模式被大量的功能分类计划所接受,有的强,有的弱一些。

这一节最重要的结论是Gene Ontology相比其它分类计划的优势。

它考虑了一个广泛的有价值的特性即可以提出任何在生物学上的有意义的计划。

由于GO的广泛覆盖性、普遍性以及生物学索引,它有利于蛋白质预测技术将GO以一些形式整合到它们的策略中。

3蛋白质序列
3.1介绍
分子生物学的中心法则是通过转录和翻译将基因转换成蛋白质,如Fig 3所示。

这个过程的结果是一条由20个氨基酸构成的序列,是蛋白质的初级结构。

这个序列是蛋白质中可用的
最基本的信息格式,它决定了蛋白质的不同特性,如它的亚细胞定位,结构和功能。

识别蛋白质序列最常用的实验方法是质谱(mass spectrometry),结合ProFound算法,有多种形式,如肽质量指纹图谱,肽片段化和其它比较方法。

不过,这些方法是低通量的,因此,随着基因组序列的指数增长,重心转移到能够从这些基因组中识别基因的计算机方法上来。

一旦一个基因被识别,一个繁琐的任务就是利用编码氨基酸的翻译密码来预测基因编码的蛋白质序列。

在真核生物进行基因识别任务中,最流行的工具是GenScan和GeneParser,分别使用HMM模型(hidden markov models)和动态规划算法(dynamic programming),结合对应于一个基因结构的多种成分的信号。

氨基酸序列是一个蛋白可用的最基本的信息,这些序列大量积累在几个标准数据库中。

这些中最流行的是SWISS-PROT和TrEMBL数据库。

SWISS-PROT是一个综合的,人工检查的数据库,它提供广泛的蛋白质信息,如它们的功能注释,氨基酸序列和关键词及特征信息等。

TrEMBL(Translated EMBL)是SWISS-PROT的一个自动勘误的补充,它包括EMBL/GenBank/DDBJ中所有核酸序列的翻译的结果,以及自动的分类和注释。

2006年5月2日,SWISS-PROT和TrEMBL中的条目是217551和2851442条。

由于在指定的功能分类中的相联系的可信度,许多使用这些来自这两个数据库的数据的方法使用SWISS-PROT作为训练序列的来源,同时将TrEMBL子集作为测试。

其它广泛的蛋白质序列数据库有MIPS,PIR和IPI。

除了上面的通用数据库之外,许多组织创立了物种和类型特异的蛋白质序列数据库。

Table III 和IV列出其中一些。

大多数这样的数据库也包含成员蛋白质的功能信息。

最后,还有另外一些类别数据库给基因提供功能注释,如GDA和GenBank。

信息的广泛可用性以及与蛋白序列的相联系导致在生物信息研究中的蛋白序列的使用迅速增加。

3.2基于同源性的注释转换:用于功能预测的优点
计算机生物学领域的第一个主要突破是序列相似性系统的设计,如FASTA和BLAST(后来增强为PSI-BLAST)。

这些系统使用合适的序列比对算法,搜索标准数据库如SWISS-PROT 来寻找同源蛋白,例如,在另一个物种中的相似蛋白。

另外,BLAST和PSI-BLAST给数据库中每一个匹配的S产生一个E值,用来指示在与目标数据库相同大小的由随机序列组成的数据库中,找到一个比对分数等于或者高于S的可能性。

这个可能性用极性分布来计算。

这些系统的发展的结果是形成一个预测未分类蛋白的功能的方法,即基于同源的注释。

在这个方法中,最同源的蛋白(BLAST结果E值比预定的threshold高)转换成可考虑的蛋白。

尽管这个方法的早期应用产生了有前途的结果,但随后的研究发现了许多限制。

造成同源蛋白之间功能不一致的最主要因素是进化中的复制,原始基因的一个拷贝吸收了一个新的功能应答于选择压力。

对这类基因和它们的产物,同源方法得到的注释会产生错误的结果,这已被许多研究所证实。

为了给序列同源性不等于功能一致性这个早期的显示定量,一些研究给序列和功能相似性之间的相关性估值。

Devos和Valencia给这种相关性定量了四个不同蛋白质功能水平的值:。

相关文档
最新文档