蛋白质家族数据库 Pfam - 上海交通大学生物信息学与生物
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蛋白质家族数据库 Pfam
蛋白质家族数据库(Pfam)是蛋白质家族的集合,每个蛋白质家族由多序列比对和隐马尔科夫模型描述文件表示。
Pfam是在1995年由Erik Sonnhammer,Sean Eddy和Richard Durbin建立起来的,最初的目的是为了收集常见蛋白结构域,这些结构域可用于注释多细胞动物的复合蛋白质。他们工作的灵感来自于Cyrus Chothia的预测:世界上存在1500个左右不同的蛋白质家族,大部分的蛋白质来自于不超过1000个蛋白质家族。所以Pfam的科学意义在于完整和精确地分类蛋白家族和结构域。直至2013年11月4日,Pfam已经发布了27.0,其中包含了14831个人工管理的条目,覆盖了UniProtKB将近80%的序列信息。
在Pfam中,蛋白质家族被分为质量高低的两类:Pfam-A和Pfam-B。Pfam-A是高质量的、人工管理的蛋白质家族。其中的条目来自于Pfamseq(Pfam的序列数据库),这个数据库的建立基于最新发布的UniProtKB。每个Pfam-A家族由种子的比对(包含家族中一小部分具有代表性的序列),来自种子的序列比对的隐马尔科夫模型(HMMs)的描述以及一个自动生成的全局比对(包含家族中所有可以找到的蛋白序列,找到哪些蛋白序列由搜索序列数据库得到的HMM描述决定)。Pfam-B是未经注释的、从最新发布的ADDA中非冗余聚类中自动生成的低质量蛋白质家族。ADDA(Automatic Domain Decomposition Algorithm)是一个用于对所有蛋白质结构域家族进行结构域分解和聚类的自动算法,专门用于建立Pfam-B家族。虽然Pfam-B的质量很差,但是在找功能保守性区域且在Pfam-A 中找不到结果的时候,Pfam-B家族就显得非常有用了。
Pfam的条目用四种方式进行分类,家族(相关蛋白区域的集合)、结构域(一个结构单元)、重复(单独存在不稳定但是多次出现能形成稳定结构的短的单元)和模体(在球形域以外的短单元)。相关的Pfam条目会被合并成一族(clan),这种关系由序列相关性、结构或HMM描述决定。
family页面是在Pfam上获取信息的主要页面,它描述了Pfam每个条目的信息。在这个页面上用户可以直接链接到其他有用的界面上,网站的组织结构如下图所示。
网站开发了几种非常强大的搜索功能:首先是“Jump to”搜索。用户可以在搜索框中输入Pfam-A、B的登记号或标示符、UniProt序列的ID或登记号、NCBI的“GI”号或第二登记号、metaseq的ID或登记号、PDB的条目、蛋白质组物种名称等来搜索需要的蛋白家族。其次是关键字搜索,这个搜索框出现在Pfam每个页面的右上角。用于搜索Pfam-A家族,可以输入家族描述、UniProt的序列描述、PDB条目中的标题等、GO的ID和条目以及InterPro的摘要。其次是找蛋白序列,如果要查的蛋白已经存在于UniProt、NCBI Genpept或metagenomic序列集,这个蛋白序列的结构域的情况已经在数据库中计算好了,只要输入序列的ID就可以查到。如果序列不存在与数据库中,可以进行单序列搜索或批量搜索。用户也可以用结构域查询工具来检索具有特定结构域组合的蛋白质。更细节的研究可以用PfamAlyzer。