生物信息研究中常用蛋白质数据库的总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息研究中常用蛋白质数据库简述
内蒙古工业大学理学院呼和浩特孙利霞2010.1.5
摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。一个新手面对如此浩瀚的数据量往往无从下手。本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。
关键词:蛋白质;数据库
0 引言
随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。这些数据库是分子生物信息学的基本数据资源。上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。信息的传播储存甚为不便。随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。
本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门
者及对蛋白质感兴趣的人员的一个引导。
图1两大类蛋白质数据库
1建库方式的分类
蛋白质数据库种类繁多。一个的数据库记录通常包括两部分:原始数据和对这些数据进行的生物学意义的注释。以建库的方式而论,大致可以分为四类:
一、最基础的一级数据库。这些数据库一般是由国家或国际组织建设和维护的数据库。如EMBL,PDB等。这样的数据库的优点是完整,更新及时,并提供了一些较好的服务软件和平台计算条件。缺点是对于数据的创新性,精确性和准确性没有权威的评价,数据过多,重复,分类较粗。
二、二级数据库,(如图2)。二级数据库是在一级库德基础上,结合工作的需要将部分数据从一级库中取出,重新组合而成的特定数据库。这类数据库专一性强,数据量相对较少,但质量高。数据库结构设计精致。
三、专家库。这是一种特殊的二级库。与一般二级库不同之处在于它是经过有经验的专家进行人工校对标识之后建立的。这样的库质量很高,使用方便可靠,但是更新发展较为缓慢。这类库的典型代表是SWISS-PORT。[2]
图2 蛋白质二级结构数据库的逻辑结构
⎧⎫⎪⎪⎪⎪⎨⎬⎪⎪⎪⎪⎩⎭⎧⎫⎨⎬⎩⎭蛋白质功能位点数据库:Prosite 蛋白质序列指纹图谱数据库:Prints 以蛋白质序列数据库为基础构建的二级库同源蛋白质家族数据库:Pfam 同源蛋白质结构域数据库:Blocks 免疫球蛋白数据库:Kabat 蛋白质二级库以具有特殊功能的蛋白质为基础构建的二级库蛋白激酶数据库:Pkinase 蛋白质二级结构构象参数数据库DSSP 以三维结构原子坐标为基础构建的二级库已⎧⎫⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎬⎪⎪⎪⎪⎧⎫⎪⎪⎪⎪⎪⎪⎨⎬⎪⎪⎪⎪⎪⎩⎭⎪⎪⎪⎩
⎭
知空间结构的蛋白质家族数据库FSSP 已知空间结构的蛋白质及其同源蛋白质数据库HSSP
2 蛋白质序列数据库:UniProt 数据库
UniProt 属于蛋白质序列数据库。如今的蛋白质序列数据库中,有的收集实验测定的序列,有的收集根据DNA 序列等翻译预测的蛋白质序列,有的这两者都有收录。SWISS-PROT 、TrEMBL 、PIR 是曾经用的很广泛的蛋白质序列数据库。而今都并入了UniProt 中。
现在UniProt 有三个层次的数据库:UniParc (UniProt Archive )收录所有UniProt 数据库子库中的蛋白质序列,虽然很大,但是信息比较粗糙。既包括重复的序列也包括未加注释的序列;UniRef (UniProt Reference Clusters )是归纳UniProt 几个主要数据库并将重复的序列去除后的数据库。其中UniRef100是只去除完全重复的序列的数据库,UniRef90是去除相似性在90%以上的相似序列数据库;UinProtKB (UniProt Knowledgebase )是有详细注释并与其他数据库及文献有链接的数据库,分为UinProtKB/SWISS-PROT 与UinProtKB/TrEMBL 两部分。
2.1 SWISS-PROT
SWISS-PORT 是含有详细注释内容的蛋白质序列数据库。1987年由日内瓦大学医学生物化学系(Department of Medical Biochemistry of the University of Geneva )与EMBL 共同维护,现由EMBL 的分支机构EBI 进行维护。网址为:http://www.expasy.ch/sprot/sprot-top.html 。一般地,任何蛋白质序列数据的搜索和比较都应从SWISS-PORT 开始[3]。
2.2 TrEMBL (Translated EMBL)
EMBL是指实验室欧洲分子生物学实验室EMBL(The European Molecular Biology Laboratory),TrEMBL 是EMBL-DNA数据库中的核算序列翻译后产生的核酸序列数据库。EMBL-DNA数据库于1982年由EMBL建立,全球性的国际DNA数据库,近年来发展很快,可进行核苷酸序列检索及序列相似性查询。
传统的蛋白质序列数据库的一种来源是通过对核酸序列数据库中的核算按照密码子人工翻译后,再用实验核实。但是对于EMBL-DNA数据库中的核酸序列翻译进行核实远远落后EMBL-DNA数据库中数据量的发展。EMBL-DNA数据库中含有众多的由计算机直接分析得到的在SWISS-PORT数据库中并不存在的氨基酸序列。为了克服这一缺点,人们又开发了另一个数据库—EMBL核酸序列翻译数据库,即TrEMBL(Translated EMBL)。该数据库中包含了EMBL数据库中的所有编码序列的信息。网址为:http://www.expasy.ch/sprot/sprot-top.html。这是SWISS-PROT数据库的重要补充,但是其中的数据质量要有所保留。
TrEMBL是从EMBL库中的核酸序列翻译出来的氨基酸序列,它们已经完成自动注释。分为两部分:SP-TrEMBL的条目已经由专家人工分类并且赋予了SWISS-PORT库的索取号,但是还没有通过人工审读并最终收入SWISS-PORT。REM-TrEMBL(REMaining TrEMBL)包含了由于某种原因没有被收入到SWISS
-PORT的条目。
2.3 PIR数据库
蛋白质信息资源数据库PIR(Protein Information Resource)是在很多文献中都要简绍的一个蛋白质序列数据库,其主要目的是提供按同源性和分类学组织的综合性,非冗余数据库。不过目前它的大部分服务已经停止使用。1984年建成PIR数据库,在2005年其序列信息相应并入UniProt中的SWISS-PROT与TrEMBL中。
3蛋白质结构数据库
蛋白质结构的内容为被测定的蛋白质分子空间结构原子坐标,PDB数据库、SCOP数据库、CATH数据库是几个常用的交重要的蛋白质结构数据库。
3.1 PDB