生物信息学数据库综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学数据库综述

摘要本文对生物信息学常见的数据库进行了汇总。常见数据库分为三类:核酸序列数据库、蛋白质序列数据库、三维分子结构数据库。并分别对其中常见数据库进行了介绍。对于生物信息学数据库的现存问题也进行了论述。

关键词数据库;核酸序列数据库;蛋白质序列数据库;三维分子结构数据库;

随着生物信息的发展,生物信息学数据库的数量在不断的递增,内部结构也不断的复杂化,功能也越来越细化。根据数据的类型可以将数据库分为核酸序列数据库、蛋白质序列数据库三维分子结构数据库。本文将比较常见的数据进行了汇总。

1 核酸序列数据库

常用的核酸序列数据库有GenBank核酸序列数据库、EMBL核酸数据库、DDBJ数据库、GDBD等。

1.1GenBank

Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(N CBI)建立和维护的。Genbank每天都会与欧洲分子生物学实验室(EM BL)的数据库,和日本的DNA 数据库(DDBJ)交换数据,使这三个数据库的数据同步。Genbank的数据可以从N CBI的FrP服务器上免费下载完整的库,或下载积累的新数据。N CBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从N CBI的主页上找到这些服务。Gel~ bank 库里的所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件

1.2 EM BL核酸序列数据库

EM BL 核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查询检索可以通过因特网上的序列提取系统(SRS)N务完成l 6J。向E M BL核酸序列数据库提交序列可以通过基于W eb的WEBI N工具,也可以用Sequi n 软件来完成。

1.3 DD BJ 数据库

D D BJ数据库创建于1984 年,由日本国立遗传学研究所遗传信息中心维护。它首先反映日本所产生的DNA数据,同时与Genbank、EMBL合作互通有无,同步更新,每年四版。日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库。可以使用其主页上提供的SAS工具进行数据检索和分析。可以用Sequin 软件向该数据库提交序列。

1 .4 G D B

人类基因组数据库(GD B)是人类基因图谱和疾病的数据库。GDB的目标是构建关于人类基因组图谱和测序。目前GDB中有:人类基因组区域(包括基因、克隆、amplimersPCR标记、断点breakpoint细胞遗传标记cytogenetic markers、

易碎位点f r agile、EST序列、综合区域syndromic regions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content conting 图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上登位基因频率数据)。GDB数据库以对象模型来保存数据,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式看基因组图谱。

2蛋白质序列数据库

随着HGP 计划的不断深入以及测序技术的不进步,蛋白质序列信息也成指数级增长,蛋白质序列数据库就是主要以这些序列也就是蛋白质的一级结构作为数据源,并辅以序列来源序列发布时间、序列参考文献、序列特征等内容加以注释,最终形成数据文件,存放于数据库。目前规模较大的综合型蛋白质序列数据库有:PIR 、SW ISS —PR OT/TrEMBL、PROSITE 等。

2 .1 PIR 和PSD

PI R是蛋白质信息资源(Protein Information Re—source)的缩写。这是一个国际蛋白质序列数据库,它包含所有序列已知的自然界中野生型蛋白质的信息。此库的主要目的是提供按同源性和分类学组织的综合的、非冗余的数据库,其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列以按蛋白质家族分类。PIR国际蛋白质序列数据库(PSD)是由美国华盛顿的全国生物医学研究基金会(NBRF)所支持的PIR、慕尼黑蛋白质序列信息中心(MIPS)和13本国际蛋白质序列数据库(JI PI D )共同维护的国际上最大的公共蛋白质序列数据库。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引。每季度都放行一次完整的数据库,每周可以得到更新部分。

2 .2 SWISS—PROT

SW ISS—PROT是对数据人工审读很严格经过注释的蛋白质序列数据库,由欧洲生物信息研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS—PROT中尽可能减少了冗余序列,并与其它3O多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS )可以方便地检索SWISS —PROT和其它EBI的数据.SWISS—PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。北京大学生物信息中心有SWISS—PROT 镜像,可以通过检索工具SRS[R一210]查询。

2 .

3 P R O Sn E

PROSI TE 由专家根据生物知识审编SWISS—PROT蛋白质序列中有生物意义的位点、模式和轮廓的数据库。涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域;除了序列模式之外,PROSI TE还包括由多序列比对构建的prof ile,能更敏感的发现序列与profile的相似性。PROSI T E 的主页上提供各种相关检索服务。

3蛋白质结构数据库

将通过实验研究如基于x射线和核磁共振(NMR)分析所获得的关于蛋白质、

相关文档
最新文档