生物信息学数据库综述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学数据库综述
摘要本文对生物信息学常见的数据库进行了汇总。

常见数据库分为三类:核酸序列数据库、蛋白质序列数据库、三维分子结构数据库。

并分别对其中常见数据库进行了介绍。

对于生物信息学数据库的现存问题也进行了论述。

关键词数据库;核酸序列数据库;蛋白质序列数据库;三维分子结构数据库;
随着生物信息的发展,生物信息学数据库的数量在不断的递增,内部结构也不断的复杂化,功能也越来越细化。

根据数据的类型可以将数据库分为核酸序列数据库、蛋白质序列数据库三维分子结构数据库。

本文将比较常见的数据进行了汇总。

1 核酸序列数据库
常用的核酸序列数据库有GenBank核酸序列数据库、EMBL核酸数据库、DDBJ数据库、GDBD等。

1.1GenBank
Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。

它是由美国国立生物技术信息中心(N CBI)建立和维护的。

Genbank每天都会与欧洲分子生物学实验室(EM BL)的数据库,和日本的DNA 数据库(DDBJ)交换数据,使这三个数据库的数据同步。

Genbank的数据可以从N CBI的FrP服务器上免费下载完整的库,或下载积累的新数据。

N CBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从N CBI的主页上找到这些服务。

Gel~ bank 库里的所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件
1.2 EM BL核酸序列数据库
EM BL 核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。

该数据库由Oracal数据库系统管理维护,查询检索可以通过因特网上的序列提取系统(SRS)N务完成l 6J。

向E M BL核酸序列数据库提交序列可以通过基于W eb的WEBI N工具,也可以用Sequi n 软件来完成。

1.3 DD BJ 数据库
D D BJ数据库创建于1984 年,由日本国立遗传学研究所遗传信息中心维护。

它首先反映日本所产生的DNA数据,同时与Genbank、EMBL合作互通有无,同步更新,每年四版。

日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库。

可以使用其主页上提供的SAS工具进行数据检索和分析。

可以用Sequin 软件向该数据库提交序列。

1 .4 G D B
人类基因组数据库(GD B)是人类基因图谱和疾病的数据库。

GDB的目标是构建关于人类基因组图谱和测序。

目前GDB中有:人类基因组区域(包括基因、克隆、amplimersPCR标记、断点breakpoint细胞遗传标记cytogenetic markers、
易碎位点f r agile、EST序列、综合区域syndromic regions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content conting 图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上登位基因频率数据)。

GDB数据库以对象模型来保存数据,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式看基因组图谱。

2蛋白质序列数据库
随着HGP 计划的不断深入以及测序技术的不进步,蛋白质序列信息也成指数级增长,蛋白质序列数据库就是主要以这些序列也就是蛋白质的一级结构作为数据源,并辅以序列来源序列发布时间、序列参考文献、序列特征等内容加以注释,最终形成数据文件,存放于数据库。

目前规模较大的综合型蛋白质序列数据库有:PIR 、SW ISS —PR OT/TrEMBL、PROSITE 等。

2 .1 PIR 和PSD
PI R是蛋白质信息资源(Protein Information Re—source)的缩写。

这是一个国际蛋白质序列数据库,它包含所有序列已知的自然界中野生型蛋白质的信息。

此库的主要目的是提供按同源性和分类学组织的综合的、非冗余的数据库,其中包括来自几十个完整基因组的蛋白质序列。

所有序列数据都经过整理,超过99%的序列以按蛋白质家族分类。

PIR国际蛋白质序列数据库(PSD)是由美国华盛顿的全国生物医学研究基金会(NBRF)所支持的PIR、慕尼黑蛋白质序列信息中心(MIPS)和13本国际蛋白质序列数据库(JI PI D )共同维护的国际上最大的公共蛋白质序列数据库。

PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引。

每季度都放行一次完整的数据库,每周可以得到更新部分。

2 .2 SWISS—PROT
SW ISS—PROT是对数据人工审读很严格经过注释的蛋白质序列数据库,由欧洲生物信息研究所(EBI)维护。

数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。

SWISS—PROT中尽可能减少了冗余序列,并与其它3O多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。

利用序列提取系统(SRS )可以方便地检索SWISS —PROT和其它EBI的数据.SWISS—PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。

北京大学生物信息中心有SWISS—PROT 镜像,可以通过检索工具SRS[R一210]查询。

2 .
3 P R O Sn E
PROSI TE 由专家根据生物知识审编SWISS—PROT蛋白质序列中有生物意义的位点、模式和轮廓的数据库。

涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域;除了序列模式之外,PROSI TE还包括由多序列比对构建的prof ile,能更敏感的发现序列与profile的相似性。

PROSI T E 的主页上提供各种相关检索服务。

3蛋白质结构数据库
将通过实验研究如基于x射线和核磁共振(NMR)分析所获得的关于蛋白质、
酶、病毒、碳水化合物和核酸的晶体结构数据收集起来,就形成了生物大分子的结构数据库.虽然其中序列的数量远比不上蛋白质序列数据库,但其数据量也显然在呈指数增长。

3 .1PDB
蛋白质数据库(PDB)由美国Brook_ haven国家实验室建立。

PDB收集的数据来源于x光晶体衍射和核磁共振(NMR)实验测定的生物大分子三维结构数据,经过整理和确认后存档而成,是国际上唯一的生物大分子结构数据档案库。

RCSB 的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明。

3 .2 SC O P
蛋白质结构分类(SCOP )数据库详细描述了已知蛋白质结构之间的关系。

分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子,描述空间几何结构的关系;折叠类,所有折叠子被归于全a、全p、a /、a + f 3和结构域等几个大类。

SCOP还提供了一个非冗余的ASTRA IL序列库,这个库通常被用来评估各种序列的比对算法。

此外,SCOP还提供一个PDB —ISL中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。

3 .3 CA TH
CATH 数据库是一个新的对蛋白质结构域进行等级分类的数据库,它通过半自动的方法对不鲁克海文蛋白质数据库中的单一或者多结构域蛋白质结构进行等级分类,非蛋白质结构、模型以及纯alphac结构都没归在CATH中,而且收集的蛋白质晶体结构或者核磁共振结构的分辨率要求小于0.3mm。

分类按照4个水平:簇(class(C )),构件(architecture (A )),拓扑结构(topology (T))和同源超家族(homolo—gous supefamily(H ))。

3 .
4 FSSP
FSSP基于PDB数据库中现有蛋白质三维结构,用自动结构对比程序Dali 逐一比较而形成的折叠单元和家族分类库。

它以PDB非冗余数据库作为数据源,进行彻底、全面的三级结构较,而且数据库的升级以及维护都是DALL搜索引擎支持的。

此库在PDB 库每次新版后自动更新。

3 .5 M M D B
蛋白质模型数据库(Molecular Modeling Data.base),由NCBI的MMDB组维护。

这是Entrez检索工具所使用的三维结构数据库,它以ASN.1格式反映PDB库中的结构和序列数据,引文连接到MED.IJN E.MMDB有一个配套的三维结构显示程序Cn3D。

生物信息数据库的发展是十分惊人的,但也存在诸多问题。

大多数数据库对于数据的创新、精确性和准确性没有权威评价,数据过多、重复、分类较粗等等。

因此需要生物信息学专家们在数据库结构设计、数据处理、数据提取、数据的重新组合、专一性等几方面进行更进一步的完善。

我国的生物信息学数据库也蓬勃发展起来。

北京大学于1997年3月成立了生物信息学中心,华大基因研究中心是我国目前测序能力最强的单位,广州中山大学生物信息中心与法国巴斯德研究所合作于1999年9月开通了“法国巴斯德亚洲研究网”。

中国科学院上海生命科学研究院也于2000年3月成立了生物信息学中心,分别维护着国内两个专业水平较高的生物信息学网站。

但是,我国尚未形成比较完整有效地生物信息数据库
系统现有的数据库的质量也有待提高,服务有待改善。

参考文献:
[1] 张阳德.生物信息学[M ].北京:科学出版社,2O04.
[2] 张成岗,贺福初.生物信息学方法与实践[M ].北京:科学出版社,2OO2.
[3] 王哲.生物信息学概论[M ].北京:第四军医大学出版社,2OO2.
[4] 维斯特海德,帕里什,特怀曼.生物信息学(中译本)[M ].北京:科学出版社,2OO4.[ 5] 蒋彦,王小行,等.基础生物信息学及应用[M ].北京:清华大学出版社,2003.
[6] 钟杨,张亮,等.简明生物信息学[M ].北京:高等教育出版社,2o o 1 .
[7] 郝柏林,张淑誉.生物信息学手册[M ].上海:上海科学技术出版社,2002.。

相关文档
最新文档