生物信息学中的数据库资源及其应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学中的数据库资源及其应用

摘要:伴随着生物信息学的发展,生物信息数据库日趋完善。现对生物信息学、数据库的建设及其应用情况进行了综述,并展望生物信息学的发展前景。关键词:生物信息学;数据库的建设及其应用

生物信息学(Bioinformatics)是80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,最初常被称为基因组信息学。广义地说,生物信息学是一门采用计算机技术和信息论方法对蛋白质及其核酸序列等多种生物信息采集、加工、储存、传递、检索、分析和解读的科学,是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。美国人类基因组计划中[1],对基因组信息学有这样的定义:它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。这一定义包含着两方面的内容,一方面是发展有效的信息分析工具,构建适合于基因组研究的数据库,用于搜集,管理,使用人类基因组和模式生物基因组的巨量信息。另一方面是配合实验研究,确定约30亿个碱基对的人类基因组完整核苷酸顺序,找出全部约10万个人类基因在染色体上的位置以及包括基因在内的各种DNA片段的功能,也就是“读懂”人类基因组[2]。正如基因组信息学的定义所确定的,它的研究内容主要包含两个部分,一是基因组相关数据的收集与管理,另一个是基因组数据内涵的分析与解释,也就是遗传密码的破译。

生物信息学自产生以来大致经历了前基因组时代、基因组时代和后基因组时代三个发展阶段。前基因组时代的标志性工作包括生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等;基因组时代的标志性工作包括基因识别与发现、网络数据库系统的建立和交互界面工具的开发等;后基因组时代的标志则是大规模基因组分析、蛋白质组分析以及各种数据的比较与整合。三个阶段虽无明显的界限,却真实地反映了整个研究重心的转移变化历程[3]。

1 生物信息学数据库简介

近年来随着大量生物学实验数据的积累,众多的生物学数据库也相继出现,它们各自按照一定的标准收集和处理生物学实验数据,并提供相关的数据查询、处理等服务。而数据库的类型则几乎覆盖了生命科学的各个领域[4]。国

际上主要的DNA序列数据库有GenBank,EMBL,DDJB,ESTdb,OMIM,GDB,GSDB 等;蛋白质一级结构数据库有SWISS-PROT,PIR,OWL,ISSD,MIPS等;蛋白质二级结构数据库有PROSITE,BLOCKS,PRINTS等;蛋白质和其他生物大分子的三维结构数据库有PDB,NDB,CCSD 等;与蛋白质结构分类有关的数据库有SCOP,CATH,FSSP 等[5]。上述这些数据库只是对原始生物学实验数据进行简单的整理和归类,可称它们为基本数据库;随着生物数据库在种类和数量上的急剧增长,其复杂程度也不断增加,这就对数据库的管理带来了挑战,一些将多个基本数据库整合在一起提供综合服务的二次数据库便出现了,常用的有UniGene,TransFac,EPD,Prosite,Prints,Pfam,Blocks,Prof iles,DSSP,PubMed 等数据库。这样用户可以方便地进行多个数据库的多种查询。现在大多数数据库能实现自动投送数据、在线查询、在线计算和空间结构的可视化浏览等多种功能[6]。目前,几乎所有这些数据库对学术研究部门或人员来说都是免费的,可以免费下载或提供免费服务。

1.1 生物信息学数据库的分类及特点

按照处理对象分类,生物信息学中的数据库主要有四种类型:核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库和基因组数据库。根据建库的方式,现有的生物信息数据库也可以大致分为四类:一级数据库是最基础的,一般是国家或国际组织建设和维护的数据库,如由美国NCBI所维护的GenBank 等。二级数据库是在一级数据库的基础上,结合工作的需要将部分数据从一级数据库中取出,经过重新组合( 包括一定的修正或调整) 而成的数据库。其专一性很强,数据量相对较少,但质量高,数据库结构设计精制。专家库是一种特殊的二级数据库,但它是通过有经验的专家经过人工校对标识之后建立的。这种数据库质量很高,使用方便可靠,但更新和发展都比较慢。SWISS-PROT就是一个典型的专家库。还有一种是整合数据库,它是将不同数据库的内容按照一定的要求整合而成,为一定的目的服务,许多商业和内部数据库实质上就整合数据库。

生物信息学数据库具有以下一些特点:数据库种类的多样性,生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库、蛋白质序列数据库、蛋白质的三维结构数据库、文献数据库如Medline等,多达数百种。数据库的更新和增长很快,数据库的更新周期越来越短,有些数据库每天都要更新,数据的规模也以指数形式增长。数据库的复杂性增加,层次加深,许多

数据库具有相关的内容和信息,数据库之间相互引用,如PDB 就与蛋白质二级数据库、蛋白质结构分类数据库和蛋白质折叠数据库等几十种数据库直接关联。数据库使用的高度计算机化和网络化,越来越多的生物信息学数据库与互联网联结,从而为生物学家利用这些信息资源提供了前所未有的机遇,特别是绝大多数网上生物信息学数据库的信息资源可以免费检索或下载使用[7]。

1.2 常用生物学数据库

1.2.1 核酸序列数据库

目前,国际上最权威、最主要的3大核酸序列数据库是:美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)所维护的GenBank数据库,欧洲生物信息学研究所(European Bioinformatics Institute,EBI)的EMBL(European Molecular Biology Laboratory)数据库和日本国立遗传学研究所(Japan National Institute of Genetics for Information Biology )的DDBJ(DNA Data Bank of Japan)数据库。1998年它们共同成立了国际核苷酸序列数据库协会(International Nucleotide Sequence Database Collaboration,INSDC),每天进行数据交换,同步更新,确保用户在任何一家数据库得到的信息是完整、全面的[8]。除3大核酸数据库外,还有很多特殊类型的核酸序列数据库,如人类基因组数据库(HGD)、非编码RNA数据库(ncRNA)、表达序列标签数据库(dbEST)、核苷酸三维结构数据库(NDB)、人类基因变异数据库(HMGD)等,更细类别的核苷酸数据库如miRBase、tRNAdb等[9]。

GenBank是具有目录和生物学注释的核酸序列综合公共数据库。该数据库中包含已公开的可获得的38万余种以属或属以下水平命名的生物核酸序列,这些数据主要来源于序列发现者提交的序列、成批提交的表达序列标签、基因组勘测序列和其它测序中心提供的高通量数据,还包括美国专利商标局提供的已发表的序列数据,自GenBank建立以来,随着测序技术的不断发展,数据库的序列数据量持续呈指数增长,大约每35个月翻一番[11]。EMBL核酸序列数据库是欧洲最主要的、世界上最早的核酸序列数据库,收存了欧洲大部分核酸序列生物等生物学数据,其序列来源于基因组测序中心、世界各地的研究人员、欧洲专利局及其合作伙伴GenBank和DDBJ交换的数据。该数据库目前由欧洲生物息学研究所EBI负责维护[12]。DDBJ数据库是亚洲唯一的核酸序列数据库,由日本国立遗传学研究所遗传信息中心维护。其数据库首先是反映日本所产生

相关文档
最新文档