生物分子信息数据库
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第4章生物分子数据库
国际上已建立起许多公共生物分子数据库,包括基因组图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库等。这些数据库由专门的机构建立和维护,他们负责收集、组织、管理和发布生物分子数据,并提供数据检索和分析工具,向生物学研究人员提供大量有用的信息,最大限度地满足他们研究和应用的需要,为他们的研究服务。
4.1 引言
建立生物分子数据库的动因是由于生物分子数据的高速增长,而另一方面也是为了满足分子生物学及相关领域研究人员迅速获得最新实验数据的要求。生物分子信息分析已经成为分子生物学研究必备的一种方法。如果说理论分析和算法模拟是生物信息学实验方法的话,那么来自于具体实验的原始数据和来自于数据库的数据则是生物信息学的实验材料。数据库及其相关的分析软件是生物信息学研究和应用的重要基础,也是分子生物学研究必备的工具。
从数据库使用的角度来看,公共生物分子数据库应满足以下5个方面的主要需求:
(1)时间性对于新发表的数据,应该能够在很短的时间内(几个小时至几天)通过国际互连网访问。
(2)注释对于每一个基本数据(如序列),应附加一致的、深层次的辅助说明信息。
(3)支撑数据在有些情况下,数据库使用者需要得到原始的实验数据,因而要提供访问原始数据的方法。数据库中应包含原始数据,或者能够通过交叉索引访问实验数据库中的原始数据。
(4)数据质量必须保证数据库中数据的质量,数据库管理机构应对数据来源进行检查,并且关注数据库用户和专家提出的意见。
(5)集成性三种基本生物分子数据库(核酸序列、蛋白质序列、蛋白质结构)的集成对于用户来说是非常重要的。对于数据库中的每一个数据对象,必须与其它数据库中的相关数据联系起来,这样可以从某些分子数据出发得到一系列的相关信息。例如,从某个核酸序列出发,通过交叉索引,可进一步得到对应的基因、蛋白质序列、蛋白质结构,甚至得到蛋白质功能的信息。
分子生物学研究领域虽各有重点,但是研究对象之间存在着密切的联系,比如DNA序列与蛋白质序列之间的联系,基因调控信息与基因表达数据之间的联系。因而实验数据之间就必然存在着关联,一个方面的相关数据可能会影响或促进另一个方面的研究工作。现有的各类数据库已经成为分子生物学各方面交叉研究的桥梁。
生物分子数据库目前的发展状况有几个明显的特征:
(1)生物分子数据库最突出的特征就是数据库的更新速度不断加快,数据量呈指数增长趋势。例如,核酸序列数据的年增长幅度为100%。
(2)数据库使用频率增长更快。人们越来越感到生物分子数据的重要性,也认识到它们的价值,因此各种数据库的使用人员在不断增加。据统计,数据库的平均使用频率每年增长幅度接近于500%。
(3)数据库的复杂程度不断增加。数据库中除了基本数据之外,还包括大量的注释、链接、参考文献等信息,例如,在SWISS-PROT数据库中,注释项涉及蛋白质的功能、结构域和活性位点、二级结构、四级结构、翻译后修饰、与其他蛋白质的相似性、与该蛋白质关联的疾病、序列变化等。
(4)数据库网络化。几乎所有的数据库都可以在国际互联网上访问,并且公共数据库之间相互链接,使用户可以迅速得到大量的相关生物分子信息。有的系统则将多个生物分子数据库整合在一起,形成集成的数据库系统。
(5)面向应用。首先,各个数据库服务器除了提供数据之外,还提供许多分析工具,如核酸数据库提供的序列搜索、基因识别程序等,生物大分子结构数据库提供的结构比较程序、结构模拟程序等。此外,还在原始数据库的基础上开发了许多面向特殊应用的二级数据库,如蛋白质分类数据库、蛋白质二级结构数据库等。
(6)先进的软硬件配置。从计算机硬件方面来看,许多数据库服务器已从工作站升级到大型服务器,使数据库能够高效地管理数据和为用户服务,并在专门的硬件(如并行机)上运行服务
程序。而在系统软件方面,使用大型数据库管理系统,面向对象的数据库管理方法正在逐步取代旧的模式,数据库服务广泛采用服务器客户式结构。
一般而言,生物分子数据库可以分为一级数据库和二级数据库。一级数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。与蛋白质相关的二级数据库比较多。
4.2 核酸序列数据库
DNA 测序技术迅速发展,使得人类已知的DNA 核酸序列不断增长。本节着重介绍与核酸相关的序列数据库。
4.2.1 GenBank / EMBL-Bank / DDBJ
核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(NCBI )的GenBank (/Web/Genbank/index.html ),欧洲分子生物学实验室的EMBL-Bank (简称EMBL ,/embl/index.html),日本遗传研究所的DDBJ (http://www.ddbj.nig.ac.jp/)。三个组织相互合作,各数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA 和RNA 序列数据库,其数据来源于众多的研究机构和核酸测序小组,来源于科学文献。用户可以通过各种方式将核酸序列数据提交给这三个数据库系统。数据库中的每条记录代表一个单独、连续、附有注释的DNA 或RNA 片段。由于DNA 测序能力的极大提高,DNA 序列增长的速度也非常快,图4.1是GenBank 数据库中近几年数据量的统计,这张图反映出DNA 序列数据迅速增长的趋势。
下面着重介绍EMBL 数据库。EMBL 是最早的DNA 序列数据库,于1982年建立。目前EMBL 数据库中的数据按照每年约60%的速率增长。截止2000年3月底,EMBL 数据库中的核酸序列总长度达70亿个碱基,覆盖2/3的人类基因组序列。对于每个序列,相关数据包括序列名称、序列、位点、关键字、来源、生物种、参考文献、注释、序列中具有重要生物学意义的位点等。而到2004年2月,数据库中的核酸序列数超过3000万条,总的数据量近400亿bp 。随着分子生物学技术的不断发展,数据的增长速度将会不断地提高。
图4.1 核酸序列数据的增长趋势 (取自/Genbank/genbankstats.html ) 序
列
数(
单位
:百
万) 碱基数(单位:百万)