生物信息数据库
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物信息数据库
1生物信息数据库产生背景
上个世纪60年代以来,随着核酸序列测定、蛋白质序列测定以及基因克隆和PCR技术的不断发展与完善,全世界各研究机构获得了大量的生物信息原始数据。面对这些以指数方式增长的数据资源,传统的研究方式已经来不及迅速消化,因此有必要采用有效的方法将它们进行适当的储存、管理和维护,以便进一步分析、处理和利用,这就需要建立数据库即生物信息数据库[1]。生物信息数据库是一切生物信息学工作的基础。
2生物信息数据库的特点
2.1数据库种类的多样性。生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库,蛋白质序列数据库,蛋白质、核酸、多糖的三维结构数据库,基因组数据库,文献数据库和其他各类达数百种。
2.2数据库的更新和增长快。数据库的更新周期越来越短,有些数据库每天更新。数据的规模以指数形式增长。
2.3数据库的复杂性增加、层次加深。许多数据库具有相关的内容和信息,数据库之间相互引用,如PDB就与文献库、酶学数据库、蛋白质二级数据库、蛋白质结构分类数据库、蛋白折叠库等十几种数据库交叉索引。
2.4数据库使用高度计算机化和网络化。越来越多的生物信息学数据库与因特网联结,从而为分子生物学家利用这些信息资源提供了前所未有的机遇[2]。
2.5面向应用。首先各个数据库除了提供数据之外,还提供许多分析工具,如核酸数据库提供的序列搜索、基因识别程序等。此外,还在原始数据库的基础上开发了许多面向特殊应用的二级数据库,如蛋白质二级结构数据库等[3]。
3生物信息数据库的分类
生物信息数据库种类繁多,归纳起来,大体可以分为5个大类:核酸序列数据库、基因组数据库、蛋白质序列数据库、生物大分子(主要是蛋白质)结构数据库以及以这4类数据库和文献资料为基础构建的二次数据库。其中主要类型是序列数据库[4]。来自基因组作图的基因组数据库、来自序列测定的序列数据库以及来自X-衍射和核磁共振结构测定的结构数据库是分子生物信息学的基本数据资源,通常称为基本数据库或初始数据库,也称一次数据库。根据生命科学不同研究领域的实际需要,在一次数据库、实验数据和理论分析的基础上进行整理、归纳和注释,构建具有特殊生物学意义和专门用途的数据库即二次数据库, 也称专门数据库、专业数据库或专用数据库[2, 3, 5]。
3.1核酸序列数据库
EMBL、GenBank和DDBJ是国际上三大主要核酸序列数据库。EMBL是德国海德堡市的欧洲分子生物学实验室(European Molecular Biology Laboratory)1980年创建的,其名称也由此而来。美国国家健康研究院(National Institurte of Health,简称NIH)也于1982年委托洛斯阿拉莫斯(Los Alamos)国家实验室建立GenBank,后移交给美国国立卫生研究院国家生物技术中心(National Center for Bio-technology Information—NCBI)。DDBJ是日本静冈市的日本国立遗传学研究所于1986年创建的日本DNA数据库(DNA Database of Japan—DDBJ)。1988年,EMBL、GenBank与DDBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。根据协议,这三个数据库分别收集所在区域的有关实验室和测序机构所发布的核酸序列信息,并共享收集到的数据,每天交换各自数据库新建立的序列记录,以保证这三个数据库序列信息
的完整性[2]。
3.2基因组数据库
基因组数据库的主体是模式生物基因组数据库,其中最主要的是由世界各国的人类基因组研究中心、测序中心构建的各种人类基因组数据库。小鼠、河豚鱼、拟南芥、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式生物基因组数据库或基因组信息资源都可以在网上找到[2]。
3.3蛋白质序列数据库
PIR和SWISS-PROT是创建最早、使用最为广泛的两个蛋白质数据库。1984年,“蛋白质信息资源”(Protein Information Resource,简称PIR)计划正式启动,蛋白质序列数据库PIR也因此而诞生。SWISS-PROT由瑞士日内瓦大学生化系A.Bairoch于1986年创建,目前由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,简称SIB)和欧洲生物信息学研究所(EBI)共同维护和管理。其他主要的蛋白质序列数据库还有NRl3D、TrEMBL、GenPep、NRDB 和OWL等[2]。
3.4生物大分子结构数据库
PDB是目前最主要的收集生物大分子(蛋白质、核酸和糖)三维结构的数据库,是通过X 射线单晶衍射、核磁共振、电子衍射等实验手段确定的蛋白质、多糖、核酸、病毒等生物大分子的三维结构数据库。它是由美国纽约Brookhaven国家实验室于1971年创建的。蛋白质结构分类数据库,是三维结构数据库的重要组成部分。蛋白质结构分类可以包括不同层次,如折叠类型、拓扑结构、家族、超家族、结构域、二级结构、超二级结构等。已经上网的蛋白质分类数据库很多,主要有SCOP和CA TH[2]。
3.5生物信息二次数据库
随着基因组研究的不断深入,越来越多基因的结构和功能得到阐明,已有大量的公共数据库系统可供研究者使用。但在针对特定物种的生物信息学分类和分析方面仍有待进一步开发,这些公共数据库在内容、数据综合和检索途径上不一定能满足实际研究的需要,因此以基因组、序列和结构数据库为基础,结合文献资料,研究开发更具特色、更便于使用的二次数据库,或专用数据库信息系统,已经成了生物信息学研究的一个重要方面[2, 6]。
3.5.1基因组二次数据库
网上有各类基因组二次数据库,法国巴斯德研究所构建的大肠杆菌基因组数据库就是基因组二次数据库的一个实例。其他的此类数据库还有德国生物工程研究所开发的真核生物基因调控转录因子数据库TransFac、真核生物启动子数据库EPD(Eukaryotic Promoter Database)、克隆载体数据库Vector,密码子使用表数据库CUTG[2]、禾本科比较基因组数据库Gramene[7, 8]、棉花微卫星标记数据库CMD[9]。
3.5.2蛋白质二次数据库
PROSITE(Protein Sites and Patterns Database)数据库是第一个蛋白质序列二次数据库,90年代初期开始构建,现由瑞士生物信息学研究所SIB维护。蛋白质功能位点序列片段数据库PRINTS,同源蛋白家族数据库Pfam,同源蛋白结构域数据库Blocks等也属此类数据库[2]。
另外,以具有特殊功能的蛋白为基础构建的二次数据库有免疫球蛋白数据库Kabat,蛋白激酶数据库PKinase等。以三维结构原子坐标为基础构建的数据库为结构分子生物学研究提供了有效的工具,如蛋白质二级结构构象参数数据库DSSP,已知空间结构的蛋白质家族数据FSSP,已知空间结构的蛋白质及其同源蛋白数据库HSSP等[2]。
3.5.3文献数据库及软件目录数据库
Internet上有许多生物软件目录和档案库,其中最主要的站点是美国印地安那大学的IUBio生物学软件档案和欧洲生物信息研究所EBI维护的Biocatalog软件目录[10]。
3.5.4生物信息数据库集成系统
生物信息数据库设计中出现了向整合发展的新潮流,如将多种图谱、数据整合到一个数