分子生物学数据库---计算生物学的摇篮

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

分子生物学数据库

——计算生物学的摇篮1995年,嗜血杆菌的基因组DNA信息被破解,它具有1700感染基因,人

类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱;随后在1996年,酵母基因组DNA全部的6300个基因被测序出来,为后续的研究提供了极大的方便;1998年,人类获得了第一个多细胞生物——线虫的基因组,了解到它含有19100个基因,其中1/3基因与哺乳动物的相似,这预示了我们可以将线虫当作一种模式生物;1999年,果蝇的基因组信息被破解,它有13600个基因,虽然果蝇的拥有的细胞数是线虫的1000被,体积也比线虫大,但是它具有的基因数却少于线虫,这暗示着染色体上有些区域的基因没有直接被翻译成蛋白质的,而有些基因却在转录和翻译过程中编码了多个蛋白质;2000年,荠菜的基因组DNA被测序出来,它有25500个基因,许多基因都具有重复序。人类基因组计划启动与1990年,到2003年,99.9%的人类基因都被精确地绘图,这其中也含有大量的冗余序列。在获得了如此多的核算信息后,大量的蛋白质信息也随之可以获得,蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等。

针对上面提到的大量信息,如果用传统的方法来收集、存储、分析,将会是一个浩大的工程,并且,在这旷日持久的工程中,很可能漏掉了许多重要的、未知的信息。在美国最初提出人类基因组计划时,成立了一个由42位专家组成的生物信息研究小组,专门处理获得的相关信息。随着信息的积累,生物学的发展,以及数学、物理、计算机科学的不断渗入,用计算机作为手段,参考数学、统计学、物理等学科的研究方式,将会大大降低人类的工作量,同时更系统,更全面,更快速,更准确的分析已有的数据。

在此背景下,计算生物学和生物信息学应运而生。计算生物学和生物信息学都属于基于基因组学的交叉学科,二者之间没有一个严格的界限。总的来讲,计算机生物学和信息生物学都是应用数学的和计算机的科学方法来处理分子生物学的问题,这些问题常常需要海量的数据,计算和分析。生物信息学侧重于生物学信息的采集、储存、分析处理和可视化等方面,计算生物学则侧重于利用数学模型和计算仿真技术对生物学问题进行研究,计算生物学需要使用前期的生物信息学的研究成果。计算生物学主要处理的问题有:比对和分析基因组序列;在不同的序列、结构和功能之间找出相关性;精确计算(预测)生物分子结构;生物物理和生物分子方面的研究等等,一般前三点偏向于使用信息生物学的手段,后两项属于计算生物学的主要研究目的。

1996年,Mary Clutter在“Hearing on Computation Biology”中讲到:计算生物学是一项影响科学技术发展的革命的一部分。这项革命将会受海量的、种类繁多的数据,以及能够迅速准确全面的收集、存储和分析的智能系统所驱动。因此,由庞大数据构成的分子生物学数据库在计算生物学这门学科中发挥了不可替代的作用。

如今,大约有500-1000个分子生物学数据库正被越来越多的人使用着,常见的有GenBank,EMBL-Bank(European Molecular Biology Laboratory Bank),

DDBJ(DNA Data Bank of Japan),PIR(Protein Information Resource),SWISS-PROT等等。

EMBL-Bank是欧洲分子生物学实验室核酸序列数据库,是最早的数据库,也是欧洲最主要的核算数据库,于1982年建立。EMBL-Bank数据库的数据来源主要有两条途径:一是由序列发现者直接提交,几乎所有的国际权威生物学刊物都要求作者在文章发表之前将所测定的序列提交给EMBL、GenBank或DDBJ,得到数据库管理系统所签发的登录注册号。二是从生物医学期刊上收录已经发表的序列资料。截止2000年,EMBL-Bank数据库中的核酸序列总长度达70亿个碱基,覆盖2/3的人类基因组序列。对于每个序列,相关数据包括序列名称、序列、位点、关键字、来源、生物种、参考文献、注释、序列中具有重要生物学意义的位点等。而到2004年2月,数据库中的核酸序列数超过3000万条,总的数据量近400亿bp。随着分子生物学技术的不断发展,数据的增长速度将会不断地提高,按照每年约60%的速度增长。

GenBank是美国国家生物技术信息中心(NCBI)建立的核算序列数据库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模的基因组测序计划。GenBank 数据库包含了所有已知的核算序列和蛋白质序列,以及与它们先关的文献著作和生物学注释。到1999年,GenBank 中收集的序列数量已达450万条,34亿个碱基,而且数据增长速度逐渐加快。GenBank 数据库里的数据来源于约55000个物种,其中5%是人类基因组序列(所有序列中的34%是人类的EST序列)。每条Genbank数据记录包含了对序列的简要描述:它的科学命名、物种分类名称、参考文献、序列特征表以及序列本身。序列特征表里包含了对序列生物学特征的注释,如编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类、EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST 数据等又被各自分成若干个文件。GenBank中最常见的是序列文件,索引文件及其它相关文件。序列文件的基本单位是序列条目,包括核苷酸碱基排列顺序和注释两部分;索引文件是根据数据库中作者、参考文献等字段建立的,用于数据库查询。

DDBJ数据库建立于1984年,由日本国立遗传研究所遗传信息中心维护,截至2002年,共收录1726万条记录,2015835万个核苷酸序列,他首先反映日本所产生的DNA数据,同时与GenBank、EMBL合作,互通有无,同步更新。

PIR是一个蛋白数据库,它由美国生物医学基金会NBRF(National Biomedical Research Foundation)于1984年建立的,其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统,用户可以迅速查找、比较蛋白质序列,得到与蛋白质相关的众多信息。目前,PIR已经成为一个集成的生物信息数据源,支持基因组研究和蛋白质组研究。至2004年,PIR 有近30万个蛋白质的登录数据项,包括来自不同生物体的蛋白质序列。除了蛋白质序列数据之外,PIR还包含以下信息:蛋白质名称、分类、来源;关于原始数据的参考文献;蛋白质功能和一般特征,包括基因表达、翻译后处理、活化等;序列中相关的位点、功能区域。

SWISS-PROT是由Geneva大学和欧洲生物信息学研究所(EBI)于1986年

相关文档
最新文档