核酸序列数据库主要有GenBankEMBLDDBJ等

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SYN - Synthetic and chimeric PAT - Patent
UNA - Unannotated
This GenBank flat file release consists of 570 files.
•Uncompressed, the Release 139.0 flatfiles require roughly 122 GB (sequence files only) or 138 GB (including the 'short directory', 'index' and the *.txt files).
1988年一次三方会议之后(现在称之为 “国际DNA序列数据库合作计划”)达成了 一项协议,对数据库的记录采用共同的格式, 并且每个数据库只负责更新提交到这一数据 库的那些数据。
现在三个中心都收集直接提交的数据,并在 三者之间发布。
4
基因组数据库的发展历史(续)
5
基因组数据库的发展历史(续)
如今,伴随核酸测序技术的发展,存储于数 据库种的核酸序列的数目增长迅速。差不多 10个月就翻一番。到去年年底2003.12,仅 仅genbank的核酸序列数目就超过3000万, 存储了大概365亿个碱基的信息量。
6
主要的数据库资源
数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命 科学的各个领域。
Average Seq. File size ca. 226M
The total number of sequence data files increased by 8 with this release:
核酸序列数据库主要有GenBank, EMBL, DDBJ等. 蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D,
TrEMBL等, 蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等, 三维结构数据库有PDB, NDB, BioMagResBank, CCSD等, 蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI,
主要内容:
基因组数据库的相关背景。 主要的基因组数据库资源。 GenBank序列数据库。
-- GenBank序列格式。
相关资源的应用介绍。
--序列查询(Entrez and SRS) --序列提交(BankIt and Sequin)
1
基因组数据库的发展历史
从历史上来看,蛋白质数据库是先于核苷酸数据库 出现的。早在60年代初,Dayhoff和他的同事们收 集了所有当时已知的氨基酸序列,这就是“蛋白质 序列与结构图册”(Dayhoff et al., 1965)。这 一蛋白质数据库后来成为PIR(George et al., 1997)。这个在1965年可以很容易地存放在一张 软盘上的数据集(尽管那时并不存在软盘这种存储 介质),是一小群人多年的工作成果。今天,任何 一个DNA或蛋白质数据库每天增加的数据量都数倍 于此。
10
GenBank有什么?
数据库分类
PHG - Phage VRL - Viral BCT - Bacterial PLN - Plant INV - Invertebrate VRT - Other vertebrate MAM - OtHale Waihona Puke Baiduer mammalian ROD - Rodent PRI - Primate
2
基因组数据库的发展历史(续)
DNA序列数据库最早于1982年在欧洲分子 生物学实验室诞生,随即就开始了一个数据 库爆炸的时代。(如下图)
此后不久因一项NIH与洛斯阿拉莫斯国家实 验室的合同而诞生了GenBank。
日本的DNA数据库(DDBJ),在几年后加 入了数据收集的合作。
3
基因组数据库的发展历史(续)
8
三大基因数据库之间的关系
GenBank
EMBL Data Library
DDBJ (DNA Data Bank of Japan)
Public free
Available via
Internet
9
GenBank数据库
GenBank是美国国立卫生研究院维护的基 因序列数据库,汇集并注释了所有公开的核 酸以及蛋白质序列。每个记录代表了一个单 独的、连续的、带有注释的DNA或RNA片 段。这些文件按类别分为几组:有些按照系 统发生学划分,另外一些则按照生成这些序 列数据的技术方法划分。目前GenBank中 所有的记录均来自于最初作者向DNA序列数 据库的直接提交。这些作者将序列数据作为 论文的一部分来发表,或将数据直接公开。
EMBL核酸序列数据库 由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查询检索 可以通过通过因特网上的序列提取系统(SRS)服务完成。 数据库网址是:http://www.ebi.ac.uk/embl/。
DDBJ数据库 日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与 Genbank和EMBL核酸库合作交换数据。使用其主页上提供的SRS工 具进行数据检索和序列分析。 DDBJ的网址是:http://www.ddbj.nig.ac.jp/。
EST - expressed sequence tag GSS - genome survey sequence HTC - high throughput cDNA sequencing HTG - high throughput genomic sequencing STS - sequence tagged site
DSSP等, 与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等, 文献数据库有Medline, Uncover等。
7
三大基因数据库
Genbank Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们 相关的文献著作和生物学注释。它是由美国国立生物技术信息中心 (NCBI)建立和维护的。 NCBI的网址是:http://www.ncbi.nlm.nih.gov。
相关文档
最新文档