生物学数据库及其检索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
蛋 白 质
ProDom
http://www.toulouse.inra.fr/prodom.html/
PDB 一次数据库 MMDB
http://www.rcsb.org/pdb/home/home.do http://www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml/
• GDB的网址是: http://www.gdb.org/
二、蛋白质数据库 • (一)蛋白质序列数据库
常用的蛋白质序列数据库有 SWISS-PROT 、PIR、TrEMBL、UniProt、GenPept等,分 述如下。 1.SWISS-PROT SWISS-PROT数据库提供蛋白质序列查 询及相似蛋白质序列搜索等服务。
GenBank
Algorithms
UniGene
(二)如何查找与研究相关的生物学资源
1 利用公共搜索引擎
2 了解重要的生物信息学门户站点
3 利用Nucleic Acid Research杂志每年的数据 库专辑、网络服务器专辑。
第二节 常用数据库
Chapter 2
常用数据库
类 序列 核 酸 基因组 序列 一次数据库 型 一次数据库 名 称 Genebank EMBL DDBJ GDB SWISS-PROT PIR 网 址 http://www.ncbi.nlm.nih.gov/Genbank/ http://www.ebi.ac.uk/embl/ http://www.ddbj.nig.ac.jp/Welcome.html.ja/ http://www.gdb.org/ http://www.expasy.org/sprot/ http://pir.georgetown.edu/
GELBANK 二维凝胶电泳 SWISS-2DPAGE 酵母蛋白质定位 YPL.db
http://gelbank.anl.gov/ http://www.expasy.org/ch2d/ http://ypl.tugraz.at/
模式生物蛋白质 组
Bioknowledge Librnary
http://www.biobase-international.com/pages/index.php?id=home/
EMBL Data Library
DDBJ (DNA Data Bank of Japan)
1. Genbank
以及与它们相关的文献著作和生物学注释。它是由 美 国 国 立 生 物 技 术 信 息 中 心 (National Center of Biotechnology Information , NCBI) 建 立 和 维 护 的 。 Genbank网址:http://www.ncbi.nlm.nih.gov/Genbank/
birds
mammals 104 105 106 107 108 109 1010 1011
生物学数据库的分类
根据数据存放类型:
序列 (三维)结构 文献 序列特征 基因组图谱 表达谱 。。。
根据数据存储的 具体内容:
一级数据库 二级数据库
专用数据库
(一)一级数据库和二级数据库
一级数据库( Primary database ):库中的主要内
容来源于实验室操作所得到的原始数据(例如:测
序得到的序列、 X射线晶体衍射所得到的三维结构
数据等),也包含一些基本的说明(序列所属的物
种、类型、序列发表的文献出处等)。核酸序列数
据库GenBank, EMBL, DDBJ及蛋白结构数据库PDB
就是典型的一级数据库。
二级数据库( Secondary database ):在 一级数据库的信息基础上进行计算机加工 处理并增加了许多的人为注释而构成的
EMBL网址: http://www.ebi.ac.uk/embl/
SRS的网址: http://srs.ebi.ac.uk/ WEBIN网址: http://www.ebi.ac.uk/webinalign/webinalign_help.html/ Sequin网址: http://www.ebi.ac.uk/Sequin/
(例如:NCBI的RefSeq数据库等)。
Primary vs. Secondary Databases
Curators
Sequencing Centers Labs
RefSeq
TATAGCCG AGCTCCGATA CCGATGACAA
Genome Assembly
TATAGCCG TATAGCCG TATAGCCG TATAGCCG
Байду номын сангаас
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis elegans
rat
Borrelia burgorferi
Plasmodium falciparum
Borrelia burgorferi
Aquifex aeolicus
Neisseria meningitidis Z2491
当今世界最大的基于 Internet 的用于 分子生物学研究的生物医学研究中心
2. EMBL核酸序列数据库
• 1982 年创建,由欧洲生物信息学研究所 (European Bioinformaties Institute, EBI)管理维护。使用序列 提 取 系 统 (SRS) 进 行 查 询 检 索 , 利 用 基 于 网 络 的 WEBIN工具,或利用Sequin软件向EMBL核酸序列 数据库提交序列。
表等辅助信息。
Genbank对数据记录的处理
划分为 细菌类、病毒类、灵长类、啮齿类, EST数据、 基因组测序数据、大规模基因组序列数据等16类。
http://www.ncbi.nlm.nih.gov/Genbank/
Genbank 由 美国国立生物 技术信息中心 (NCBI)建立维 护,其主页如 图所示。
NCBI 简介
•NCBI 全 称 National Center of Biotechnology Information(美国国家生物技术信息中心)
•NCBI是美国国立卫生研究院(NIH)的美国国
立医学图书馆(NLM)的一个分支。
•1988年成立。
•网址:http://www.ncbi.nlm.nih.gov/
一、核酸数据库
• (一)核酸序列数据库
目 前 , 国 际 上 主 要 有 Genbank 、 EMBL 、 DDBJ 三大核酸序列数据库,三大核酸数据库之 间每天相互交换数据,保持数据同步更新。
三大基因数据库之间的关系
Public free Available via Internet
GenBank
生物信息学
Bioinformatics
生物学数据库及其检索
第一节 生物学数据库简介
Chapter 2
一、什么是数据库?
数据库(database) 是一类用于存储和管理数据的 计算机文档,是统一管理的相关数 据的集合,其储存形式有利于数据 信息的检索与调用。
二、生物学数据库
在生物信息学者们的努力下,人 类基因组序列数据连同其它多种模式 生物的序列数据及各自相应的基因结 构与功能信息皆可供众多生物学家们 免费接入与使用。
Mycobacteriu m tuberculosis
模式生物基因组计划
模式生物基因组计划 酵母、线虫、果蝇、细菌、拟南芥等共约 50 多 种已完成, 70 余种正在进行。目前总量已达 60 亿碱基对!
Genome sizes in nucleotide pairs (base-pairs)
plasmids viruses bacteria fungi plants algae insects mollusks bony fish amphibians reptiles
国际上最权威的核酸序列数据库
日本国立遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/searches-e.html
(二)基因组数据库GDB
• 基因组数据库(GDB)创建于1990年,是一个专门 汇集人类基因组数据的数据库,为人类基因组计 划(HGP)保存和处理基因组图谱数据。
模式生物
Ureaplasma urealyticum Bacillus subtilis Drosophila melanogaster
Rickettsia prowazekii
Helicobacter pylori
Buchnerasp. APS
Escherichia coli
human
Arabidopsis
二次数据库
DSSP HSSP
http://www.sander.embl-heidelberg.de/dssp/ http://www.sander.embl-heidelberg.de/hssp/ http://www.ebi.ac.uk/dali/fssp/ http://www.psc.edu/~geigel/PSdb/PSdb.html/ http://scop.mrc-lmb.cam.ac.uk/scop/ http://www.cathdb.info/latest/index.html/ http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/ http://protomap.cornell.edu http://www.genome.ad.jp/dbget/ http://visant.bu.edu/
结构
FSSP PSdb 结构分类 SCOP CATH PDBsum
分类 蛋白质组 蛋白质组
二次数据库 氨基酸索引 蛋白质间功能关 系 蛋白质组分析
ProtoMap AAindex Predictome
Proteome Analysis
http://www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do/
Genbank库包含了所有已知的核酸序列和蛋白质序列,
Genbank数据直接来源
测序工作者提交的序列、测序中心提交的大量EST序列、 其它测序数据以及与其它数据机构协作交换的数据。
Genbank内容
所有已知的核酸序列和蛋白质序列,还包括对序列的 简要描述、科学命名、物种分类名称、参考文献、序列特征
3. DDBJ数据库
• 1986年创建,由日本国家遗传学研究所(DNA Data Bank of Japan,DDBJ)负责维护和管理 。使用SRS工具进行数据检索和序列分析,利用 Sequin软件向该数据库提交序列。为方便检索 DDBJ主页可进行日文和英文互换。 DDBJ的日文版网址: http://www.ddbj.nig.ac.jp/index-j.html/ DDBJ的英文版网址: http://www.ddbj.nig.ac.jp/index-e.html/
TrEMBL
一次数据库 UniProt MIPS GenPept NRL-3D NRDB 复合数据库 OWL SWISS-PROT+ TrEMBL PROSITE 二次数据库 PRINTS BLOCKS Pfam IDENTIFY COGs
http://www.ebi.ac.uk/trembl/
http://www.ebi.uniprot.org/index.shtml/ http://mips.gsf.de/ ftp://ftp.ncifcrf.gov/pub/genpept/ http://www.psc.edu/general/software/packages/nrl_3d/n rl_3d.html/ http://www.nrdb.co.uk/ http://www.bioinf.manchester.ac.uk/dbbrowser/OWL/ http://www.ebi.ac.uk/clustr/ http://www.expasy.org/prosite/ http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/ http://blocks.fhcrc.org/ http://pfam.sanger.ac.uk/ http://dna.stanford.edu/identify/ http://www.ncbi.nlm.nih.gov/COG/