生物信息数据库
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
研究内容和需要,对生物学知识和信息的进一步整理得到的数
据库。
人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、
蛋白质序列功能位点数库几个明显的特征:
(1)数据库的更新速度不断加快
数据量呈指数增长趋势
(2)数据库使用频率增长更快
(3)数据库的复杂程度不断增加
Jan;36(Database issue):D25-30
7
8
GenBank中测序最多的20个物种
v173.0,2009.09
9
10
Refseq
1. 提供高质量的,无冗余的,完整的序列 信息;
2. 包括基因组的DNA,转录成的RNA以及蛋 白质序列信息。
3. 序列文件的标识符:
➢mRNA序列:NM_001158 ➢非编码RNA:NR_002769 ➢蛋白质序列: NP_001159
包含蛋白质序列全面的信息,提供准确、 丰富的序列与功能注释。
记录以6位字母和数字组成,例:Q5K8D3
31
32
非冗余、高质量注释、全面分类
23
Swiss-Prot
1986年,由瑞士日内瓦大学创建。 SIB(Swiss Institute of Bioinformatics) ExPASy(Expert Protein Analysis System) 所有序列条目均经过有经验的分子生物学
家和蛋白质化学家审核,因此又称为蛋白 质专家库
14
15
DDBJ
创建于1986年 NIG(National Institute of Genetics) 数据库查询工具:SAS 数据提交工具: Sequin http://www.ddbj.nig.ac.jp/index-e.html
16
17
INSDC
1998年,GenBank、EMBL和DDBJ共同 成立了国际核酸序列数据库协会 (International Nucleotide Sequence Database Collaboration,INSDC)
27
28
UniProt
2002年在NIH资助下将PIR、Swiss-Prot和 TrEMBL合并为UniProt(Universal Protein Resource)
具有全世界最全面的蛋白质分类信息 包含三个子库
➢UniProtKB(UniProt Knowledgebase) ➢UniRef(UniProt Reference Clusters) ➢UniParc(Uniprot Archive)
29
30
UniProtKB
UniProt Knowledgebase(UniProtKB): Release 15.4 , 16-Jun-2009 ,包括:
➢Swiss-Prot Release 57.4 : 497293 entries ➢TrEMBL Release 40.4 : 9145906 entries
分子生物信息数据库简介
1
一级数据库
直接来源于实验获得的原始数据,只经过简单的归类、整理 和注释。
一级核酸数据库:GenBank数据库、EMBL数据库、DDBJ 数据库
一级蛋白质序列数据库:SWISS-PROT库、PIR库 一级蛋白质结构数据库:PDB数据库
二级数据库
在一级数据库、实验数据和理论分析的基础上,针对不同的
http://www.expasy.ch/sprot/
TrEMBL
http://www.expasy.ch/sprot/
22
PIR
1984年,蛋白质信息资源(Protein Information Resource,PIR)计划由美国 国家医学研究基金会(NREF)正式启动
1988年,日本的国际蛋白质信息数据库 (JIPID)和德国慕尼黑蛋白质序列信息中 心(MIPS)加入PIR
24
TrEMBL
1996年创建,意为“Translation of EMBL” 从EMBL的cDNA序列翻译而来,包含
EMBL数据库中所有核酸编码序列信息
25
ExPASy
/
26
ExPASy Proteomics Tools
/tools/
(4)数据库网络化
(5)面向应用
(6)先进的软硬件配置
3
建立分子生物信息数据库的流程图
4
一. 核酸序列数据库
5
三大核酸序列数据库
GenBank
/Genbank/index.html
EMBL(European Melecular Biology Laboratory)
/embl/
DDBJ(DNA Data Bank of Japan)
http://www.ddbj.nig.ac.jp/index-e.html
6
GenBank
1982.4 由Los Alamos National Lab创建 NCBI (National Center for Biotechnology Information) NIH (National Institute of Health) 数据库查询工具:Entrez 数据提交工具: Sequin Nucleic Acids Research, 2008
三大核酸数据库之间每天将新测定或更新 的数据进行交换共享,保证数据信息的完 整与同步,每两个月更新一次版本。
/
18
19
三大核酸数据库之间的联系
20
二. 蛋白质序列数据库
21
蛋白质序列数据库
PIR
/
SwissProt
/RefSeq/
11
GenBank VS. RefSeq
12
13
EMBL
1982.3 由德国科隆大学收集整理 EBI(European Bioinformatics Institute) 数据库查询工具:SAS (开源) 数据提交工具:WebIn, Sequin /embl/