第四章生物信息学数据库(一)主要库及其文件格式
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
核酸序列数据的增长趋势 (纵轴代表总的核酸序列长度,单位:百万bp)
❖生物分子数据库
一级数据库
❖数据库中的数据直接来源于实验获得的原始 数据,只经过简单的归类整理和注释
二级数据库
❖对原始生物分子数据进行整理、分类的结果, 是在一级数据库、实验数据和理论分析的基 础上针对特定的应用目标而建立的 。
http://rgp.dna.affrc.go.jp/E/index.html 苜蓿属基因组数据库:http://www.noble.org/medicago 玉米基因组数据库 maizegdb: http://www.maizegdb.org 斑马鱼信息网 ZFIN(Zebrafish Information Network):http://zfin.org (另可参看The Danio rerio Sequencing Project:
(2)最小冗余
• 尽量将相关的数据归并,降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾,则在相应序列特征表 中加以注释。
(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有:
到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。
生物信息学常用数据库种类
– 通用生物信息学数据库 – 特定(数据)数据库 – 特定(物种)数据库 – 各种通路数据库 – 结构(图形/图像)数据库 – ……
第一节 通用生物信息学数据库
国际上三大权威数据库
(1)美国生物技术信息中心(NCBI)的GenBank (http://www.ncbi.nlm.nih.gov/Genbank/)
NCBI
( National Center for Biotechnology Information) 美国生物技术信息中心
– http://www.ncbi.nlm.nih.gov/ – 全球最大的生物信息资源中心 – DNA 序列、蛋白质序列、出版物、数据挖掘工具等
▪美国的GenBank从 1979年开始建设, 1982年正式运行;
3、TrEMBL
TrEMBL (http://www.ebi.ac.uk/trembl/index.html) 是与 SWISS-PROT相关的一个数据库。
包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白 质序列,并且这些序列尚未集成到SWISS-PROT数据库中。
TrEMBL有两个部分: (1)SP-TrEMBL(SWISS-PROT TrEMBL)
SWISS-PROT中的数据来源于不同源地: (1)从核酸数据库经过翻译推导而来; (2)从蛋白质数据库PIR挑选出合适的数据; (3)从科学文献中摘录; (4)研究人员直接提交的蛋白质序列数据
SWISS-PROT有三个明显的特点 :
(1)注释
在SWISS-PROT中,数据分为核心数据和注释两大类。
包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位 点、 EST、综合区域、contigs、重复等;
(2)人类基因组图谱,
包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集 成图谱,所有这些图谱都可以被直观地显示出来;
(3)人类基因组中的变化,
包括基因突变和基因多态性,加上等位基因频率数据。
• 这三个数据库是综合性的DNA和RNA序列数 据库,每条记录代表一个单独、连续、附有 注释的DNA或RNA片段。
第二节 核酸序列数据库
1、基因组数据库(GDB)
The Genome Database
人类基因组计划所得到的图谱数据 2008年6月关闭
GDB包含对下述三种对象的描述:
(1)人类基因组区域
21 Mar 2003 37,943,364,438 bases in
24,353,128 records.
▪日本于1984年开始建立国家 级的核酸数据库DDBJ,并于 1987年正式服务。
NCBI、EBI和DDBJ之间的区别与联系
• 三个数据库中的数据基本一致,仅在数据 格式上有所差别,对于特定的查询,三个数 据库的响应结果一样。
核心数据包括: 序列数据、参考文献、分类信息(蛋白质生物来源的描述)
注释包括: (A)蛋白质的功能描述; (B)翻译后修饰; (C)域和功能位点,如钙结合区域、ATP结合位点等; (D)蛋白质的二级结构; (E)蛋白质的四级结构,如同构二聚体、异构三聚体等; (F)与其它蛋白质的相似性; (G)由于缺乏该蛋白质而引起的疾病; (H)序列的矛盾、变化等。
• 所有序列数据都经过整理,超过99%的序列已 按蛋白质家族分类,一半以上还按蛋白质超家 族进行了分类。
除了蛋白质序列数据之外,PIR还包含以下 信息:
(1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因 表达、翻译后处理、活化等;
UniGene( http://www.ncbi.nlm.nih.gov/UniGene/) 数据库将GenBank中的序列进行自动分类,形成 面向基因群的非冗余集合。
每个UniGene群包含: 代表一个唯一基因的多个序列,附有该基因相关的信息,
如基因表达的组织类型、定位图谱
除了基因的序列之外,还包括大量的EST序列。
(4)序列中相关的位点、功能区域。
2、SWISS-PROT
SWISS-PROT (http://cn.expasy.org/sprot ) 是由瑞士日内瓦大学医学生物化学系和欧洲生物信息学 研究所(EBI)合作维护(1986年) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的
3、 Ensembl (http://www.ensembl.org/)
Ensembl包括所有公开的人类基因组DNA序列,通过注 释形成的关于序列的特征。 现在包括脊椎动物和其他 真核生物基因组,如大鼠、小鼠、线虫、果蝇等。
例如:基因 •通过实验发现的 •或者是通过GenScan程序预测的
其他的特征: 单核苷酸多态性(SNP)、重复序列等
http://www.tigr.org/tdb/e2k1/ath1
部分生物基因组计划网址
水稻基因组数据资源: 1、中国国际水稻基因组计划(IRGSP):
http://www.ricegene.csdb.cn/12chr/database_irgsp.htm 2、中国水稻信息系统(RISe):http://rice.genomics.org.cn 3、美国 http://rice.plantbiology.msu.edu 4、日本 RGP(Rice Genome Research Program):
(2)欧洲分子生物学实验室(EMBL)( http://www.embl-heidelberg.de ) 的 nucleotide sequence database(http://www.ebi.ac.uk/embl/)
(3)日本遗传研究所的DDBJ ( http://www.ddbj.nig.ac.jp/ )
STS(Sequence Tagged Sites)是序列标记位点 dbSTS(http://www.ncbi.nlm.nih.gov/dbSTS/) 是NCBI的一个数据源,包含基因组短标记序列(STS) 的组成和定位信息。 可以通过BLAST搜索STS序列。
6、面向基因聚类数据库UniGene
http://plasmodb.org/plasmo 果蝇基因组数据库 FlyBase:http://flybase.org (另可参看BDGP:
http://www.fruitfly.org) 拟南芥信息资源 tair(The Arabidopsis Information Resource):
http://www.arabidopsis.org (另可参看The TIGR Arabidopsis thaliana Database:
2、其他生物基因组数据库
大肠杆菌K12基因组数据库
酵母基因组数据库
线虫基因组数据库
果蝇基因组数据库
小鼠基因组数据库
玉米基因组数据库
部分生物基因组计划网址 大肠杆菌K12基因组数据库 ecogene:http://ecogene.org 白色念珠菌基因组数据库 CGD (Candida Genome Database):
http://www.yeastgenome.org TIGR的真菌基因组数据库:http://www.tigr.org/tdb/fungal 线虫基因组数据库 WormBase(the C. elegans genome database):
http://www.wormbase.org 四膜虫基因组数据库 TGD (Tetrahymena Genome Database): http://www.ciliate.org 疟原虫基因组数据库 PlasmoDB(Plasmodium Genome Resource):
目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据, 因为这些生物有大量的EST数据。
第三节 蛋白质序列数据库
1、PIR(Protein Information Resource)
• 目的: 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。
• 它是一个全面的、经过注释的、非冗余的蛋白 质序列数据库。
http://www.candidagenome.org TIGR的微生物资源数据库 CMR:
http://cmr.jcvi.org/tigr-scripts/CMR/CmrHomePage.cgi 日本的微生物基因组数据库 MBGD:http://mbgd.genome.ad.jp 酵母基因组数据库 SGD(Saccharomyces Genome Database):
http://www.sanger.ac.uk/Projects/D_rerio ) 小鼠基因组数据库 MGI (Mouse Genome Informatics ):
http://www.informatics.jax.org HIV 序列数据库 HIV Databases:http://www.hiv.lanl.gov/content/index
包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的 登录号。
DbEST (http://www.ncbi.nlm.nih.gov/dbEST/)
是GenBank的一个部分,该数据库包括不同生物的EST序列 数据及其它相关信息,主要是从大量不同组织和器官得到的短 mRNA片段。
WEB页面或email FTP
有关EST的数据 dbEST数据库
5、序列标记位点数据库dbSTS
Ensembl
Ensembl提供多种查询方式
• 通过关键字查询
•用BLAST进行相似序列的搜索
• 另一种更直观的方式是显示各染色体 用户可以在染色体水平上选择感兴趣的位点, 逐层放大 浏览整个基因组
人的第9号 染色体及大 鼠对应的染 色体片段
4、表达序列标记数据库dbEST
EST(Expressed Sequence Tags)方法已被证明 是识别转录序列的最有效方法 ,EST序列大约覆盖 了人类基因的ห้องสมุดไป่ตู้0%。
▪ 欧洲分子生物学实验室 的EMBL数据库也于1982 年开始服务
EMBL (Germany)
EMBL-EBI (UK)
密 苏 里 植 物 园 主 页
EBI, Hinxton (Cambridge), UK 2004年2月22日摄
http://www.ebi.ac.uk/embl/
http://www.ebi.ac.uk/Databases/
第四章 生物信息学数据库
生物分子数据 高速增长
分子生物学 及相关领域研究人员 迅速获得最新实验数据
建立生物分子数据库
生物分子数据库几个明显的特征:
(1)数据库的更新速度不断加快 数据量呈指数增长趋势
(2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置