生物信息学 第三章 生物信息数据库及其信息检索
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于电泳和生物质谱的蛋白质组数据库
SWISS-2DPAGE(http://www.expasy.org/ch2d/)
收录各种双向电泳或SDS的电泳图,并提供蛋白在电泳图中的位置及其信息 PRIDE(http://www.ebi.ac.uk/pride/)
第三章 生物信息数据库及其信息检索
生物科学与技术学院
本章主要内容
▪ 生物信息学数据库类型 ▪ 序列数据库 ▪ 结构数据库 ▪ 功能数据库 ▪ 其它专业数据库 ▪ 生物信息学数据库的检索 ▪ 检索方法概述 ▪ 检索实践和案例
生物信息学数据库的地位和作用
经典生物医学实验
大量零碎数据 数据收集整理 数据库 检索查询 理论分析
组织表达谱和亚细胞定位 根据不同组织中的EST、SAGE或芯片杂交信号,绘制出不同组织中表达基因的 图谱: BodyMap(http://bodymap.ims.u-tokyo.ac.jp/ ) Unigene(http://www.ncbi.nlm.nih.gov/sites/entrez?db=unigene ) SAGEmap(http://www.ncbi.nlm.nih.gov/projects/SAGE/) GEO(http://www.ncbi.nlm.nih.gov/projects/geo/) Stanford Microarray Database(http://genome-www.stanford.edu/microarray )
核酸序列数据库 RNA序列数据库 蛋白质序列数据库 结构数据库 基因组数据库(非脊椎动物) 代谢与信号通路数据库 人类与其他脊椎动物基因组 人类基因与疾病 微阵列数据库与其他基因表达数据库 蛋白质组资源 其他分子生物学数据库 细胞器数据库 植物数据库 免疫学数据库 细胞生物学数据库
生物信息学数 据库类型
大规模组学实验
海量组学数据 数据存储、注释
生物学研究 生物医学应用
生物信息学数据库类型
▪ 核酸研究(Nucleic Acids Research)杂志的每年第一期为生物信息学数据 库专刊,收录最主要的生物学相关数据库,归类并展示在
http://www.oxfordjournals.org/nar/database/c/。
由实验验证的蛋白质-蛋白质相互作用数据,包括蛋白质的信息、相互作用的信 息和检测相互作用的实验技术
IntAct(http://www.ebi.ac.uk/intact )
提供用于蛋白质相互作用数据存储、展示和分析的开源数据库和工具包,可对相 互作用数据在网页上进行文本和图像的展示,允许用户通过GO注释或InterPro结
GenBank
Algorithms
UniGene
GenBank中测序最多的20个物种
模式生物与基因测序
Ureaplasma urealyticum
Bacillus subtilis
Drosophila melanogaster
Rickettsia prowazekii
Helicobacter pylori
簇(3)UniParc,所有公开的蛋白质序列,包括每个序列源数据库的追溯信息 。
IPI (http://www.ebi.ac.uk/IPI/ ) 国际蛋白质索引数据库,针对蛋白质组研究中利用数据库搜索鉴定蛋白的策略而
构建的参考数据库,月更新,整合国际上主要的蛋白质数据库(SwissProt,
Refseq,PIR,TrEMBL,RefSeq,Ensembl,H-Inv DB翻译的蛋白数据),整 合过程中,直接接受手工注释结果。
Buchnerasp. APS
Escherichia coli
human
Arabidopsis
Thermotoga maritima
Thermoplasma acidophilum
mouse
Caenorhabitis elegans
rat
Borrelia burgorferi
Plasmodium falciparum
Байду номын сангаас构数据库(蛋白质)
PDB(http://www.rcsb.org/pdb/ )
RCSB(Research Collaboratory for Structural Bioinformatics)专门用于处理和发 布生物大分子三维结构的知识库,提供数据库的检索和下载服务,以及PDB数据
文件格式和其它文档的说明,使用软件可对PDB数据库记录用多种模式显示生物
birds
mammals 104 105 106 107 108 109 1010 1011
蛋白质序列数据库
UniProt(http://www.uniprot.org)
由Swiss-Prot、TrEMBL和PIR蛋白质数据库联合构建,提供蛋白质序列和功能注 释的核心资源。由三个子库组成:(1)UniProtKB,知识库(2)UniRef:参考
Nr( http://www.ncbi.nlm.nih.gov/refseq/ )
NCBI构建,非冗余蛋白质数据库,为每个蛋白质序列记录赋予一个唯一的gi号, 并将序列完全一致的非冗余蛋白质合并成簇。
二、结构数据库
核酸和蛋白质的空间结构数据库,一般通过X射线衍射和核磁共振获得数据,也
有同源建模等计算方法获得。 结构数据库(核酸) NDB核酸结构数据库(http://ndbserver.rutgers.edu/) 收录核酸的晶体结构数据,包含X射线衍射和核磁共振的结果,可通过ADIT (the AutoDep Input Tool)同时将结构存储到NDB和PDB中,提供序列号检索功能,可 以用NDB或PDB的ID号检索,结果包含核酸结构的简要信息和图片 Rfam数据库(http://rfam.sanger.ac.uk/ ) RNA家族多重序列比对,一致性二级结构和协方差模型,基于多重序列比对的非 编码RNA家族的变异模式
线粒体蛋白质数据库MitoP2(http://www.mitop.de:8080/mitop2/)
蛋白翻译后修饰 dbPTM(http://dbptm.mbc.nctu.edu.tw/ )
磷酸化、糖基化和硫修饰,也收录和蛋白质翻译后修饰相关的生物信息。
O-GlycBase(http://www.cbs.dtu.dk/databases/OGLYCBASE/) 只收录O糖基化数据
构域注释进行网络的扩充
代谢网络和信号途径 KEGG大百科(http://www.genome.ad.jp/kegg/ )
系统分析基因功能、联系基因组信息和功能信息的知识库,GENES收录完整和
部分测序的基因组序列;PATHWAY数据库存储更高级的功能信息,包括图解的 细胞生化过程和同系保守的子通路等信息; LIGAND数据库收录关于化学物质、
亚细胞定位数据库
PSORTdb(http://db.psort.org/ )
DBSubLoc(http://www.bioinfo.tsinghua.edu.cn/dbsubloc.html ) 膜蛋白质数据库TMPDB(http://bioinfo.si.hirosaki-u.ac.jp/~TMPDB/)
其他各种专业核酸数据库
A.非冗余参考序列数据库RefSeq B.密码子使用数据库Codon Usage Database CUTG
C.基因可变剪接数据库ASDB
D.转录因子数据库TRANSFAC
NCBI (National Center of Biotechnology Information) 美国国立生物技术信息中心
核酸序列数据库
GenBank( http://www.ncbi.nlm.nih.gov/Genbank )
EMBL( http://www.ebi.ac.uk/embl/ ) DDBJ ( http://www.ddbj.nig.ac.jp/ )
三个数据库每天互相交换数据
GenBank可通过NCBI的检索系统Entrez获取, Entrez集成来自主要DNA和蛋 白序列数据库的数据,包括物种、基因组、定位、蛋白结构和结构域等信息
PhosphoBase(http://phospho.elm.eu.org/)
只收录磷酸化位点的数据 RESID(http://www.ebi.ac.uk/RESID/)
收录蛋白质修饰的注释和结构的数据
蛋白质-蛋白质相互作用数据库
DIP(http://dip.doe-mbi.ucla.edu/)
包括由x射线衍射和核磁共振实验得到的所有PDB生物分子三维结构,与原始的
PDB结构相比,增加一些附加信息:经程序验证的显性化学图像信息、一致的二 级结构衍生定义、与MEDLINE相匹配的引用、基于源自生物实体的蛋白质或核
酸链进行分类的分子匹配。
三、功能数据库
收录生物分子的功能数据,由ID号与序列和结构数据链接
Borrelia burgorferi
Aquifex aeolicus
Neisseria meningitidis Z2491
Mycobacteriu m tuberculosis
Genome sizes in nucleotide pairs (base-pairs)
plasmids viruses bacteria fungi plants algae insects mollusks bony fish amphibians reptiles
序列数据库 结构数据库 功能数据库 其它专业数据库
Google vs Baidu
他可以更厉害!甚至超过windows、Linux或 Mac等操作系统
肤浅的百姓工具
一、序列数据库
主要收录核酸和蛋白质序列的数据库,包括由基因组计划产生的基因组及其表达
序列,由基因组序列所推测的编码和非编码核酸和蛋白质序列,以及个别生物学 实验中测序获得的核酸和蛋白质序列。 基因组序列数据库: Genome Database(GDB)数据库 ( http://www.ensemblgenomes.org/ ) 包括人、鼠、斑马鱼和果蝇4种真核生物基因组的注释分析。由EMBL - EBI和 Sanger研究所联合开发。 UCSC Genome Browser (http://genome.ucsc.edu/) 加州大学圣克鲁兹分校建立,包括各种脊椎和无脊椎动物,以及主要模式生物的基 因组数据。
三大数据库之间的联系
Primary vs. Derivative Databases
Curators
Sequencing Centers Labs
RefSeq
TATAGCCG AGCTCCGATA CCGATGACAA
Genome Assembly
TATAGCCG TATAGCCG TATAGCCG TATAGCCG
大分子三维结构。 蛋白质结构分类数据库SCOP( http://scop.mrc-lmb.cam.ac.uk/scop/ )
包含从PDB数据库中提取的所有结构域,并详细描述已知蛋白质结构之间的关系
MMDB NCBI的分子模型数据库。 NCBI蛋白结构数据库(http://www.ncbi.nlm.nih.gov/sites/entrez?db=structure/)
酶分子和酶反应等信息。
反应通路(KEGG)
glycolysis pathway(糖 酵解)
京都基因与基因组百科全
书(Kyoto Encyclopedia of Genes and Genomes)
全细胞通路
四、其它专业数据库
人类基因和疾病数据库
OMIM(http://www.ncbi.nlm.nih.gov/sites/entrez?db=omim) 收录所有已知的遗传病、遗传性状和基因,除简略描述各种疾病的临床特征、诊 断、治疗和预防外,还提供致病基因的连锁关系、染色体定位、组织结构、动物 模型及其参考文献等信息dbSNP (http://www.ncbi.nlm.nih.gov/sites/entrez?db=SNP ) 收录已经识别的SNPs的数据库 HapMap Project(http://snp.cshl.org) 收录了三大人群(非洲人,高加索人和亚洲人群)主要的变异模式,所选择的SNPs具 有相对代表性 CGED(http://lifesciencedb.jp/cged/) 收录多种癌症的临床和基因表达数据,更新到2007年