生物分子数据库
分子生物学数据库---计算生物学的摇篮
分子生物学数据库——计算生物学的摇篮1995年,嗜血杆菌的基因组DNA信息被破解,它具有1700感染基因,人类终于揭开了这一导致继流感之后第二大传染病的细菌的神秘面纱;随后在1996年,酵母基因组DNA全部的6300个基因被测序出来,为后续的研究提供了极大的方便;1998年,人类获得了第一个多细胞生物——线虫的基因组,了解到它含有19100个基因,其中1/3基因与哺乳动物的相似,这预示了我们可以将线虫当作一种模式生物;1999年,果蝇的基因组信息被破解,它有13600个基因,虽然果蝇的拥有的细胞数是线虫的1000被,体积也比线虫大,但是它具有的基因数却少于线虫,这暗示着染色体上有些区域的基因没有直接被翻译成蛋白质的,而有些基因却在转录和翻译过程中编码了多个蛋白质;2000年,荠菜的基因组DNA被测序出来,它有25500个基因,许多基因都具有重复序。
人类基因组计划启动与1990年,到2003年,99.9%的人类基因都被精确地绘图,这其中也含有大量的冗余序列。
在获得了如此多的核算信息后,大量的蛋白质信息也随之可以获得,蛋白的种类、二级或者三级结构、翻译后加工、蛋白质间的相互作用等等。
针对上面提到的大量信息,如果用传统的方法来收集、存储、分析,将会是一个浩大的工程,并且,在这旷日持久的工程中,很可能漏掉了许多重要的、未知的信息。
在美国最初提出人类基因组计划时,成立了一个由42位专家组成的生物信息研究小组,专门处理获得的相关信息。
随着信息的积累,生物学的发展,以及数学、物理、计算机科学的不断渗入,用计算机作为手段,参考数学、统计学、物理等学科的研究方式,将会大大降低人类的工作量,同时更系统,更全面,更快速,更准确的分析已有的数据。
在此背景下,计算生物学和生物信息学应运而生。
计算生物学和生物信息学都属于基于基因组学的交叉学科,二者之间没有一个严格的界限。
总的来讲,计算机生物学和信息生物学都是应用数学的和计算机的科学方法来处理分子生物学的问题,这些问题常常需要海量的数据,计算和分析。
数据搜索时有用的生物大分子数据库扫描
生物大分子数据库扫描根据“Nucleic Acids Research”最新(指2007年)公布的数据,目前已有968个有关生物大分子数据库(参见文献Galperin M Y, The Molecular Biology Database Collection, 2007, 35: D3)。
有兴趣的读者可以参阅网站“/nar/database/a”。
我们这里将主要类型的数据库列于表4-2。
面这段是一个完整的SwissProt条目,现解释如下:ID 104K_THEPA STANDARD; PRT; 924 AA.AC P15711;DT 01-APR-1990 (Rel. 14, Created)DT 01-APR-1990 (Rel. 14, Last sequence update)DT 01-AUG-1992 (Rel. 23, Last annotation update)DE 104 kDa microneme-rhoptry antigen.OS Theileria parva.OC Eukaryota; Alveolata; Apicomplexa; Piroplasmida; Theileriidae;OC Theileria.OX NCBI_TaxID=5875;RN [1]RP NUCLEOTIDE SEQUENCE.RC STRAIN=Muguga;RX MEDLINE=90158697; PubMed=1689460; DOI=10.1016/0166-6851(90)90007-9;RA Iams K.P., Young J.R., Nene V., Desai J., Webster P., Ole-Moiyoi O.K.,RA Musoke A.J.;RT "Characterisation of the gene encoding a 104-kilodalton microneme-RT rhoptry protein of Theileria parva.";RL Mol. Biochem. Parasitol. 39:47-60(1990).CC -!- SUBCELLULAR LOCATION: In microneme/rhoptry complexes.CC -!- DEVELOPMENTAL STAGE: Sporozoite antigen.CC -------------------------------------------------------------------------- CC This Swiss-Prot entry is copyright. It is produced through a collaboration uniprot_sprot.datCC the European Bioinformatics Institute. There are no restrictions on its CC use as long as its content is in no way modified and this statement is not CC removed.CC -------------------------------------------------------------------------- DR EMBL; M29954; AAA18217.1; -.DR PIR; A44945; A44945.KW Antigen; Repeat; Sporozoite.FT DOMAIN 1 19 Hydrophobic.FT DOMAIN 905 924 Hydrophobic.SQ SEQUENCE 924 AA; 103626 MW; 289B4B554A61870E CRC64;MKFLILLFNI LCLFPVLAAD NHGVGPQGAS GVDPITFDIN SNQTGPAFLT AVEMAGVKYLQVQHGSNVNI HRLVEGNVVI WENASTPLYT GAIVTNNDGP YMAYVEVLGD PNLQFFIKSGDAWVTLSEHE YLAKLQEIRQ AVHIESVFSL NMAFQLENNK YEVETHAKNG ANMVTFIPRNGHICKMVYHK NVRIYKATGN DTVTSVVGFF RGLRLLLINV FSIDDNGMMS NRYFQHVDDKYVPISQKNYE TGIVKLKDYK HAYHPVDLDI KDIDYTMFHL ADATYHEPCF KIIPNTGFCITKLFDGDQVL YESFNPLIHC INEVHIYDRN NGSIICLHLN YSPPSYKAYL VLKDTGWEATTHPLLEEKIE ELQDQRACEL DVNFISDKDL YVAALTNADL NYTMVTPRPH RDVIRVSDGSEVLWYYEGLD NFLVCAWIYV SDGVASLVHL RIKDRIPANN DIYVLKGDLY WTRITKIQFTQEIKRLVKKS KKKLAPITEE DSDKHDEPPE GPGASGLPPK APGDKEGSEG HKGPSKGSDSSKEGKKPGSG KKPGPAREHK PSKIPTLSKK PSGPKDPKHP RDPKEPRKSK SPRTASPTRRPSPKLPQLSK LPKSTSPRSP PPPTRPSSPE RPEGTKIIKT SKPPSPKPPF DPSFKEKFYDDYSKAASRSK ETKTTVVLDE SFESILKETL PETPGTPFTT PRPVPPKRPR TPESPFEPPKDPDSPSTSPS EFFTPPESKR TRFHETPADT PLPDVTAELF KEPDVTAETK SPDEAMKRPRSPSEYEDTSP GDYPSLPMKR HRLERLRLTT TEMETDPGRM AKDASGKPVK LKRSKSFDDLTTVELAPEPK ASRIVVDDEG TEADDEETHP PEERQKTEVR RRRPPKKPSK SPRPSKPKKPKKPDSAYIPS ILAILVVSLI VGIL//ID 是指其身份号,924 AA是指有该序列有924个氨基酸残基AC 获取号;DT 序列测得的时间DE 对该序列必要的信息的说明,如该分子的分子量为104 kDa .OS 来源OX NCBI分类身份号RN [1]RP NUCLEOTIDE SEQUENCE.RC STRAIN=Muguga;RX 有关Medline的出版号RA 作者RT 引用文献题目RL 杂志名称,出版日期,卷期页CC 有关它的功能描述及其它相关信息方面的描述DR EMBL数据库中的获取号DR PIR数据库中的获取号KW 关键词FT 功能区的描述SQ 有关序列方面的信息,这部分是最主要的,因为该蛋白质的序列就列在下面。
第三章生物信息数据库
部分生物基因组计划网址
老鼠(Mouse) /mgd.html 小鼠(Rat) http://ratmap.gen.gu.se 狗(Dog) /dog.html 牛(Cow) http://locus.jouy.inra.fr/cgibin/bovmap/intro2.pl 猪(Pig) /pigmap/pigbase/pigbase.html 羊(Sheep) 鸡(Chicken) /chickmap/chickbase/manager.html 斑马鱼(Zebra fish) 线虫 (C. elegans) http://www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.ht ml 果蝇(Drosophila) 蚊子(Mosquito) 拟南芥(Arabidopsis) /Arabidopsis 棉花(Cotton) 玉米(Maize) 水稻(Rice) http://www.staff.or.jp 大豆(Soya) :8000/main.html 树(Trees)
2、蛋白质序列数据库
SWISS-PROT (欧洲) PIR (美国)
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 由瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究 所(EBI)合作维护; 在EMBL和GenBank数据库上均建立了镜像站点;
SWISSPROT
到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等
PIR (Protein Information Resource)
生物数据库介绍
GenPept Sequence Records (which contain the amino acid translations from GenBank/EMBL/DDBJ records that have a coding region feature annotated on them)
各种登录号(索引号)的类型(续) Type of Record Protein Sequence Records from PRF RefSeq Nucleotide Sequence Records Sample Accession Format A series of digits (often six or seven) followed by a letter, e.g.:1901178A Two letters, an underscore bar, and six digits, e.g.: mRNA records (NM_*):NM_000492 genomic DNA contigs (NT_*):NT_000347 complete genome or chromosome (NC_*):NT_000907 genomic region (NG_*):NG000019 Two letters (NP), an underscore bar, and six digits, e.g.:NP_000483
生物信息学数据库的分类:
生物信息学数据库
一级数据库
二级数据库
一级数据库
直接来源于实验获得的原始数据(DNA序
列、蛋白质序列、蛋白质结构等),只经 过简单的归类、整理和注释。
一级核酸数据库(3):GenBank数据库、EMBL数
据库、DDBJ数据库 一级蛋白质序列数据库(2):SWISS-PROT库、PIR 蛋白信息数据库 一级蛋白质结构数据库(1):PDB数据库
06第六章 常用生物信息学数据库简介
英国辛克斯顿
ID U00096 standard; circular genomic DNA; CON; 4639221 BP. AC U00096; SV U00096.1 DT 24-JUL-2003 (Rel. 76, Last updated, Version 3) DE Escherichia coli K-12 MG1655 complete genome. KW . OS Escherichia coli K12 OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Escherichia; Escherichia coli. RN [1] RP 1-4639221 RX MEDLINE; 97426617. RX PUBMED; 9278503. RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,… RT "The complete genome sequence of Escherichia coli K-12"; RL Science 277(5331):1453-1474(1997). DR GOA; O32528. DR REMTREMBL; AAC74436; AAC74436. DR SPTREMBL; O32530; O32530. DR SWISS-PROT; O32528; YPDI_ECOLI. …
EMBL数据库简介
EMBL是最早的DNA序列 数据库,于1982年建立。
EMBL的数据来源主要有两条途径: 一是由序列发现者直接提交。几乎所有的国际权 威生物学刊物都要求作者在文章发表之前将所测定的 序列提交给EMBL、GenBank或DDBJ,得到数据库管 理系统所签发的登录注册号。 二是从生物医学期刊上收录已经发表的序列资料。
分子生物学数据库
• 三个数据库中的数据基本一致,仅在数据格 式上有所差别,对于特定的查询,三个数据库 的响应结果一样。 • 这三个数据库是综合性的DNA和RNA序列数据 库,每条记录代表一个单独、连续、附有注释 的DNA或RNA片段。
以下着重介绍EBML
EMBL的数据来源
用户提交 从生物医学杂志收录已发表的序列资 料
三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。
三个子数据库
2、SWISS-PROT
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的
(2)最小冗余
• 尽量将相关的数据归并,降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾,则在相应序列特征表 中加以注释。
(3)与其它数据库的连接
对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。
(4)WWW服务器
这是目前最常用的一种形式
EMBL提供一些与序列相关的检索操作(基于3W服务器)
(1)序列查询 最简单的查询就是通过序列的登录号(如X58929) 或序列名称(如SCARGC)直接查询。
如果找到所查询的序列,则服务器将查询结果以HTML文件返回给用户 如果数据库中该序列有到MEDLINE的交叉索引,则系统同时返回与包 含参考文献摘要等信息的MEDLINE链接 如果该序列有到其它数据库的交叉索引,也返回相应的链接
第二章 生物分子数据库
数据主要来源于全世界不同实验室和大规模测序
计划项目 大约12%来源于Homo sapiens 排列前6的物种:Homo sapiens、Mus musculus、 Rattus norvegicus、Bos taurus、Zea mays、Danio rerio (zebrafish)
GenBank核酸序列格式
一、NCBI简介/GenBank数据库
• GenBank 由 美 国 国 家 医 学 图 书 馆 的 国 家 生 物 技 术 信 息 中 心 (NCBI)构建、维护和管理, NCBI位于美国马里兰国家健康研究 所(NIH)。GenBank数据库的序列数据来源于序列发现者提 交的序列、批量提交的表达序列标签(expressed sequence tag,
3、蛋白质三维结构数据库
显示分子结构(RasMol , ChemView )
4、miRNA数据库
miRNA gene
转录RNA
microRNA (miRNA)的形成
折叠形成 pri-miRNA
pre-miRNA
miRNA
RISC携带 有活性的miRNA
Science 309:1522 (2005)
第二节 核酸序列数据库
国际上权威的核酸序列数据库
(1)欧洲分子生物学实验室的EMBL http://www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank /Web/Genbank/index. html (3)日本遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/
Ensembl 数据库结构图
2、表达序列标签数据库dbEST
dbEST (/dbEST ) 是
生命科学中最常用的5个数据库介绍
生命科学中最常用的5个数据库介绍生命科学是一个庞大而复杂的学科,其中包含了关于生命现象的各种研究。
对于生命科学的研究,特别是在分子水平上进行的研究,需要大量的数据支持。
这些数据包括分子序列、蛋白质结构、代谢途径等等。
为了有效地管理这些数据,生命科学中广泛应用了各种数据库。
本文将介绍生命科学中最常用的5个数据库。
1. GenBankGenBank是全球最大的分子生物学数据库,包含了全球各地实验室提交的DNA和RNA序列。
它由美国国家生物技术信息中心(NCBI)维护。
GenBank包含了数十亿条序列记录,其中包括了不同物种的基因组、蛋白质序列、DNA和RNA序列等。
与DNA和RNA序列相关的信息包括序列长度、基序、带电的特殊域、结构域、转录因子结合位点以及其他数据。
GenBank还包含了元数据,如物种和菌株的信息、文献引用以及序列的提交日期。
2. PubMedPubMed是美国国家医学图书馆(NLM)维护的一个生命科学文献数据库,包括了生命科学、医学和健康相关的数百万篇论文。
PubMed提供了对文献的全文搜索和存储,使科学家在查找特定话题时更加方便。
除了搜索全文的功能,PubMed还提供了很多额外的服务,如翻译摘要、相关文章推荐、绘制图表等。
3. EnsemblEnsembl是一种数据库、搜索引擎和分析平台,专门用于处理各种生命科学的数据。
Ensembl已经成为了全球最大的基因组数据库之一,包含了人类、其他哺乳动物、鸟类、篮球、双子蝎、无脊椎动物等近700个物种的基因组信息。
Ensembl提供的数据包括生物序列、调控区域、基因家族、基因结构、基因组的变异和基因表达信息等。
4. Protein Data Bank (PDB)蛋白质数据银行(PDB)是一个三维蛋白结构数据库,由改华大学、美国罗格斯大学和欧洲生物信息研究所等机构共同维护。
PDB存储了全球各地实验室提交的蛋白质晶体结构和生化分析,包括了大多数已知的蛋白质家族和酶。
ncbi分子生物学数据库网络生物医学
NCBI分子生物学数据库网络生物医学1. 引言生物医学研究的进展离不开大量的数据资源和分析工具的支持。
NCBI (National Center for Biotechnology Information) 是一个旨在促进生物信息学和分子生物学研究的重要组织。
它提供了多个分子生物学数据库,这些数据库存储了大量的生物信息学数据,并提供了丰富的分析工具,以帮助科学家进行生物医学研究。
本文将介绍一些常用的NCBI分子生物学数据库及其在网络生物医学研究中的应用。
2. NCBI基因数据库2.1 GenBankGenBank 是全球最大的基因序列数据库之一,它存储了大量的DNA和RNA序列数据。
研究者可以通过GenBank访问到已被发表的基因序列数据,以及一些未发表的序列数据。
这些数据对于研究基因功能、生物进化以及人类疾病等方面都非常重要。
2.2 RefSeqRefSeq (Reference Sequence) 是一个注释完整的、高质量的基因序列数据库。
与GenBank不同,RefSeq仅收录了经过验证且与蛋白质对应的基因序列,这使得研究者可以更加准确地进行基因结构和功能的研究。
RefSeq还提供了基因组、转录组和蛋白质序列的相关信息。
2.3 dbSNPdbSNP (database of Single Nucleotide Polymorphisms) 存储了人类和其他物种中的单核苷酸多态性数据。
这些多态性位点是基因组中常见的变异,对于人类疾病的研究和个体之间的遗传差异分析非常重要。
dbSNP收集了来自各种来源的单核苷酸多态性数据,包括人类单核苷酸多态性计划 (HapMap) 和千人基因组计划 (1000 Genomes Project)。
3. NCBI蛋白质数据库3.1 UniProtUniProt 是全球最大的蛋白质序列和注释数据库。
它整合了来自不同来源的蛋白质序列数据和相关的注释信息。
UniProt 提供了蛋白质序列、结构、功能、亚细胞定位和表达等方面的详细信息,帮助研究者理解蛋白质的结构和功能。
常用的生物数据库(二)
常用的生物数据库(二)引言概述:生物数据库是生物信息学领域的重要工具,可以帮助研究人员存储、管理和共享生物数据。
本文将介绍常用的生物数据库(二),以便研究人员更好地利用这些资源进行生物学研究。
正文内容:一、蛋白质相互作用数据库1. STRING数据库:提供蛋白质相互作用预测和注释功能。
2. IntAct数据库:收集整理蛋白质相互作用数据,提供数据检索和分析工具。
3. BioGRID数据库:整合多种物种的蛋白质相互作用数据,并提供丰富的功能注释。
二、基因组数据库1. GenBank数据库:包含大量的序列数据,包括基因组、转录本和蛋白质序列等。
2. ENSEMBL数据库:集成了各种生物信息学工具,提供全面的基因组注释信息。
3. UCSC数据库:基于人类基因组构建的浏览器,提供详细的基因组注释和可视化功能。
三、表达谱数据库1. GEO数据库:收集了大量的基因表达谱数据,可进行数据检索和分析。
2. ArrayExpress数据库:包含了来自各种高通量技术的表达谱数据,提供数据下载和分析工具。
3. TCGA数据库:整合了多种癌症的基因表达数据,可进行差异表达和生存分析等研究。
四、突变数据库1. dbSNP数据库:记录了常见的单核苷酸多态性(SNP)数据,是研究遗传变异的重要资源。
2. COSMIC数据库:专注于癌症相关的突变数据,包含了大量的突变谱系和功能注释信息。
3. ClinVar数据库:整合了与人类疾病相关的遗传变异数据,提供临床相关的注释信息。
五、药物数据库1. DrugBank数据库:收录了大量的药物信息,包括结构、作用机制和药理学数据等。
2. PubChem数据库:提供了大量的小分子化合物数据,可进行化学结构搜索和药物筛选等研究。
3. ChEMBL数据库:整合了化合物活性数据和药物靶点信息,可用于药物发现和优化。
总结:生物数据库为生物学研究提供了丰富的数据资源和分析工具。
蛋白质相互作用数据库、基因组数据库、表达谱数据库、突变数据库和药物数据库是常用的生物数据库之一。
生物信息数据库
研究内容和需要,对生物学知识和信息的进一步整理得到的数
据库。
人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、
蛋白质序列功能位点数库几个明显的特征:
(1)数据库的更新速度不断加快
数据量呈指数增长趋势
(2)数据库使用频率增长更快
(3)数据库的复杂程度不断增加
Jan;36(Database issue):D25-30
7
8
GenBank中测序最多的20个物种
v173.0,2009.09
9
10
Refseq
1. 提供高质量的,无冗余的,完整的序列 信息;
2. 包括基因组的DNA,转录成的RNA以及蛋 白质序列信息。
3. 序列文件的标识符:
➢mRNA序列:NM_001158 ➢非编码RNA:NR_002769 ➢蛋白质序列: NP_001159
包含蛋白质序列全面的信息,提供准确、 丰富的序列与功能注释。
记录以6位字母和数字组成,例:Q5K8D3
31
32
非冗余、高质量注释、全面分类
23
Swiss-Prot
1986年,由瑞士日内瓦大学创建。 SIB(Swiss Institute of Bioinformatics) ExPASy(Expert Protein Analysis System) 所有序列条目均经过有经验的分子生物学
家和蛋白质化学家审核,因此又称为蛋白 质专家库
14
15
DDBJ
创建于1986年 NIG(National Institute of Genetics) 数据库查询工具:SAS 数据提交工具: Sequin http://www.ddbj.nig.ac.jp/index-e.html
生物分子信息数据库
第4章生物分子数据库国际上已建立起许多公共生物分子数据库,包括基因组图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库等。
这些数据库由专门的机构建立和维护,他们负责收集、组织、管理和发布生物分子数据,并提供数据检索和分析工具,向生物学研究人员提供大量有用的信息,最大限度地满足他们研究和应用的需要,为他们的研究服务。
4.1 引言建立生物分子数据库的动因是由于生物分子数据的高速增长,而另一方面也是为了满足分子生物学及相关领域研究人员迅速获得最新实验数据的要求。
生物分子信息分析已经成为分子生物学研究必备的一种方法。
如果说理论分析和算法模拟是生物信息学实验方法的话,那么来自于具体实验的原始数据和来自于数据库的数据则是生物信息学的实验材料。
数据库及其相关的分析软件是生物信息学研究和应用的重要基础,也是分子生物学研究必备的工具。
从数据库使用的角度来看,公共生物分子数据库应满足以下5个方面的主要需求:(1)时间性对于新发表的数据,应该能够在很短的时间内(几个小时至几天)通过国际互连网访问。
(2)注释对于每一个基本数据(如序列),应附加一致的、深层次的辅助说明信息。
(3)支撑数据在有些情况下,数据库使用者需要得到原始的实验数据,因而要提供访问原始数据的方法。
数据库中应包含原始数据,或者能够通过交叉索引访问实验数据库中的原始数据。
(4)数据质量必须保证数据库中数据的质量,数据库管理机构应对数据来源进行检查,并且关注数据库用户和专家提出的意见。
(5)集成性三种基本生物分子数据库(核酸序列、蛋白质序列、蛋白质结构)的集成对于用户来说是非常重要的。
对于数据库中的每一个数据对象,必须与其它数据库中的相关数据联系起来,这样可以从某些分子数据出发得到一系列的相关信息。
例如,从某个核酸序列出发,通过交叉索引,可进一步得到对应的基因、蛋白质序列、蛋白质结构,甚至得到蛋白质功能的信息。
分子生物学研究领域虽各有重点,但是研究对象之间存在着密切的联系,比如DNA序列与蛋白质序列之间的联系,基因调控信息与基因表达数据之间的联系。
生物数据库介绍——NCBI
⽣物数据库介绍——NCBINCBI(National Center for Biotechnology Information,美国国家⽣物技术信息中⼼)除了维护GenBank核酸序列数据库外,还提供数据分析和检索资源。
NCBI资源包括Entrez、Entrez编程组件、MyNCBI、PubMed、PudMed Central、PubReader、Gene、the NCBI Taxonomy Browser、BLAST、Pimer-Blast、COBALT、RefSeq、UniGene、HomoloGene、ProtEST、dbMHC、dbSNP、dbVar、Epigenomics、the Genetic Testing Registry、Genome和相关⼯具、⽐对查看器、跟踪存档、Sequence Read Archive、BioProject、BioSample、ClinVar、MedGen、HIV-1/⼈类蛋⽩质相互作⽤数据库、Gene Expression Omnibus、Probe、Online Mendelian Inheritance in Animals、the Molecular Modeling Database、the Conserved Domain Database、the Conserved Domain Architecture Retrieval Tool、Biosystem、Protein Clusters and thePubChem suite of small molecule databases,所有这些资源可以在NCBI主页找到。
Databases⼀个提供有关基因组组装结构,装配名称和其他元数据,统计报告以及基因组序列数据链接等信息的数据库。
⼀个有关培养物、动植物样本和其他⾃然样本的精选元数据集。
记录显⽰样本状态,有关馆藏的机构的信息,以及NCBI中相关数据链接。
第二章生物分子数据库PPT课件
1、PIR(Protein Information Resource)
2020/12/12
32
二、各大类主要数据库介绍 蛋白质序列数据库
2、SWISS-PROT (/swissprot/ 曾经的网址)
/
3、 TrEMBL (/trembl/index.html 曾经的网 址) /
TrEMBL是一个计算机注释的蛋白质数据库,作为SWISS-PROT
数据库的补充。该数据库主要包含从EMBL/ Genbank/DDBJ 核酸数 据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列 尚未集成到SWISS-PROT 数据库中。
人类基因组图谱(包括细胞遗传图谱、连接图谱、
放射性杂交图谱、content contig图谱和综合图谱
等);人类基因组内的变异(包括突变和多态性,加上
等位基因频率数据)。
2020/12/12
11
二、各大类主要数据库介绍 基因组数据库
2020/12/12
12
二、各大类主要数据库介绍 基因组数据库
2020/12/12
2020/12/12
22
(一)Genbank
2020/12/12 23
(一)Genbank
2020/12/12
24
(二)EMBL
EMBL核酸序列数据库由欧洲生物信息 学研究所(EBI)维护的核酸序列数据构成,由 于与Genbank和DDBJ的数据合作交换,它也 是一个全面的核酸序列数据库。该数据库由 Oracal数据库系统管理维护,查询检索可以通 过因特网上的序列提取系统(SRS)服务完成。
13
二、各大类主要数据库介绍 基因组数据库
2020/12/12
第二章 生物分子数据库
GenBank数据库所包含的常用子库 数据库所包含的常用子库 表达序列标记数据库dbEST 表达序列标记数据库dbEST (/dbEST/)
包括了不同生物的表达序列标签(Expressed Sequence Tags, EST ) 序列数 据及其它相关信息,主要是从大量不同组织和器官得到的DNA的5‘或3’端 序列,一般长60~500bp左右。该数据库的数据量已经占了GenBank核酸数据 总量的50%以上,并且有快速递增趋势。
序列标签位点数据库dbSTS 序列标签位点数据库dbSTS (/dbSTS/) )
包含了基因组短标记序列( Sequence Tagged Sites ,STS)的组成和定位信 息。 STS在基因组中是惟一存在的一段特异性序列,长度一般在200-300bp间。
生物分子数据库的类型
(1) 一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过 简单的归类整理和注释。 (2)二级数据库 对原始生物分子数据进行整理、分类的结果,是在一级 数据库、实验数据和理论分析的基础上针对特定的应用 目标而建立的,更便于生物学家的使用。
2.2 核酸序列数据库
2.2.1 国际上权威的核酸序列数据库 (1)美国生物技术信息中心(National Center for Biotechnology Information, NCBI)的GenBank序列数据库 /Web/Genbank/index.html (2)欧洲分子生物学实验室(European Molecular Biology Laboratories, EMBL) 核酸数据库 http://www.embl-heidelberg.de (3)日本遗传研究所的(DNA Data Bank of Japan, DDBJ)数据库 http://www.ddbj.nig.ac.jp/
分子生物学中常用数据库
分子生物学中常用数据库综合数据库:来源:/news/science/article/90048.html生物信息学网址链接:http://www.bioinformatics.ca/links_directory/Nucleic Acid Research Database Issue:/content/vol32/suppl_2/一、蛋白相关数据库蛋白质结构域预测工具Esignal:/esignal/信号传导系统蛋白的结构域预测工具,凡是涉及到信号传导系统的蛋白用这个预测效果最佳SignalP:http://www.cbs.dtu.dk/services/SignalP/信号肽预测工具,适合定位于非胞质位置的蛋白质Emotif:/emotif-search/结构域预测工具,由于其用motif电子学习的方法产生结构域模型,故预测效果比Prosite好Ematrix:/ematrix/是用Matrix的方法创建的结构域数据库,可与emotif互相印证。
其速度快,可快速搜索整个基因组InterPro:/InterProScan/EBI提供的服务,用图形的形式表示出搜索的结构域结果TRRD:http://wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/转录因子结构域预测的最好数据库。
但不会用Protscale:/cgi-bin/protscale.pl可分析该序列的各种性状如活动度、亲水性(Kyte&Doolittle)、抗原性(Hopp&Woods)等通过寻找MOTIF和Domain来分析蛋白质的功能A. MOTIF是蛋白中较小的保守序列片断,其概念比Domain小PROSITE:/tools/scanprosite/是专门搜索蛋白质Motif的数据库,其中signature seqs是最重要的motif信息B. Domain:若干motif可形成一个Domain,每个Domain形成一个球形结构,Domain与Domain之间通常像串珠一样相连Pfam:可以搜索某段序列中的Domain,并以图形化表示出来。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n PIR 蛋白质序列信息资源库(美、德)
n
PPT文档演模板
生物分子数据库
蛋白质结构数据库
n PDB Protein DataBank,美国Brookhaven国家实验室管理生 物大分子三维空间结构原子坐标数据库 /pdb/
1. 核酸序列数据库
2. RNA 序列数据库 3. 蛋白质序列数据库 4. 结构数据库 5. 基因组数据库 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其他数据和其他基因表达数据库 10. 蛋白组资源 11. 其他分子生物学数据库 12. 细胞器官数据库 13. 植物数据库 14. 免疫学数据库
n DDBJ日本核酸数据库 http://www.ddbj.nig.ac.jp
整合平台:Entrez 综合数据库
序列通过正式递交进入数据库 未正式发表文献以前,数蛋白质序列数据库
n SWISS-PROT (瑞士日内瓦大学)蛋白质序列数据库 http://www.Expasy.ch 内容包括序列及功能信息、蛋白识别、蛋白质结构预测 及其他功能
PPT文档演模板
生物分子数据库
三、 生物信息数据库检索
n 集成检索系统: n Entrez系统(整合库)美国生物技术信息中心研制 n
n SRS系统(Sequence Retrieval System)欧洲分子生物学实验室开发 /
n 中国生物信息网
n 北京大学生物信息中心 中国生物技术信息网 /
n 中国科学院(上海文献中心)
n /tushug/
生物分子数据库
PPT文档演模板
2020/11/26
生物分子数据库
一、概述
生物信息学的定义 生物信息学是一门交叉科学,它包含了生物信息
的获取、处理、存储、分发、分析和解释等在内的所 有方面,综合运用数学、计算机科学和生物学的各种 工具,来阐明和理解大量数据所包含的生物学意义。 (美国人类基因组计划实施五年后的总结报告)
PPT文档演模板
生物分子数据库
核酸序列数据库
n 内容包括世界上所有已公布的核酸序列及其翻译产物序列报告和相关注释 国际核酸序列委员会协作组: n GenBank美国基因数据银行
/
n Embl 欧洲分子生物实验室 /embl.html
PPT文档演模板
生物分子数据库
二、生物信息学数据库种类
n 《Nucleic Acids Research》杂志每年的第一 期中详细介绍最新版本的各种数据库。
n 在2000年1月1日出版的28卷第一期115种通 用和专用数据库。
n 至2008年,生物信息学数据库总数已达1078 个。比2007年增加110个。
n OMIM 孟德尔遗传信息数据库
n CGAP The Cancer Genome Anatomy Project 肿瘤基因组图谱知识库 /ncicgap 美国国 立癌症研究所为解剖肿瘤细胞分子而建立。
PPT文档演模板
生物分子数据库
基因组数据库图谱和显示器
n 主要内容:有基因组结构、基因单位、基因组图谱等(遗 传图、叠连群图、放射杂交图等)
n 分布:由各国基因组研究中心组建,分布在世界各地的信 息中心、研究机构。代表性的有:
美国人类基因组数据库GDB
美国NCBI基因组数据库Genome
PPT文档演模板
生物分子数据库
生物信息分析工具
n BLAST 序列相似性对比
n PRIMER 引物设计
n 蛋白质结构预测数据库 (EMBL)根据已知蛋白 质序列,预测同族二级、三维等结构
n 蛋白质功能预测数据库 (EMBL )根据已知蛋白 质序列,预测蛋白质功能
PPT文档演模板
生物分子数据库
我国生物信息相关网站
n NCBI STRUCTURE MMDB (Molecular Modelling DataBase),包含了从PDB获取的实验确定的生物高聚物 结构分子模型数据库
n SCOP (Structural classification of proteins) 英国医学研究 会(MRC)剑桥分子生物学实验室开发的蛋白质结构分类 数据库。包含描述蛋白质域的家族、超家族、折叠、等级 等信息。/scop
n 可开放式安装100多个数据库,北京大学安装了78个数据库
PPT文档演模板
生物分子数据库
Nucleic Acids Research 杂志
PPT文档演模板
生物分子数据库
PPT文档演模板
生物分子数据库
Nucleic Acids Research 杂志
PPT文档演模板
生物分子数据库
PPT文档演模板
生物分子数据库
PPT文档演模板
生物分子数据库
相关数据库及其主要分类
英国人类基因图谱数据库 HGMPGenomeWeb
/genomeWeb/
美国人类基因组资源整合体系 /genome/guide/human/
PPT文档演模板
生物分子数据库
人类疾病与基因数据库