生物信息学常用数据库(已分类)
生物信息学数据库分类整理汇总
生物信息学数据库分类整理汇总生物信息学数据库是存储和管理生物学领域的大量数据的重要工具和资源,对于生物信息学研究、基因组学、蛋白质组学、转录组学等领域的研究具有重要的意义。
本文将对生物信息学数据库进行分类整理和汇总,方便生物信息学研究者更好地使用和了解这些数据库。
1.基因组数据库:- GenBank:美国国家生物技术信息中心(NCBI)维护的基因序列数据库,包含已知基因的核酸序列。
- Ensembl:英国恩格斯尔基因组项目维护的一个综合性基因组数据库,包含多种物种的基因组数据。
- UCSC Genome Browser:加利福尼亚大学圣克鲁兹分校开发的一个基因组浏览器,提供多种物种的基因组序列和注释信息。
2.蛋白质数据库:- UniProt:一个综合性的蛋白质数据库,集成了多个蛋白质序列和注释信息资源。
- Protein Data Bank (PDB):存储大量已解析的蛋白质结构数据的数据库,提供原子级别的结构信息。
- Protein Information Resource (PIR):收集和整理蛋白质序列、结构和功能信息的数据库。
3.转录组数据库:- NCBI Gene Expression Omnibus (GEO):存储和共享大量的高通量基因表达数据的数据库。
- ArrayExpress:欧洲生物信息学研究所(EBI)开发的一个基因表达数据库,包含多种生物组织和疾病的表达数据。
4.疾病数据库:- Online Mendelian Inheritance in Man (OMIM):记录人类遗传疾病和相关基因的数据库。
- Orphanet:收集和整理罕见疾病和相关基因的数据库。
5.代谢组数据库:- Human Metabolome Database (HMDB):一个综合性的人类代谢物数据库,包括代谢产物的结构和功能信息。
- Kyoto Encyclopedia of Genes and Genomes (KEGG):包含多种生物体代谢途径的数据库。
(完整版)生物信息学教学资料:生物信息学常用数据库
• Access to GenBank • GenBank is available for searching at NCBI via several methods. • The GenBank database is designed to provide and encourage access
http://ratmap.gen.gu.se
生物信息学方法与实践
Bioinformatics Method and Practice
1
生物信息学常用数据库
• 一级数据库
–数据库中的数据直接来源于实验获得的原始数 据,只经过简单的归类整理和注释。
• 二级数据库
–对原始生物分子数据进行整理、分类的结果, 是在一级数据库、实验数据和理论分析的基础 上针对特定的应用目标而建立的。
prior to publication so that an accession number may appear in the paper. NCBI has a WWW form, called BankIt, for convenient and quick submission of sequence data. Sequin, NCBI's stand-alone submission software for MAC, PC, and UNIX platforms, is also available by FTP. When using Sequin, the output files for direct submission should be sent to GenBank by electronic mail. • There are specialized, streamlined procedures for batch submissions of sequences, such as EST, STS, and HTG sequences.
生物信息学数据库的分类和注释要求
KEYWORDS
KEYWORDS (关键词)字段:由该序列的提交者提供,包 括
• 该序列的基因产物 • 其它相关信息
SOURCE
SOURCE (数据来源)字段:说明该序列是从什么生物体、 什么组织得到的 次关键字ORGANISM (种属):指出该生物体的分类学地位
REFERENCE
REFERENCE(文献)字段:说明该序列中的相关文献,包括
FASTA格式特点:
• 只存储了最少量的信息 • 它将所存储的信息转化为简单的字符串 • 人和计算机对其存储的信息都具有极大的可读性
FASTA格式在许多分子生物学软件包中得到广泛应用。
GenBank数据库—数据库格式(2)
GenBank纯文本文件格式(GenBank flatfile, GBFF): GenBank、EMBL、DDBJ每天都相互同步更新各自的数据 库,它们是怎样交换数据的呢?
GenBank数据库结构
GenBank中最常用的是序列文件。 序列文件的基本单位:是序列条目,包括核苷酸碱基排列 顺序和注释两部分。 生物信息资源中心通过计算机网络提供该数据库文件。 注释条目:文章的格式
(
Genbank
Genbank 查找页面
D31716
描述部分
CDs are recurring units in polypeptide chains (sequence and structure motifs), the extents of which can be determined
TITLE Cloning and sequence of REV7, a gene whose function is required for
DNA damage-induced mutagenesis in Saccharomyces cerevisiae
生物信息学中常用的数据类型和数据库类型
生物信息学中常用的数据类型和数据库类型
在生物信息学中,常用的数据类型包括:
1. 基因组序列数据:包括DNA和RNA序列的原始数据,如FASTA格式或FASTQ格式。
2. 转录组数据:包括基因表达谱、剪接变异等,如RNA-seq数据。
3. 蛋白质序列数据:包括蛋白质的氨基酸序列,如UniProt数据库。
4. 基因组结构数据:包括基因位置、外显子、内含子等信息。
5. 遗传变异数据:包括SNP、INDEL、CNV等遗传变异信息。
6. 蛋白质结构数据:包括蛋白质的三维空间结构,如PDB数据库。
在生物信息学中,常用的数据库类型包括:
1. 基因组数据库:如NCBI GenBank、ENSEMBL等,存储基因组序列和注释信息。
2. 转录组数据库:如NCBI SRA、ENA等,存储RNA-seq和其他转录组数据。
3. 蛋白质数据库:如UniProt、Swiss-Prot等,存储蛋白质序列和注释信息。
4. 遗传变异数据库:如dbSNP、ClinVar等,存储遗传变异信息。
5. 蛋白质结构数据库:如PDB、CATH等,存储蛋白质的三维结构信息。
6. 功能注释数据库:如GO数据库、KEGG数据库等,存储基因和蛋白质的功能注释信息。
7. 互作数据库:如STRING数据库、BioGRID数据库等,存储基因和蛋白质之
间的相互作用信息。
生物信息学常用数据库(已分类)
疟原虫属(Plasmodium)基因组 酵母基因组数据库(SGD) /Saccharomyces 酿酒酵母基因组 TIGR微生物数据库 /tdb/mdb/mdbcomplete.html
COMPEL http://compel.bionet.nsc.ru/ 复合调控元件(Composite regulatory elements)
CUTG http://www.kazusa.or.jp/codon/ 遗传密码使用表
DBTBS http://dbtbs.hgc.jp/ 枯草杆菌反式作用因子和启动子
ArkDB /sites.html 农业相关和其他动物的基因组数据库
综合的微生物资源(CMR) /tigr-scripts/CMR2/CMRHomePage.spl 已完成测序的微生物基因组
CropNet / 农作物基因组图谱
CyanoBase http://www.kazusa.or.jp/cyano/
Synechocystis sp.基因组
EMGlib http://pbil.univ-lyon1.fr/emglib/emglib.html 已完成基因组测序的细菌、古细菌、酵母
EcoGene /EcoGene/EcoWeb/ 大肠杆菌(E.coli)K-12的序列
帖子
441
积分
20
金币
339
贡献值 3 点
最后登录 10-5-10
名称 地址 说明
AceDB /Software/Acedb/ 线虫(C.elegans),酵母(S.pombe)的序列和基因组信息
AmmtDB r.it/mitochondriome/ 寄生虫(Metazoan)线粒体DNA序列
06第六章 常用生物信息学数据库简介
英国辛克斯顿
ID U00096 standard; circular genomic DNA; CON; 4639221 BP. AC U00096; SV U00096.1 DT 24-JUL-2003 (Rel. 76, Last updated, Version 3) DE Escherichia coli K-12 MG1655 complete genome. KW . OS Escherichia coli K12 OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Escherichia; Escherichia coli. RN [1] RP 1-4639221 RX MEDLINE; 97426617. RX PUBMED; 9278503. RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,… RT "The complete genome sequence of Escherichia coli K-12"; RL Science 277(5331):1453-1474(1997). DR GOA; O32528. DR REMTREMBL; AAC74436; AAC74436. DR SPTREMBL; O32530; O32530. DR SWISS-PROT; O32528; YPDI_ECOLI. …
EMBL数据库简介
EMBL是最早的DNA序列 数据库,于1982年建立。
EMBL的数据来源主要有两条途径: 一是由序列发现者直接提交。几乎所有的国际权 威生物学刊物都要求作者在文章发表之前将所测定的 序列提交给EMBL、GenBank或DDBJ,得到数据库管 理系统所签发的登录注册号。 二是从生物医学期刊上收录已经发表的序列资料。
生物信息学数据库
BLAST:碱基局部对准检索工具
Basic Locul Alignment Search Tool
可进行核苷酸序列、蛋白质序列方面的 同源性分析,能在8秒内在整个DNA数据库 中进行序列比较。
diabetes
顺序号中第1位数字表示所涉及 基因的遗传类型: 1:常染色体显性(1994.5.15前创建) 2:常染色体隐性(1994.5.15前创建) 3:X连锁基因座或表现型 4:Y连锁基因座或表现型 5:线粒体基因座或表现型 6:常染色体基因座或表现型 (1994.5.15后创建的条目)
比较结果页面
彩色积 分图
序 列 相 似 存贮号 描 述
描述
积分
检索 范围
E值 统计
链接
相似率为100%
序列对准 描述
三、基因组数据库
1、Genome:可获得800多种生物体的基 因组数据,部分已完成测序。
2、人类基因组资源: human genome resources
整合了多种相关的分子生物学数据库和 公共分析软件,为科研人员提供了自动化 的实验数据获得、加工和整理途径,为基 因区域的预测和基因功能预测提供了一系 列便捷的方法。
序列数据库 结构数据库 生物信息学数据库的种类 图谱数据库 突变数据库 文献数据库
专业杂志 生物信息学数据库的查找方法 专门数据库目录的网站
著名的生物信息学中心
参见教材p227--p242
NCBI数据库组织
一、NCBI中的生物信息数据库
1)、PubMed: 生物医学文献数据库 2)、Nucleotide:核酸序列数据库 3)、Protein sequence database:
生物信息学_常用数据库介绍_20131204
数据库
• 文献检索 – HighWire Press
• / • HighWire Press是全球最大的提供免费全文的学术文献 出版商,于1995年由美国斯坦福大学图书馆创立。最 初仅出版著名的周刊“Journal of Biological Chemistry”, 目前已收录电子期刊710多种,文章总数已达230多万 篇,其中超过77万篇文章可免费获得全文;这些数据 仍在不断增加。通过该界面还可以检索Medline收录的 4500种期刊中的1200多万篇文章,可看到文摘题录。 • HighWire Press收录的期刊覆盖以下学科:生命科学、 医学、物理学、社会科学
– Cross-references
数据库
• UCSC Genome Bioinformatics – /
– 快速浏览整个基因组 – 整合了大量的基因组注释数据 – 支持数据库检索和序列比对
数据库
• UCSC Genome Bioinformatics – /
同学们的建议
文献检索 具体介绍 • 分子标记技术以及分析方法 • 与蛋白质结构测定相关的最近进展 • 肿瘤和表观遗传相关,新发现的功能基因 • 以后常用的一些搜索软件和搜索方法,比 如NCBI上的all databases都用于干什么, 怎么用geneID去查找基因序列等
数据库
• NCBI (National Center for Biotechnology Information) – / – Claude Pepper, 1988.11.04 • NCBI职能
数据库
• UCSC Genome Bioinformatics – / – 查看特定序列在基因组上的位置 Zoom out 3x
数据库
生物信息学好用的数据库--收藏
http://www.casrdb.mcgill.ca/
引起FHH,NSHPT和ADH的CASR突变
GRAP突变数据库
http://tinygrap.uit.no/GRAP/
G蛋白偶联受体的突变(GRAP)
HGBASE
http://hgbase.interactiva.de/
基因内部序列多态性
RB1基因突变数据库
http://www.d-lohmann.de/Rb/
人类视网膜母细胞瘤基因(RB1)的突变
dbSNP
/SNP/
单核苷酸多态性
iARC p53数据库
http://www.iarc.fr/p53/
文献报告的人类p53基因错义突变和小片段缺失
HIV-RT
/hiv/
HIV反转录酶和蛋白酶序列变异
嗜血菌B突变数据库
/ip/petergreen/haemBdatabase.html
Factor IX基因中的点突变、短插入和短缺失
人类基因突变数据库(HGMD)
名称
地址
说明
ALFRED
/alfred/index.asp
等位基因频率和DNA多态性
雄激素受体基因的突变(ARGMD)
哮喘基因数据库(AGD)
http://www.mcgill.ca/androgendb/
雄激素受体基因的突变
哮喘和变态反应数据库
http://cooke.gsf.de/asthmagen/main.cfm
/uwcm/mg/hgmd0.html
已知发表的人类遗传性疾病的基因损伤
人类PAX2等位基因变异数据库
/
人类PAX2基因突变
人类PAX6等位基因变异数据库
生物信息学数据库
2020/3/21
复旦大学图书馆文献检索教研室
检索MMDB
例:查找铁氧化还原蛋白的三维结构 蛋白质代码:1doi 铁氧化还原蛋白:ferredoxin fe
2020/3/21
复旦大学图书馆文献检索教研室
进入NCBI STRUCTURE
2020/3/21
复旦大学图书馆文献检索教研室
1doi
NCBI 蛋白质数据库 包括所有蛋白质序列,及其翻译产 物序列 /entrez
PIR 蛋白质序列信息资源库(美、德)
2020/3/21
复旦大学图书馆文献检索教研室
Swiss-Prot蛋白疏水特性图
复旦大学图书馆文献检索教研室
2020/3/21
复旦大学图书馆文献检索教研室
2020/3/21
复旦大学图书馆文献检索教研室
2020/3/21
复旦大学图书馆文献检索教研室
相关数据库及其主要分类
1 核酸序列数据库
2. RNA 序列数据库 3. 蛋白质序列数据库 4.结构数据库 5. 基因组数据库(非脊椎动物) 6. 代谢酶相关产物 7. 人类和其他脊椎动物基因组 8. 人类基因和疾病 9. 其他数据和其他基因表达数据库 10. 蛋白组资源 11. 其他分子生物学数据库 12.细胞器官数据库 13.植物数据库 14.免疫学数据库
2020/3/21
复旦大学图书馆文献检索教研室
生物信息学相关分析工具
BLAST 序列相似性对比
PRIMER 引物设计
蛋白质结构预测数据库 (EMBL)根据已知蛋白 质序列,预测同族二级、三维等结构
蛋白质功能预测数据库 (EMBL )根据已知蛋白 质序列,预测蛋白质功能
2020/3/21
常用的生物数据库(二)
常用的生物数据库(二)引言概述:生物数据库是生物信息学领域的重要工具,可以帮助研究人员存储、管理和共享生物数据。
本文将介绍常用的生物数据库(二),以便研究人员更好地利用这些资源进行生物学研究。
正文内容:一、蛋白质相互作用数据库1. STRING数据库:提供蛋白质相互作用预测和注释功能。
2. IntAct数据库:收集整理蛋白质相互作用数据,提供数据检索和分析工具。
3. BioGRID数据库:整合多种物种的蛋白质相互作用数据,并提供丰富的功能注释。
二、基因组数据库1. GenBank数据库:包含大量的序列数据,包括基因组、转录本和蛋白质序列等。
2. ENSEMBL数据库:集成了各种生物信息学工具,提供全面的基因组注释信息。
3. UCSC数据库:基于人类基因组构建的浏览器,提供详细的基因组注释和可视化功能。
三、表达谱数据库1. GEO数据库:收集了大量的基因表达谱数据,可进行数据检索和分析。
2. ArrayExpress数据库:包含了来自各种高通量技术的表达谱数据,提供数据下载和分析工具。
3. TCGA数据库:整合了多种癌症的基因表达数据,可进行差异表达和生存分析等研究。
四、突变数据库1. dbSNP数据库:记录了常见的单核苷酸多态性(SNP)数据,是研究遗传变异的重要资源。
2. COSMIC数据库:专注于癌症相关的突变数据,包含了大量的突变谱系和功能注释信息。
3. ClinVar数据库:整合了与人类疾病相关的遗传变异数据,提供临床相关的注释信息。
五、药物数据库1. DrugBank数据库:收录了大量的药物信息,包括结构、作用机制和药理学数据等。
2. PubChem数据库:提供了大量的小分子化合物数据,可进行化学结构搜索和药物筛选等研究。
3. ChEMBL数据库:整合了化合物活性数据和药物靶点信息,可用于药物发现和优化。
总结:生物数据库为生物学研究提供了丰富的数据资源和分析工具。
蛋白质相互作用数据库、基因组数据库、表达谱数据库、突变数据库和药物数据库是常用的生物数据库之一。
常用生物信息学数据库(第一讲)
常用生物信息学数据库生物信息学基础入门第一讲常用生物信息学数据库(1学时)•生物信息学的简介、发展和应用•常用生物信息学数据库的概况•NCBI、UCSC数据库的介绍和使用第二讲癌症相关数据库(1学时)•癌症相关数据库的概况•TCGA数据库的介绍和使用•TCGA数据的下载和解读•TCGA数据的在线分析工具第三讲基因功能富集分析(1学时)•基因本体数据库GO及注释•生物学通路KEGG及注释•基因功能富集分析第四讲基因调节网络分析(1学时)•蛋白互作、转录因子调节关系数据库的介绍和使用•非编码RNA调节网络数据库的介绍和使用•基因网络图的展示、Cytoscape软件的介绍和使用第五讲基于公共数据库进行课题研究的案例分析(1.5学时)•实例讲解GEO数据的下载、处理和分析•实例讲解TCGA数据的下载、处理和分析这节课的主要内容•生物信息学的概念•生物信息学发展的背景•生物信息学的发展阶段•生物信息学的研究领域•常用生物医学数据库•NCBI: Gene、GEO•UCSC: Genome Browser、Table Browser生物信息学的概念生物信息学(bioinformatics),是在生命科学的研究中,利用计算机科学、信息技术、应用数学以及统计学方法对生物信息进行采集、处理、存储、传播、分析和解释的学科。
生物信息学发展的背景•人类基因组计划( human genome project, HGP)是由美国科学家Robert Sinsheimer 于1985年5月率先提出(但是当时美国NIH不感兴趣)。
•经过多位科学家的努力,终于将HGP提上美国政府预算,并于1990年正式启动。
•预计2005年(15年的时间),将人类基因组的DNA序列全部测定,把人体内约2.5万个基因的密码全部解开,同时绘制出人类基因的图谱。
•美国、英国、法国、德国、日本和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。
•我国于1999年7月加入人类基因组计划,得到完成人类3号染色体短臂上一个约30Mb区域(约3000万个碱基对)的测序任务,该区域约占人类整个基因组的1%,称之为“1%计划”。
生物信息学数据库综述
生物信息学数据库综述摘要本文对生物信息学常见的数据库进行了汇总。
常见数据库分为三类:核酸序列数据库、蛋白质序列数据库、三维分子结构数据库。
并分别对其中常见数据库进行了介绍。
对于生物信息学数据库的现存问题也进行了论述。
关键词数据库;核酸序列数据库;蛋白质序列数据库;三维分子结构数据库;随着生物信息的发展,生物信息学数据库的数量在不断的递增,内部结构也不断的复杂化,功能也越来越细化。
根据数据的类型可以将数据库分为核酸序列数据库、蛋白质序列数据库三维分子结构数据库。
本文将比较常见的数据进行了汇总。
1 核酸序列数据库常用的核酸序列数据库有GenBank核酸序列数据库、EMBL核酸数据库、DDBJ数据库、GDBD等。
1.1GenBankGenbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。
它是由美国国立生物技术信息中心(N CBI)建立和维护的。
Genbank每天都会与欧洲分子生物学实验室(EM BL)的数据库,和日本的DNA 数据库(DDBJ)交换数据,使这三个数据库的数据同步。
Genbank的数据可以从N CBI的FrP服务器上免费下载完整的库,或下载积累的新数据。
N CBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从N CBI的主页上找到这些服务。
Gel~ bank 库里的所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件1.2 EM BL核酸序列数据库EM BL 核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。
该数据库由Oracal数据库系统管理维护,查询检索可以通过因特网上的序列提取系统(SRS)N务完成l 6J。
向E M BL核酸序列数据库提交序列可以通过基于W eb的WEBI N工具,也可以用Sequi n 软件来完成。
生物信息学
GenBank格式
GBFF(GenBank flatfile,)格式:可分成3个部分: 1)描述符:头部包含关于整个序列的信息(描述字符),从 LOCUS
行到ORIGIN行; 2)特性表:注释这一序列的特性(Feature Table ),为注释的核心
部分; 3)序列本身(Sequence):
BASE COUNT
1201 a 689 c 782 g 1136 t
ORIGIN
1 tcgacatctg tggtcgcttt ttttagtaat aaaaaattgt attatgacgt cctatctgtt
3781 aagatacagt aactagggaa aaaaaaaa //
2021/5/12
一、核酸序列数据库
(1)GenBank: (2)参考序列RefSeq库 : (3)EMBL、DDBJ (4)其它核酸数据库: dbEST:GenBank的一个子数据库,包含来源于不同物种的表达 序列数据和表达序列标签序列的其他信息 UniGene :
二、 数据库格式
历史原因:没有完全统一的数据库格式 了解所用数据库格式的重要性 一般由两部分组成: 文字注释和序列两部分。
9505 Ocean Shore Blvd., St. Augustine, FL 32086, USA
REMARK Sequence update by submitter
COMMENT
On Mar 2, 2000 this sequence version replaced gi:3132700.
2021/5/12
核酸序列
氨基酸序列
2021/5/12
注意
• 氨基酸或核苷酸的符号的大小写同义,单个“连字 符”表示一个空位
生物信息学数据库
数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。
核酸序列数据库有GenBank, EMBL, DDBJ等,蛋白质序列数据库有SWISS-PROT, PIR, OWL, NRL3D, TrEMBL等,蛋白质片段数据库有PROSITE, BLOCKS, PRINTS等,三维结构数据库有PDB, NDB, BioMagResBank, CCSD等,与蛋白质结构有关的数据库还有SCOP, CATH, FSSP, 3D-ALI, DSSP等,与基因组有关的数据库还有ESTdb, OMIM, GDB, GSDB等,文献数据库有Medline, Uncover等。
另外一些公司还开发了商业数据库,如MDL等。
生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务,如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库,三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多种查询。
基因和基因组数据库1. GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。
它是由美国国立生物技术信息中心(NCBI)建立和维护的。
它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。
Genbank每天都会与欧洲分子生物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。
Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。
NCBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从NCBI的主页上找到这些服务。
Genbank库里的数据按来源于约55,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)。
生物信息学数据库的种类
生物信息学数据库的种类1.引言1.1 概述生物信息学数据库是由生物学和计算机科学相结合的一个重要领域。
随着高通量测序技术的快速发展, 生物学研究已经进入了“大数据”时代。
生物信息学数据库的出现, 解决了这些海量生物信息的存储和管理问题, 为生命科学研究提供了重要的工具和资源。
生物信息学数据库可以存储和管理各种类型的生物信息数据, 对于科学家和研究人员来说, 这些数据库包含了大量的基因组序列、蛋白质序列、基因表达数据等重要信息。
通过对这些数据的分析和挖掘, 科学家们可以更深入地研究生物体的组成、功能和进化等方面。
在当前的生物信息学数据库中, 可以根据数据类型进行分类。
常见的生物信息学数据库包括序列数据库、结构数据库、基因表达数据库、蛋白质互作数据库、药物数据库、多样性数据库、基因组数据库、疾病数据库和转录因子数据库等。
每种类型的数据库都有其独特的特点和应用领域。
随着生物学研究的不断深入和技术的不断进步, 生物信息学数据库也在不断发展。
未来的数据库将更加注重数据的互联互通, 提供更完整、准确和可靠的生物信息。
同时, 数据分析和挖掘的算法和工具也将不断更新和完善, 为科学家们的研究提供更加强大的支持。
总之, 生物信息学数据库是生物学研究中不可或缺的重要工具和资源。
通过这些数据库, 科学家们可以更加高效地存储、管理和分析生物信息,推动生命科学领域的发展。
未来, 随着生物学研究的不断进步, 生物信息学数据库将不断发展和完善, 为科学家们带来更多的可能性和突破。
1.2 文章结构本文将分为三个部分来详细介绍生物信息学数据库的种类。
首先,在引言部分,我们将提供对本文的概述,介绍生物信息学数据库的基本概念和作用,并说明文章的目的。
接下来,在正文部分,我们将详细介绍九种不同类型的生物信息学数据库,包括序列数据库、结构数据库、基因表达数据库、蛋白质互作数据库、药物数据库、多样性数据库、基因组数据库、疾病数据库和转录因子数据库。
生物信息学:第一讲数据库介绍
�
生物信息学实验
第一讲 数一级数据库(primary databases): ): Genbank数据库,EMBL核酸库和 数据库, 核酸库和DDBJ数据库; 数据库; 数据库 核酸库和 数据库 SWISS-PROT数据库,PIR数据库,PDB数据库 数据库, 数据库, 数据库 数据库 数据库 等等. 等等. 二级数据库( 二级数据库(secondary databases): ): 人类基因组图谱库GDB,真核生物基因表达调 , 人类基因组图谱库 控因子数据库TRANSFAC,蛋白质结构家族分 控因子数据库 , 类库SCOP 等等. 等等. 类库
(五)蛋白质结构与分类数据库
PDB(蛋白质结构数据库 : 蛋白质结构数据库): 蛋白质结构数据库 /pdb/ PROSITE(Motif数据库 : 数据库): 数据库 /prosite/ SCOP(蛋白质结构分类数据库 : 蛋白质结构分类数据库): 蛋白质结构分类数据库 /scop CATH(蛋白质结构与功能关系分类数据库 : 蛋白质结构与功能关系分类数据库): 蛋白质结构与功能关系分类数据库 /bsm/cath/
(三)基因组数据库
GDB(人类基因组数据库 : 人类基因组数据库): 人类基因组数据库
euGenes(真核生物基因综合知识库 : 真核生物基因综合知识库): 真核生物基因综合知识库 /
(四)蛋白质序列数据库
SWISS-PROT(无冗余蛋白序列数据库 : 无冗余蛋白序列数据库): 无冗余蛋白序列数据库 /sprot/ PIR(蛋白质信息资源库 : 蛋白质信息资源库): 蛋白质信息资源库 /pirwww OWL(复合蛋白序列数据库 : 复合蛋白序列数据库): 复合蛋白序列数据库 /dbbrowser/OWL/
生物信息学数据库大全
综合数据库★INSD,国际核酸序列数据库(International Nucleotide Sequence Databank)。
由日本的DDBJ、欧洲的EMBL和美国的GenBank三家各自建立和共同维护。
★EMBL库,欧洲分子生物学实验室的DNA和RNA 序列库。
/embl.html ★GenBank ,美国国家生物技术信息中心(NCBI)所维护的供公众自由读取的、带注释的DNA序列的总数据库。
/Web/Genbank/★DNA Databank of Japan (DDBJ) ,日本核酸数据库。
http://www.ddbj.nig.ac.jp/★GSDB是由美国国家基因组资源中心(NCGR)维护的DNA序列关系数据库(Genome Sequence DataBase)。
/gsdb/★TIGR DATAbase,是世界上最大的cDNA数据库,还有大量的EST序列和人类基因索引(HGI)。
/tdb/hcd/overview.htmlDNA序列数据库包括与DNA的复制、转录、修复等有密切关系的蛋白质因子。
★BioSino是中国自主开发的核酸序列公共数据库。
/★CUTG,MM子使用频度表。
http://www.dna.affrc.go.jp/~nakamura/CUTG.htmlhttp://www.kazusa.or.jp/codon/http://www.dna.affrc.go.jp/~nakamura/CUTG.html★EPD,真核生物启动子数据库(Eukaryotic Promotor Database)。
http://www.epd.isb-sib.ch/★TRANSFAC,真核生物基因表达调控因子的数据库。
http://transfac.gbf.de/TRANSFAC★TRRD.真核生物基因组转录调控区数据库。
http://www.mgs.bionet.nsc.ru/mgs/dbases/trrd4/★OOTFD,转录因子和基因表达数据库。
生物信息学常用数据资源介绍
生物信息学常用数据资源介绍
生物信息学是一门跨学科的学科,它将计算机科学与生物学有机地结合起来,为生命科学研究提供了新的方法和手段。
在生物信息学中,数据资源是非常重要的,因为数据资源直接关系到生物信息学研究的深度和广度。
本文将介绍生物信息学中常用的数据资源,包括基因组数据库、蛋白质数据库、序列数据库、文献数据库等。
1. 基因组数据库
基因组数据库是基因组信息的集大成者。
基因组数据库收集了各种生物的基因组序列、基因注释、基因组结构等信息。
常用的基因组数据库有:GenBank、EMBL、DDBJ、NCBI、Ensembl、UCSC Genome Browser 等。
2. 蛋白质数据库
蛋白质数据库是收集了各种生物的蛋白质序列、蛋白质结构、蛋白质功能等信息的数据库。
常用的蛋白质数据库有:UniProt、PDB、Swiss-Prot、TrEMBL等。
3. 序列数据库
序列数据库主要收集了各种生物的核酸序列和蛋白质序列。
常用的序列数据库有:NCBI GenBank、EMBL、DDBJ、RefSeq、UniProtKB 等。
4. 文献数据库
文献数据库主要收集了各种与生物学相关的学术文献,包括期刊论文、会议论文、书籍等。
常用的文献数据库有:PubMed、Web of
Science、Google Scholar等。
总结
生物信息学中的数据资源非常丰富,为生物信息学研究提供了非常重要的数据支持。
除了以上介绍的常用数据资源,还有很多其他的数据资源,例如代谢组数据库、蛋白质互作数据库等等。
研究者可以根据自己的需要选择合适的数据资源,以便更好地开展生物信息学研究。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
综合的微生物资源(CMR) /tigr-scripts/CMR2/CMRHomePage.spl 已完成测序的微生物基因组
CropNet / 农作物基因组图谱
RHdb /RHdb 辐射杂交图谱数据
评分记录 wufujun-01 金币 +15 感谢您一直支持! 10-3-15 17:37
回复
引用
发表于 10-3-13 22:54:43 | 只看该作 者 基因组数据库
back to top 2楼
花园学徒 Rank: 1
ICB http://www.mbio.co.jp/icb 采用蛋白编码进行细菌的分类和鉴定
INE http://rgp.dna.affrc.go.jp/giot/INE.html 水稻的遗传学、物理图谱和序列数据
MITOMAP / 人类线粒体基因组
MITOP http://mips.gsf.de/proj/medgen/mitop/ 线粒体蛋白、基因和疾病
EID /gilbert/EID/ 内含子、外显子数据库
EPD http://www.epd.isb-sib.ch/ 通过实验获得的真核生物POL II启动子非冗余数据库
ExInt .sg/exint/exint.html 真核生物外显子和内含子结构
遗传学和物理图谱
名称 地址 说明
DRESH http://www.tigem.it/LOCAL/drosophila/dros.html
skochilly
果蝇突变基因同源的人cDNA克隆
G3-RH /RH/ 斯坦福G3和TNG辐射杂交图谱
GB4-RH /Software/RHserver/RHserver.shtml 人辐射杂交图谱Genebridge4 (GB4)
GenMap’99 /genemap/ 国际辐射图谱合作项目下的人类基因图谱
HugeMap biogen.fr/services/Hugemap 人类基因组遗传和物理图谱数据
IXDB http://ixdb.mpimg-berlin-dahlem.mpg.de/ 人类x染色体物理图谱
小鼠基因表达数据库(MAGED) 与组织相关的基因表达数据
PEDB / 正常和异常的前列腺基因表达
RECODE 表达过程中采用程序化翻译编码的基因
GDB / 人类基因和基因组图谱
GenAtlas http://www.dsi.univ-paris5.fr/genatlas/ 人类基因、标记和表型
GenMapdb /genmapdb 已经定位的人BAC克隆
肾脏发育数据库(KDD) /kidhome.html 肾脏发育和基因表达
MAGEST http://www.genome.ad.jp/magest/welcome.html 海鞘基因表达模式
MethDB http://www.methdb.de DNA甲基化数据、模式和轮廓
帖子
441
积分
20
金币
339
贡献值 3 点
最后登录 10-5-10
名称 地址 说明
AceDB /Software/Acedb/ 线虫(C.elegans),酵母(S.pombe)的序列和基因组信息
AmmtDB r.it/mitochondriome/ 寄生虫(Metazoan)线粒体DNA序列
COMPEL http://compel.bionet.nsc.ru/ 复合调控元件(Composite regulatory elements)
CUTG http://www.kazusa.or.jp/codon/ 遗传密码使用表
DBTBS http://dbtbs.hgc.jp/ 枯草杆菌反式作用因子和启动子
小鼠基因组数据库(MGD) /
小鼠遗传学和基因组
慕尼黑蛋白质序列信息中心(MIPS) http://www.mips.biochem.mpg.de/
蛋白质和基因组序列 NRSub http://pbil.univ-lyon1.fr/nrsub/nrsub.html
[交流] [生科综合] 生物信息学常用数据库(已分类)
交流
原创与否是主要序列据库名称 地址 说明DDBJ序列数据库 http://www.ddbj.nig.ac.jp 所有已知的核酸和蛋白质序列数据库,国际核酸序列数据库合作项目
EMBL序列数据库 /embl.html 所有已知的核酸和蛋白质序列数据库,国际核酸序列数据库合作项目
零点花园
注册 登录
www zhhema com
会员之家 会员服务
插件
Google 提供的广告
红包 搜索 帮助
园友接待 规章 你问我答 新手资源 宣传 活动 资源超市 检索 代理 国内 国外 精品 VIP 初级 中级 学术嘉宾 群英 会 版主 区版 管委 版主申请 科研经验 投稿 基金 课题 课件 科软 会议 教学 精品馆 互助 硕博 标准求助 |共享 书籍 S 考研 考博 英语 资 格 公务员 考试精品 工作 留学 交友 数学 物理 化学化工 生命 地学 环境 机械 力学 能源 材料 土建 水利 信息 电力 电子 信息工程 前沿 理综 药 学 医学 外科 内科 妇儿五官 争鸣 文史哲 外语 法学 经济 管理与教育 文学原创 零点家园 影音 美图 脑力 体育 健康生活 时尚 心理 美食 医 护 电脑网络 百宝箱 网盘
HUNT http://www.hri.co.jp/HUNT 注释了的人类全长cDNA序列
IDB/IEdb /intron/index.html 内含子序列和进化
PLACE http://www.dna.affrc.go.jp/htdocs/PLACE 植物顺式调控元件
基因特征和结构
名称 地址 说明
AllGenes 人和小鼠基因索引、整合基因、转录和蛋白注释
Ares Lab Intron Site /research/compbio/yeast_introns.html 酵母剪接体和内含子
EpoDB /EpoDB/ 脊椎动物红细胞基因表达
FlyView http://Pbio07.uni-muenster.de 果蝇的发育和遗传
GXD基因表达数据库 /mgihome/GXD/aboutGXD.shtml 小鼠的基因表达和遗传
零点花园 » 生命科学 » 生物信息学常用数据库(已分类)
回复
发帖
返回列表 上 下
[交流] [生科综合] 生物信息学常用数据库(已分类)
skochilly
发表于 10-3-13 22:54:19 | 只看该作 者
1楼
花园学徒 Rank: 1
帖子
441
积分
20
金币
339
贡献值 3 点
最后登录 10-5-10
GenBank序列数据库 所有已知的核酸和蛋白质序列数据库,国际核酸序列数据库合作项目
STACK http://www.sanbi.ac.za/Dbases.html 非冗余的基因簇
TIGR基因索引 /tdb/index.shtml 非冗余的基因簇
FlyBase / 果蝇基因序列和基因组信息
Full-Malaria http://fullmal.ims.u-tokyo.ac.gasun.bch.umontreal.ca/gobase/gobase.html 细胞器基因组数据库
ASDB /asdb 具有不同剪接形式基因的蛋白质产物和表达模式
基因表达
名称 地址 说明
Axeldb http://www.dkfz-heidelberg.de/abt0135/axeldb.htm 爪蟾的基因表达
BodyMap http://Bodymap.ims.u-tokyo.ac.jp 人和小鼠基因表达数据
苜蓿属基因组数据库(MGI) /medicago/
模式苜蓿属荚果(1egumeMedicago)的ESTs、基因表达和蛋白质组数据
Mendel数据库 / 利用基因家族信息注释的植物EST和STS序列数据库
MitoDat /mitoDat/ 线粒体蛋白(以人类为主)
CyanoBase http://www.kazusa.or.jp/cyano/
Synechocystis sp.基因组
EMGlib http://pbil.univ-lyon1.fr/emglib/emglib.html 已完成基因组测序的细菌、古细菌、酵母
EcoGene /EcoGene/EcoWeb/ 大肠杆菌(E.coli)K-12的序列
UniGene /UniGene/ 非冗余的基因簇
比较基因组学
名称 地址 说明
COG数据库 /COG/ 基于43个已完成基因组测序的微生物的蛋白质的进化分析的同源基因蔟
XREFdb /XREFdb/ 模式生物遗传学和哺乳类表型之间的交叉索引
斯坦福微阵列数据库(SMD) /microarray 来自微阵列实验的原始和均一化了的数据
TRIPLES /triples/triples.htm 酵母中转座子—插入表型、定位和表达
牙齿发育数据库(TDD) http://Bite-it.Helsinki.fi 牙组织发育中的基因表达
枯草芽胞杆菌(Bacillus subtilis)基因组 PlasmoDB /
疟原虫属(Plasmodium)基因组 酵母基因组数据库(SGD) /Saccharomyces 酿酒酵母基因组 TIGR微生物数据库 /tdb/mdb/mdbcomplete.html
GOLD /GOLD/ 已完成和正在进行测序项目的信息
HIV序列数据库 /
HIV的RNA序列
Human BAC Ends Database /tdb/humgen/bac_end_search/bac_end_intro.html 非冗余的人类BAC末端序列