生物信息数据库
第四章生物信息学数据库(一)主要库及其文件格式
生物分子数据 高速增长
分子生物学 及相关领域研究人员 迅速获得最新实验数据
建立生物分子数据库
生物分子数据库几个明显的特征:
(1)数据库的更新速度不断加快 数据量呈指数增长趋势
(2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置
UniGene( http://www.ncbi.nlm.nih.gov/UniGene/) 数据库将GenBank中的序列进行自动分类,形成 面向基因群的非冗余集合。
每个UniGene群包含: 代表一个唯一基因的多个序列,附有该基因相关的信息,
如基因表达的组织类型、定位图谱
除了基因的序列之外,还包括大量的EST序列。
• 这三个数据库是综合性的DNA和RNA序列数 据库,每条记录代表一个单独、连续、附有 注释的DNA或RNA片段。
第二节 核酸序列数据库
1、基因组数据库(GDB)
The Genome Database
人类基因组计划所得到的图谱数据 2008年6月关闭
GDB包含对下述三种对象的描述:
(1)人类基因组区域
STS(Sequence Tagged Sites)是序列标记位点 dbSTS(http://www.ncbi.nlm.nih.gov/dbSTS/) 是NCBI的一个数据源,包含基因组短标记序列(STS) 的组成和定位信息。 可以通过BLAST搜索STS序列。
生物信息学数据库分类整理汇总
生物信息学数据库分类整理汇总
生物信息学数据库是存储和管理生物学领域的大量数据的重要工具和资源,对于生物信息学研究、基因组学、蛋白质组学、转录组学等领域的研究具有重要的意义。本文将对生物信息学数据库进行分类整理和汇总,方便生物信息学研究者更好地使用和了解这些数据库。
1.基因组数据库:
- GenBank:美国国家生物技术信息中心(NCBI)维护的基因序列数据库,包含已知基因的核酸序列。
- Ensembl:英国恩格斯尔基因组项目维护的一个综合性基因组数据库,包含多种物种的基因组数据。
- UCSC Genome Browser:加利福尼亚大学圣克鲁兹分校开发的一个基因组浏览器,提供多种物种的基因组序列和注释信息。
2.蛋白质数据库:
- UniProt:一个综合性的蛋白质数据库,集成了多个蛋白质序列和注释信息资源。
- Protein Data Bank (PDB):存储大量已解析的蛋白质结构数据的数据库,提供原子级别的结构信息。
- Protein Information Resource (PIR):收集和整理蛋白质序列、结构和功能信息的数据库。
3.转录组数据库:
- NCBI Gene Expression Omnibus (GEO):存储和共享大量的高通量基因表达数据的数据库。
- ArrayExpress:欧洲生物信息学研究所(EBI)开发的一个基因表达数据库,包含多种生物组织和疾病的表达数据。
4.疾病数据库:
- Online Mendelian Inheritance in Man (OMIM):记录人类遗传疾病和相关基因的数据库。
流行病学研究中的生物信息学数据库与资源应用
流行病学研究中的生物信息学数据库与资源
应用
随着科技的不断发展和进步,生物信息学在流行病学研究中的应用变得越来越重要。生物信息学数据库和资源成为流行病学研究人员的重要工具,可以提供宝贵的数据和信息,帮助研究人员深入了解疾病的发生和传播机制。本文将详细介绍流行病学研究中常用的生物信息学数据库和资源,以及它们的应用。
一、SNP数据库
SNP(single nucleotide polymorphism)数据库是研究流行病学中最常用的数据库之一。SNP是指基因组中的单个核苷酸变异,可用来研究人与人之间的遗传差异以及遗传变异与疾病之间的关系。常见的SNP数据库包括dbSNP、HapMap和1000 Genome等。这些数据库存储了大量的SNP信息,研究人员可通过检索和分析这些数据库中的数据,揭示SNP与疾病的相关性,为流行病学研究提供重要的依据。
二、基因表达数据库
基因表达数据库存储了不同组织和细胞中的基因表达水平信息,对于分析疾病的遗传机制和发生发展过程起着重要作用。常见的基因表达数据库包括Gene Expression Omnibus(GEO)和The Cancer Genome Atlas(TCGA)等。研究人员可通过这些数据库获取基因在特定组织或疾病状态下的表达水平信息,进一步研究基因与疾病的关联性。
三、蛋白质数据库
蛋白质数据库存储了大量的蛋白质序列和结构信息,对于研究疾病的发生机制和蛋白质功能起着重要作用。常见的蛋白质数据库包括UniProt、Protein Data Bank(PDB)和STRING等。研究人员可通过这些数据库获取蛋白质的序列、结构和功能信息,揭示蛋白质与疾病之间的关系,为流行病学研究提供有力支持。
常用的生物数据库(一)
常用的生物数据库(一)引言概述:
本文将介绍一些常用的生物数据库,这些数据库在生命科学研究中起到了重要的作用。生物数据库是存储和管理生物学数据的平台,为科学家们提供了丰富的数据资源,便于他们进行进一步的研究和分析。在本文中,我们将介绍五个常用的生物数据库,分别是A数据库、B数据库、C数据库、D数据库和E数据库。
正文:
一、A数据库
1. A数据库是一个广泛应用于基因组学研究的生物数据库。
2. A数据库提供了大量的基因序列和蛋白质序列,以及与这些序列相关的注释信息。
3. A数据库还提供了丰富的基因组数据和表达数据,可以帮助研究人员了解基因的功能和调控机制。
4. A数据库还提供了工具和资源,用于基因组比较和功能注释分析。
5. A数据库不仅仅适用于基础研究,也为生物技术和药物开发提供了重要的数据支持。
二、B数据库
1. B数据库是一个专门用于蛋白质相关研究的生物数据库。
2. B数据库提供了大量的蛋白质序列和结构信息,以及与这些蛋白质相关的功能和互作信息。
3. B数据库还提供了工具和资源,用于预测蛋白质结构和功能,并对蛋白质相互作用网络进行分析。
4. B数据库不仅仅适用于基础研究,也为药物设计和生物工程提供了重要的数据支持。
5. B数据库的数据来源于多个实验室的研究成果,经过严格的质量控制和标准化处理。
三、C数据库
1. C数据库是一个应用于植物研究的生物数据库。
2. C数据库提供了大量的植物基因组数据和表达数据,以及与这些数据相关的注释信息和功能注释分析结果。
3. C数据库还提供了工具和资源,用于植物基因功能分析和代谢途径研究。
生物信息学中常用的数据类型和数据库类型
生物信息学中常用的数据类型和数据库类型
在生物信息学中,常用的数据类型包括:
1. 基因组序列数据:包括DNA和RNA序列的原始数据,如FASTA格式或FASTQ格式。
2. 转录组数据:包括基因表达谱、剪接变异等,如RNA-seq数据。
3. 蛋白质序列数据:包括蛋白质的氨基酸序列,如UniProt数据库。
4. 基因组结构数据:包括基因位置、外显子、内含子等信息。
5. 遗传变异数据:包括SNP、INDEL、CNV等遗传变异信息。
6. 蛋白质结构数据:包括蛋白质的三维空间结构,如PDB数据库。
在生物信息学中,常用的数据库类型包括:
1. 基因组数据库:如NCBI GenBank、ENSEMBL等,存储基因组序列和注释信息。
2. 转录组数据库:如NCBI SRA、ENA等,存储RNA-seq和其他转录组数据。
3. 蛋白质数据库:如UniProt、Swiss-Prot等,存储蛋白质序列和注释信息。
4. 遗传变异数据库:如dbSNP、ClinVar等,存储遗传变异信息。
5. 蛋白质结构数据库:如PDB、CATH等,存储蛋白质的三维结构信息。
6. 功能注释数据库:如GO数据库、KEGG数据库等,存储基因和蛋白质的功能注释信息。
7. 互作数据库:如STRING数据库、BioGRID数据库等,存储基因和蛋白质之
间的相互作用信息。
生物信息数据库
授课大纲
生命信息学——生命科学与计算机技术的交叉。 生物信息学的研究内容: (1)生物信息中心(2)生
物信息数据库及格式。
生物信息数据的检索工具——Entrez 文献的检索与管理软件——Reference manager 序列同源搜索分析工具——Blast 核酸、蛋白质序列比对分析软件——DS gene\DNASIS 生物大分子空间三维结构显示与分析软件——Rasmol 生物图像对比分析软件——Scion Image (NIH image) 生物科学数据处理软件——Origin
数据库记录注释代码和内容说明
EMBL识别标志 ID DE AC OS OC DT KW RN RA RT RL
RX
RP
GenBank识别字 LOCUS DEFINITION ACCESSION SOURCE ORGANISM
描述了结构和进化关系。 SCOP数据库从不同层次对蛋白质结构进行分类,以反
映它们结构和进化的相关性。 第一个分类层次为家族,通常将序列相似性程度在30%
以上的蛋白质归入同一家族,有比较明确的进化关系。 超家族:序列相似性较低,结构和功能特性表明它们有
共同的进化起源,将其视作超家族。 折叠类型:无论有无共同的进化起源,只要二级结构单
元具有相同的排列和拓扑结构,即认为这些蛋白质具有 相同的折叠方式。在这些情况下,结构的相似性主要依 赖于二级结构单元的排列方式或拓扑结构。
生物信息数据库
生物信息数据库
1生物信息数据库产生背景
上个世纪60年代以来,随着核酸序列测定、蛋白质序列测定以及基因克隆和PCR技术的不断发展与完善,全世界各研究机构获得了大量的生物信息原始数据。面对这些以指数方式增长的数据资源,传统的研究方式已经来不及迅速消化,因此有必要采用有效的方法将它们进行适当的储存、管理和维护,以便进一步分析、处理和利用,这就需要建立数据库即生物信息数据库[1]。生物信息数据库是一切生物信息学工作的基础。
2生物信息数据库的特点
2.1数据库种类的多样性。生物信息学各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库,蛋白质序列数据库,蛋白质、核酸、多糖的三维结构数据库,基因组数据库,文献数据库和其他各类达数百种。
2.2数据库的更新和增长快。数据库的更新周期越来越短,有些数据库每天更新。数据的规模以指数形式增长。
2.3数据库的复杂性增加、层次加深。许多数据库具有相关的内容和信息,数据库之间相互引用,如PDB就与文献库、酶学数据库、蛋白质二级数据库、蛋白质结构分类数据库、蛋白折叠库等十几种数据库交叉索引。
2.4数据库使用高度计算机化和网络化。越来越多的生物信息学数据库与因特网联结,从而为分子生物学家利用这些信息资源提供了前所未有的机遇[2]。
2.5面向应用。首先各个数据库除了提供数据之外,还提供许多分析工具,如核酸数据库提供的序列搜索、基因识别程序等。此外,还在原始数据库的基础上开发了许多面向特殊应用的二级数据库,如蛋白质二级结构数据库等[3]。
3生物信息数据库的分类
生物信息数据库种类繁多,归纳起来,大体可以分为5个大类:核酸序列数据库、基因组数据库、蛋白质序列数据库、生物大分子(主要是蛋白质)结构数据库以及以这4类数据库和文献资料为基础构建的二次数据库。其中主要类型是序列数据库[4]。来自基因组作图的基因组数据库、来自序列测定的序列数据库以及来自X-衍射和核磁共振结构测定的结构数据库是分子生物信息学的基本数据资源,通常称为基本数据库或初始数据库,也称一次数据库。根据生命科学不同研究领域的实际需要,在一次数据库、实验数据和理论分析的基础上进行整理、归纳和注释,构建具有特殊生物学意义和专门用途的数据库即二次数据库, 也称专门数据库、专业数据库或专用数据库[2, 3, 5]。
生物信息学数据库
( National Center for Biotechnology
Information,NCBI
)
(http://www.ncbi.nlm.nih.gov)
2020/3/21
复旦大学图书馆文献检索教研室
Entrez 用途
检索大分子生物学数据 获取GenBank, EMBL等数据库的核酸序列; 获 取 Swiss-port,PIR,PRF,PDB 等 蛋 白 质 序
2020/3/21
复旦大学图书馆文献检索教研室
基因组对比
2020/3/21
基本对比 选择对比程序
特殊对比
复旦大学图书馆文献检索教研室
2020/3/21
将序列数 据库中的 复制序列 在此粘贴
复旦大学图书馆文献检索教研室
序列对比报告
对比资源
类似性图谱
2020/3/21
复旦大学图书馆文献检索教研室
数据库标识符 对比图谱报告
英国人类基因图谱数据库 HGMPGenomeWeb
http://www.hgmp.mrc.ac.uk/genomeWeb/
美国人类基因组资源整合体系 http://www.ncbi.nlm.nih.gov/genome/guide/human/
2020/3/21
复旦大学图书馆文献检索教研室
人类疾病与基因数据库
什么是生物信息学数据库
什么是生物信息学数据库
生物信息学数据库是指存储生物学和生物信息学数据的计算机化系统。这些数据库包含了各种生物学数据,如基因组序列、蛋白质序列、代谢通路、基因表达数据、蛋白质结构、生物图像等。这些数据可以通过计算机程序进行访问、搜索和分析,以帮助生物学家和生物信息学家进行研究和发现。
生物信息学数据库通常由多个子数据库组成,每个子数据库都包含特定类型的数据。例如,基因组数据库包含各种生物的基因组序列,蛋白质数据库包含蛋白质序列和结构信息,代谢通路数据库包含代谢通路和代谢产物信息等。
此外,生物信息学数据库还可以用于对生物信息的收集、存储和管理的研究,包括国际基本的生物信息库和生物信息传输国际物联网系统的建立,生物信息数据库质量的评估与检测系统的建立,以及生物可视化系统和专家系统的建立等。
以上信息仅供参考,如有需要,建议查阅相关网站。
常用的生物数据库(二)
常用的生物数据库(二)引言概述:生物数据库是生物信息学领域的重要工具,可以帮助研究人员存储、管理和共享生物数据。本文将介绍常用的生物数据库(二),以便研究人员更好地利用这些资源进行生物学研究。
正文内容:
一、蛋白质相互作用数据库
1. STRING数据库:提供蛋白质相互作用预测和注释功能。
2. IntAct数据库:收集整理蛋白质相互作用数据,提供数据检索和分析工具。
3. BioGRID数据库:整合多种物种的蛋白质相互作用数据,并提供丰富的功能注释。
二、基因组数据库
1. GenBank数据库:包含大量的序列数据,包括基因组、转录本和蛋白质序列等。
2. ENSEMBL数据库:集成了各种生物信息学工具,提供全面的基因组注释信息。
3. UCSC数据库:基于人类基因组构建的浏览器,提供详细的基因组注释和可视化功能。
三、表达谱数据库
1. GEO数据库:收集了大量的基因表达谱数据,可进行数据检索和分析。
2. ArrayExpress数据库:包含了来自各种高通量技术的表达谱数据,提供数据下载和分析工具。
3. TCGA数据库:整合了多种癌症的基因表达数据,可进行差异表达和生存分析等研究。
四、突变数据库
1. dbSNP数据库:记录了常见的单核苷酸多态性(SNP)数据,是研究遗传变异的重要资源。
2. COSMIC数据库:专注于癌症相关的突变数据,包含了大量的突变谱系和功能注释信息。
3. ClinVar数据库:整合了与人类疾病相关的遗传变异数据,提供临床相关的注释信息。
五、药物数据库
1. DrugBank数据库:收录了大量的药物信息,包括结构、作用机制和药理学数据等。
ncbi分子生物学数据库网络生物医学
NCBI分子生物学数据库网络生物医学
1. 引言
生物医学研究的进展离不开大量的数据资源和分析工具的支持。NCBI (National Center for Biotechnology Information) 是一个旨在促进生物信息学和分子生物学研究的重要组织。它提供了多个分子生物学数据库,这些数据库存储了大量的生物信息学数据,并提供了丰富的分析工具,以帮助科学家进行生物医学研究。本文将介绍一些常用的NCBI分子生物学数据库及其在网络生物医学研究中的应用。
2. NCBI基因数据库
2.1 GenBank
GenBank 是全球最大的基因序列数据库之一,它存储了大量的DNA和RNA序列数据。研究者可以通过GenBank访问到已被发表的基因序列数据,以及一些未发表的序列数据。这些数据对于研究基因功能、生物进化以及人类疾病等方面都非常重要。
2.2 RefSeq
RefSeq (Reference Sequence) 是一个注释完整的、高质量的基因序列数据库。与GenBank不同,RefSeq仅收录了经过验证且与蛋白质对应的基因序列,这使得研究者可以更加准确地进行基因结构和功能的研究。RefSeq还提供了基因组、转录组和蛋白质序列的相关信息。
2.3 dbSNP
dbSNP (database of Single Nucleotide Polymorphisms) 存储了人类和其他物种中的单核苷酸多态性数据。这些多态性位点是基因组中常见的变异,对于人类疾病的研究和个体之间的遗传差异分析非常重要。dbSNP收集了来自各种来源的单核苷酸多态性数据,包括人类单核苷酸多态性计划 (HapMap) 和千人基因组计划 (1000 Genomes Project)。
生物信息学 NCBI数据库
吴晓龙
讲述内容
一、生物信息学和我的实验室
二、NCBI数据库
一、生物信息学和我的实wenku.baidu.com室
1、生物信息学介绍
• 生物信息学(Bioinformatics)是在生命 科学的研究中,以计算机为工具对生物信 息进行储存、检索和分析的科学。它是当 今生命科学和自然科学的重大前沿领域之 一,同时也将是21世纪自然科学的核心领 域之一。其研究重点主要体现在基因组学 (Genomics)和蛋白质组学(Proteomics) 两方面,具体说就是从核酸和蛋白质序列 出发,分析序列中表达的结构功能的生物 信息。
gi9629267refnc0017981humanherpesviruscompletegenomeagtccccgtcctgccgcgcgggggcgggcgcgggaaaaaagccgcgcgggggcgcccgcgggaaggcagccccgcggcgcgcggggggaggggcggcgcccgcgggggagcggccggctccgggggagggacggggaagg41多序列fastasequence1colisequence1colictgcgagncgcgcgatgatagmmmctgcgagncgcgcgatgatagmmmnnnngnnatgancgcggcgagcatgtagcatgctannnngnnatgancgcggcgagcatgtagcatgctagctgtcgcgagcactugaurrrrrrtrrrcggccgagatcaggcgatgcatgcgcgctgtcgcgagcactugaurrrrrrtrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctavagvcgtaagggagcagcgagcgacgagcacagcatgctagctagatgcatgctavagvcgtaggcagccgccggcagccgccsequence2subtilissequence2subtilisctgcgagncgcgcgatgatagctgactnntnatganncgcggcgagcatgtagcactgcgagncgcgcgatgatagctgactnntnatganncgcggcgagcatgtagcatgctagctgtcgcgagcactucturrrrrrcrrrcggccgagatcaggcgatgcatgctagctgtcgcgagcactucturrrrrrcrrrcggccgagatcaggcgatgcatgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctavcgtgcgcagggagcagcgagcgacgagcacagcatgctagctagatgcatgctavcgvcgtaggcagccgccvcgtaggcagccgccsequence3nattosequence3nattoctgcgagncgcgcgatg
常用生物信息学数据库(第一讲)
常用生物信息学数据库
生物信息学基础入门
第一讲常用生物信息学数据库(1学时)•生物信息学的简介、发展和应用
•常用生物信息学数据库的概况
•NCBI、UCSC数据库的介绍和使用
第二讲癌症相关数据库(1学时)
•癌症相关数据库的概况
•TCGA数据库的介绍和使用
•TCGA数据的下载和解读
•TCGA数据的在线分析工具
第三讲基因功能富集分析(1学时)
•基因本体数据库GO及注释
•生物学通路KEGG及注释
•基因功能富集分析
第四讲基因调节网络分析(1学时)
•蛋白互作、转录因子调节关系数据库的介绍和使用
•非编码RNA调节网络数据库的介绍和使用
•基因网络图的展示、Cytoscape软件的介绍和使用
第五讲基于公共数据库进行课题研究的案例分析(1.5学时)•实例讲解GEO数据的下载、处理和分析
•实例讲解TCGA数据的下载、处理和分析
这节课的主要内容
•生物信息学的概念
•生物信息学发展的背景
•生物信息学的发展阶段
•生物信息学的研究领域
•常用生物医学数据库
•NCBI: Gene、GEO
•UCSC: Genome Browser、Table Browser
生物信息学的概念
生物信息学(bioinformatics),是在生命科学的研究中,利用计算机科学、信息技术、应用数学以及统计学方法对生物信息进行采集、处理、存储、传播、
分析和解释的学科。
生物信息学发展的背景
•人类基因组计划( human genome project, HGP)是由美国科学家Robert Sinsheimer 于1985年5月率先提出(但是当时美国NIH不感兴趣)。
医疗研究中的生物信息学数据库与工具
医疗研究中的生物信息学数据库与工具
在现代医疗领域,生物信息学数据库与工具的应用已经变得越来越重要。生物信息学数据库与工具是指用于存储、管理和分析生物学数据的软件系统和工具。这些数据库和工具能够提供生物学研究人员和医学专业人员快速访问、挖掘和分析大规模的生物学数据,以便更好地理解和治疗疾病。
一、生物信息学数据库
1. 基因组数据库
基因组数据库是存储各种生物体基因组序列的集合。其中,最著名的基因组数据库是基因组浏览器,如NCBI的GenBank和Ensembl。这些数据库提供了大量的基因组序列、注释信息和相关的研究数据,为研究人员提供了基因组水平的信息。
2. 蛋白质数据库
蛋白质数据库是用于存储蛋白质序列和结构的数据库。蛋白质序列和结构数据的积累对于理解蛋白质的功能和特性至关重要。常见的蛋白质数据库包括UniProt和PDB(蛋白数据银行),它们提供了全球各地研究人员所提交的海量蛋白质序列和结构信息。
3. 基因调控数据库
基因调控数据库主要用于存储和分析基因调控元件(如启动子、增强子等)的序列和相关信息。这些数据库对于理解基因的调控机制和
功能方面起着重要的作用。常见的基因调控数据库包括TRANSFAC、JASPAR和UCSC。
二、生物信息学工具
1. 序列分析工具
序列分析工具用于对DNA、RNA和蛋白质等生物序列进行分析和比对。其中,最常用的序列比对工具是BLAST(基本局部序列比对工具)。BLAST可以将输入的序列与已知序列数据库中的相似序列进行比对,快速找到相似序列和亲缘关系。此外,还有如ClustalW、MUSCLE等多序列比对工具和MEME等序列模式分析工具。
生物信息学数据库大全
综合数据库
★INSD,国际核酸序列数据库(International Nucleotide Sequence Databank)。由日本的DDBJ、欧洲的EMBL和美国的GenBank三家各自建立和共同维护。
★EMBL库,欧洲分子生物学实验室的DNA和RNA 序列库。/embl.html ★GenBank ,美国国家生物技术信息中心(NCBI)所维护的供公众自由读取的、带注释的DNA序列的总数据库。/Web/Genbank/
★DNA Databank of Japan (DDBJ) ,日本核酸数据库。http://www.ddbj.nig.ac.jp/
★GSDB是由美国国家基因组资源中心(NCGR)维护的DNA序列关系数据库(Genome Sequence DataBase)。/gsdb/
★TIGR DATAbase,是世界上最大的cDNA数据库,还有大量的EST序列和人类基因索引(HGI)。/tdb/hcd/overview.html
DNA序列数据库
包括与DNA的复制、转录、修复等有密切关系的蛋白质因子。
★BioSino是中国自主开发的核酸序列公共数据库。
/
★CUTG,MM子使用频度表。
http://www.dna.affrc.go.jp/~nakamura/CUTG.html
http://www.kazusa.or.jp/codon/
http://www.dna.affrc.go.jp/~nakamura/CUTG.html
★EPD,真核生物启动子数据库(Eukaryotic Promotor Database)。
NCBI数据库的使用与功能介绍
NCBI数据库的使用与功能介绍
NCBI (National Center for Biotechnology Information)数据库是世界上最大的生物信息学数据库之一,旨在为全球科学家提供生物学、生物化学、生物物理学和生物医学研究的数据和工具。该数据库包含了来自各种生物学研究领域的大量数据,包括基因组序列、蛋白质序列、文献引用、医学图像和结构信息等。NCBI数据库的使用和功能非常多样化,本文将介绍其中的一些主要功能。
一、检索和浏览数据
NCBI数据库提供了强大的功能,可以帮助用户检索和浏览各种生物学数据。用户可以使用关键词、序列、ID或其他查询方式来感兴趣的信息。例如,用户可以通过基因组序列、蛋白质序列或特定生物物种来查找相关的数据。
二、基因组和基因信息
NCBI数据库中包含大量的基因组序列和基因信息,包括人类和其他生物物种的基因组数据。用户可以使用NCBI数据库来特定基因的相关信息,如基因序列,基因表达数据,蛋白质序列,基因功能和遗传变异等。此外,NCBI数据库还提供了对基因组浏览器的访问,可以帮助用户在特定基因组上查看和分析基因注释和结构信息。
三、蛋白质信息
NCBI数据库也包含了大量的蛋白质序列和相关信息。用户可以使用NCBI数据库来特定蛋白质的相关信息,如蛋白质序列,结构信息,功能注释,亚细胞定位和表达水平等。此外,用户还可以使用NCBI数据库中
提供的BLAST工具来进行蛋白质序列比对和相似性,以帮助识别新的蛋白
质序列。
四、文献和引用
NCBI数据库中包含了大量的科学文献引用和摘要信息。用户可以使
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
14
15
16
四、序列数据库 (Sequence databases)
序列数据库是分子生物信息数据库中最基本的 数据库,包括核酸和蛋白质两类,以核苷酸碱
基顺序或氨基酸残基顺序为基本内容,并附有
注释信息。
17
(一) 核酸序列数据库
国际上权威的核酸序列数据库
GenBank - 美国国家信息中心的核酸 数据库 (1979) EMBL - 欧洲分子生物学实验室的核酸
TrEMBL —— Translation of EMBL
20
Байду номын сангаас SWISS-PROT
(http://www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库, 其中的蛋白质序列是经过注释的. SWISS-PROT中的数据来源于不同源地: (1)从核酸数据库经过翻译推导而来; (2)从蛋白质数据库PIR挑选出合适的数据; (3)从科学文献中摘录; (4)研究人员直接提交的蛋白质序列数据
8
二、分子生物信息数据库
• 一级数据库 数据库中的数据直接来源于实验获得的原 始数据,只经过简单的归类整理和注释。 • 二级数据库 对原始生物分子数据进行整理、分类的结 果,是在一级数据库、实验数据和理论分 析的基础上针对特定的应用目标而建立的。
9
一级数据库包括:
1) 基因组数据库: 来自于基因做图; 2) 核酸和蛋白质一级结构序列数据库: 来自序列测定; 3)生物大分子(主要是蛋白质)三维空间 结构数据库:来自X-衍射和核磁共振结构测定。
27
基因组信息二次数据库 e.g. 大肠杆菌基因组数据库 蛋白质序列二次数据库 e.g. Prosite 数据库是基于对蛋白质家族 中同源序列多重序列比对得到的保守区域, 这些区域通常与生物学功能有关,例如酶 活性位点、配体或金属结合位点等。 蛋白质结构二次数据库 e.g. 蛋白质回环数据库(Loop)
PDB的网址:http://www.rcsb.org/pdb(美国) PDBsum的网址:http://www.biochem.ucl.ac.uk/bsm/pdbsum
24
25
26
六、二次数据库
根据生命科学不同研究领域的实际需要, 对基因组图谱、核酸和蛋白质序列、蛋白质结构 以及文献等数据进行分析、整理、归纳、注释, 构建具有特殊生物学意义和专门用途的二次数据库, 这是数据库开发的有效途径。 近年来,世界各国的生物学家和计算机科学家合作, 已经开发了几百个二次数据库和复合数据库, 也称专门数据库、专业数据库、专用数据库。
28
29
构建二次数据库
中华民族基因多样性数据库 转录因子细胞特异性数据库 Cytomer 蛋白质结构域数据库 Domain 蛋白质回环数据库 Loop 水稻矮缩病毒数据库 RDV 二硫键信息数据库 Bridge
30
中华民族基因多态性数据库
• 2001年4月13日 - 北京大学生物信息中心建立的 “中华民族基因多态性数据库” 已经完成框架构建。 • 目前,该数据库收集了包括Y染色体DNA多态性标记 频率类型、单倍型类型多态性、永生细胞株系等数据, 建立了数据库可视化浏览及查询系统,提供民族及民族 多样性研究的信息资源。
分子生物信息数据库
(Molecular Bioinformatics Databases)
一、简介 二、分子生物信息数据库 三、基因组数据库 四、序列数据库 五、结构数据库 六、二次数据库 七、NCBI分子生物学数据库
1
一、简 介
已经完成全序列测定的基因组
2
Total nucleotides:
301,588,430,608
12
人类基因组计划所得到的图谱数据
目前GDB包含对下述三种对象的描述:
(1)人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、 易碎位点、 EST、综合区域、contigs、重复等; (2)人类基因组图谱 包含细胞遗传学图谱、连接图谱、辐射混合图谱、 contig 图谱、集成图谱,所有这些图谱都可以被直观 地显示出来; (3)人类基因组中的变化 包括基因突变和基因多态性,加上等位基因频率数据。
38
常用分子生物信息学数据库-2
数据库名称 EMEST SWISS-PROT TREMBL DSSP FSSP SBASE HUMREP CPGISLE TRANSFAC YPD KABATP PROSITEDOC 数据库内容 EMBL数据库中EST部分 蛋白质序列 EMBL翻译所得蛋白质序列 蛋白质二级结构参数 已知空间结构蛋白质家族 蛋白质结构域序列 人类基因组中重复序列 CpG岛序列 转录因子 酵母基因组 免役球蛋白蛋白质序列 蛋白质功能位点文献摘要
• Modeling
– Relational, hierarchical, semi-structured
• Efficiency
– Update, query, analysis
• Interpretation
– Visualization
7
生物信息数据库几个明显的特征:
(1)数据库的更新速度不断加快,数据量 呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置
31
中华民族基因多态性数据库
32
蛋白质二硫键数据库
33
水稻矮缩病毒基因组数据库
34
转录因子细胞特异表达数据库
35
蛋白质回环数据库
36
37
常用分子生物信息学数据库-1
数据库名称 EMBL PIR OWL PDB HSSP PDBFINDER SUBTILST VECTOR RDP ECDC KABATN PROSITE 数据库内容 核酸序列 蛋白质序列 非冗余蛋白质序列 蛋白质三维空间结构 同源蛋白家族 PDB数据库注释信息 枯草杆菌序列 克隆载体 核糖体序列 大肠杆菌序列 免役球蛋白核酸序列 蛋白质功能位点
39
常用分子生物信息学数据库-3
数据库名称 BLOCKS PRODOM ENZYME OMIM SEQANALREF MEDLINE FLYGENES RHDB P53 PK CUTG TAXONOMY BIOCAT 数据库内容 同源蛋白序列模块 蛋白质结构域 酶 人类遗传缺陷基因 序列分析文献目录 医学文献目录 果蝇基因组 放射杂交 P53蛋白突变 丙酮酸激酶 遗传密码使用频度 分类学 生物信息学程序目录
21
SWISS-PROT
• •
ID AC DT DT DT DE GN OS OC OC OX RN RP RC RX RA RT RT RL …
Defined by SWISS-PROT database
– Includes annotation, other info
Example:
BRC1_MOUSE STANDARD; PRT; 1812 AA. P48754; Q60957; Q60983; 01-FEB-1996 (Rel. 33, Created) 01-NOV-1997 (Rel. 35, Last sequence update) 16-OCT-2001 (Rel. 40, Last annotation update) Breast cancer type 1 susceptibility protein homolog. BRCA1. Mus musculus (Mouse). Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus. NCBI_TaxID=10090; [1] SEQUENCE FROM N.A. STRAIN=C57BL/6; TISSUE=Embryo; MEDLINE=96177659; PubMed=8634697; Abel K.J., Xy J., Yin G.Y., Lyons R.H., Meisler M.H., Weber B.L.; "Mouse Brca1: localization sequence analysis and identification of evolutionarily conserved domains."; Hum. Mol. Genet. 4:2265-2273(1995).
4
生物分子数据 高速增长
分子生物学 及相关领域研究人员 迅速获得最新实验数据
建立生物分子数据库
5
生物信息数据库应满足5个方面的 主要需求:
(1)时间性 (2)注释
(3)支撑数据
(4)数据质量
(5)集成性
6
Challenges of Large Databases
• Storage
– Indexing, physical layout, memory management
22
五、结构数据库
蛋白质结构数据库 PDB 蛋白质结构分类数据库 SCOP 和 CATH
23
PDB(protein data bank)
1. 目前最主要的蛋白质分子结构数据库; 2. 1970年代建立,美国Brookhaven国家实验室维护管理; 3. 1988年,由美国RCSB(research collaboratory for structural biology)管理; 4. 以文本格式存放数据,包括原子坐标、物种来源、测定方 法、提交者信息、一级结构、二级结构等; 5. PDBsum数据库:PDB注释信息综合数据库,具有检索、 分析、可视化的功能。
LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM
REFERENCE AUTHORS TITLE
JOURNAL MEDLINE PUBMED
(二) 常用蛋白质序列数据库
SWISS-PROT (欧洲) PIR (美国)- Protein Information Resource ExPASy- expert protein analysis system
二级数据库包括:
由上述三类数据库和文献资料为基础构建的数据库。
10
分子生物信息数据库
11
三、基因组数据库 (genome databases)
基因组数据库的主体是模式生物基因组数据 库,此外基因组信息资源还包括染色体、基因 突变、遗传疾病、分类学等各种数据库。
GDB —— 人类(Homo sapiens)基因组 数据库 AceDB —— 线虫 (Caenorhabditis elegans) 基因组数据库
22 November 2010
3
Database Growth
• Exponential growth in sequence data • Not much growth in sequence size • Expect exponential growth in annotation information What are we to do with all this data?
数据库 (1982)
DDBJ -日本遗传研究所的核酸数据库(1987)
18
GenBank
•
•
Flat file format used by GenBank
– Annotation, author, version, etc.
Example (just the top)
MMU35641 5538 bp mRNA linear ROD 18-OCT-1996 Mus musculus Brca1 mRNA, complete cds. U35641 U35641.1 GI:1040960 . house mouse strain=C57Bl/6. Mus musculus Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Mus. 1 (bases 1 to 5538) Sharan,S.K., Wims,M. and Bradley,A. Murine Brca1: sequence and significance for human missense mutations Hum. Mol. Genet. 4 (12), 2275-2278 (1995) 96177660 8634698 19