ncbi数据库检索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二章 数据库检索
2.1 综合性数据库 NCBI
2.1.1 NCBI简介
美国参议员Claude Pepper率先意识到信息计算机化过程 方法对指导生物医学研究的重要性,发起了在1988年11月4日 建立国立生物技术信息中心的立法. (National Center for Biotechnology Information , NCBI) . NCBI隶属于国立医学图书馆( National Library of Medicing, NLM)。NLM在创立和维护生物医学数据库方面有 丰富的经验。
包含用于群体进化或变异研究的比对序列
准确的基因表达谱数据和大规模的分子实验数据
公众医学信息中心,是NLM在生命科学领域 Central数据库 期刊文献的数字存档 医学主题词数据库 生物医学方面的书箱
14 MesH 数据库
15 Bookshelf 数据库
16 OMIM 数据库
主要着眼于可遗传或遗传性的基因疾病,包括文献, 序列记录,染色体定位图谱及相关的数据库的链接
SRS系统每次只能查询一个数据库
Genome数据库查询结果
数据库格式简介
历史原因:没有完全统一的数据库格式; 了解所用数据库格式的重要性 一般由两部分组成: 文字注释 内容(序列,……)
例子:EMBL和GenBank数据库的格式
EMBL和GenBank数据库的主要内容和格式
序列名称、长度、日期 序列说明、编号、版本号 物种来源、学名、分类学位置 相关文献作者、题目、刊物、日期 序列特征表 碱基组成 序列(每行60个碱基)
CC CC CC CC CC CC … FH FT FT FT FT FT FT FT FT … FT FT FT FT FT FT FT FT FT FT FT …
This sequence was determined by the E. coli Genome Project at the University of Wisconsin-Madison (Frederick R. Blattner, director). Supported by NIH grants HG00301 and HG01428 (from the Human Genome Project and NCHGR). The entire sequence was independently determined from E. coli K-12 strain MG1655. Predicted open reading frames were determined using GeneMark software, kindly supplied by Key source Location/Qualifiers 1..4639221 /db_xref="taxon:83333" /mol_type="genomic DNA" /organism="Escherichia coli K12" /strain="K12" /sub_strain="MG1655" promoter 71..99 /note="factor Sigma70; predicted +1 start at 106" CDS 190..255 /codon_start=1 /db_xref="GOA:P03059" /db_xref="SWISS-PROT:P03059" /note="o21; 100 pct identical to LPT_ECOLI SW: P03059" /transl_table=11 /gene="thrL" /function="leader; Amino acid biosynthesis: Threonine" /product="thr operon leader peptide" /protein_id="AAC73112.1" /translation="MKRISTTITTTITITTGNGAG“
收集并储存大分子结构信息,部分来源于PDB
提供并及时更新后生生物的全基因组序列以及最为精确的注释. 是一个蛋白质信息最为准确的蛋白质数据库, 它所提供的蛋白质信息有着最详尽的注释和 最少的冗余..
5 UniProtKB\Swiss-prot
2.2.4 SRS 检索实例
已知BPMV的名字,查询其基因组的信息,核酸序 列信息,蛋白质序列信息和结构信息
2.1.3 Entrez 简介
是一个全局的生物医学搜索引擎,它可以检查的数据库主要包括 3类: 文献数据库: PubMed ,PubMedCentral,Journals,Books,OMIM,OMIA. 序列数据库: Nucleotide,Protein,Genome,Structure,SNP 其它数据库: Taxonomy, Gene,UniGene,HomoloGene, Conserved Domains,3D Domains, UniSTS,PopSet, GEO Profiles, GEO Datasets, PubChem BioAssay, PubChem Compound,PubChem Substance,Cancer Chromosomes, Probe,MeSH,Journals,NLM Catalog
ID U00096 standard; circular genomic DNA; CON; 4639221 BP. AC U00096; SV U00096.1 DT 24-JUL-2003 (Rel. 76, Last updated, Version 3) DE Escherichia coli K-12 MG1655 complete genome. KW . OS Escherichia coli K12 OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Escherichia; Escherichia coli. RN [1] RP 1-4639221 RX MEDLINE; 97426617. RX PUBMED; 9278503. RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,… RT "The complete genome sequence of Escherichia coli K-12"; RL Science 277(5331):1453-1474(1997). DR GOA; O32528. DR REMTREMBL; AAC74436; AAC74436. DR SPTREMBL; O32530; O32530. DR SWISS-PROT; O32528; YPDI_ECOLI. …
2.1.4 Entrez 检索实例
已知菜豆斑驳病毒(bean pod mottle virus, BPMV)的 名字,查询BPMV的基因组信息,核酸序列信息,蛋白序列信 息和结构信息
BPMV
1 Genome数据库查询结果
2核酸数据库查询结果
3蛋白质数据库查询结果
4 结构数据库查询结果
GenBank采用GBFF格式 实例: E. coli k-12全基因组序列文件
描述符
长度
生物分子类型
形状
分类码
数据第一次被公开的日期
百度文库单的描述
检索号
版本号,序列改变,版本加1
Geninfo identifier 基因信息号
序列来源的生物名称
参考文献
作者及参考文献题目
REFERENCE AUTHORS TITLE JOURNAL MEDLINE REMARK COMMENT FEATURES BASE CONTENT ORIGIN //
含义
序列名称 序列简单说明 唯一的序列编号 序列版本号 与序列相关的关键词 序列来源的物种名 序列来源的物种学名和分类学位置 建立日期 相关文献编号或提交注册信息 相关文献作者或提交序列作者 相关文献题目 相关文献刊物名或作者单位 相关文献Medline引文代码 相关文献注释 相关文献其它注释 关于序列的注释信息 相关数据库交叉引用号 序列特征表起始 序列特征表子项 序列长度、碱基数目统计数 序列 序列结束标志、空行
http://www.ncbi.nlm.nih.gov/
NCBI的任务
开发新的信息技术,来帮助理解控制健康和疾病 的基本分子和遗传过程 1 建立自动化系统用于储存和分析分子生物学, 生物化学和遗传学方面的知识 2 为研究人员和医学团体使用这些数据库和软 件提供便利 3 在国家和国际范围内搜集先进的生物技术信 息,为分析生物重要分子的结构和功能提供先进 的基于计算机的信息分析处理方案
2.1.2 NCBI数据库介绍
1 全核苷酸数据库
Expression sequence tag ,EST, genome survey sequence,GSS, orenucleotide
2 蛋白质数据库
翻译DNA所得
PIR,SWISS-PROT PDB
3 基因组数据库
已测序物种的基因组视图,染色体完整序列图, 遗传图和物理图
EMBL和GenBank数据库的行识别标志比较
EMBL标识字 ID DE AC SV KW OS OC DT RN RA RT RL RX RC RP CC DR FH FT SQ 空格 // GenBank标识字 LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM
5序列的下载
2.2 综合性数据库EMBL- EBI
2.2.1 EBI简介
EBI(欧洲生物信息学中心)全称是European Bioinformatics Institute,是一个非盈利性的学术机构 ,是欧洲分子生物学实验室(EMBL,全称是European Molecular Biology Laboratory)的一部分。它的主要 任务是建立、维护和提供生物学数据库以及信息学服务, 从而支持生物学数据的存放和进一步挖掘,位于德国海德 尔堡,是世界上著名的生命科学研究机构。
提供免费数据和生物信息学服务 生物信息学研究 提供生物信息学培训 将技术应用于产业
2.2.2 EBI数据库简介
1 核酸序列数据库 与GenBank DDBJ同步 2 UniProt Knowledgebase 3 大分子结构数据库 4 Ensembl
通用蛋白质资源数据库, 最全面的储 存蛋白质信息的数据库
4 结构数据库
又称为分子模型数据库MMDB,包含从晶体结构和核磁 共振实验中确定下来的蛋白质等大分子结构信息,主要 来源于PDB,使用软件浏览结构
5 三维结构域数据库 6 保守域数据库
包含来自Entrez结构数据库的蛋白质结构域
蛋白质结构域数据库,从Pfam,SMART,COG数据 库中获得数据. 是一个整合的,非冗余的STS数据库
7 uniSTS数据库 8 基因数据库 9 UniGene数据库
可通过基因名称,同义词,编号,出版物,染色体号等属性 寻找基因 GenBank 中基因序列的集合
10 SNP数据库 11 PopSet 12 GEO数据库 13 PubMed
用于存储包括单核苷酸替换,一两个碱基的插入 或缺失等多态性信息
期刊,及发表年份,卷及期、页码
评注
特征表
关键字
序列部分
BASE COUNT ??A ??C ??G ??T ORIGIN 1 agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 61 tgatagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 121 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 181 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 241 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 301 cttttttttt cgaccaaagg taacgaggta acaaccatgc gagtgttgaa gttcggcggt 361 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 421 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg …… 4639021 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639081 gcagatgaca taaaactggt cgactggtta caacaacgcc tggggctttt agagcaacga 4639141 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639201 acgccttagt aagtattttt c //
2.1 综合性数据库 NCBI
2.1.1 NCBI简介
美国参议员Claude Pepper率先意识到信息计算机化过程 方法对指导生物医学研究的重要性,发起了在1988年11月4日 建立国立生物技术信息中心的立法. (National Center for Biotechnology Information , NCBI) . NCBI隶属于国立医学图书馆( National Library of Medicing, NLM)。NLM在创立和维护生物医学数据库方面有 丰富的经验。
包含用于群体进化或变异研究的比对序列
准确的基因表达谱数据和大规模的分子实验数据
公众医学信息中心,是NLM在生命科学领域 Central数据库 期刊文献的数字存档 医学主题词数据库 生物医学方面的书箱
14 MesH 数据库
15 Bookshelf 数据库
16 OMIM 数据库
主要着眼于可遗传或遗传性的基因疾病,包括文献, 序列记录,染色体定位图谱及相关的数据库的链接
SRS系统每次只能查询一个数据库
Genome数据库查询结果
数据库格式简介
历史原因:没有完全统一的数据库格式; 了解所用数据库格式的重要性 一般由两部分组成: 文字注释 内容(序列,……)
例子:EMBL和GenBank数据库的格式
EMBL和GenBank数据库的主要内容和格式
序列名称、长度、日期 序列说明、编号、版本号 物种来源、学名、分类学位置 相关文献作者、题目、刊物、日期 序列特征表 碱基组成 序列(每行60个碱基)
CC CC CC CC CC CC … FH FT FT FT FT FT FT FT FT … FT FT FT FT FT FT FT FT FT FT FT …
This sequence was determined by the E. coli Genome Project at the University of Wisconsin-Madison (Frederick R. Blattner, director). Supported by NIH grants HG00301 and HG01428 (from the Human Genome Project and NCHGR). The entire sequence was independently determined from E. coli K-12 strain MG1655. Predicted open reading frames were determined using GeneMark software, kindly supplied by Key source Location/Qualifiers 1..4639221 /db_xref="taxon:83333" /mol_type="genomic DNA" /organism="Escherichia coli K12" /strain="K12" /sub_strain="MG1655" promoter 71..99 /note="factor Sigma70; predicted +1 start at 106" CDS 190..255 /codon_start=1 /db_xref="GOA:P03059" /db_xref="SWISS-PROT:P03059" /note="o21; 100 pct identical to LPT_ECOLI SW: P03059" /transl_table=11 /gene="thrL" /function="leader; Amino acid biosynthesis: Threonine" /product="thr operon leader peptide" /protein_id="AAC73112.1" /translation="MKRISTTITTTITITTGNGAG“
收集并储存大分子结构信息,部分来源于PDB
提供并及时更新后生生物的全基因组序列以及最为精确的注释. 是一个蛋白质信息最为准确的蛋白质数据库, 它所提供的蛋白质信息有着最详尽的注释和 最少的冗余..
5 UniProtKB\Swiss-prot
2.2.4 SRS 检索实例
已知BPMV的名字,查询其基因组的信息,核酸序 列信息,蛋白质序列信息和结构信息
2.1.3 Entrez 简介
是一个全局的生物医学搜索引擎,它可以检查的数据库主要包括 3类: 文献数据库: PubMed ,PubMedCentral,Journals,Books,OMIM,OMIA. 序列数据库: Nucleotide,Protein,Genome,Structure,SNP 其它数据库: Taxonomy, Gene,UniGene,HomoloGene, Conserved Domains,3D Domains, UniSTS,PopSet, GEO Profiles, GEO Datasets, PubChem BioAssay, PubChem Compound,PubChem Substance,Cancer Chromosomes, Probe,MeSH,Journals,NLM Catalog
ID U00096 standard; circular genomic DNA; CON; 4639221 BP. AC U00096; SV U00096.1 DT 24-JUL-2003 (Rel. 76, Last updated, Version 3) DE Escherichia coli K-12 MG1655 complete genome. KW . OS Escherichia coli K12 OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Escherichia; Escherichia coli. RN [1] RP 1-4639221 RX MEDLINE; 97426617. RX PUBMED; 9278503. RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,… RT "The complete genome sequence of Escherichia coli K-12"; RL Science 277(5331):1453-1474(1997). DR GOA; O32528. DR REMTREMBL; AAC74436; AAC74436. DR SPTREMBL; O32530; O32530. DR SWISS-PROT; O32528; YPDI_ECOLI. …
2.1.4 Entrez 检索实例
已知菜豆斑驳病毒(bean pod mottle virus, BPMV)的 名字,查询BPMV的基因组信息,核酸序列信息,蛋白序列信 息和结构信息
BPMV
1 Genome数据库查询结果
2核酸数据库查询结果
3蛋白质数据库查询结果
4 结构数据库查询结果
GenBank采用GBFF格式 实例: E. coli k-12全基因组序列文件
描述符
长度
生物分子类型
形状
分类码
数据第一次被公开的日期
百度文库单的描述
检索号
版本号,序列改变,版本加1
Geninfo identifier 基因信息号
序列来源的生物名称
参考文献
作者及参考文献题目
REFERENCE AUTHORS TITLE JOURNAL MEDLINE REMARK COMMENT FEATURES BASE CONTENT ORIGIN //
含义
序列名称 序列简单说明 唯一的序列编号 序列版本号 与序列相关的关键词 序列来源的物种名 序列来源的物种学名和分类学位置 建立日期 相关文献编号或提交注册信息 相关文献作者或提交序列作者 相关文献题目 相关文献刊物名或作者单位 相关文献Medline引文代码 相关文献注释 相关文献其它注释 关于序列的注释信息 相关数据库交叉引用号 序列特征表起始 序列特征表子项 序列长度、碱基数目统计数 序列 序列结束标志、空行
http://www.ncbi.nlm.nih.gov/
NCBI的任务
开发新的信息技术,来帮助理解控制健康和疾病 的基本分子和遗传过程 1 建立自动化系统用于储存和分析分子生物学, 生物化学和遗传学方面的知识 2 为研究人员和医学团体使用这些数据库和软 件提供便利 3 在国家和国际范围内搜集先进的生物技术信 息,为分析生物重要分子的结构和功能提供先进 的基于计算机的信息分析处理方案
2.1.2 NCBI数据库介绍
1 全核苷酸数据库
Expression sequence tag ,EST, genome survey sequence,GSS, orenucleotide
2 蛋白质数据库
翻译DNA所得
PIR,SWISS-PROT PDB
3 基因组数据库
已测序物种的基因组视图,染色体完整序列图, 遗传图和物理图
EMBL和GenBank数据库的行识别标志比较
EMBL标识字 ID DE AC SV KW OS OC DT RN RA RT RL RX RC RP CC DR FH FT SQ 空格 // GenBank标识字 LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM
5序列的下载
2.2 综合性数据库EMBL- EBI
2.2.1 EBI简介
EBI(欧洲生物信息学中心)全称是European Bioinformatics Institute,是一个非盈利性的学术机构 ,是欧洲分子生物学实验室(EMBL,全称是European Molecular Biology Laboratory)的一部分。它的主要 任务是建立、维护和提供生物学数据库以及信息学服务, 从而支持生物学数据的存放和进一步挖掘,位于德国海德 尔堡,是世界上著名的生命科学研究机构。
提供免费数据和生物信息学服务 生物信息学研究 提供生物信息学培训 将技术应用于产业
2.2.2 EBI数据库简介
1 核酸序列数据库 与GenBank DDBJ同步 2 UniProt Knowledgebase 3 大分子结构数据库 4 Ensembl
通用蛋白质资源数据库, 最全面的储 存蛋白质信息的数据库
4 结构数据库
又称为分子模型数据库MMDB,包含从晶体结构和核磁 共振实验中确定下来的蛋白质等大分子结构信息,主要 来源于PDB,使用软件浏览结构
5 三维结构域数据库 6 保守域数据库
包含来自Entrez结构数据库的蛋白质结构域
蛋白质结构域数据库,从Pfam,SMART,COG数据 库中获得数据. 是一个整合的,非冗余的STS数据库
7 uniSTS数据库 8 基因数据库 9 UniGene数据库
可通过基因名称,同义词,编号,出版物,染色体号等属性 寻找基因 GenBank 中基因序列的集合
10 SNP数据库 11 PopSet 12 GEO数据库 13 PubMed
用于存储包括单核苷酸替换,一两个碱基的插入 或缺失等多态性信息
期刊,及发表年份,卷及期、页码
评注
特征表
关键字
序列部分
BASE COUNT ??A ??C ??G ??T ORIGIN 1 agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 61 tgatagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 121 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 181 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 241 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 301 cttttttttt cgaccaaagg taacgaggta acaaccatgc gagtgttgaa gttcggcggt 361 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 421 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg …… 4639021 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639081 gcagatgaca taaaactggt cgactggtta caacaacgcc tggggctttt agagcaacga 4639141 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639201 acgccttagt aagtattttt c //