NCBI_功能详细介绍 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

GenBank Overview

基本信息

∙什么是GenBank？GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库。每条纪录都有编码区（CDS）特征的注释，还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织，包括EMBL和DDBJ。

∙纪录样本- 关于GenBank的各个字段的详细描述，以及同Entrez搜索字段的交叉索引。

∙访问GenBank - 通过Entrez Nucleotides来查询。用accession number，作者姓名，物种，基因/蛋白名字，还有许多其他的文本术语来查询。关于Entrez更多的信息请看下文。用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query 和BLAST服务器。另外一种选择是可以用FTP下载整个的GenBank和更新数据。

∙增长统计- 参见公布通知的2.2.6（每个分类的统计），2.2.7（每个物种的统计），2.2.8（GenBank 增长）小节。

∙公布通知，最新- 最近和即将有的变化，GenBank的分类，数据增长统计，GenBank的引用。

∙公布通知，旧- 同上相同，是过去公布的统计。

∙遗传密码- 15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译。（向）GenBank提交（数据）

∙关于提交序列数据，收到accession number，和对纪录作更新的一般信息。

∙BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。（请在提交前用VecScreen去除载体）

∙Sequin - 提交软件程序，用于一条或者很多条的提交，长序列，完整基因组，alignments，人群/种系/突变研究的提交。可以独立使用，或者用基于TCP/IP的“network aware”模式，可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。（请在提交前用VecScreen去除载体）∙ESTs - 表达序列标签，短的、单次（测序）阅读的cDNA序列。也包括来自于差异显示和RACE 实验的cDNA序列。

∙GSSs - 基因组调查序列，短的、单次（测序）阅读的cDNA序列，exon trap获得的序列，cosmid/BAC/YAC末端，及其他。

∙HTGs - 来自于大规模测序中心的高通量基因组序列，未完成的（阶段0，1，2）和完成的（阶段3）序列。（注意：完成的人类的HTG序列可以同时在GenBank和Human Genome Sequencing页面上访问。）

∙STSs - 序列标签位点。短的在基因组上可以被唯一操作的序列，用于产生作图位点。

∙注：SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中（dbSNP）。

国际核苷酸序列数据库合作组织

∙GenBank，DDBJ，EMBL - 合作计划的概述，并链接到相应的主页。GenBank，DDBJ（DNA Data Bank of Japan），and EMBL （European Molecular Biology Laboratory）数据库共享的数据是每天都交换的，因此他们是相等的。数据纪录的格式和搜索方式可能会不一样，但是accession number，序列数据和注解都是一模一样的。即，你可以用accession number U12345在GenBank，DDBJ或EMBL中查找相应纪录，得到的结果是完全一样的序列数据，参考内容等等。

∙DDBJ/EMBJ/GenBank特性表—特性表格式和标准被合作数据库用在序列记录的注释上，使得数据共享成为可能，包括详细的描述生物特性和特性限定语的附录，以及IUPAC规定的核苷酸和氨基酸的代号。

FTP GenBank and Daily Updates

∙GenBank普通文件格式—参见GenBank记录样本和在GenBank公布通知中的详细描述，下载大多数最近的完全公告和日常积累或非积累更新数据。

∙ASN.1格式—摘要句法记号1，国际标准组织（ISO）数据表示格式，下载大多数最近的完全公告和日常积累或非积累更新数据。

∙FASTA格式—定义行号后只跟随序列数据（示例），参见描述数据库的readme文件，包括nt.Z （每天更新的非冗余BLAST核酸数据库，包括GenBank+EMBL+DDBJ+PDB序列，但是不包括EST, STS, GSS, or HTGS序列），nr.Z（每日更新的非冗余蛋白质），est.Z, gss.Z, htg.Z, sts.Z,和其它文件。

分子数据库概览

核酸序列

∙Entrez核酸—用accession number,作者姓名，物种，基因/蛋白名字，以及很多其它的文本术语来搜索核酸序列记录（在GenBank + PDB中）。更多的关于Entrez的信息见下。如果要检索大量数据，也可使用Batch Entrez（批量Entrez）。

∙RefSeq — NCBI数据库的参考序列。校正的，非冗余集合，包括基因组DNA contigs，已知基因的mRNAs和蛋白，在将来，整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。

∙dbEST —表达序列标签数据库，短的、单次（测序）阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。

∙dbGSS —基因组调查序列的数据库，短的、单次（测序）阅读的cDNA序列，exon trap获得的序列，cosmid/BAC/YAC末端，及其他。

∙dbSTS —序列标签位点的数据库，短的在基因组上可以被唯一操作的序列，用于产生作图位点。

∙dbSNP —单核苷酸多态性数据库，包括SNPs，小范围的插入/缺失，多态重复单元，和微卫星变异。

完整的基因组

∙参见下面Genome和Maps部分，包括各种物种资源，人，小鼠，大鼠，酵母，线虫，疟原虫，细菌，病毒，viroids，质粒。

∙UniGene —被整理成簇的EST和全长mRNA序列，每一个代表一种特定已知的或假设的人类基因，有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载，完整的数据可以从FTP站点repository/UniGene目录下下载。

o人类UniGene

o小鼠UniGene

o大鼠UniGene

o斑马鱼UniGene

∙BLAST —将你的序列同核酸库中的的序列比较，检索相似的序列。（更详细的信息见下面Tools/Sequence相似搜索部分）

蛋白序列

∙Entrez蛋白—用accession number,作者姓名，物种，基因/蛋白名字，以及很多其它的文本术语来搜索蛋白序列记录（在GenPept + Swiss-Prot + PIR + RPF + PDB中）。更多的关于Entrez的信息见下。如果要检索大量数据，也可使用Batch Entrez（批量Entrez）。

∙RefSeq —NCBI数据库的参考序列。Curated, 非冗余集合包括基因组DNA contigs,已知基因的mRNAs和蛋白，在将来，整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。