GenBank数据库简介
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基因酷系列电子书欢迎登陆基因酷FTP专区下载
GenBank数据库简介
基本信息 :
1.GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
是NIH遗传序列数据库,一个所
有可以公开获得的DNA序列的注释过的收集。
GenBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据库合作。
唯一人类基因序列集合(UniGene),人类基因组基因图谱,分类学浏览器,同国立癌症研究所合作的癌症基因组剖析计划(CGAP)等数据库。
GenBank以指数形式增长,核酸碱基数目大概每14个月就翻一个倍。
2.纪录样本 - 关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。
3.访问GenBank - 通过Entrez Nucleotides来查询。
用accession number,作者姓名,物种,基
因/蛋白名字,还有许多其他的文本术语来查询。
关于Entrez更多的信息请看下文。
用BLAST来在GenBank和其他数据库中进行序列相似搜索。
用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。
另外一种选择是可以用FTP下载整个的GenBank和更新数据。
4.增长统计 - 参见公布通知的2.2.6(每个分类的统计),2.2.7(每个物种的统计),2.2.8
(GenBank增长)小节。
5.公布通知,最新 - 最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。
6.公布通知,旧 - 同上相同,是过去公布的统计。
7.遗传密码 - 15个遗传密码的概要。
用来确保GenBank中纪录的编码序列被正确的翻译。
向GenBank提交数据 :
1.关于提交序列数据,收到accession number,和对纪录作更新的一般信息。
2.BankIt - 用于一条或者少数条提交的基于WWW的提交工具软件。
(请在提交前用VecScreen去除
载体)
3.Sequin - 提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人
群/种系/突变研究的提交。
可以独立使用,或者用基于TCP/IP的“network aware”模式,可以链接到其他NCBI的资源和软件比如Entrez和PowerBLAST。
(请在提交前用VecScreen去除载体) 4.ESTs - 表达序列标签,短的、单次(测序)阅读的cDNA序列。
也包括来自于差异显示和RACE实
验的cDNA序列。
5.GSSs-基因组调查序列,短的、单次(测序)阅读的cDNA序列,exon trap获得的序列,
cosmid/BAC/YAC末端,及其他。
6.HTGs - 来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段
3)序列。
(注意:完成的人类的HTG序列可以同时在GenBank和Human Genome Sequencing页面上访问。
)
7.STSs - 序列标签位点。
短的在基因组上可以被唯一操作的序列,用于产生作图位点。
8.注:SNPs - 人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中
(dbSNP)。
国际核苷酸序列数据库合作组织 :
1.GenBank,DDBJ,EMBL - 合作计划的概述,并链接到相应的主页。
GenBank,DDBJ(DNA Data
Bank of Japan),and EMBL (European Molecular Biology Laboratory)数据库共享的数据是每天都交换的,因此他们是相等的。
数据纪录的格式和搜索方式可能会不一样,但是accession number,序列数据和注解都是一模一样的。
即,你可以用accession number U12345在GenBank,DDBJ或EMBL中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。
2.DDBJ/EMBJ/GenBank特性表 — 特性表格式和标准被合作数据库用在序列记录的注释上,使得数
据共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨
基酸的代号。
FTP GenBank and Daily Updates:
1.GenBank普通文件格式 — 参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多
数最近的完全公告和日常积累或非积累更新数据。
2.ASN.1格式 — 摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公
告和日常积累或非积累更新数据。
3.FASTA格式 — 定义行号后只跟随序列数据(示例),参见描述数据库的readme文件,包括nt.Z
(每天更新的非冗余BLAST核酸数据库,包括GenBank+EMBL+DDBJ+PDB序列,但是不包括EST, STS, GSS, or HTGS序列),nr.Z(每日更新的非冗余蛋白质),est.Z, gss.Z, htg.Z, sts.Z,和其它文件。
分子数据库:
1.核酸序列
1、Entrez核酸: 用accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文
本术语来搜索核酸序列记录(在GenBank + PDB中)。
更多的关于Entrez的信息见下。
如果
要检索大量数据,也可使用Batch Entrez(批量Entrez)。
2、RefSeq : NCBI数据库的参考序列。
校正的,非冗余集合,包括基因组DNA contigs,已知
基因的mRNAs和蛋白,在将来,整个的染色体。
Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。
3、dbEST :表达序列标签数据库,短的、单次(测序)阅读的cDNA序列。
也包括来自于差异
显示和RACE实验的cDNA序列。
4、dbGSS :基因组调查序列的数据库,短的、单次(测序)阅读的cDNA序列,exon trap获得
的序列,cosmid/BAC/YAC末端,及其他。
5、dbSTS :序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图
位点。
6、dbSNP :单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫
星变异。
2.完整的基因组:
1、参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原
虫,细菌,病毒,viroids,质粒。
2、发UniGene : 被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人
类基因,有定位图和表达信息以及同其它资源的交叉参考。
序列数据可以以cluster形式在
Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目录下下载。
1)人类:UniGene
2)小鼠:UniGene
3)大鼠:UniGene
4)斑马鱼:UniGene
3、BLAST :将你的序列同核酸库中的的序列比较,检索相似的序列。
(更详细的信息见下面
Tools/Sequence相似搜索部分)
蛋白序列 :
1、Entrez蛋白 :用accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的
文本术语来搜索蛋白序列记录(在GenPept + Swiss-Prot + PIR + RPF + PDB中)。
更
多的关于Entrez的信息见下。
如果要检索大量数据,也可使用Batch Entrez(批量
Entrez)。
RefSeq — NCBI数据库的参考序列。
Curated, 非冗余集合包括基因组DNA
contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。
Accession numbers用
NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。
FTPGenPept — 下载
“genpept.fsa.Z”文件,这个文件包含了从GenBank/EMBL/DDBJ记录中翻译过来的FASTA
格式的氨基酸序列,这些记录都有一到两个CDS特性的描述。
2、完整基因组 :参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵
母,线虫,疟原虫,细菌,病毒,viroids,质粒。
1)Entrez基因组 :提供了一个编码区的概要和各种物种的分类表(TaxTable)。
编码
区概要列出了在基因组中所有的的蛋白,并提供链接到FASTA文件和BLAST。
分类表
总结了蛋白BLAST分析的结果,建议他们的可能功能,并用颜色编码的图来显示物种
同其它物种之间的关系(参见下面'Genomes和Maps,'部分Entrez基因组的一般描
述)
2)FTP基因组蛋白 :从ftp站点的genbank/genomes目录下下载各种物种的FASTA格式的
氨基酸序列*.faa和蛋白表文件*.ptt。
参见readme文件。
蛋白表也可以在Entrez基
因组中看到。
3、PROW : Web上的蛋白资源,关于大约200种人类的CD细胞表面分子的简短官方向导。
互
相检索,为每个CD抗原提供大约20中标准信息的分类(生化功能,配体,等等)
4、BLAST : 将你的序列同蛋白库中的的序列比较,检索相似的序列。
(更详细的信息见下
面Tools/Sequence相似搜索部分)
结构:
1、结构主页 — 关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问分子模型
数据库(MMDB)和用来搜索和显示结构的相关工具。
2、MMDB:分子模型数据库 — 一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍
射和NMR色谱分析。
MMDB是来源于Brookhaven蛋白数据库(PDB)三维结构的一部分,排除
了那些理论模型。
MMDB重新组织和验证了这些信息,从而保证在化学和大分子三维结构之
间的交叉参考。
数据的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织
的,以及联系两者的一套指针。
利用将化学,序列,和结构信息整合在一起,MMDB计划成
为基于结构的同源模型化和蛋白结构预测的资源服务。
MMDB的记录以ASN.1格式存储,可以用Cn3D, Rasmol, 或 Kinemage来显示。
另外,数据库中类似的结构已经被用VAST确认,新的
结构可以用VASTsearch来同数据库进行比较。
3、Cn3D — “See in 3-D”, 一个用于NCBI数据库的结构和序列相似显示工具,它允许观察
3-D结构和序列—结构或结构—结构同源比较。
Cn3D用起来就象你浏览器上的一个帮助工
具。
4、VAST — 矢量同源比较搜索工具—一个在NCBI开发的计算算法,用于确定相似的蛋白三维
结构。
每一个结构的“结构邻居”都是预先计算好的,而且可以通过MMDB的结构概要页面
的链接访问。
这些邻居可以用来确认那些不能被序列比较识别的远的同源性。
5、VAST 搜索 — 结构—结构相似搜索服务。
比较一个新解出的蛋白结构和在MMDB/PDB数据库
中的结构的三维坐标。
VAST搜索计算一系列可能会被交互浏览的结构邻居,用分子图形来
观察重叠和同源相似。
分类学 :
1、NCBI的分类数据库主页 — 关于分类计划的一般信息,包括分类资源和同NCBI分类学家合
作的外部管理者的列表。
2、分类浏览器 — 搜索NCBI的分类数据库,包括大于70000个物种的名字和种系,这些物种都
至少在遗传数据库中有一条核酸或蛋白序列。
可以检索一个特定种或者更高分类(如属,
科)的核酸,蛋白,和结构记录。
如果有新物种的序列数据被放到数据库中,这个物种就
北加到(分类)数据库中。
NCBI的分类数据库的目的是为序列数据库建立一个一致的种系
发生分类学。
文献数据库概要 :
1、PubMed — 一个关于生物医药科学的检索系统,包括引用,摘要,和杂志的索引术语。
它
包括直接由出版商提供给NCBI的文献引用以及链接到在出版商网址上的全文的URLs。
PubMed包括MEDLINE和PREMEDLINE的完整内容。
它还包括一些被MEDLINE认为超出范围的文章和杂志,(这些文章或杂志)由于内容或在某一时期不在索引范围内。
因此PubMed是比MEDLINE 的更大的集合。
2、杂志浏览器 — 允许你去查找收录到PubMed系统的杂志的名字,MEDLINE的缩写,或ISSN号
码。
3、PubRef(开发中)— 一个关于来自于广大范围的科学杂志的数目记录,和链接到出版商网
址的全文。
PubRef包含了PubMEd,加上了来自其它学科的杂志出版商提供的引用和摘要。
因此它是比PubMed更大的集合。
这个计划的启动是因为NAS要求为科学领域的核心刊物提供一个“白皮书”服务。
4、PubMed中心(开发中) — PubMed中心是一个无障碍的NIH资源,用于在生命科学领域中同
业互查的基础研究报告。
从2000年一月开始接受杂志文章。
所有在PubMed中心的材料将由目前任一主要的摘要和索引服务中列出的杂志提供,或者在编辑委员会中拥有3个以上有主要资金机构的研究经费的拥有人的杂志提供。
5、OMIM — 在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录,有链接到其它相
关的文献参考,序列记录,和相关数据库。
6、书籍 — 同书籍出版商合作NCBI为网络改编了教科书,并把他们链接到PubMed—生物医药
书目数据库。
这是为了给PubMed提供背景信息,这样使用者可以探究在PubMed搜索结果中不熟悉的概念。
目前收录的书有:
7、Molecular Biology of the Cell, 3rd ed. Alberts B., Bray D., Lewis J., Raff M.,
Roberts K., Watson J.D., 1994, Garland Publishing.
8、外部链接 — 一个登记服务,用于建立从在Entrez中的特定的文章,杂志,或生物数据到
外部网址的链接。
第三方可以提供一个URL,资源名字,关于他们网址的简要的描述,和关于从NCBI数据的哪里他们希望建立链接的详细说明。
这个详细说明可以用对Entrez有效的
布尔查询来写,也可以用特定的文章或序列的标志列表来写。
这样NCBI PubMed的用户将可以通过“NCBI小房间”服务(开发中)来选择哪个外部链接在他们的搜索中是可见的。
9、引用匹配 — 允许你找到任何一篇在PubMed数据库中的文章的PubMed ID或MEDLINE UID,
给出书目信息(杂志,卷,页码等)。
10、单篇文章的引用匹配。
11、许多文章的批量引用匹配。
12、E-mail引用匹配也是可以的,也可以用于单篇或许多文章。
如果要获得帮助文件,给
citation_matcher@写一封只有内容为HELP的E-Mail。
Genomes and Maps Overview:
1、Entrez基因组:人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒,和
真核细胞器。
2、Entrez基因组(各种物种)
3、Entrez基因组 — 超过800种在GenBank中被完整测序的物种,包括大于500种病毒,〉25种
细菌,酵母,和许多viroids,质粒,和细胞器。
还包括正在进行中的基因组,比如人,小
鼠,线虫,疟原虫,果蝇,利什曼原虫,水稻,和玉米。
提供完成的基因组/染色体的图形
概览,并可以探究那些逐步细化的区域。
也提供那些已经被NCBI工作人员分析过的物种的
编码区的摘要和TaxTables。
另外,Entrez Map Viewer,Entrez基因组的一个软件组成部
分,提供整合的果蝇(细胞遗传学和序列图谱)和人类(细胞遗传学,遗传连锁,序列,
放射杂交,和其它图谱)的染色体图谱的浏览。
4、通过每个物种的Entrez基因组页面来下载〈350kb的基因组。
5、通过NCBI ftp站点来下载〉350kb的基因组—参见在genbank/genomes目录下的readme文
件,ftp链接在每个物种的Entrez基因组页面上也有。
NCBI站点地图---其他基因组数据介绍:
1、小鼠基因组
1)小鼠基因组资源向导:把从各个中心来的各种小鼠相关的资源整合在一起,包括序
列,图谱,和克隆信息以及指向小鼠种系和突变资源的指针。
2)小鼠基因组测序:小鼠基因组计划的测序进展,HTG序列contigs(可以用大小和染
色体号来浏览)由测序中心的数据建立,可以contig或染色体的形式来下载。
3)小鼠UniGene :被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假
设的基因,有定位图和表达信息以及同其它资源的交叉参考。
序列数据可以以
cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目
录下下载
4)位点链接(LocusLink) :为校正过的序列和遗传位点的描述信息提供一个单次查
询界面。
LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,序列
accesssion number, Unigene簇,图谱信息,和相关的网址。
LocusLink是NCBI,
人类基因命名委员会,OMIM和其它组织的合作结果。
LocusLink目前包含人类,小
鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。
5)Entrez :包括了来自〉70000个物种的序列数据,可以用物种字段来限制记录只在
小鼠搜索。
6)人类/小鼠同源图 :University of California at Davis的M. F. Seldin建立,一
张比较人和老鼠在同源区段DNA上基因的表,按在每个基因组上的位置排列。
2、大鼠基因组
1)大鼠UniGene :被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假
设的基因,有定位图和表达信息以及同其它资源的交叉参考。
序列数据可以以
cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目
录下下载
2)位点链接(LocusLink):为校正过的序列和遗传位点的描述信息提供一个单次查询
界面。
LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,序列
accesssion number, Unigene簇,图谱信息,和相关的网址。
LocusLink是NCBI,
人类基因命名委员会,OMIM和其它组织的合作结果。
LocusLink目前包含人类,小
鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。
3、斑马鱼基因组
1)斑马鱼UniGene :被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或
假设的基因,有定位图和表达信息以及同其它资源的交叉参考。
序列数据可以以
cluster形式在Unigene网页下载,完整的数据可以从FTP站点repository/UniGene目
录下下载
2)位点链接(LocusLink) :为校正过的序列和遗传位点的描述信息提供一个单次查
询界面。
LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,序列
accesssion number, Unigene簇,图谱信息,和相关的网址。
LocusLink是NCBI,
人类基因命名委员会,OMIM和其它组织的合作结果。
LocusLink目前包含人类,小
鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。
4、果蝇基因组
1)黑腹果蝇主页: 提供所有可使用的果蝇资源的概要,用图形的方式显示了染色体,
允许你通过Entrez基因组浏览器的方法来搜索整个基因组的细胞遗传和序列信息。
Entrez基因组提供了对于一个物种一致的遗传,物理,和序列数据的图形界面。
当
你用一个基因的代号来搜索时,它给出搜索结果的一个图形的基因组视图,从那你
可以放大到你所感兴趣的区域的更详细的图谱视图,并且链接到序列数据和包含更
多信息的相关资源。
2)黑腹果蝇基因组测序的状态:描述了目前在GenBank,Entrez Genomes,和FTP站点
中的数据的范围
3)Entrez图谱浏览器 :整合的染色体图谱—图谱浏览器是Entrez基因组的一个软件组
成部分,用来显示一个或多个用共同标记或基因名字互相align过的图谱,以及用相
同序列进行比较过的序列图谱。
在人类基因组数据和搜索技巧文件中有关于目前可
以使用的果蝇的序列和细胞遗传学图谱。
Entrez图谱浏览器的帮助文件提供了关于
如何使用这个工具的一般说明。
4)位点链接(LocusLink): 为校正过的序列和遗传位点的描述信息提供一个单次查
询界面。
LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,序列
accesssion number, Unigene簇,图谱信息,和相关的网址。
LocusLink是NCBI,
人类基因命名委员会,OMIM和其它组织的合作结果。
LocusLink目前包含人类,小
鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。
5、线虫基因组
Entrez基因组:染色体的图形表示,可以整个的查看,也可以逐步放大的看。
链接
到相关的序列数据。
6、酵母基因组
1)Entrez基因组 :染色体的图形表示,可以整个的查看,也可以逐步放大的看。
链接
到相关的序列数据。
2)COGs :相邻类的聚簇 — 来自于完整基因组的基因家族自然系统。
COGs用比较21种
完整的基因组的编码的蛋白序列描绘了17个主要的种系发生系统。
每个COG包含至少
来自3个世系的独立蛋白或蛋白家族的相邻体,所以对应了一个古老的保守domain。
7、疟原虫基因组
1)疟原虫遗传学和基因组:提供与疟原虫遗传学和基因相关的数据和信息。
资源包括
物种特异的序列BLAST数据库(恶性疟原虫,所有疟原虫,以及弓形虫),基因组图
谱,连锁标记,以及遗传学研究信息。
链接到其他的疟原虫网站和相关的寄生虫遗传学数据库包括弓形虫。
2)Entrez基因组 — 恶性疟原虫的染色体全长的图形视图,完整的染色体序列数据(2
和3),链接到正在进行的染色体的分离数据表(来自于HB3 X Dd2杂交的染色
体),链接到其他基因组测序中心。
3)FTP站点 (pub/Malaria目录):用于查找在DNA序列中STS的电子PCR疟原虫版。
4)FTP站点 (genbank/genomes 目录):下载各种格式的完整的染色体序列数据(2和
3),包括GenBank的flat file (*.gbk),GenBank的概要文件(*.gbs),FASTA核酸
文件(*.fna),FASTA氨基酸文件(*.faa),蛋白表(*.ptt)和其他。
8、细菌基因组
1)Entrez基因组 — 完整细菌基因组的图形表示,可以整个的查看,也可以逐步放大
的看。
链接到相关的序列数据。
对每一个细菌都提供了一个编码区域的概要和
TaxTable。
2)微生物基因组测序计划:完成的和正在进行的测序计划,链接到NCBI的图形视图和
测序中心。
3)COGs :相邻类的聚簇 — 来自于完整基因组的基因家族自然系统。
COGs用比较21种
完整的基因组的编码的蛋白序列描绘了17个主要的种系发生系统。
每个COG包含至少
来自3个世系的独立蛋白或蛋白家族的相邻体,所以对应了一个古老的保守domain。
4)FTP站点: 下载各种格式的完整的细菌染色体序列数据,包括GenBank的flat file
(*.gbk),GenBank的概要文件(*.gbs),FASTA核酸文件(*.fna),FASTA氨基酸文
件(*.faa),蛋白表(*.ptt)和其他。
5)微生物基因组BLAST数据库 :与完成的和未完成的微生物基因组进行BLAST。