NCBI分子数据库介绍
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
NCBI分子数据库介绍
信息来源:中国生命科学论坛更新时间:2003-10-12 2:33:00
核酸序列(nucleotides)
· Entrez核酸 - 用accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索核酸序列记录(在GenBank + PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用Batch Entrez(批量Entrez)。
· RefSeq - NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNA contigs,已知基因的mRNAs 和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。
· dbEST - 表达序列标签数据库,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE
实验的cDNA序列。
· dbGSS -基因组调查序列的数据库,短的、单次(测序)阅读的cDNA序列,exon trap获得的序列,cosmid/BAC/YAC末端,及其他。
· dbSTS -序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位点。
· dbSNP - 单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。
完整的基因组
· 参见 Genome 和 Maps 部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。
· UniGene - 被整理成簇的EST和全长 mRNA 序列,每一个代表一种特定已知的或假设的人类基因,有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以 cluster 形式在 Unigene 网页下载,完整的数据可以从FTP站点 repository/UniGene 目录下下载。
1.奶牛 UniGene
2.人类 UniGene
3.小鼠 UniGene
4.大鼠 UniGene
5.斑马鱼 UniGene
· BLAST- 将你的序列同核酸库中的的序列比较,检索相似的序列。(更详细的信息见下面 Tools/Sequence 相似搜索部分)
蛋白序列(proteins)
· Entrez蛋白 -用accession number,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索蛋白序列记录(在GenPept + Swiss-Prot + PIR + RPF + PDB中)。更多的关于Entrez的信息见下。如果要检索大量数据,也可使用Batch Entrez(批量Entrez)。
· RefSeq - NCBI数据库的参考序列。Curated, 非冗余集合包括基因组DNA contigs,已知基因的mRNAs和蛋白,在将来,整个的染色体。Accession numbers用NT_xxxxxx, NM_xxxxxx, NP_xxxxxx, 和NC_xxxxxx的形式来表示。
· FTPGenPept- 下载"genpept.fsa.Z"文件,这个文件包含了从GenBank/EMBL/DDBJ记录中翻译过来的FASTA 格式的氨基酸序列,这些记录都有一到两个CDS特性的描述。
· Conserved Domain Database (CDD) - 蛋白质经常包含若干模块或域,每个有不同的进化源及功能。
CD-Search 服务可用来标记保存域中的蛋白质序列。
完整的基因组
· 参见 Genome 和 Maps 部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒。
· Entrez基因组 - 提供了一个编码区的概要和各种物种的分类表(TaxTable)。编码区概要列出了在基因组中所有的的蛋白,并提供链接到FASTA文件和BLAST。分类表总结了蛋白BLAST分析的结果,建议他们的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系(参见下面'Genomes和Maps,'部分Entrez基因组的一般描述)
· FTP基因组蛋白 - 从ftp站点的genbank/genomes目录下下载各种物种的FASTA格式的氨基酸序列*.faa 和蛋白表文件*.ptt。参见readme文件。蛋白表也可以在Entrez基因组中看到。
· PROW - Web上的蛋白资源,关于大约200种人类的CD细胞表面分子的简短官方向导。互相检索,为每个CD抗原提供大约20中标准信息的分类(生化功能,配体,等等)
· BLAST- 将你的序列同蛋白库中的的序列比较,检索相似的序列。(更详细的信息见下面 Tools/Sequence 相似搜索部分)
结构(structures)
· 结构主页 - 关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问分子模型数据库(MMDB)和用来搜索和显示结构的相关工具。
· MMDB:分子模型数据库 - 一个关于三维生物分子结构的数据库,结构来自于X-ray晶体衍射和NMR色谱分析。MMDB是来源于Brookhaven蛋白数据库(PDB)三维结构的一部分,排除了那些理论模型。MMDB重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的交叉参考。数据的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织的,以及联系两者的一套指针。利用将化学,序列,和结构信息整合在一起,MMDB计划成为基于结构的同源模型化和蛋白结构预测的资源服务。MMDB的记录以ASN.1格式存储,可以用Cn3D, Rasmol, 或 Kinemage来显示。另外,数据库中类似的结构已经被用VAST确认,新的结构可以用VASTsearch来同数据库进行比较。
· Cn3D - "See in 3-D",一个用于NCBI数据库的结构和序列相似显示工具,它允许观察3-D结构和序列-结构或结构-结构同源比较。Cn3D用起来就象你浏览器上的一个帮助工具。