NCBI序列数据库概述(2017.3.16)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

6.BioProject
• 随着NCBI中归档的数据集的量和复杂性的快速增 加,对收集和组织相关元数据的需求也在快速增 加。尽管以前已经为一些归档数据库收集了元数 据,但是在NCBI没有集中的方式收集这些信息, 并跨数据库使用它们。最近建立了BioProject数据 库以促进提交到NCBI、EBI和DDBJ数据库的项目数 据的组织和分类。它捕获有关研究项目的描述性 信息,导致到归档数据库的大量提交,将跨多个 归档的相关数据整合在一起,并充当了一个中心 入口,通过该入口告知用户数据的可用性。
5.遗传多态数据库
• NCBI中的dbSNP、dbVar、dbGaP和ClinVar四个 子库涉及DNA多态或变异信息。 • dbSNP:收录了所有物种中发现的短序列多态 的突变信息; • dbVar:主要收录较大规模的基因组变异,包括 大片段的插入、缺失、异位、倒置和拷贝数多 态等信息资源; • dbGaP:收录大量以遗传多态为分子标记物的基 因型和表型关联性研究数据; • ClinVar:收录临床中发现或报道的有证据支持 的与人类疾病或健康状态有关的变异位点,并 与多个疾病和卫生系统数据库进行交互引用。
二、NCBI中的重要子库
NCBI收录的生物数据依据不同的类别、层次、 存பைடு நூலகம்质量和应用特征等划分为众多相对独立, 而又交叉引用的子库 1.GenBank与RefSeq 2.Gene 3.Genome 4.蛋白质数据库 5.遗传多态数据库 6.BioProject 7.其他
• • • • • • •
1.GenBank与RefSeq
GenBank是NIH遗传序列数据库,集成了所有 公开可获得的已注释DNA序列。根据其不同的 研究属性,分属于Nucleotide、GSS、EST三个 子库 • Nucleotide:收录绝大多数常规的核酸序列; • GSS(Genome Survey Sequence):收录测序起 始段用来进行序列或基因示踪、重复序列或基 因数量预判等的各种短读长序列; • EST(Expressed Sequence Tag):收录cDNA及 cDNA特征序列信息。
NCBI序列数据库
时间:2017.3.16
一、NCBI概述
• 1988年11月美国国家健康研究所(NIH)、 国家医学图书馆(NLM)发起成立; • 1992年,NCBI建立GenBank核酸序列数据库, 将美国专利商标局存储的专利序列并入 GenBank管理并与EMBL、DDBJ实现数据资 源的交换与共享; • GenBank、EMBL、DDBJ并称世界三大生物 序列信息数据库。
RefSeq (reference sequence):GenBank中的 数据是由用户提交数据构成,具有较高的 冗余度和差错率,为更好的实现特征序列 的查询,NCBI在GenBank数据基础上针对每 个基因不同的数据类型提取一个可靠地注 释条目作为参考条目,组成RefSeq。
2.Gene
• Gene:基因数据库收录全部已测序物种的基 因注释信息,包括基因的名称、染色体定 位、基因序列和编码产物(mRNA、蛋白质) 情况基因功能和相关文献信息等; • 与GenBank、OMIM、遗传多态数据库等 NCBI子库及KEGG、Gene Ontology等外源性 数据库进行交叉引用; • 基因数据库是目前最权威的基因注解数据 库。
7.其他
• GEO(Gene Expression Omnibus)接受和管理各研究机 构提交的基因芯片或测序技术获得的不同生理、病理状 态个体或细胞系基因(包括非编码基因)表达数据。 • Epigenomics:是一个表观基因组数据查询和浏览相结合 的数据库。提供DNA甲基化、组蛋白修饰等表观遗传学 数据集下载、基因序列、表观遗传状态的定位比较和可 视化等。 • Unigene:针对每一个基因建立一个独立的数据系统,分 别将不同来源的基因序列、蛋白质相似性、基因表达、 染色体定位、cDNA序列、mRNA序列、EST序列等进行罗 列和比较,旨在为研究者提供全面、丰富的信息资源, 更好地对基因的功能和注释信息的可靠性进行梳理。
3.Genome
• NCBI收录了超过1000种已经完成测序的生 物体全部基因组序列和定位数据,及正在 进行测序的物种阶段性发布的基因组信息。 • Genome涉及的物种涉及所有的生物领域: 细菌、古细菌、真核生物,以及许多病毒、 噬菌体、类病毒、质粒和含遗传物质的细 胞器。
4.蛋白质数据库
• NCBI Protein数据库收录来源于GenPept、 RefSeq、Swiss-Prot、PIR、PRF及PDB等蛋白 质数据资源的蛋白质序列和注释数据; • Protein Cluster数据库提供存在一定联系的 蛋白质集合信息,并与蛋白质注释、结构、 结构域、家族相关数据库之间交互访问; • Structure数据路是由蛋白质三维结构数据库 PDB衍生而来的大分子模建数据库,提供蛋 白质三维结构信息及相关的可视化和结构 化比对工具
三、NCBI提供的重要支持工具
• BLAST:BLAST是由NCBI开发的序列相似性搜 索程序,检索速度快,有助于识别基因和 基因特征; • Primer-BLAST:可用于多方面生物医学研究过 程的核酸引物设计; • NCBI提供的其他软件工具还包括:开放阅 读框搜索、电子PCR和序列提交工具Sequin 和BankIt等。
相关文档
最新文档