获取DNA、RNA和蛋白质序列信息
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DDBJ数据库
• 日本DNA数据库(DDBJ)是在亚洲唯一的核酸序
列数据库,是公认搜集研究者获得的核酸序列数来自百度文库据库,并且,发放给数据提交者国际认证的核酸 序列编号。由于DDBJ每天将搜集的数据与EMLBank/EBI和GenBank/NCBI进行交换,使得三个核 酸数据库几乎在任何时候都享有相同数据。这种 几乎统一的数据库被称作“国际核酸序列数据库 (INSD)”。DDBJ主要收集来自日本研究者获得 的序列数据,但也收集数据和发放编号给任何其 它国家的研究者。
其他重要的核酸序列数据库:
• dbEST • ncRNAdb • miRBase
• dbEST是GenBank中的一个子数据库,包含
来源于不同物种的表达序列数据和表达序 列标签序列的其它信息。 • 非编码RNA(ncRNA)数据库旨在提供非编 码RNA的序列和功能信息。非编码转录物不 编码蛋白质,但在细胞中起调节作用。目 前,该数据库包含来源于99种细菌、古生 菌和真核生物的30000多条单个序列。 • miRBase序列数据库是主要存放已发表的 microRNA(miRNA)序列和注释的数据库。
• GenBank是具有目录和生物学注释的核酸序
列综合数据库, 由美国国家医学图书馆 (NLM)的国家生物技术信息中心(NCBI) 构建、维护和管理。该中心位于美国马里 兰国家健康研究所(NIH)。NCBI构建 GenBank数据库的序列数据来至序列发现者 提交的序列、批量提交的表达序列标签 (EST)、基因组测序序列(GSS)和其它 测序中心的高通量数据,以及美国专利商 标局提供的已发表专利的序列数据。
• BLAST 序列相似性搜索 • 序列相似性搜索是GenBank数据最基本和使
用最多的分析方式。NCBI提供BLAST (http://blast.ncbi.nlm.nih.gov/Blast.cgi) 系列程序检测一条查询序列与数据库所有 序列的相似性。BLAST搜索可以在NCBI网 站上运行,也可以在FTP站点下载独立的程 序集运行。
生物信息学(Bioinformatics)
• 在生命科学研究中发展起来的一门由分子
生物学和计算机信息处理技术相结合,以 计算机为工具对生物信息进行储存、检索、 传播、模拟和分析的交叉学科,它利用数 据库技术和软件技术对大量积累的生物大 分子序列数据和实验测定的序列进行比较 和分析,揭示出生物大分子的分子结构、 功能和进化关系以及基因组构成与基因表 达等生物学事件对生命活动的影响。
根据数据库存储的内容可将生物信 息学数据库分为:
• 核酸、 • 蛋白质、 • 基因图谱、 • 结构、 • 文献等数据库
第二节 核酸序列数据库
• 一、GenBank数据库 • GenBank 是一个综合数据库,该数据库中
包含了已经公开的260000余种不同物种生 物的核酸序列,这些数据主要是由全世界 不同实验室和大规模测序计划提交给 GenBank的。
(http://www.ncbi.nlm.nih.gov/sites/gquery)可 以访问GenBank中的序列记录,Entrez是一个灵 活的数据库检索系统,可以检索35个数据库。 Entrez数据库包含来源于GenBank和其它资源的 DNA和蛋白序列,还包括基因组图谱、种群、进 化和环境序列序列数据集、基因表达数据、NCBI 分类学、蛋白结构域信息和来源于Molecular Modeling Database(MMDB)的蛋白结构数据库, 每个数据库经由PubMed和PubMed Central与学术 文献关联。
• 用FTP获取GenBank • NCBI以传统的纯文本文件格式发布GenBank,还
以ASN.1格式用以内部维护。通过NCBI匿名FTP (ftp.ncbi.nih.gov)站点可以获得每两个月的全 文公告和每天与EMBL和DDBJ数据更新内容,还 可以从印第安纳大学的镜像站点(ftp://biomirror.net/biomirror/genbank/)下载。在 “genbank”目录中的“daily-nc”文件夹中可以获 得纯文本的更新数据压缩文件。在GenBank FTP 站点的“tools”目录中提供转换每日更新数据集的 脚本。
• GenBank、EMBL、DDBJ组成国际核酸序列
数据库合作组织(INSDC),该组织成员远 程合作,每天相互交换数据以保证序列信 息的一致性和完整性。
检索GenBank数据
• Entrez检索系统 • BLAST 序列相似性搜索程序 • 用FTP获取GenBank 数据库
• Entrez系统 • 使用Entrez
EMBL数据库
• EMBL核苷序列数据库(http://
www.edi.ac.uk/embl/)是欧洲主要的核苷 序列收集单位。这个数据库是由欧洲生物 信息中心EBI(欧洲分子生物学实验室 (EMBL)在德国海德堡的站点)维护的。
• EBI核苷数据来自基因组测序中心、个别科
学家、欧洲专利局、以及与合作伙伴DDBJ (Japan)和GenBank (USA)交换的数据。为 了达到最佳的同步性,每天 DDBJ/EMBL/GenBank之间都要交换最新的 数据。用户只要进入三者中任意一个数据 库都能得到最新数据。这三个数据库之间 坚持统一的文件指导方针,规范了数据库 登录的内容和语法。这种指导方针确保了 这些数据库的信息以一种便捷的格式进行 交换,它与当今的生物信息学软件兼容, 反映了分子生物学领域的发展。
生物信息数据库种类 :
• 基因组数据库、 • 核酸和蛋白质一级结构序列数据库、 • 生物大分子(主要是蛋白质)三维空间结
构数据库、 • 以上述三类一次数据库和文献资料为基础 构建的二次数据库。
一次、二次数据库特点
• 一次数据库的数据量大、更新速度快、用
户面广,存在过多的甬余数据。 • 而二次数据库的容量比较小,更新速度也 没有一次数据库那样快,经过筛选后,避 免了过多的甬余数据。
第二节 蛋白质序列数据库
• • •