分子生物学数据库 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。 • 这三个数据库是综合性的DNA和RNA序列数据库，每条记录代表一个单独、连续、附有注释的DNA或RNA片段。
以下着重介绍EBML
EMBL的数据来源
用户提交从生物医学杂志收录已发表的序列资料
三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索，包括按注释分类的相似性搜索、结构域搜索等。
三个子数据库
2、SWISS-PROT
SWISS-PROT (http://www.expasy.ch/sprot/sprot-top.html）是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的

（2）最小冗余
• 尽量将相关的数据归并，降低数据库的冗余程度。 • 如果不同来源的原始数据有矛盾，则在相应序列特征表中加以注释。
（3）与其它数据库的连接
对于每一个登录项，有许多指向其它数据库相关数据的指针，这便于用户迅速得到相关的信息。现有的交叉索引有：到EMBL核酸序列数据库的索引，到PROSITE模式数据库的索引，到生物大分子结构数据库PDB的索引等。
（4）WWW服务器
这是目前最常用的一种形式
EMBL提供一些与序列相关的检索操作（基于3W服务器）
（1）序列查询最简单的查询就是通过序列的登录号（如X58929）或序列名称（如SCARGC）直接查询。
如果找到所查询的序列，则服务器将查询结果以HTML文件返回给用户如果数据库中该序列有到MEDLINE的交叉索引，则系统同时返回与包含参考文献摘要等信息的MEDLINE链接如果该序列有到其它数据库的交叉索引，也返回相应的链接

EMBL中的数据分类情况（单位：Gigabases）（EST-Expressed sequence tags; STS-sequence tagged sites）（取自/Services/DBStats/）
21 Mar 2003 37,943,364,438 bases in 24,353,128 records.
2、基因组数据库（GDB）
--人类基因组计划所得到的图谱数据
目前GDB包含对下述三种对象的描述：人类基因组区域包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、 EST、综合区域、contigs、重复等；人类基因组图谱包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱，所有这些图谱都可以被直观地显示出来；人类基因组中的变化包括基因突变和基因多态性，加上等位基因频率数据。
文件体由序列本身所组成，由“SQ”标志的行开始。
序列结束的标记是“//”。
登录号
日期
序列描述
关键词
物种
编号
题目
页码作者
分类信息

出处
特征开始符号
特征表行
文件体
提交数据
编辑电子表格利用Authorin程序利用基于WWW网络环境的序列提交系统

使用EMBL
（1）CD-ROM形式（2）ftp服务器（3）Gopher服务器

除了蛋白质序列数据之外，PIR还包含以下信息：
(1)蛋白质名称、蛋白质的分类、蛋白质的来源； (2)关于原始数据的参考文献； (3)蛋白质功能和蛋白质的一般特征，包括基因表达、翻译后处理、活化等； (4)序列中相关的位点、功能区域。
PIR提供三种类型的检索服务: 一是基于文本的交互式查询，用户通过关键字进行数据查询。二是标准的序列相似性搜索，包括BLAST、FastA等。
6、面向基因聚类数据库UniGene
UniGene( /UniG ene/) 数据库将GenBank中的序列进行自动分类，形成面向基因群的非冗余集合。每个UniGene群包含:

代表一个唯一基因的多个序列，附有该基因相关的信息，如基因表达的组织类型、定位图谱除了基因的序列之外，还包括大量的EST序列。目前，UniGene中包括人类、大鼠、小鼠、牛的相关数据，因为这些生物有大量的EST数据。
EMBL核酸数据库中的每一个序列数据被赋予一个
登录号，它是一个永久性的唯一标识 EMBL的序列数据用外在的ASCII文本文件来表示，而每一个文件分为文件头和文件体两大部分文件头由一系列的信息描述行所组成，文件头实际上对应于一个序列的注释（annotation）
“ID”为序列的标识符行，包括登录号、类型，分子的长度
与染色体相关的信息
其它模式生物基因组数据库
如：鼠基因组数据库 MGD / 酵母基因组数据库 SGD

/Saccharomyces/
3、人类基因组数据库Ensembl
（2）数据库使用频率增长更快
（3）数据库的复杂程度不断增加
（4）数据库网络化
（5）面向应用
（6）先进的软硬件配置
生物分子数据库
一级数据库
数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释
二级数据库
对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

TrEMBL (/trembl/index.html) 是与 SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中。 TrEMBL有两个部分： SP-TrEMBL(SWISS-PROT TrEMBL) 包含最终将要集成到SWISS-PROT的数据，所有的SPTrEMBL 序列都已被赋予SWISS-PROT的登录号。 REM-TrEMBL(REMaining TrEMBL) 包括所有不准备放入SWISS-PROT的数据，因此这部分数据都没有登录号。
• 提交序列数据
（a）编辑电子表格（b) 利用Authorin程序（c）WWW服务器
• 使用SWISS-PROT
（a）CD-ROM形式（b）ftp服务器（c）Gopher服务器（d）WWW服务器（SRS）
• 与序列相关的操作
（a）序列查询（b）搜索同源蛋白质序列
3、TrEMBL

Ensembl (/）

Ensembl包括所有公开的人类基因组DNA序列，通过注释形成的关于序列的特征。现在包括其他基因组，如大鼠、小鼠、线虫、果蝇等。例如：基因通过实验发现的或者是通过GenScan程序预测的其他的特征：单核苷酸多态性（SNP）、重复序列等
WEB页面或email FTP
有关EST的数据 dbEST数据库
5、序列标记位点数据库dbSTS
STS（Sequence Tagged Sites）是序列标记位点 dbSTS （/dbSTS/）是NCBI的一个数据源，包含基因组短标记序列（STS）的组成和定位信息。可以通过BLAST搜索STS序列。
第二节核酸序列数据库
国际上权威的核酸序列数据库
（1）欧洲分子生物学实验室的EMBL
http://www.embl-heidelberg.de
（2）美国生物技术信息中心的GenBank （3）日本遗传研究所的DDBJ
http://www.ddbj.nig.ac.jp/
/Web/Genbank/index.html

例如: 登录号为J00231的核酸序列具有这样一个交叉索引行： DR SWISS-PROT：P01860；GC3_HUMAN
（2）核酸同源性搜索
3W服务器支持用户使用FastA或BLAST 程序进行核酸同源搜索。 FastA和BLAST根据给定的目标序列在数据库中搜索其同源序列。其他：SRS序列查询服务
SWISS-PROT中的数据来源于不同源地：（1）从核酸数据库经过翻译推导而来；（2）从蛋白质数据库PIR挑选出合适的数据；（3）从科学文献中摘录；（4）研究人员直接提交的蛋白质序列数据
SWISS-PROT有三个明显的特点注释最小冗余与其它数据库的连接

（1）注释

在SWISS-PROT中，数据分为核心数据和注释两大类。核心数据包括：序列数据、参考文献、分类信息（蛋白质生物来源的描述）注释包括： a) 蛋白质的功能描述； b) 翻译后修饰； c) 域和功能位点，如钙结合区域、ATP结合位点等； d) 蛋白质的二级结构； e) 蛋白质的四级结构，如同构二聚体、异构三聚体等； f) 与其它蛋白质的相似性； g) 由于缺乏该蛋白质而引起的疾病； h) 序列的矛盾、变化等。
“AC”为登录号行； “XX”为分隔符号行； “DT”为创建和更新日期行 “DE”为序列描述行； “KW”为关键字行； “OG”行描述细胞组织； “OS”行描述生物体种属； “OC”行描述生物体分类信息； “RN”描述参考文献的编号； “RP”描述参考文献的页码； “RA”描述参考文献的作者； “RT”描述参考文献的题目； “RL”描述参考文献的出处； “RC”描述参考文献的注解； “RX”、“DR”行描述交叉引用信息； “FH” 为特征开始符号； “FT”为特征表行（1）Feature Key，它是描述域生物功能的关键字；（2）Location，指明特征在序列中的特定位置；（3）Qualifiers，描述关于一个特征的辅助信息；
第三节蛋白质序列数据库
1、PIR（Protein Information Resource）

目的：帮助研究者鉴别和解释蛋白质序列信息，研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。
EST（Expressed Sequence Tags）方法已被证明是识别转录序列的最有效方法，EST序列大约覆盖了人类基因的90%。 DbEST (/dbEST/）
是GenBank的一个部分，该数据库包括不同生物的EST序列数据及其它相关信息，主要是从大量不同组织和器官得到的短 mRNA片段。
4、蛋白质数据仓库UniProt
包括：
Swiss-Prot TrEMBL PIR
用户可以通过文本查询数据库，可以利用BLAST程序搜索数据库，也可以直接通过FTP 下载数据。
UniProt包含3个部分：
UniProt Knowledgebase（UniProt）蛋白质序列、功能、分类、交叉引用等信息存取中心 UniProt Non-redundant Reference（UniRef）数据库将密切相关的蛋白质序列组合到一条记录中以便提高搜索速度； UniProt Archive（UniParc）资源库，记录所有蛋白质序列的历史。

GenBank

GenBank是国际上最著名的核酸数据库。 GenBank数据库140.0版（2004年2月）含有3000 多万条序列，总长度接近400亿对碱基。其序列数据组织方式采用ASCII文本文件，主要存放核酸序列数据，同时还有一些辅助文件，存放于序列相关的辅助信息，如作者名、基因名、关键字、参考文献、其他数据库链接等。
第三章
分子生物学数据库
第一节引言
生物分子数据高速增长
分子生物学及相关领域研究人员迅速获得最新实验数据
建立生物分子数据库
生物分子数据库应满足5个方面的主要需求
时间性注释支撑数据数据质量集成性
生物分子数据库几个明显的特征：
（1）数据库的更新速度不断加快，数据量呈指数增长趋势
Ensembl 数据库结构图
Ensembl提供多种查询方式

通过关键字查询用BLAST进行相似序列的搜索另一种更直观的方式是显示各染色体用户可以在染色体水平上选择感兴趣的位点，逐层放大浏览整个基因组
人的第9号染色体及大鼠对应的染色体片段
4、表达序列标记数据库dbEST