生物分子信息数据库

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第4章生物分子数据库
国际上已建立起许多公共生物分子数据库,包括基因组图谱数据库、核酸序列数据库、蛋白质序列数据库、生物大分子结构数据库等。

这些数据库由专门的机构建立和维护,他们负责收集、组织、管理和发布生物分子数据,并提供数据检索和分析工具,向生物学研究人员提供大量有用的信息,最大限度地满足他们研究和应用的需要,为他们的研究服务。

4.1 引言
建立生物分子数据库的动因是由于生物分子数据的高速增长,而另一方面也是为了满足分子生物学及相关领域研究人员迅速获得最新实验数据的要求。

生物分子信息分析已经成为分子生物学研究必备的一种方法。

如果说理论分析和算法模拟是生物信息学实验方法的话,那么来自于具体实验的原始数据和来自于数据库的数据则是生物信息学的实验材料。

数据库及其相关的分析软件是生物信息学研究和应用的重要基础,也是分子生物学研究必备的工具。

从数据库使用的角度来看,公共生物分子数据库应满足以下5个方面的主要需求:
(1)时间性对于新发表的数据,应该能够在很短的时间内(几个小时至几天)通过国际互连网访问。

(2)注释对于每一个基本数据(如序列),应附加一致的、深层次的辅助说明信息。

(3)支撑数据在有些情况下,数据库使用者需要得到原始的实验数据,因而要提供访问原始数据的方法。

数据库中应包含原始数据,或者能够通过交叉索引访问实验数据库中的原始数据。

(4)数据质量必须保证数据库中数据的质量,数据库管理机构应对数据来源进行检查,并且关注数据库用户和专家提出的意见。

(5)集成性三种基本生物分子数据库(核酸序列、蛋白质序列、蛋白质结构)的集成对于用户来说是非常重要的。

对于数据库中的每一个数据对象,必须与其它数据库中的相关数据联系起来,这样可以从某些分子数据出发得到一系列的相关信息。

例如,从某个核酸序列出发,通过交叉索引,可进一步得到对应的基因、蛋白质序列、蛋白质结构,甚至得到蛋白质功能的信息。

分子生物学研究领域虽各有重点,但是研究对象之间存在着密切的联系,比如DNA序列与蛋白质序列之间的联系,基因调控信息与基因表达数据之间的联系。

因而实验数据之间就必然存在着关联,一个方面的相关数据可能会影响或促进另一个方面的研究工作。

现有的各类数据库已经成为分子生物学各方面交叉研究的桥梁。

生物分子数据库目前的发展状况有几个明显的特征:
(1)生物分子数据库最突出的特征就是数据库的更新速度不断加快,数据量呈指数增长趋势。

例如,核酸序列数据的年增长幅度为100%。

(2)数据库使用频率增长更快。

人们越来越感到生物分子数据的重要性,也认识到它们的价值,因此各种数据库的使用人员在不断增加。

据统计,数据库的平均使用频率每年增长幅度接近于500%。

(3)数据库的复杂程度不断增加。

数据库中除了基本数据之外,还包括大量的注释、链接、参考文献等信息,例如,在SWISS-PROT数据库中,注释项涉及蛋白质的功能、结构域和活性位点、二级结构、四级结构、翻译后修饰、与其他蛋白质的相似性、与该蛋白质关联的疾病、序列变化等。

(4)数据库网络化。

几乎所有的数据库都可以在国际互联网上访问,并且公共数据库之间相互链接,使用户可以迅速得到大量的相关生物分子信息。

有的系统则将多个生物分子数据库整合在一起,形成集成的数据库系统。

(5)面向应用。

首先,各个数据库服务器除了提供数据之外,还提供许多分析工具,如核酸数据库提供的序列搜索、基因识别程序等,生物大分子结构数据库提供的结构比较程序、结构模拟程序等。

此外,还在原始数据库的基础上开发了许多面向特殊应用的二级数据库,如蛋白质分类数据库、蛋白质二级结构数据库等。

(6)先进的软硬件配置。

从计算机硬件方面来看,许多数据库服务器已从工作站升级到大型服务器,使数据库能够高效地管理数据和为用户服务,并在专门的硬件(如并行机)上运行服务
程序。

而在系统软件方面,使用大型数据库管理系统,面向对象的数据库管理方法正在逐步取代旧的模式,数据库服务广泛采用服务器客户式结构。

一般而言,生物分子数据库可以分为一级数据库和二级数据库。

一级数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

与蛋白质相关的二级数据库比较多。

4.2 核酸序列数据库
DNA 测序技术迅速发展,使得人类已知的DNA 核酸序列不断增长。

本节着重介绍与核酸相关的序列数据库。

4.2.1 GenBank / EMBL-Bank / DDBJ
核酸序列是了解生物体结构、功能、发育和进化的出发点。

国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(NCBI )的GenBank (/Web/Genbank/index.html ),欧洲分子生物学实验室的EMBL-Bank (简称EMBL ,/embl/index.html),日本遗传研究所的DDBJ (http://www.ddbj.nig.ac.jp/)。

三个组织相互合作,各数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。

这三个数据库是综合性的DNA 和RNA 序列数据库,其数据来源于众多的研究机构和核酸测序小组,来源于科学文献。

用户可以通过各种方式将核酸序列数据提交给这三个数据库系统。

数据库中的每条记录代表一个单独、连续、附有注释的DNA 或RNA 片段。

由于DNA 测序能力的极大提高,DNA 序列增长的速度也非常快,图4.1是GenBank 数据库中近几年数据量的统计,这张图反映出DNA 序列数据迅速增长的趋势。

下面着重介绍EMBL 数据库。

EMBL 是最早的DNA 序列数据库,于1982年建立。

目前EMBL 数据库中的数据按照每年约60%的速率增长。

截止2000年3月底,EMBL 数据库中的核酸序列总长度达70亿个碱基,覆盖2/3的人类基因组序列。

对于每个序列,相关数据包括序列名称、序列、位点、关键字、来源、生物种、参考文献、注释、序列中具有重要生物学意义的位点等。

而到2004年2月,数据库中的核酸序列数超过3000万条,总的数据量近400亿bp 。

随着分子生物学技术的不断发展,数据的增长速度将会不断地提高。

图4.1 核酸序列数据的增长趋势 (取自/Genbank/genbankstats.html ) 序

数(
单位
:百
万) 碱基数(单位:百万)
EMBL的数据来源主要有两条途径。

一是由序列发现者直接提交。

几乎所有的国际权威生物学刊物都要求作者在文章发表之前将所测定的序列提交给EMBL、GenBank或DDBJ,得到数据库管理系统所签发的登录注册号。

二是从生物医学期刊上收录已经发表的序列资料。

EMBL核酸数据库由关系数据库管理系统ORACLE来维护,在DEC alpha VMS系统下运行,数据库中的每一个序列数据被赋予一个登录号,它是一个永久性的唯一标识。

EMBL的序列数据用外在的ASCII文本文件来表示(见图4.2),而每一个文件分都为文件头和文件体两大部分。

文件头由一系列的信息描述行所组成,描述信息有序列的标识符、序列的功能、种属、参考文献等。

每一行的起始位置有一个标志,该标志由两个字母组成,标志后面是相关的正文信息。

“ID”为序列的标识符行,包括登录号、类型、分子的长度;“AC”为登录号行,如图4.2所表示的序列登录号为AB000888;“SV”为序列版本行,其数据的形式为“登录号.版本号”,例如,AB000888.1表示序列的登录号为AB000888,并且该序列数据是第一版本;“XX”为分隔符号行;“DT”为创建和更新日期行;“DE”为序列描述行;“KW”为关键字行;“OG”行描述非核序列的亚细胞定位,表明该序列来自于线粒体、叶绿体等;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”、“RP”、“RA”、“RT”、“RL”、“RC”分别描述参考文献的编号、页码、作者、题目、参考文献出处和注解;“RX”行是到其他文献数据库的链接,如“MEDLINE;97450990”表示对应参考文献在MEDLINE数据库的标示号为97450990;“DR”行是到其他生物信息数据库的链接,如到基因组数据库、蛋白质序列数据库、蛋白质结构数据库的链接,通过这些链接可以找到更多与本序列相关的数据;“FH”为特征表开始符号;“FT”为特征表行。

FT行具体的信息有:序列的长度,序列来自于何种生物体、何种组织,在染色体上的定位,蛋白质编码序列片段在整个序列中的位置,外显子和内含子的位置,与基因对应的蛋白质序列等。

FT 行主要有三项:(1)Feature Key,它是描述特征的关键字,如“source”、“CDS”等;(2)Location,指明特征在序列中的特定位置;(3)Qualifiers,描述关于一个特征的辅助信息。

文件头实际上对应于一个序列的注释(annotation)。

文件体由序列本身所组成,由“SQ”标志的行开始。

序列结束的标记是“//”。

科研工作者可以将新发现的核酸序列数据提交给EMBL。

但是,为保证每一条序列数据都有较高的质量,在提交数据之间必须利用EMBL 提供的工具进行检查与核实。

如果必要,数据库管理人员可以直接与序列的提交者讨论,澄清有关问题。

早期提交数据的方式是编辑电子表格,用任何正文编辑工具编辑固定格式的提交表格。

编辑任务比较复杂,也容易出错,特别是对于没有经验的用户。

另外,由于没有实时的数据校验,用户当时不能得到错误信息的反馈。

后来利用Authorin程序提交数据。

Authorin是欧洲生物信息学研究所(EBI)提供的一个交互的序列输入程序,用以帮助用户填写提交表格,该程序可在Macintosh和IBM兼容机上运行。

Authorin与用户交互,并进行数据有效性的检查。

它最后根据用户的输入形成一个特定格式的文本文件,作为结果提交给EMBL。

目前主要利用基于WWW网络环境的序列提交系统WEBIN,这是一种基于Internet网3W服务器的序列数据提交系统,它使用户提交序列数据的过程更直接、容易、简便。

该系统具有序列检查、更新和恢复等功能。

对于用户端的要求是安装3W浏览器。

这个系统具有很大的优点。

首先,与单机输入程序相比,用户不必每次从EBI取回高版本的程序,用户总是使用服务器上最新版本的序列输入程序。

第二,如果用户机器上已经安装了标准的3W客户端程序,则用户不必再花时间、精力和磁盘空间去安装单机输入程序。

第三,由于直接和数据库所在的服务器相连,用户可以直接使用数据库资源,如查看数据库中已有的序列,查看期刊、作者等信息,以避免重复工作。

ID AB000888 standard; mRNA; HUM; 937 BP.
XX
AC AB000888;
XX
SV AB000888.1
XX
DT 07-OCT-1997 (Rel. 52, Created)
DT 07-OCT-1997 (Rel. 52, Last updated, Version 1)
XX
DE Homo sapiens mRNA for phosphatidic acid phosphatase 2a, complete cds.
XX
KW phosphatidic acid phosphatase 2a.
XX
OS Homo sapiens (human)
OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; OC Eutheria; Primates; Catarrhini; Hominidae; Homo.
XX
RN [1]
RP 1-937
RA Kai M.;
RT ;
RL Submitted (05-FEB-1997) to the EMBL/GenBank/DDBJ databases.
RL Masahiro Kai, Sapporo Medical University, Department of Biochemistry;
RL South-1, West-17, Chuo-ku, Sapporo 060, Japan (E-mail:kai@sapmed.ac.jp,
RL Tel:011-611-2111)
XX
RN [2]
RX MEDLINE; 97450990.
RX PUBMED; 9305923.
RA Kai M., Wada I., Imai S., Sakane F., Kanoh H.;
RT "Cloning and characterization of two human isozymes of Mg2+ independent
RT phosphatidic acid phosphatases";
RL J. Biol. Chem. 272(39):24572-24578(1997).
XX
DR GDB; GDB:9956025.
DR GOA; O14494.
DR TrEMBL; O14494; O14494.
XX
FH Key Location/Qualifiers
FH
FT source 1..937
FT /db_xref="taxon:9606"
FT /mol_type="mRNA"
FT /organism="Homo sapiens"
FT /cell_line="HepG2"
FT CDS 48..902
FT /codon_start=1
FT /db_xref="GOA:O14494"
FT /db_xref="TrEMBL:O14494"
FT /note="similar to DDBJ Accession Number D84376 : mouse
FT PAP-2"
FT /transl_table=1
FT /product="phosphatidic acid phosphatase 2a"
FT /protein_id="BAA22593.1"
FT /translation="MFDKTRLPYVALDVLCVLLAGLPFAILTSRHTPFQRGVFCNDESI
FT KYPYKEDTIPYALLGGIIIPFSIIVIILGETLSVYCNLLHSNSFIRNNYIATIYKAIGT
FT FLFGAAASQSLTDIAKYSIGRLRPHFLDVCDPDWSKINCSDGYIEYYICRGNAERVKEG
FT RLSFYSGHSSFSMYCMLFVALYLQARMKGDWARLLRPTLQFGLVAVSIYVGLSRVSDYK
FT HHWSDVLTGLIQGALVAILVAVYVSDFFKERTSFKERKEEDSHTTLHETPTTGNHYPSN
FT HQP"
XX
SQ Sequence 937 BP; 240 A; 218 C; 209 G; 270 T; 0 other;
accgcagctc agtccatcgc ccttgccggg cagcccgggc agagaccatg ttcgacaaga 60 cgcggctgcc gtacgtggcc ctcgatgtgc tctgcgtgtt gctggctgga ttgccttttg 120 caattcttac ttcaaggcat acccccttcc aacgaggagt attctgtaat gatgagtcca 180 tcaagtaccc ttacaaagaa gacaccatac cttatgcgtt attaggtgga ataatcattc 240 cattcagtat tatcgttatt attcttggag aaaccctgtc tgtttactgt aaccttttgc 300 actcaaattc ctttatcagg aataactaca tagccactat ttacaaagcc attggaacct 360 ttttatttgg tgcagctgct agtcagtccc tgactgacat tgccaagtat tcaataggca 420 gactgcggcc tcacttcttg gatgtttgtg atccagattg gtcaaaaatc aactgcagcg 480 atggttacat tgaatactac atatgtcgag ggaatgcaga aagagttaag gaaggcaggt 540 tgtccttcta ttcaggccac tcttcgtttt ccatgtactg catgctgttt gtggcacttt 600 atcttcaagc caggatgaag ggagactggg caagactctt acgccccaca ctgcaatttg 660 gtcttgttgc cgtatccatt tatgtgggcc tttctcgagt ttctgattat aaacaccact 720 ggagcgatgt gttgactgga ctcattcagg gagctctggt tgcaatatta gttgctgtat 780 atgtatcgga tttcttcaaa gaaagaactt cttttaaaga aagaaaagag gaggactctc 840 atacaactct gcatgaaaca ccaacaactg ggaatcacta tccgagcaat caccagcctt 900 gaaaggcagc agggtgccca ggtgaagctg gcctgtt 937 //
图4.2 EMBL核酸数据库每个条目的文件格式
早期用户主要通过发行的CD-ROM使用EMBL。

EMBL数据库随时更新,但CD-ROM每隔三个月发布一个最新的版本。

CD-ROM上包含了所有的数据,包括序列数据、相关的索引文件以及信息检索程序。

后来用户可以通过ftp服务器访问EMBL,下载相关的数据及各种程序。

随着Internet的不断发展,现在用户主要通过互联网访问EMBL,直接利用本地计算机上的3W浏览器查询EMBL的有关数据,并将所需要的数据取回。

查询时,用户根据自己的要求,按照服务程序的提示填写查询条件,并将查询条件通过Internet发送给EMBL的服务器。

服务程序根据用户的查询条件搜索数据库,然后将满足查询条件的有关核酸序列数据传送给用户。

EMBL数据库服务器提供序列查询和序列搜索服务。

最简单的查询就是通过序列的登录号(如X58929)或序列名称(如SCARGC)直接查询。

虽然这种方式需要用户事先知道登录项的标识,但这确实是从数据库取得序列的最快方式。

当然,也可以通过其它渠道查询,如通过物种、序列功能等进行查询。

如果找到所查询的序列,则服务器将查询结果以HTML文件返回给用户。

如果数据库中该序列有到MEDLINE的交叉索引,则系统同时返回与包含参考文献摘要等信息的MEDLINE链接。

如果该序列有到其它数据库的交叉索引,也返回相应的链接。

例如,登录号为J00231的核酸序列具有这样一个交叉索引行:
DR SWISS-PROT:P01860;GC3_HUMAN
表示该核酸序列有一个到数据库SWISS-PROT的交叉索引,链接到其P01860文件。

这时,用户只要点击返回的超文本链接,就可以进一步访问SWISS-PROT数据库中的相关数据。

EMBL 服务器支持用户使用程序FastA或BLAST 进行核酸序列搜索,它们根据给定的目标序列在数据库中搜索其同源序列。

目前EMBL主要通过SRS服务器提供核酸序列查询服务,详见4.7.2。

GenBank是国际上最著名的核酸数据库。

GenBank数据库140.0版(2004年2月)含有3000多万条序列,总长度接近400亿对碱基。

其序列数据组织方式采用ASCII文本文件,主要存放核酸序列数据,同时还有一些辅助文件,存放于序列相关的辅助信息,如作者名、基因名、关键字、参考文献、其他数据库链接等。

4.2.2 基因组数据库
随着核酸测序技术的迅速发展,人类已经得到一部分生物的全基因组数据,如人、小鼠、大鼠等。

这些数据对于我们认识基因组信息组织的奥秘、了解生物体的生长发育的规律是非常重要的。

国际上有专门的组织收集和管理这些数据。

NCBI基因组数据库Entrez Gonomes (/entrez/query.fcgi?db=Genome)所收集的基因组数据量非常大,至2004年,该数据库包括1000多个病毒基因组、100多个微生物基因组以及部分真核生物基因组。

该数据库还提供了一个基因组数据浏览工具Map Viewer,利用这个工具,用户可以很方便地得到所需要的数据。

例如,通过Map Viewer浏览人基因组的24条染色体和线粒体,下载基因组序列,查看染色体或线粒体上的基因。

GDB(/)是一个比出现比较早的基因组数据库。

GDB于1990年建立于美国Johns Hopkins 大学,该数据库中的内容主要是人类基因组计划所得到的图谱数据。

建立GDB数据库的目的是为科学家提供一部关于人类基因组的百科全书。

GDB包含对下述三种对象的描述:(1)人类基因组区域,包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;(2)人类基因组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,所有这些图谱都可以被直观地显示出来;(3)人类基因组中的变化,包括基因突变和基因多态性,加上等位基因频率数据。

目前国际上有一些专门的模式生物基因组数据库,这些数据库侧重于收集某种生物基因组的相关数据。

如酵母基因组数据库SGD(/)、小鼠基因组信息学数据库MGI (/)、果蝇基因组数据库FlyBase (/)、线虫基因组数据库WormBase(/)等。

Ensembl (/)是一个综合基因组数据库,它是由EMBL-EBI和Sanger 研究所共同开发的一个系统。

Ensembl产生并维护关于各种后生动物基因组的自动注释,如人类基
因组、小鼠基因组、大鼠基因组、黑猩猩基因组等。

Ensembl试图跟踪这些基因组的序列片段,并将序列片段组装成单个长序列,进而分析这些经过组装的DNA序列,搜索其中的基因,发现生物学家或医学工作者感兴趣的特征。

Ensembl包括所有公开的基因组DNA序列,通过注释形成的关于序列的特征。

基因就是一种特征,基因或者是通过实验发现的,或者是通过Ensembl的程序预测的。

Ensembl所用的基因预测程序为GenScan。

其他的特征包括单核苷酸多态性(SNP)、重复序列与其它序列高度相似(或同源)的序列。

此外,Ensembl 数据库还提供疾病、细胞等方面的信息,并且提供数据搜索、数据下载、统计分析等服务,详见图4.3。

Ensembl提供多种查询方式,如用BLAST进行相似序列的搜索,通过序列号进行查询,通过基因名称查询,以及通过遗传疾病查询。

另一种更直观的方式是显示各染色体,用户可以在染色体水平上选择感兴趣的位点,然后逐层放大,从而浏览整个基因组,分析DNA序列,分析基因。

图4.3 Ensembl 数据库结构图
4.2.3 表达序列标记数据库dbEST
EST(Expressed Sequence Tags)方法已被证明是识别转录序列的最有效方法。

在1990以前,关于人类基因序列的数据主要来自于对单个基因的研究,EST数据的出现是生物信息学发展历史上的一块里程碑。

EST序列大约覆盖了人类基因的90%。

EST序列中含有大量的基因信息,利用这些信息可以发现新的基因,阐明基因的功能。

dbEST (/dbEST/)是GenBank的一个部分,该数据库包括不同生物的EST序列数据及其它相关信息,主要是从大量不同组织和器官得到的短mRNA片段。

截止2004年4月,该数据库含有2000万个登录项,其中人的EST序列超过500万条,小鼠的EST序列400万条,大鼠的EST序列也超过50万条。

通过WEB页面或者通过email可以查询有关EST的数据和相关报道,也可以通过FTP下载dbEST数据库。

EST数据库的主要作用是通过搜索比较,给实验新得到的一条cDNA序列或基因组序列赋予公认的功能。

通过对EST数据库的逆向分析,能识别与疾病相联系的基因。

4.2.4 序列标记位点数据库dbSTS
STS(Sequence Tagged Sites)是序列标记位点。

dbSTS(/dbSTS/)是NCBI的一个数据源,也是GenBank的一个部分,包含基因组短标记序列(STS)的组成和定位信
息。

可以通过BLAST搜索STS序列,或者直接通过FTP 下载序列。

4.2.5 面向基因聚类数据库UniGene
UniGene( /UniGene/)数据库将GenBank中的序列进行自动分类,形成面向基因群的非冗余集合。

每个UniGene群包含代表一个唯一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱。

除了基因的序列之外,还包括大量的EST序列。

UniGene 既可以作为发现新基因的数据源,也可以作为生物学研究人员进行大规模表达分析的辅助工具。

需要指出的是,自动分类的过程还有待于进一步发展和完善。

目前,UniGene中包括人类、大鼠、小鼠、牛等生物的相关数据,因为这些生物有大量的EST数据。

4.3 蛋白质序列数据库
我们可以根据基因组序列预测新基因,预测编码区域,并推测其产物(即蛋白质)的序列。

因此,随着基因组序列的不断增长,蛋白质序列也在不断增加。

本节着重介绍与蛋白质序列相关的序列数据库。

4.3.1 PIR
历史上,蛋白质数据库的出现先于核酸数据库。

在1960年左右,Dayhoff和其同事们搜集了当时所有已知的氨基酸序列,编著了《蛋白质序列与结构图册》。

从这本图册中的数据,演化为后来的蛋白质信息资源数据库PIR(Protein Information Resource)。

PIR(/pir/)是由美国生物医学基金会NBRF(National Biomedical Research Foundation)于1984年建立的,其目的是帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。

它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。

所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。

PIR提供一个蛋白质序列数据库、相关数据库和辅助工具的集成系统,用户可以迅速查找、比较蛋白质序列,得到与蛋白质相关的众多信息。

目前,PIR已经成为一个集成的生物信息数据源,支持基因组研究和蛋白质组研究。

至2004年,PIR 有近30万个蛋白质的登录数据项,包括来自不同生物体的蛋白质序列。

除了蛋白质序列数据之外,PIR还包含以下信息:
(1)蛋白质名称、蛋白质的分类、蛋白质的来源;
(2)关于原始数据的参考文献;
(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;
(4)序列中相关的位点、功能区域。

对于数据库中的每一个登录项,有与其它数据库的交叉索引,包括到GenBank、EMBL、DDBJ、GDB、MELINE等数据库的索引。

PIR中一个具体的登录项如图4.4所示。

PIR提供三种类型的检索服务。

一是基于文本的交互式查询,用户通过关键字进行数据查询。

二是标准的序列相似性搜索,包括BLAST、FastA等。

三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。

目前,PIR包括三个子数据库,分别是蛋白质序列数据库PIR-PSD、蛋白质分类数据库iProClass 以及非冗余的蛋白质参考资料数据库PIR-NREF。

4.3.2 SWISS-PROT
SWISS-PROT (/swissprot/)是由Geneva大学和欧洲生物信息学研究所(EBI)于1986年联合建立的,它是目前国际上权威的蛋白质序列数据库。

SWISS-PROT 中的蛋白质序列是经过注释的。

SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。

2004年3月的SWISS-PROT 43.0 版本有146720序列登录项,包含摘自113719篇参考文献的54093154个氨基酸。

与其它蛋白质序列数据库相比较,SWISS-PROT有三个明显的特点:
(1)注释
ENTRY G00016 #type fragment
TITLE FGF-receptor - common marmoset (fragment)
ORGANISM #formal_name Callithrix jacchus #common_name common
marmoset
DATE 13-Mar-1997 #sequence_revision 13-Mar-1997 #text_change
18-Jul-1997
ACCESSIONS G00016
REFERENCE H00018
#authors Einspanier, R.
#submission submitted to the EMBL Data Library, December 1995
#accession G00016
##status preliminary; translated from GB/EMBL/DDBJ
##molecule_type mRNA
##residues 1-157 ##label EIN
##cross-references EMBL:Z68149; NID:g1279349
CLASSIFICATION #superfamily basic fibroblast growth factor receptor 1;
immunoglobulin homology; protein kinase homology
FEATURES
1-157 #domain protein kinase homology (fragment) #label
KIN
SUMMARY #length 157
SEQUENCE
5 10 15 20 25 30
1/E M E V M K M I G K H K N I I N L L G A C T Q D G P L Y V I
31 V E Y A S K G N L R E Y L R A R R P P G M E Y S Y D I N R V
61 P E E Q M T F K D L V S C T Y Q L A R A M E Y L A S Q K C I
91 H R D L A A R N V L V T E N N V M K I A D F G L A R D I N N
121 I D Y Y K K T T N G R L P V K W M A P E A L F D R V Y T H Q
151 S D V W S F G/
Associated Alignments:
DA0934 protein kinase homology
DA1564 immunoglobulin homology - C2 type
DA1565 immunoglobulin homology - V-type, Ig V regions
FA1349 basic fibroblast growth factor receptor 1 - 555.0 1.0
M06341 basic fibroblast growth factor receptor 1 - 524.0 1.0
Related Links (Superfamily classification and Alignment):
Protein Classification for Entry=G00016 at MIPS, Germany.
ProClass for Entry=G00016 at Univ. of Texas, USA.
图4.4 PIR文件实例
在SWISS-PROT中,数据分为核心数据和注释两大类。

对于数据库中的每一个序列登录项,核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)等,而注释包括:
①蛋白质的功能描述;
②翻译后修饰;
③域和功能位点,如钙结合区域、ATP结合位点等;
④蛋白质的二级结构;
⑤蛋白质的四级结构,如同构二聚体、异构三聚体等;
⑥与其它蛋白质的相似性;
⑦由于缺乏该蛋白质而引起的疾病;
⑧序列的矛盾、变化等。

(2)最小冗余
对于给定的蛋白质,许多数据库根据不同的文献报道设置分立的登录项,而在SWISS-PROT中,尽量将相关的数据归并,降低数据库的冗余程度。

如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。

(3)与其它数据库的连接
SWISS-PROT目前已经建立了与其它30多个相关数据库的交叉索引,即对于每一个SWISS-PROT的登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。

相关文档
最新文档