数据搜索时有用的生物大分子数据库扫描

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物大分子数据库扫描

根据“Nucleic Acids Research”最新(指2007年)公布的数据,目前已有968个有关生物大分子数据库(参见文献Galperin M Y, The Molecular Biology Database Collection, 2007, 35: D3)。有兴趣的读者可以参阅网站“/nar/database/a”。我们这里将主要类型的数据库列于表4-2。

面这段是一个完整的SwissProt条目,现解释如下:

ID 104K_THEPA STANDARD; PRT; 924 AA.

AC P15711;

DT 01-APR-1990 (Rel. 14, Created)

DT 01-APR-1990 (Rel. 14, Last sequence update)

DT 01-AUG-1992 (Rel. 23, Last annotation update)

DE 104 kDa microneme-rhoptry antigen.

OS Theileria parva.

OC Eukaryota; Alveolata; Apicomplexa; Piroplasmida; Theileriidae;

OC Theileria.

OX NCBI_TaxID=5875;

RN [1]

RP NUCLEOTIDE SEQUENCE.

RC STRAIN=Muguga;

RX MEDLINE=90158697; PubMed=1689460; DOI=10.1016/0166-6851(90)90007-9;

RA Iams K.P., Young J.R., Nene V., Desai J., Webster P., Ole-Moiyoi O.K.,

RA Musoke A.J.;

RT "Characterisation of the gene encoding a 104-kilodalton microneme-

RT rhoptry protein of Theileria parva.";

RL Mol. Biochem. Parasitol. 39:47-60(1990).

CC -!- SUBCELLULAR LOCATION: In microneme/rhoptry complexes.

CC -!- DEVELOPMENTAL STAGE: Sporozoite antigen.

CC -------------------------------------------------------------------------- CC This Swiss-Prot entry is copyright. It is produced through a collaboration uniprot_sprot.dat

CC the European Bioinformatics Institute. There are no restrictions on its CC use as long as its content is in no way modified and this statement is not CC removed.

CC -------------------------------------------------------------------------- DR EMBL; M29954; AAA18217.1; -.

DR PIR; A44945; A44945.

KW Antigen; Repeat; Sporozoite.

FT DOMAIN 1 19 Hydrophobic.

FT DOMAIN 905 924 Hydrophobic.

SQ SEQUENCE 924 AA; 103626 MW; 289B4B554A61870E CRC64;

MKFLILLFNI LCLFPVLAAD NHGVGPQGAS GVDPITFDIN SNQTGPAFLT AVEMAGVKYL

QVQHGSNVNI HRLVEGNVVI WENASTPLYT GAIVTNNDGP YMAYVEVLGD PNLQFFIKSG

DAWVTLSEHE YLAKLQEIRQ AVHIESVFSL NMAFQLENNK YEVETHAKNG ANMVTFIPRN

GHICKMVYHK NVRIYKATGN DTVTSVVGFF RGLRLLLINV FSIDDNGMMS NRYFQHVDDK

YVPISQKNYE TGIVKLKDYK HAYHPVDLDI KDIDYTMFHL ADATYHEPCF KIIPNTGFCI

TKLFDGDQVL YESFNPLIHC INEVHIYDRN NGSIICLHLN YSPPSYKAYL VLKDTGWEAT

THPLLEEKIE ELQDQRACEL DVNFISDKDL YVAALTNADL NYTMVTPRPH RDVIRVSDGS

EVLWYYEGLD NFLVCAWIYV SDGVASLVHL RIKDRIPANN DIYVLKGDLY WTRITKIQFT

QEIKRLVKKS KKKLAPITEE DSDKHDEPPE GPGASGLPPK APGDKEGSEG HKGPSKGSDS

SKEGKKPGSG KKPGPAREHK PSKIPTLSKK PSGPKDPKHP RDPKEPRKSK SPRTASPTRR

PSPKLPQLSK LPKSTSPRSP PPPTRPSSPE RPEGTKIIKT SKPPSPKPPF DPSFKEKFYD

DYSKAASRSK ETKTTVVLDE SFESILKETL PETPGTPFTT PRPVPPKRPR TPESPFEPPK

DPDSPSTSPS EFFTPPESKR TRFHETPADT PLPDVTAELF KEPDVTAETK SPDEAMKRPR

SPSEYEDTSP GDYPSLPMKR HRLERLRLTT TEMETDPGRM AKDASGKPVK LKRSKSFDDL

TTVELAPEPK ASRIVVDDEG TEADDEETHP PEERQKTEVR RRRPPKKPSK SPRPSKPKKP

KKPDSAYIPS ILAILVVSLI VGIL

//

ID 是指其身份号,924 AA是指有该序列有924个氨基酸残基

AC 获取号;

DT 序列测得的时间

DE 对该序列必要的信息的说明,如该分子的分子量为104 kDa .

OS 来源

OX NCBI分类身份号

RN [1]

RP NUCLEOTIDE SEQUENCE.

RC STRAIN=Muguga;

RX 有关Medline的出版号

RA 作者

RT 引用文献题目

RL 杂志名称,出版日期,卷期页

CC 有关它的功能描述及其它相关信息方面的描述

DR EMBL数据库中的获取号

DR PIR数据库中的获取号

KW 关键词

FT 功能区的描述

SQ 有关序列方面的信息,这部分是最主要的,因为该蛋白质的序列就列在下面。

// 表明这个条目结束。

通过对上面这段的分析,读者可以知道Swiss-Prot数据库基本框架及所蕴含的生物信息学内容。同时,人们也可在需要Swiss-Proto数据库时根据其格式编制出相应的计算机程序。这一点其实对生物信息学工作者非常重要,因为一个生物信息学分析方法首先要得到正确的数据,而正确的数据则必须以相应数据库格式为基准。有关该数据库用户可在“/”上获取。

二、PDB数据库的基本格式

我们在前面曾经说过,当一个数据库的格式与内容都知道了后,说明对这个数据库的

相关文档
最新文档