NCBI简介及序列编号说明
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
NCBI简介及序列编号说明
一:ncbi简介
ncbi的genbank与ddbj(dnadatabankofjapan)、embl的ebi数据库共同组成国际
dna数据库,每日都交换更新数据和信息,并主持两个国际年会-国际dna数据库咨询会
议和国际dna数据库协作会议,互相交换信息,因此三个库的数据实际上是相同的。
genbank存有源自于70,000多种生物的核苷酸序列。
每条纪录都存有编码区(cds)
特征的注解,还包括氨基酸的译者。
(就是美国国家生物技术信息中心(nationalcenterforbiotechnologyinformation,ncbi)创建的dna序列数据
库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测
序计划(benson等,1998)。
entrez是美国国家生物技术信息中心所提供的在线资源检索器。
该资源将genbank序列与其原始文献出处链接在一起。
entrez是由ncbi主持的一个
数据库检索系统。
它包括核酸,蛋白以及medline文摘数据库,在这三个数据库中建立了
非常完善的联系。
因此,可以从一个dna序列查询到蛋白产物以及相关文献,而且,每个
条目均有一个类邻(neighboring)信息,给出与查询条目接近的信息。
)
ddbj主要向研究者搜集dna序列信息并剥夺其数据读取号,信息来源主要就是日本的研究机构,亦拒绝接受其他国家递交国书的序列。
ebi的主要任务:⑴为科学界建立和维护生物学数据库,提供免费的数据和生物信息
服务,支持生物学数据的存储和挖掘,促进科技进步;⑵通过生物信息学的基础研究继续
推动生物学发展;⑶为各个层次的科学工作者提供生物信息学培训;⑷支持帮助边缘尖端
科技成果向工业界的转化;⑸协调欧洲生物数据的提供。
refseq就是ncbi数据库的参照序列。
refseq资料库就是ncbi将genbank的序列再
搞详尽整理的non-redundent序列资料库,它的序列格式和genbank几乎完全相同,但因
为就是全然相同的单一制资料库,为与genbank区别,refseq的accessionnumber格式和genbank相同。
二:常用序列编号
一般来说,mrna和基因组序列就是我们主要的找寻对象。
如果想要打听标准序列的话,mrna用nm_结尾的,基因组用nc_或者ac_结尾的。
1.mrna
nm_表示标准序列,为转录产物序列;成熟mrna转录本序列。
xm_则表示预测的蛋白编码序列;mrna源自基因组注解,序列相等于基因组重叠群。
大多数属预测的。
nr_则表示非编码的mRNA子序列,包含结构rnas,假基因转子等。
2.基因组
nc_完整的基因组分子序列,标记的类别包括基因组、染色体、细胞器、质粒。
ac_一
些可供选择的注释的基因组序列,主要用来标记病毒和原核生物。
三:accession编号
accession是ncbi序列数据中我们常用到编号(另一个是gi)。
accession形式为
cc_#####,其中cc为两个字母,其不同组合又可以区分为蛋白序列、核酸序列或基因组
序列,而#为位数不等的数字;accession后面又会加版本号,以cc_####.#形式表示,最
后的尾数递增表示序列信息较之前的版本有所修改。
这样accession+版本号就是一个唯一的表示,代表一个唯一的序列,而且这个编号不会改变。
1)ac_***:genomicmixed,一些可以供选择的注解的基因组序列,主要用以标记病
毒和原核生物;2)ap_***:proteinmixed,ac_标记序列对应的蛋白产物;
3)nc_***:genomicmixed,完整的基因组分子序列,标记的类别包括基因组、染色体、细胞器、质粒;4)ng_***:genomicmixed,不完整的基因组区域,提供ncbi基因组
注释途径。
比较有代表性有不转录的
假基因或者哪些很难自行化注解的基因组簇;
5)nm_***:mrnamixed,转录组产物序列;成熟mrna转录本序列;
6)np_***:proteinmixed,蛋白产物;主要就是全长mRNA氨基酸序列,但也存有一
些只有部分蛋白质的部分氨
基酸序列;
7)nr_***:rnamixed,非编码的mRNA子序列,包含结构rnas,假基因转子等;8)
nt_***:genomicautomated,bac或者鸟枪测序法的还未全然注解的测序序列;9)nw_***:genomicautomated,bac或者鸟枪法测序的还未全然注解的测序序列;
10)nz_abcd1234***:genomicautomated,收集的各种利用鸟枪法测序的测序计划,abcd代表的是计划
名称;
11)xm_***:mrnaautomated,转录产物;mrna来自基因组注释,序列相当于基因组
重叠群;12)xp_***:proteinautomated,蛋白产物;序列相当于基因组重叠群;
13)xr:rnaautomated,mRNA产物;非编码区源自基因组注解,序列相等于基因组重叠群;14)yp_***:proteinmixed,蛋白产物;不牵涉至mRNA组,主要用以标记细菌、
病毒和线粒体;15)zp_***:proteinautomated,蛋白产物;主要就是用电脑自动注解;16)ns_***:genomicautomated,未明生物分子基因组序列。
在前面介绍了一些常见序列的accession号,其实在ncbi中还有很多accession号,仅与rna相关的就有116种,这里各举一个例子供参考。
不同的编码代号代表不同的意思,如nm_开头的表示标准序列,xm_表示预测的蛋白编码序列,nr_表示非编码蛋白的mrna序列,af开头的表示克隆序列,bc开头的表示模板序列。
四:gi编号:
gi编号是ncbi网站的所有序列相关数据库的流水编号,其最有用的特征就是唯一性。
对于每一条递交给ncbi的序列,都会付给一个编号,而且这个编号对应的序列不可更改。
这个编号对应这个唯一的一条序列,类似与我们用的身份证号。
因此,利用gi在ncbi中
查询时,你只要把数据库(蛋白质/核苷酸)选对,只要输入这个号码就可以把相应的序
列调出来。
值得一提的是登录号(accessionnumber)。
每一个提交的序列,除了赢得一个gi号,还可以被剥夺一个登录号。
提交序列的作者利用登录号对序列展开修正和健全。
每一次修
正的序列可以赢得一个代莱gi号,登录号维持不变,但可以新增一个流水的版本号。
因此,gi号和带版本号的登录号都唯一定位到唯一条序列。
(locus发生在genbank中的locus行以及ddbj记录(embl的id行)就是genbank
中最初的识别器。
由于采用locus(或id)名称做为对核酸序列唯一识别器的困难,国际
核酸序列数据库合作者们(ddbj/embl/genbank)导入了序列号。
ncbi给每个记录剥夺一
个gi(geninfo)标识符。
这意味著译者产物蛋白质序列(不是直观附属于dna记录,如
同在genbank记录中表明的),也存有自己的gi号码。
一个特定的标识符当且仅当序列
修改时才修改。
nid行是核苷酸序列的gi号码(geninfoidentifier)后缀字母(d,e或g)说明就是哪一个数据库分解成了这个号码,或这一号码用作哪个数据库。
因为ncbi首
先采用了这个号码,所以ddbj和embl用ncbi(genbank)选定的号码去充填他们的数据库。
直观地说道,一个gi号码对应于一个核酸序列(蛋白质序列也存有gi号码)。
当序
列改变时,gi号码也发生改变,但检索号码维持不变。
在形式上,它只是直观的整数(所以有时被称作gi号)。
它只是一些特定序列的识别器。
假设一个序列重新加入genbank,取值序列号u00001。
当该序列在ncbi所内部处置时,它重新加入所谓的id数据库。
id
证实以前从未见过u00001,就给它一个gi号54。
当递交器通过发生改变原文修正记录时,u00001又重新加入id。
id看见该记录发生过,恢复正常原先的u00001和崭新记录展开比较,如果完全相同,则给该记录gi号54;如果不相同,即使只有一对碱基相同,则给崭
新gi号88。
然而因为原数据库的意义,崭新序列仍维持序列号u00001。
这时id标识旧
有记录(gi54)的替代时间,并将它重新加入历史命令它被gi88的记录替代。
id也重新
加入历史gi88表示它替代了gi54。
序列号就是对locus/id号的改良,但实际采用中,问题和严重不足就是似乎的。
比如,当序列对于时间就是平衡时,许多使用者辨认出用相同
的序列号为丛藓科扭口藓透出的序列并不总是相同的。
这是因为序列号标明了整个数据库
的记录,一旦记录被修正了(或者说从已经开始部分填入了1000bp)的时候,序列号维持不变(只是相同记录的改良版)。
如果我们分析初始序列和记录序列u00001的第100个
边线假设就是与蛋白质有关的位点,升级后一个全然相同的序列将在第100个边线上。
所以,在genebank中的locus行及就相等于ddbj2或embl中的id行,id号就是永恒不变的,而gi号码在序列改变时则可以被指派代莱gi号码,适当地其多肽段的gi号码也可以适当地出现发生改变。
)。