NCBI中各符号代表的意思
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
GenBank 中字符的意思
Nucleotide 数据库分为三个子数据库:
·EST :表达序列标记数据库
·GSS :基因组测序序列数据库
·CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列
●MeSH: 查询缩写基因的全称
3、RefSeq(Reference Sequence)序列接受号:
(1)mRNA 记录(NM_*):
e.g.:NM_000492
(2)基因组的DNA重叠群(NT_*):
e.g.:NT_000347
(3)完整的基因组或染色体(NC_*):
e.g.:NC_000907
(4)基因组的局部区域(NG_*):
e.g.:NG_000019
(5)从人类基因组注释、加工得到的序列模型(XM,XP,or XR_*):
e.g.:XM_000483
●GenBank记录中特性表中的主要关键词:
关键词解释关键词解释
misc_feature生物学特性无法用特性
表关键词描述的序列
promoter转录起始区
misc_difference序列特性无法用特性表
关键词描述的序列CAAT_signal真核启动子上游的CAAT
盒,与RNA结合相关
conflict同一序列在不同的研究
中在位点或区域上有差
异
TATA_signal真核启动子的TATA盒
unsure序列不能确定的区域-35_signal原核启动子中的-35框old_sequence该序列对以前的版本做
过修订
-10_signal原核启动子的Pribow盒variation包含稳定突变的序列GC_signal真核启动子的GC盒modified_base修饰过的核苷酸RBS核糖体结合位点
gene已识别为基因或已命名
的序列区域polyA_signal RNA转录本的剪切识别
位点
misc_signal无法用信号特性关键词
描述的信号序列
enhancer增强子
关键词解释关键词解释
attenuator与转录终止有关的序列CDS蛋白质编码序列terminator转录终止序列sig_peptide编码信号肽的序列
rep_origin双链DNA复制起始区transit_peptide转运蛋白编码序列misc_RNA无法用RNA关键词描述的
转录物或RNA产物
mat_peptide编码成熟肽的序列prim_transcript初始转录本intron内含子
precursor_RNA前体RNA polyA_site RNA转录本的多聚腺苷
酸化位点
mRNA信使RNA rRNA核糖体RNA
5’clip前体转录本中被剪切掉的
5’端序列
tRNA转运RNA
3’ clip前体转录本中被剪切掉的
3’端序列
scRNA小细胞质RNA
5’UTR5’非翻译区snRNA小核RNA
3’UTR exon 3’非翻译区
外显子
snoRNA加工和修饰rRNA的小
核RNA
关键词解释关键词解释immunoglobulin_related repeat_unit单个的重复元件
C_region免疫相关蛋白上的不变区LTR长末端重复序列D_segment免疫球蛋白重链的可变
区,
T细胞受体β链
Satellite卫星重复序列
J_ segment免疫球蛋白重链、轻链以
及T细胞α、β、γ的结
合链misc_binding无法描述的核酸序列
结合位点
N_ region插入重排免疫球蛋白片段
间的核苷酸primer_bind复制、转录的引物结
合位点
S_ region免疫球蛋白重链的开关区protein_bind蛋白质结合区
V_ region编码免疫球蛋白的可变区
N末端的序列
STS测序标签位点
V_ segment编码免疫球蛋白的可变区
的序列misc_recomb无法用重组特性关键
词描述的重组事件
repeat_region基因组中所包含的重复序
列iDNA通过重组所消除的
DNA
misc_structure无法用结构关键词描述的
核酸序列高级结构或构型
stem_loop 发夹结构
D_loop线粒体中DNA中的取
代环
◆GenBank记录中特性表中的限定词:
限定词含义限定词含义
/allele=给定基因的等位基
因/codon_start=相对于序列第一个碱
基,编码序列密码子的
偏移量
/bound_moiety=嵌合范围/country=DNA样本的来源国
/cell_type=获得序列的细胞类
型/db_xref=其他数据库信息的交
叉索引号
/citation=已被引用的参考文
献数
/direction=DNA复制方向
/clone_lib=获得序列的克隆文
库/environmental_sample=序列直接从环境材料
中获得而没有指明来
源物种
限定词含义限定词含义
/exception=指明DNA序列未按通常的
生物学规律翻译,如RNA
编辑
/PCR_conditi-ons=描述PCR的反应条件
/frequency=在种群中发生变异的频率/pop_variant=获得序列的群体变异种
名称
/germline如果序列是DNA并来源于
免疫球蛋白家族,则表示该
序列来源于未重排DNA
/product=序列编码产物的名称
/insertion_seq=序列来源于某种插入元件/anticodon=tRNA反义密码子的位置
及它所编码的氨基酸
/isolate=序列来源的生物个体/cell_line=获得序列的细胞系
/lab_host=为扩增序列来源物种所用
的实验室宿主
/chromosome=获得序列的染色体
/macronuclear指明DNA来源于染色体分
化的大核期
/clone=获得序列的克隆子
/note=评论及附加信息/codon=指出与参考密码子不同
的密码子
/organelle=获得序列的细胞器/EC_number=序列产物的酶学编号
/sub_strain=获得序列的来源微生物亚
种/transl_table=描述在翻译中与通用密
码表不同的密码表
/tissue_type=获得序列组织类型/usedin=表明该特性在其他检索
中也被使用
/translation=按通用或指定的密码子表
翻译的氨基酸序列
/virion病毒颗粒
限定词含义限定词含义
/cons_splice=区分内含子剪切位点和
“5‘-GT.AG-3'”剪切位点/map=相关特性在基因图谱上的
位置
/cultivar=所获序列植物的栽培变种/mod_base=被修饰碱基的简写
/dev_stage=序列来源于某种生物的特
定发育阶段/number=从5’→3’注明遗传元件的
顺序
/evidence=序列特性来源于实验还是
推理/organism=提供测序用遗传物质的物
种的科学名称
/focus指出在记录中的来源特性
在其他物种中还有不同的
来源特性
/phenotype=序列特性所导致的表型
/function=序列所代表的功能/plasmid=获得序列的质粒名称
/haplotype=序列来源于某种物种的单
倍体
/protein_id=蛋白质的检索号
/isolation_sou-rce=描述序列来源物种的生
理、环境和地理信息
/proviral整合在基因组中的前病毒/label=序列特性的俗名/rearranged如果序列是DNA并来源于
免疫球蛋白家族,则表示该
序列来源于重排DNA
限定词含义限定词含义
/rpt_family=重复序列/transposon=转座子
/rpt_unit=指明重复区域的重复元件
构成/variety=获得序列的生物变
种
/serotype=同一物种的不同血清学特
征
/pseudo假基因
/sex=获得序列的物种性别/replace=表明特性间的间隔
序列已被替换
/specimen_vou-cher =指明来源物种保存于什么
地方
/rpt_type=重复序列的组织方
式
/strain=获得序列的菌珠/sequenced_m-ol=获得序列的分子类
型
/sub_species=获得序列的来源物种的亚
种/serovar=同一原核生物的血
清学特征
/tissue_lib=获得序列组织库/specific_host=获得序列的天然宿
主
/transgenic指明物种的来源特性是否
是转基因受体
/standard-name=特性的通用名称
/transl_except=标明序列中未按指定密码
子表翻译的氨基酸的位置
/sub_clone=获得序列的亚克隆
◆BLAST
1.blastn (nucleotide blast)是核酸序列到核酸库中的一种查询。
库中存在的每条已知序
列都将同所查序列作一对一地核酸序列比对。
2.blastp (protein blast)是蛋白序列到蛋白库中的一种查询。
库中存在的每条已知序列
将逐一地同每条所查序列作一对一的序列比对。
3.blastx是核酸序列到蛋白库中的一种查询。
先将核酸序列翻译成蛋白序列(一条核
酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
4.tblastn是蛋白序列到核酸库中的一种查询。
与blastx相反,它是将库中的核酸序列
翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5.tblastx是核酸序列到核酸库中的一种查询。
此种查询将库中的核酸序列和所查的核
酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。
Accession Molecule Method Note
molecule. This prefix is used
for records that are provided to
reflect an alternate assembly
or annotation. Primarily used
for viral, prokaryotic records. AP_123456 Protein Mixed Protein products; alternate
protein record. This prefix is
used for records that are
provided to reflect an
alternate assembly or
annotation. The AP_ prefix was
originally designated for
bacterial proteins but this
usage was changed.
NC_123456 Genomic Mixed Complete genomic molecules
including genomes,
chromosomes, organelles,
plasmids.
NG_123456 Genomic Mixed Incomplete genomic region;
supplied to support the NCBI
genome annotation pipeline.
Represents either
non-transcribed pseudogenes,
or larger regions representing
a gene cluster that is difficult
to annotate via automatic
methods.
NM_123456 NM_123456789 mRNA Mixed Transcript products; mature
messenger RNA (mRNA)
transcripts.
NP_123456 NP_123456789 Protein Mixed Protein products; primarily
full-length precursor products
but may include some partial
proteins and mature peptide
products.
NR_123456 RNA Mixed Non-coding transcripts
including structural RNAs,
transcribed pseudogenes, and
others.
NT_123456 Genomic Automated Intermediate genomic
assemblies of BAC and/or Whole
Genome Shotgun sequence data.
NW_123456 NW_123456789 Genomic Automated Intermediate genomic
assemblies of BAC or Whole
Genome Shotgun sequence data.
NZ_ABCD12345678 Genomic Automated A collection of whole genome
shotgun sequence data for a
project. Accessions are not
tracked between releases. The
first four characters following
the underscore (e.g. 'ABCD')
identifies a genome project.
XM_123456 XM_123456789 mRNA Automated Transcript products; model mRNA
provided by a genome annotation
process; sequence corresponds
to the genomic contig.
XP_123456 XP_123456789 Protein Automated Protein products; model
proteins provided by a genome
annotation process; sequence
corresponds to the genomic
contig.
XR_123456 RNA Automated Transcript products; model
non-coding transcripts
provided by a genome annotation
process; sequence corresponds
to the genomic contig.
YP_123456 YP_123456789 Protein Mixed Protein products; no
corresponding transcript
record provided. Primarily used
for bacterial, viral, and
mitochondrial records.
ZP_12345678 Protein Automated Protein products; annotated on
NZ_ accessions (often via
computational methods).
NS_123456 Genomic Automated Genomic records that represent
an assembly which does not
reflect the structure of a real
biological molecule. The
assembly may represent an
unordered assembly of unplaced
scaffolds, or it may represent
an assembly of DNA sequences
generated from a biological
sample that may not represent a
single organism.。