NCBI中各符号代表的意思

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

GenBank 中字符的意思Nucleotide 数据库分为三个子数据库：
·EST :表达序列标记数据库
·GSS :基因组测序序列数据库
·CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列
●MeSH: 查询缩写基因的全称
3、RefSeq（Reference Sequence）序列接受号:
（1）mRNA 记录（NM_*）:
e.g.:NM_000492
（2）基因组的DNA重叠群（NT_*）:
e.g.:NT_000347
（3）完整的基因组或染色体（NC_*）:
e.g.:NC_000907
（4）基因组的局部区域（NG_*）:
e.g.:NG_000019
页脚内容1
（5）从人类基因组注释、加工得到的序列模型（XM，XP，or XR_*）：
e.g.:XM_000483
●GenBank记录中特性表中的主要关键词:
关键词解释关键词解释
misc_feature生物学特性无法用特
性表关键词描述的序
列
promoter转录起始区
misc_difference序列特性无法用特性
表关键词描述的序列CAAT_signal真核启动子上游的
CAAT盒,与RNA结合相
关
conflict同一序列在不同的研
究中在位点或区域上
有差异
TATA_signal真核启动子的TATA盒
unsure序列不能确定的区域-35_signal原核启动子中的-35
框
old_sequence该序列对以前的版本-10_signal原核启动子的Pribow
页脚内容2
做过修订盒
variation包含稳定突变的序列GC_signal真核启动子的GC盒modified_base修饰过的核苷酸RBS核糖体结合位点
gene已识别为基因或已命
名的序列区域polyA_signal RNA转录本的剪切识
别位点
misc_signal无法用信号特性关键
词描述的信号序列
enhancer增强子
关键词解释关键词解释attenuator与转录终止有关的序列CDS蛋白质编码序列terminator转录终止序列sig_peptide编码信号肽的序列rep_origin双链DNA复制起始区transit_peptide转运蛋白编码序列misc_RNA无法用RNA关键词描述的转录
物或RNA产物
mat_peptide编码成熟肽的序列
页脚内容3
prim_transcript初始转录本intron内含子
precursor_RNA前体RNA polyA_site RNA转录本的多聚腺苷酸化
位点
mRNA信使RNA rRNA核糖体RNA
5’clip前体转录本中被剪切掉的5’
端序列
tRNA转运RNA
3’ clip前体转录本中被剪切掉的3’
端序列
scRNA小细胞质RNA
5’UTR5’非翻译区snRNA小核RNA
3’UTR exon 3’非翻译区
外显子
snoRNA加工和修饰rRNA的小核RNA
关键词解释关键词解释immunoglobulin_related repeat_unit单个的重复元件C_region免疫相关蛋白上的不变区LTR长末端重复序列
页脚内容4
D_segment免疫球蛋白重链的可变区，
T细胞受体β链
Satellite卫星重复序列
J_ segment免疫球蛋白重链、轻链以及T
细胞α、β、γ的结合链misc_binding无法描述的核酸序列结
合位点
N_ region插入重排免疫球蛋白片段间
的核苷酸primer_bind复制、转录的引物结合位
点
S_ region免疫球蛋白重链的开关区protein_bind蛋白质结合区
V_ region编码免疫球蛋白的可变区N末
端的序列
STS测序标签位点
V_ segment编码免疫球蛋白的可变区的
序列misc_recomb无法用重组特性关键词
描述的重组事件
repeat_region基因组中所包含的重复序列iDNA通过重组所消除的DNA
misc_structure无法用结构关键词描述的核
酸序列高级结构或构型
stem_loop发夹结构
D_loop线粒体中DNA中的取代
页脚内容5
环
◆GenBank记录中特性表中的限定词:
限定词含义限定词含义
/allele=给定基因的等位基因/codon_start=相对于序列第一个碱基，
编码序列密码子的偏移量/bound_moiety=嵌合范围/country=DNA样本的来源国
/cell_type=获得序列的细胞类型/db_xref=其他数据库信息的交叉索
引号
/citation=已被引用的参考文献数/direction=DNA复制方向
/clone_lib=获得序列的克隆文库/environmental_sample=序列直接从环境材料中获
得而没有指明来源物种
限定词含义限定词含义
/exception=指明DNA序列未按通常的生物
/PCR_conditi-ons=描述PCR的反应条件
学规律翻译，如RNA编辑
页脚内容6
/frequency=在种群中发生变异的频率/pop_variant=获得序列的群体变异种名
称
/germline如果序列是DNA并来源于免疫
/product=序列编码产物的名称
球蛋白家族，则表示该序列来
源于未重排DNA
/insertion_seq=序列来源于某种插入元件/anticodon=tRNA反义密码子的位置及
它所编码的氨基酸
/isolate=序列来源的生物个体/cell_line=获得序列的细胞系
/chromosome=获得序列的染色体
/lab_host=为扩增序列来源物种所用的实
验室宿主
/clone=获得序列的克隆子
/macronuclear指明DNA来源于染色体分化的
大核期
/note=评论及附加信息/codon=指出与参考密码子不同的
密码子
/organelle=获得序列的细胞器/EC_number=序列产物的酶学编号
/sub_strain=获得序列的来源微生物亚种/transl_table=描述在翻译中与通用密码
页脚内容7
表不同的密码表
/tissue_type=获得序列组织类型/usedin=表明该特性在其他检索中
也被使用
/translation=按通用或指定的密码子表翻译
的氨基酸序列
/virion病毒颗粒
限定词含义限定词含义
/cons_splice=区分内含子剪切位点和
“5‘-GT.AG-3'”剪切位点
/map=相关特性在基因图谱上的位置/cultivar=所获序列植物的栽培变种/mod_base=被修饰碱基的简写
/dev_stage=序列来源于某种生物的特定
发育阶段
/number=从5’→3’注明遗传元件的顺序
/evidence=序列特性来源于实验还是推
理/organism=提供测序用遗传物质的物种的
科学名称
/focus指出在记录中的来源特性在/phenotype=序列特性所导致的表型
页脚内容8
其他物种中还有不同的来源
特性
/function=序列所代表的功能/plasmid=获得序列的质粒名称
/protein_id=蛋白质的检索号
/haplotype=序列来源于某种物种的单倍
体
/isolation_sou-rce=描述序列来源物种的生理、环
/proviral整合在基因组中的前病毒
境和地理信息
/label=序列特性的俗名/rearranged如果序列是DNA并来源于免疫
球蛋白家族，则表示该序列来
源于重排DNA
限定词含义限定词含义
/rpt_family=重复序列/transposon=转座子
/variety=获得序列的生物变种/rpt_unit=指明重复区域的重复元件构
成
/serotype=同一物种的不同血清学特征/pseudo假基因
页脚内容9
/sex=获得序列的物种性别/replace=表明特性间的间隔序列
已被替换
/rpt_type=重复序列的组织方式/specimen_vou-cher=指明来源物种保存于什么地
方
/strain=获得序列的菌珠/sequenced_m-ol=获得序列的分子类型/sub_species=获得序列的来源物种的亚种/serovar=同一原核生物的血清学
特征
/tissue_lib=获得序列组织库/specific_host=获得序列的天然宿主
/standard-name=特性的通用名称
/transgenic指明物种的来源特性是否是
转基因受体
/sub_clone=获得序列的亚克隆
/transl_except=标明序列中未按指定密码子
表翻译的氨基酸的位置
◆BLAST
1.blastn (nucleotide blast)是核酸序列到核酸库中的一种查询。

库中存在的每条已知序列都将同
所查序列作一对一地核酸序列比对。

2.blastp (protein blast)是蛋白序列到蛋白库中的一种查询。

库中存在的每条已知序列将逐一地
页脚内容10
同每条所查序列作一对一的序列比对。

3.blastx是核酸序列到蛋白库中的一种查询。

先将核酸序列翻译成蛋白序列（一条核酸序列
会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。

4.tblastn是蛋白序列到核酸库中的一种查询。

与blastx相反，它是将库中的核酸序列翻译成
蛋白序列，再同所查序列作蛋白与蛋白的比对。

5.tblastx是核酸序列到核酸库中的一种查询。

此种查询将库中的核酸序列和所查的核酸序列
都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。

Accession Molecule Method Note
AC_123456Genomic Mixed Alternate complete genomic molecule.
This prefix is used for records that are
provided to reflect an alternate
assembly or annotation. Primarily
used for viral, prokaryotic records.
AP_123456Protein Mixed Protein products; alternate protein
record. This prefix is used for records
that are provided to reflect an
alternate assembly or annotation. The
AP_ prefix was originally designated
for bacterial proteins but this usage
页脚内容11
was changed.
NC_123456Genomic Mixed Complete genomic molecules including
genomes, chromosomes, organelles,
plasmids.
NG_123456Genomic Mixed Incomplete genomic region; supplied
to support the NCBI genome annotation
pipeline. Represents either
non-transcribed pseudogenes, or
larger regions representing a gene
cluster that is difficult to annotate via
automatic methods.
NM_123456 NM_123456789mRNA Mixed Transcript products; mature messenger
RNA (mRNA) transcripts.
NP_123456 NP_123456789Protein Mixed Protein products; primarily full-length
precursor products but may include
some partial proteins and mature
peptide products.
NR_123456RNA Mixed Non-coding transcripts including
structural RNAs, transcribed
页脚内容12
pseudogenes, and others.
NT_123456Genomic Automated Intermediate genomic assemblies of
BAC and/or Whole Genome Shotgun
sequence data.
NW_123456 NW_123456789Genomic Automated Intermediate genomic assemblies of
BAC or Whole Genome Shotgun
sequence data.
NZ_ABCD12345678Genomic Automated A collection of whole genome shotgun
sequence data for a project. Accessions
are not tracked between releases. The
first four characters following the
underscore (e.g. 'ABCD') identifies a
genome project.
XM_123456 XM_123456789mRNA Automated Transcript products; model mRNA
provided by a genome annotation
process; sequence corresponds to the
genomic contig.
XP_123456 XP_123456789Protein Automated Protein products; model proteins
provided by a genome annotation
process; sequence corresponds to the
页脚内容13
genomic contig.
XR_123456RNA Automated Transcript products; model non-coding
transcripts provided by a genome
annotation process; sequence
corresponds to the genomic contig.
YP_123456 YP_123456789Protein Mixed Protein products; no corresponding
transcript record provided. Primarily
used for bacterial, viral, and
mitochondrial records.
ZP_12345678Protein Automated Protein products; annotated on NZ_
accessions (often via computational
methods).
NS_123456Genomic Automated Genomic records that represent an
assembly which does not reflect the
structure of a real biological molecule.
The assembly may represent an
unordered assembly of unplaced
scaffolds, or it may represent an
assembly of DNA sequences generated
from a biological sample that may not
页脚内容14
represent a single organism.页脚内容15。