第三章 生物信息数据库-检索及其应用(2)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
解 释
蛋白质编码序列 编码信号肽的序列 转运蛋白编码序列 编码成熟肽的序列 内含子 RNA转录本的多聚腺苷酸 化位点 核糖体RNA 转运RNA 小细胞质RNA 小核RNA
3’UTR exon
3’非翻译区 外显子
snoRNA
加工和修饰rRNA的小核 RNA
关键词
immunoglobulin_r elated C_region D_segment J_ segment N_ region S_ region V_ region
特殊标志符的格式(核酸序列):
4 、 PDB序列接受号:1个阿拉伯数字+3个字母 e.g.:1TUP
ቤተ መጻሕፍቲ ባይዱ
序列接受号的检索限定词为[ACCN]or[ACCESSION]
简介 检索界面 基本检索功能
(一)字段限制检索、强制短语检索
(二)特殊标志符检索
(三)序列长度检索
序列长度的检索限定词:[SLEN]
检索史管理(History) 剪贴板管理(Clipboard) 详细匹配过程(Details)
简介
检索入口 基本检索功能 特征栏辅助检索
检索结果的显示
GenBank记录中特性表中的主要关键词:
关键词
misc_feature misc_difference conflict unsure old_sequence
解 释
与转录终止有关的序列 转录终止序列 双链DNA复制起始区 无法用RNA关键词描述的 转录物或RNA产物 初始转录本 前体RNA 信使RNA 前体转录本中被剪切掉的 5’端序列 前体转录本中被剪切掉的 3’端序列 5’非翻译区 CDS
关键词
sig_peptide transit_peptide mat_peptide intron polyA_site rRNA tRNA scRNA snRNA
1510[SLEN]
简介 检索界面 基本检索功能
(一)字段限制检索、强制短语检索
(二)特殊标志符检索
(三)序列长度检索
(四)范围检索
范围检索:中间用冒号连接
1、序列接受号范围检索:
AF114696:AF114714[ACCN]
2、序列长度范围检索:
3000:4000[SLEN]
3、日期范围检索:
数据库查询
定义:是指对序列、结构以及各种二次数据库中的注释信 息进行关键词匹配查找。
如:在蛋白质序列数据库SwissProt中输入关键词insulin( 胰岛素),即可找出该数据库所有胰岛素或与胰岛素有关 的序列条目(Entry)
数据库检索
它和互联网上通过搜索引擎(Search engine)查找需要的信
LTR Satellite misc_binding primer_bind protein_bind
编码免疫球蛋白的可变区N末端 STS 的序列
V_ segment
编码免疫球蛋白的可变区的序 列
misc_recomb 无法用重组特性关键词描 述的重组事件 通过重组所消除的DNA
repeat_region
2005/01:2006/09/26[MDAT]or[PDAT]
简介 检索界面 基本检索功能 特征栏辅助检索
限制检索(Limits)
索引检索(Preview/Index)
检索史管理(History) 剪贴板管理(Clipboard) 详细匹配过程(Details)
预检索/索引检索
详细匹配过程
限制数据发布日期
限制数据发布日期
限制数据修订日期
限制数据修订日期
简介 检索界面 基本检索功能 特征栏辅助检索
限制检索(Limits)
索引检索(Preview/Index)
索引检索输入框
序列特性关键词索引
简介 检索界面 基本检索功能 特征栏辅助检索
限制检索(Limits) 索引检索(Preview/Index)
限制检索
检索史管理
剪贴板管理
限制检索
包含其余四种检索
简介 检索界面 基本检索功能 特征栏辅助检索
限制检索(Limits)
限制检索范围
限制检索范围
限制分子类型
排除某种类型 的序列
限制分子类型
限制基因位点
限制基因位点
限制序列片段的显示
限制序列片段的显示
限制数据来源
限制数据来源
解 释
生物学特性无法用特性表关 键词描述的序列 序列特性无法用特性表关键 词描述的序列 同一序列在不同的研究中在 位点或区域上有差异 序列不能确定的区域 该序列对以前的版本做过修 订
关键词
promoter CAAT_signal TATA_signal -35_signal -10_signal
解 释
GC_signal
RBS polyA_signal enhancer
真核启动子的GC盒
核糖体结合位点 RNA转录本的剪切识别位点 增强子
关键词
attenuator terminator rep_origin misc_RNA prim_transcript precursor_RNA mRNA 5’clip 3’ clip 5’UTR
限定词
/PCR_conditions= /pop_variant= /product=
含 义
描述PCR的反应条件 获得序列的群体变异种名 称 序列编码产物的名称
/insertion_seq= /isolate= /lab_host= /macronuclear /note= /organelle=
/anticodon= /cell_line= /chromosome= /clone= /codon= /EC_number=
基因组中所包含的重复序列
iDNA
关键词
misc_structure
stem_loop D_loop
解 释
无法用结构关键词描述的核酸 序列高级结构或构型
发夹结构 线粒体中DNA中的取代环
关键词
解 释
GenBank记录中特性表中的限定词:
限定词
/allele= /bound_moiety= /cell_type=
简介
GenBank数据库是由美国国立生物技术信息中心(
NCBI)维护的一级核酸序列数据库。
GenBank数据库的数据来源有三种:
1、直接来源于测序工作者提交的序列;
2、与其它数据机构协作交换的数据;
3、美国专利局提供的专利数据。
简介 检索界面
1、基本检索界面
Nucleotide 数据库分为三个子数据库:
EST :表达序列标记数据库
GSS :基因组测序序列数据 库
CoreNucleotide :包含所有 未被以上两个子数据库收 录的核苷酸序列
简介
检索界面
1、基本检索界面
2、跨库检索界面
简介 检索界面 基本检索功能
(一)字段限制检索、强制短语检索
(二)特殊标志符检索
(三)序列长度检索
(四)范围检索
特殊标志符的格式(核酸序列):
3、RefSeq(Reference Sequence)序列接受号:
(1)mRNA 记录(NM_*):
e.g.:NM_000492 (2)基因组的DNA重叠群(NT_*):
e.g.:NT_000347
(3)完整的基因组或染色体(NC_*): e.g.:NC_000907 (4)基因组的局部区域(NG_*): e.g.:NG_000019 (5)从人类基因组注释、加工得到的序列模型(XM,XP,or XR_*): e.g.:XM_000483
简介 检索界面 基本检索功能
(一)字段限制检索、强制短语检索
ras
ras[GENE]
检索限定词:
1、基因名称的检索限定词:[GENE] or [GENE NAME] 2、生物体名称的检索限定词:[ORGN] or [ORGANISM]
3、作者姓名的检索限定词:[AUTH] or [AUTHOR]
含 义
给定基因的等位基因 嵌合范围 获得序列的细胞类型
限定词
/codon_start= /country= /db_xref=
含 义
相对于序列第一个碱基,编 码序列密码子的偏移量 DNA样本的来源国 其他数据库信息的交叉索引 号
/citation=
/clone_lib=
已被引用的参考文献数
获得序列的克隆文库
/direction=
/environmental_ sample=
DNA复制方向
序列直接从环境材料中获得 而没有指明来源物种
限定词
/exception= /frequency= /germline
含 义
指明DNA序列未按通常的生 物学规律翻译,如RNA编辑 在种群中发生变异的频率 如果序列是DNA并来源于免 疫球蛋白家族,则表示该序 列来源于未重排DNA 序列来源于某种插入元件 序列来源的生物个体 为扩增序列来源物种所用的 实验室宿主 指明DNA来源于染色体分化 的大核期 评论及附加信息 获得序列的细胞器
检索史管理(History)
简介 检索界面 基本检索功能 特征栏辅助检索
限制检索(Limits)
索引检索(Preview/Index) 检索史管理(History) 剪贴板管理(Clipboard)
简介 检索界面 基本检索功能 特征栏辅助检索
限制检索(Limits)
预检索/索引检索(Preview/Index)
序列数据库检索
EMBL:(Sequence
Retrieval System, SRS)
NCBI:(Entrez)是
NCBI为用户提供整合的
访问序列、定位、分类、 和结构数据的搜索和检索 系统。
NCBI
GenBank
NCBI网站网址: http://www.ncbi.nlm.nih.gov
转录起始区 真核启动子上游的CAAT盒, 与RNA结合相关 真核启动子的TATA盒 原核启动子中的-35框 原核启动子的Pribow盒
variation
modified_base gene misc_signal
包含稳定突变的序列
修饰过的核苷酸 已识别为基因或已命名的序 列区域 无法用信号特性关键词描述 的信号序列
简介 检索界面 基本检索功能
(一)字段限制检索、强制短语检索 (二)特殊标志符检索
特殊标志符的格式(核酸序列) :
1、序列辨认号(GI):一串阿拉伯数字 e.g.:19440733
特殊标志符的格式(核酸序列) :
1、序列辨认号(GI):一串阿拉伯数字 e.g.:19440733
2、GenBank/EMBL/DDBJ序列接受号: (1)1个字母+5个阿拉伯数字 e.g.:U12345 (2)2个字母+6个阿拉伯数字 e.g.:AY123456,Af123456
解 释
关键词
repeat_unit
解 释
单个的重复元件 长末端重复序列 卫星重复序列 无法描述的核酸序列结合 位点 复制、转录的引物结合位 点 蛋白质结合区 测序标签位点
免疫相关蛋白上的不变区 免疫球蛋白重链的可变区, T细胞受体β链 免疫球蛋白重链、轻链以及T细 胞α、β、γ的结合链 插入重排免疫球蛋白片段间的 核苷酸 免疫球蛋白重链的开关区
在生物信息学中,数据库搜索是专门针对核酸和蛋白质 序列数据库而言,搜索的对象,不是数据库的注释信息 ,而是序列信息
数据库查询和数据库搜索在生物信息学中是两个完全不
同的概念,所要解决的问题、所采用的方法和得到的结
果均不相同
核酸数据库序列查询系统
GenBank 查询检索通过因特网上的序列查询系统(Entrez)服务完成。 NCBI的网址是:http://www.ncbi.nlm.nih.gov EMBL核酸序列数据库 查询检索通过因特网上的序列提取系统(SRS)服务完成。 数据库网址是:http://www.ebi.ac.uk/embl/。 SRS的网址是:http://srs.ebi.ac.uk/。 DDBJ数据库 使用主页上提供的SRS工具进行数据检索和序列分析,DDBJ 的网址是:http://www.ddbj.nig.ac.jp/。
GenBank数据库检索及其应用 ——Entrez检索功能
南京师范大学
比较基因组学与生物信息学实验室
提纲
核酸数据库
核酸序列数据库检索入口 核酸序列数据库序列检索 ENTREZ的使用
分子生物学数据库的应用
可以分为两个主要方面
• 数据库查询(database query) • 数据库搜索(database search)。
息是一个概念。
是数据库查询的一种
数据库搜索
定义:在分子生物信息学中有特定含义,它是指通过特 定的序列相似性比对算法,找出核酸或蛋白质序列数据 库中与检测序列具有一定程度相似性的序列。
通过数据库搜索,可以在序列数据库中找出与该检测序 列(query sequence)具有一定相似性的序列。
数据库查询、检索和搜索