第三章生物信息数据库检索及其应用文稿演示
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
简介 检索界面 基本检索功能
(一)字段限制检索、强制短语检索 (二)特殊标志符检索 (三)序列长度检索
序列长度的检索限定词:[SLEN]
1510[SLEN]
简介 检索界面 基本检索功能
(一)字段限制检索、强制短语检索
(二)特殊标志符检索 (三)序列长度检索 (四)范围检索
范围检索:中间用冒号连接
限制数据来源
限制数据来源
简介 检索界面 基本检索功能
(一)字段限制检索、强制短语检索
ras
ras[GENE]
检索限定词:
1、基因名称的检索限定词:[GENE] or [GENE NAME] 2、生物体名称的检索限定词:[ORGN] or [ORGANISM] 3、作者姓名的检索限定词:[AUTH] or [AUTHOR]
简介 检索界面 基本检索功能
(一)字段限制检索、强制短语检索 (二)特殊标志符检索
特殊标志符的格式(核酸序列) :
1、序列辨认号(GI):一串阿拉伯数字 e.g.:19440733
特殊标志符的格式(核酸序列) :
1、序列辨认号(GI):一串阿拉伯数字 e.g.:19440733
2、GenBank/EMBL/DDBJ序列接受号: (1)1个字母+5个阿拉伯数字 e.g.:U12345 (2)2个字母+6个阿拉伯数字 e.g.:AY123456,Af123456
限制检索
预检索/索引检索 检索史管理
详细匹配过程 剪贴板管理
限制检索
包含其余四种检索
简介 检索界面 基本检索功能 特征栏辅助检索
限制检索(Limits)
限制检索范围
限制检索范围
限制分子类型
排除某种类型 的序列
限制分子类型
限制基因位点
限制基因位点
限制序列片段的显示
限制序列片段的显示
序列数据库检索
➢ EMBL:(Sequence RetriLeabharlann Baiduval System, SRS)
➢ NCBI:(Entrez)是 NCBI为用户提供整合的 访问序列、定位、分类、 和结构数据的搜索和检索 系统。
NCBI
GenBank
NCBI网站网址: http://www.ncbi.nlm.nih.gov
EST :表达序列标记数据库
GSS :基因组测序序列数据 库
CoreNucleotide :包含所有 未被以上两个子数据库收 录的核苷酸序列
简介
检索界面
1、基本检索界面 2、跨库检索界面
简介 检索界面 基本检索功能
(一)字段限制检索、强制短语检索 (二)特殊标志符检索 (三)序列长度检索 (四)范围检索
数据库检索
它和互联网上通过搜索引擎(Search engine)查找需要的信 息是一个概念。 是数据库查询的一种
数据库搜索
定义:在分子生物信息学中有特定含义,它是指通过特定 的序列相似性比对算法,找出核酸或蛋白质序列数据库中 与检测序列具有一定程度相似性的序列。 通过数据库搜索,可以在序列数据库中找出与该检测序列 (query sequence)具有一定相似性的序列。
1、序列接受号范围检索: AF114696:AF114714[ACCN]
2、序列长度范围检索: 3000:4000[SLEN]
3、日期范围检索: 2005/01:2006/09/26[MDAT]or[PDAT]
简介 检索界面
基本检索功能
特征栏辅助检索
限制检索(Limits) 索引检索(Preview/Index) 检索史管理(History) 剪贴板管理(Clipboard) 详细匹配过程(Details)
(4)基因组的局部区域(NG_*): e.g.:NG_000019
(5)从人类基因组注释、加工得到的序列模型(XM,XP,or XR_*): e.g.:XM_000483
特殊标志符的格式(核酸序列):
4 、 PDB序列接受号:1个阿拉伯数字+3个字母 e.g.:1TUP
序列接受号的检索限定词为[ACCN]or[ACCESSION]
➢ EMBL核酸序列数据库 查询检索通过因特网上的序列提取系统(SRS)服务完成。 数据库网址是:http://www.ebi.ac.uk/embl/。 SRS的网址是:http://srs.ebi.ac.uk/。
➢ DDBJ数据库 使用主页上提供的SRS工具进行数据检索和序列分析,DDBJ 的网址是:http://www.ddbj.nig.ac.jp/。
特殊标志符的格式(核酸序列):
3、RefSeq(Reference Sequence)序列接受号:
(1)mRNA 记录(NM_*): e.g.:NM_000492
(2)基因组的DNA重叠群(NT_*): e.g.:NT_000347
(3)完整的基因组或染色体(NC_*): e.g.:NC_000907
第三章生物信息数据库检索及其应用文稿演示
分子生物学数据库的应用
可以分为两个主要方面
• 数据库查询(database query) • 数据库搜索(database search)。
数据库查询
定义:是指对序列、结构以及各种二次数据库中的注释信 息进行关键词匹配查找。 如:在蛋白质序列数据库SwissProt中输入关键词insulin( 胰岛素),即可找出该数据库所有胰岛素或与胰岛素有关 的序列条目(Entry)
简介
GenBank数据库是由美国国立生物技术信息中心( NCBI)维护的一级核酸序列数据库。
GenBank数据库的数据来源有三种: 1、直接来源于测序工作者提交的序列; 2、与其它数据机构协作交换的数据; 3、美国专利局提供的专利数据。
简介 检索界面
1、基本检索界面
Nucleotide 数据库分为三个子数据库:
数据库查询、检索和搜索
在生物信息学中,数据库搜索是专门针对核酸和蛋白质序 列数据库而言,搜索的对象,不是数据库的注释信息,而 是序列信息
数据库查询和数据库搜索在生物信息学中是两个完全不同 的概念,所要解决的问题、所采用的方法和得到的结果均 不相同
核酸数据库序列查询系统
➢ GenBank 查询检索通过因特网上的序列查询系统(Entrez)服务完成。 NCBI的网址是:http://www.ncbi.nlm.nih.gov