第2章之数据库查询与搜索
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
44 Databases
Database selection
Retrieval keywords input
26Baidu Nhomakorabea
查询要点之二:检索词的书写规则
① 逻辑运算符的运用(Application of logical operator): AND(与),NOT(非),OR(或) 注: AND可省略; 多个关键词可以用逻辑运算符连接。
D
N
G or A or T
G or A or T or C
not-C
Any 59
氨基酸字母表
60
一、基本概念
相似性(Similarity):是指序列比对过程中用来描述 查询序列与目标序列之间相同DNA碱基或氨基酸残基序列 所占比例的高低。是一个可定量指标。
三层含义:序列相似,氨基酸残基特性相似,结构相似
62
序列比对(Alignment)
1)序列对数据库的比对
三 种 基 本 类 型
2)双序列比对(pairwise alignment):比较两条序
列,判断其相似程度的过程 3)多重序列比对(multiple alignment):同时比较 多条序列,判断其相似程度的过程
序列比对的基本思想,是找出检测序列和目标序列的相似性。
第二章 数据库及其查询 与搜索
目 录
§2.1 §2.2 §2.3 §2.4 §2.5 §2.6 引言 一次数据库 二次数据库 数据库查询 数据库搜索 向数据库提交序列
2
§2.4 数据库查询 Database retrieve
3
一、数据库查询与数据库搜索的基本概念 数据库查询(retrieve):也称数据库检索,是指对 序列、结构以及各种二次数据库中的注释信息进行 关键词的匹配查找。
注意文献 的注录格式!
8
利用好两个外文搜索引掣
Google: http://www.google.com/ Yahoo: http://search.yahoo.com/
9
10
2)扬大图书馆也有多个外文献数据库 Foreign bibliographic database (WOS、Elsevier Science、Cell Press、Springer-link、Medline等)
Mueller, L.N., Brusniak, M.Y., Mani, D.R., Aebersold, R. Anassessment of software solutions for the analysis of mass spectrometrybased quantitative proteomics data. J. Proteome Res.2008, 7: 51-61.
1)免费申请一个my NCBI 2)将查询结果保存至my NCBI
3)每一次查询结果都有一个文件名
42
查询结果
保存结果
43
44
45
查询要点之七:批处理查询
将获得的一系列不相关的序列的接受号或GI号存入 一个文本文件,然后上传给Entrez批处理系统,即可 查询获得查询结果。
46
47
文本文件中序列 号排列形式
同源性(Homology):指从一些数据中推断出的两个基 因或蛋白质序列具有共同祖先的结论,属于质的判断。
二者区别与联系
1 用相似性来判断同源性,但具有相似性不一定具有同源性。
2 相似性高的序列不一定是同源性序列,判断同源性还需要实验证实。
61
局部相似性:是指序列比对过程中仅考虑部分序列区域 的相似性。
Display:显示窗口
Send to:将查询结果保存至其它文件或Clipboard
36
Display主要显示方式
37
每页显示记录数目
38
Send to 选项可以将查询结果存为其它文件格 式或暂时放在剪贴板上。
39
40
查询要点之五:全库查询
2012.10.12 2008.3.5
41
查询要点之六:保存查询结果在my NCBI
50
(1) 快速查询(Quick Search)[默认状态]
51
(2) 标准查询(Standard Search)[选择Library Page以后可进行]
52
AND(&);OR(|);NOT(!)
53
(3) 扩展查询(Standard Search)
54
(4)全库检索后,利用Refine在初次检索结果中 进行二次查询。
数据库搜索(search):是指通过特定的序列相似性
比对算法,找出核酸或蛋白质序列数据库中与检测 序列具有一定程度相似性的序列。也称为数据库比
对。
4
区别:1 手段不同
查询手段:主要是通过关键词或词组 (Text-based database searching)
搜索手段:主要是通过序列
(Sequence-based database searching)
27
② 相邻或短语检索(adjacency searching and phase searching):
如检索词: 16S RNA
1)默认状态下检索结果同16S AND RNA
2)若作为一个短语检索,则应加双引号“16S RNA ”
28
③ 检索入口设定:利用[ ] 对检索词进行限定,缩小检索范围
11
WOS
12
Elsevier
13
Cell Press
IF:31.152
14
3)利用NCBI网站中的PubMed和PMC查找文献
15
查询有关德国科学家在结核杆菌(Mycobacterium Tuberculosis)方面于2008年发表的文章。 利用Advanced search 中的Affiliation限定Germany
A or C
G or T G or C A or T A or C or T G or T or C G or C or A
Amino
Keto Strong interaction (3 H bonds) Weak interaction (2 H bonds) Not-G not-A not-T(not-U)
蛋白质功能位点往往由较短的序列片段组成,这些序列 往往具有较高的保守性。局部比对比整体比对具有更高 的灵敏度,其结果也更具生物学意义。
全局相似性:是指序列比对过程中从全长序列出发考虑 序列整体的相似性。
整体比对适用于相似度较高且长度相近的序列。实 际应用中整体比对获得的结果往往不能反映实际的 生物学意义。
68
2、空位罚分体系(gap costs)
目的:空位的引入是为了补偿插入和缺失突变对 序列相似性的影响,但不能太多。 缺点:空位罚分体系目前尚缺乏理论依据(theoretical basis ),而更多地带有主观色彩(subjective )。
20
NCBI主页
21
1、Entrez查询系统
1) 简介
Entrez查询系统: 是美国国家生物信息中心(NCBI) 开发管理的、国际上最为著名的生物信息数据库查询 系统。该系统通过“交叉引用”(crossreferences)的方法将各类信息包括DNA序列、蛋白
质序列、蛋白质结构信息(如结构域和三维结构)、
48
2、SRS查询系统
1) 简介 SRS,是Sequence Retrieval System的缩写。
由欧洲分子生物信息学实验室开发管理,是目前欧洲 各国主要生物信息中心必备的数据库查询系统。
http://srs.ebi.ac.uk/
特点:
• 是一个开放的数据库查询系统,即不同的SRS查询系统可 根据需要安装不同的数据库。
基因组和基因图谱及著名的PubMed文献信息等有机 地整合在一起。
网址:http://www.ncbi.nlm.nih.gov/Entrez/
22
Entrez主页
23
Entrez特点 Entrez既可以进行全数据库查询,又可从单一数据库开 始,然后再从所得查询结果中获得相关的其它数据库的 链接,这种方式称为交叉引用。
2 目的不同
查询目的:获得感兴趣的序列或结构基本信息。
搜索目的:从获得的数据库序列推测未知序列的信息与功能
5
二、文献检索方法
1 中文文献(Chinese bibliographic database)
主要三个中文献数据库(清华同方、重庆维普、万方)
6
7
2 外文文献
1)如何快速找到具体的一篇文献?
16
17
4)在Highwire 文献数据库中查询文献
18
19
三、数据库查询(database retrieval )
如何获得感兴趣的基因或蛋白的已知信息?
1)Entrez (NCBI,GenBank)
查询系统
2)Sequence Retrieval System (SRS)-----EMBL 3)Integrated database retrieval system (DBGET)-----DDBJ
55
3、DBGET检索工具
DBGET是日本京都大学化学研究所开发的。 http://www.genome.ad.jp/dbget/
56
§2.5 数据库搜索 (Database search)
57
在分子生物学研究中,对于新测定的核酸序 列或氨基酸序列,如何获得其基本信息?其功能 如何?
要解决这些问题最简单的方法就是和其它已知序列进行 比较,根据其相似性推断其功能和基本特性。这种方法 在生物信息学中称为序列比对(Sequence Alignment)。
格式:XXX [限定词] Entrez系统所用的部分限定字段及相应的GenBank参数说明
29
举例: human[orgn] AND 50:60[slen] AND 2004[MDAT]
30
31
④ 检索范围限定
检索范围的上限与下限用冒号‘:’分开,
格式:XX :YY[限定词] 如3000:4000[SLEN],表示序列长度在3000到4000之间。
数据库之间联系的类型有两种:相近性和硬连接
相近性,又称为“邻域”,它联系着一个数据库之内的记 录。 它又分为:序列相近性,结构相近性和文献相近性。
24
硬连接:
硬连接用于联系不同数据库中的条目,只要这些条目 之间存在逻辑联系,就存在硬连接。 作者 文章 基因或蛋 白数据库 结构数据库
25
2) 查询策略(retrieval strategy) 查询要点之一(First):两个基本检索窗口(two basic retrieval windows) 下拉菜单窗口:选择查询子库 关键词输入窗口:用于输入查询关键词或词组
63
序列比对目的:
相似序列 相似的结构,相似的功能 判别序列之间的同源性
推测序列之间的进化关系
64
二、序列比对的得分系统(Scoring Parameters ) 1、打分矩阵(Weight Matrices)
(1)核酸打分矩阵
等价矩阵表 BLAST矩阵
65
(2)氨基酸打分矩阵
1 等价矩阵 2 氨基酸突变代价矩阵GCM 3 疏水矩阵 4 PAM矩阵(Point Accepted Mutation) 5 BLOSUM矩阵(模块氨基酸替换矩阵) (Blocks Amino Acid Substitution Matrices)
•与Entrez差不多,既可查询序列数据库,也可以检索 Medline文献数据库
49
2) SRS系统使用方法 三种查询方法:Quick search, standard query form, extended query form
选择查询数据库
选择查询方式
点击Search
获得查询结果
SRS数据库检索基本路线
寻找相似序列有哪些方法呢? Blast搜索工具,FastA工具,Vast相似结构搜索工具
58
遗传密码表
符号
G A T C R Y
含义
G A T C G or A T or C
说 明
Guanine Adenine Thymine Cytosine Purine Pyrimidine
M
K S W H B V
66
PAM矩阵--基于进化的点突变模型 这类矩阵基于进化原理的证据: 编码相同蛋白质的基因随着进化发生分歧,相似度降低。
•特点:
1)科学 2)应用广泛
应用:
实践中应用最多 且比较折中的矩 阵是PAM250
67
BLOSUM 62(模块氨基酸替换矩阵)
模块是从500多个蛋白质家族的数据库Prosite提炼出来的
32
⑤ 使用作者检索
格式:last name firstname[限定词]
如Johnson D[AUTH]
33
⑥ 模糊检索
就是用不完整的字词加“*”进行检索 格式:XX*[限定词] 如:bac*[orgn]
34
查询要点之三:利用子库之间的交叉引用进行信息查询
35
查询要点之四:巧用Display+Send to 结果显示选项