实验2 序列查询(Entrez)、BLAST序列相似性搜索
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验二:序列查询(Entrez)、BLAST序列相似性搜索
实验目的:
1.学会用Entrez系统查找目标序列
2.学会使用BLAST在数据库中搜索相似序列
3.学会分析数据库搜索结果
实验内容:
一、Entrez
Entrez是一个由NCBI创建并维护的基于Web界面的综合生物信息数据库检索系统。用户不仅可以方便地检索Genbank的核酸数据,还可以检索来自Genbank和其它数据库的蛋白质序列数据、基因组图谱数据、来自分子模型数据库(MMDB)的蛋白质三维结构数据、种群序列数据集、以及由PubMed获得Medline的文献数据。
网址:/Entrez/(或在NCBI主页默认All Databases时点击搜索框右边的Search进入)。如Figure 2.1所示:
Figure 2.1 entrez 检索系统子数据库
点击搜索框右边的help按钮,即可进入Entrez帮助页面。
在搜索栏输入你要查找的关键词,点击“GO”即可开始搜索。如果输入多个关键词,它们之间默认的是“与”(AND)的关系。
Tips:搜索的关键词可以是一个单词,短语,句子,数据库的识别号,基因名字等等,但必须明确,不能是“gene”, “protein”等没有明确指向的词语。但“transcription factor”这样有一定范围的词是可以接受的。可以用你感兴趣的领域的专业术语,也可以是非专业术语,比如:h1n1,lung cancer,albinism; subtilism, peroxidase, myoglobin。
输入关键词,点击“GO”之后,每个数据库图标前方出现了数字,代表的是在相对应的数据库里搜索到的条目数。点击进入对应的数据库,可以查看搜索到的条目。如果在数据库图标前面为灰色,显示“none”,说明在对应的数据库里没有搜索到任何结果。
也可以直接通过NCBI任一页面上的搜索栏进行Entrez搜索。点击“search”后面的下拉菜单,选择数据库,在下面的文本框里输入关键词,点击“Search”即可(Figure 2.2)。
Figure 2.2 数据库选项下拉菜单
但是这种简单搜索会产生大量的结果,其中很多信息都不是我们所需要的,NCBI为我们提供了“Limits”、“Advanced Search”等辅助功能,只有充分理解并熟练运用这些工具进行复杂的检索,才能充分发挥Entrez的强大功能,实现精确高效的检索。
A:limits
Limits限制性搜索可以根据该数据库结构,将输入的关键词的查询范围限制在某个范围内,如领域、编号、代码、提交日期等。不同的数据库,其限定内容略有不同。
以Nucleotide数据库为例搜索hemoglobin,点击进入搜索结果页面后(Figure 2.3),在页面上方搜索栏下有“Limits”,“Advanced”选项。
Figure 2.3 search result
点击Limits进入限定页面(Figure 2.4)。可以对序列发布时间或修改时间进行限定,也可以对搜索关键词的领域(search field tags;如果输入的是序列名称,如hemoglobin, trypsin,选择title; 如果输入的是物种的名称,选择organism)进行限定,可以对搜索数据库(source database;一般选择RefSeq, 建议大家在平时搜索时也使用这个选项。)进行限定,还可以对分子类型(molecule)、序列位置(gene location)和排除的数据类型(STSs, working draft, TPA, patent)等进行限定(Figure 2.4)。
Figure 2.4 Limits page
限定完毕,点击“Search“,则出现根据限定条件得到的搜索结果(Figure 2.5),同时页面上显示“Limits Activated”。如果要改变限定内容,可以点“change”修改,如果不需要限定,
点击“remove”可取消限定。
Figure 2.5 Limits search result
注意:查询序列时,我们常常将搜索限定在RefSeq数据库,因为它的数据是非冗余的。
The Reference Sequence (RefSeq) database is a non-redundant collection of richly annotated DNA, RNA, and protein sequences from diverse taxa. The collection includes sequences from plasmids, organelles, viruses, archaea, bacteria, and eukaryotes. Each RefSeq represents a single, naturally occurring molecule from one organism. The goal is to provide a comprehensive, standard dataset that represents sequence information for a
species.
B: Advanced
若点击搜索栏下面的advanced,就会进入Entrez的高级搜索界面(Figure 2.6)。
Figure 2.6 advanced page
“Builder”下方前部的下拉菜单提供了按字母顺序排列的检索领域(field)列表,允许用户直接选定特定的范围进行检索,选好field,在后面的文本框里输入关键词。如果不确定关键词应该如何拼写,可以先写出自己确定的部分,然后点击“show index list”,则所有相关的类似关键词出现在下面的列表中,可以从中选择你需要的关键词。(Figure 2.7)
Figure 2.7 Show Index list
例如:想要搜索人的血红蛋白序列,则可以首先选择搜索领域-title,在后面的文本框中输入关键词hemoglobin,此时这个关键词及其领域限定信息出现在上面的搜索框里。然后再选择第二个搜索领域为organism, 在后面的文本框中输入关键词human,此时第二个关键词即其领域限定信息也出现在搜索框里,默认两个关键词是和(AND)关系。点击search进行搜索,就得到数据库中所有人血红蛋白序列。(此时要取消掉前面的Limits那步做的field 限定,只限定数据库为refseq即可)