分子生物信息学作业实验一

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验一生物信息学数据库及信息检索

姓名:##### 学号:###### 班级:######

一:实验目的

1:了解NCBI、EMBL、SWISS-PROT、PDB数据库。

2:了解NCBI、EMBL数据库的检索系统ENTREZ、SRS,并掌握文献、序列的快速

高效检索方法。

二:实验内容及操作步骤

1.登陆NCBI、EMBL、SWISS-PROT、PDB数据库主页,打开数据库的SITE MAP页面,了解各数据库的结构和主要内容。网址:NCBI: EMBL:

SWISS-PROT: /sprot/ PDB: /pdb/

2. 使用Entrez信息查询系统检索文献,并阅读感兴趣文献的摘要或全文。

2.1调用Internet浏览器并在其地址栏输入Entrez网址(/Entrez) ―进入NCBI主页―进入Entrez Home

页面选择pubmed文献数据库―在Search后的输入栏中选择Pubmed―在输

入栏内输入关键词Avian Influenza/Bird Flu―点击go查询。统计查询结果,并阅读感兴趣文献的摘要或全文。练习使用AND, OR, BUT逻辑词来限定关键词,

如Bird Flu AND human cases 等查询人感染禽流感的相关记录,比较查询结果。2.2 学习使用limits等限制字段查询方式,检索与禽流感相关的文献,并统计

检索结果。比较不同检索方式的查询效率。

2.2.1进入Entrez Home页面―选择Pubmed文献数据库―点击limits,进入与Pubmed有关的限制字段设置―如选择Title等不同字段,及限制期刊类型,作

者等进行查询。

2.2.2 Preview(搜索结果预览)/Index(索引词表检索)的应用。所谓的索引

词表检索是当你选定查询字段并键入检索词如Bird Flu时―点击Index―这时

返回一个在该字段中的以“Bird Flu”开始的索引词表窗口,后面括弧中的数字

代表包含该索引词的记录条数选择一个或几个关键词,点击Preview可

进行结果的预览―点击Go可获得查询结果。

2.2.3 点击History,可以看到本次练习结果页面的历史记录。包括所采用的主

题词、查询字段范围、花费时间、及相应结果等。

3.使用Entrez信息查询系统检索与禽流感相关的核酸序列,链接提取其中一条

感兴趣的序列内容,阅读序列格式的解释,理解其含义。进入NCBI主页―进入Entrez Home页面选择Nucleotide数据库―在Search后的输入栏中选

择Nucleotide―在输入栏内输入关键词H5N1―点击go查询。阅读查询结果,选

择一条感兴趣的核酸序列,点击该序列与数据库的超链接,阅读序列格式的解释,理解其含义。

4.GenBank数据库FASTA序列格式的显示与保存;

以步骤3所获得的感兴趣核酸序列结果页面为例,在显示模式“Display”的下

拉菜单中选择一个需要的序列格式如FASTA序列格式,然后点击Display按钮,结果就出现该序列的FASTA格式。如果需要保存该条序列信息,可以直接通过点

击浏览器IE的“文件”菜单中的另存为命令将序列保存到本地计算机;也可以

利用Entrez系统自身的保存功能,即点击Send to,选择File,就会出现保存文

件相应的窗口,然后按指示操作即可。

5.使用SRS信息查询系统检索一条核酸序列,链接提取该序列内容,阅读序列格式的解释,理解其含义;比较NCBI与EMBL中序列格式的异同。调用Internet 浏览器并在其地址栏输入SRS网址(),查询自己感兴趣的核酸序列。

三:实验结果

1、了解NCBI、EMBL和SWISS-PROT数据库的结构和主要内容。

答:(略)。

2、找到编码拟南芥(arabidopsis)phyA(光敏色素A)基因的核酸序列编号, 并记录查找过程。

答:○1进入NCBI主页

○2进入Entrez Home页面选择Nucleotide数据库

○3在输入栏内输入关键词arabidopsis[organism] phyA

○4点击go查询,阅读查询结果,点击fasta获取核酸序列

结果:arabidopsis phyA Nucleotide Sequence: NW_003302555

3、以phyA为检索词,在pubmed数据库中分别检索在题目和关键词字段中含有该检索词的文献,记录检索出的条目数目。

答:关键词字段条目数目:655;题目字段条目数目:58

4、仔细阅读所查询核酸序列在NCBI和EMBL数据库中格式的解释,理解各字段的含义,并比较NCBI与EMBL中序列格式的异同。

答: NCBI中的FASTA 序列格式包括三个部分:1.在注释行的第一列用字符“>”标识,后面是序列的名字和来源;2.标准的单字符标记的序列;3.可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。FASTA格式是序列分析软件最常用的格式。这种格式提供了从一个窗口到另一个窗口非常方便的拷贝途径,因为序列中没有数字或其他非字符。FASTA序列格式和蛋白质信息资源NBRF格式很相似。

EMBL与GenBank类似,通过大量信息来描述每个序列。该信息组成一个个字段,每个字段有一个标识符。这些标识符缩写成两个字母,某些字段还有次级字段。每行序列后面的数字显示片段胡位置。

5、将GenBank数据库中检索出的任一条查询核酸序列以FASTA序列格式显示并保存。

答:>gi|339961166|pdb|1VTO|E Chain E, 1.9 A Resolution Refined Structure Of Tbp Recognizing The Minor Groove Of Tataaaag GCTATAAAAGGGCN

相关文档
最新文档