分子生物信息学作业

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验一生物信息学数据库及信息检索

一:实验目的

1:了解NCBI、EMBL、SWISS-PROT、PDB数据库。

2:了解NCBI、EMBL数据库的检索系统ENTREZ、SRS,并掌握文献、序列的快速高效检索方法。

二:实验内容及操作步骤

1.登陆NCBI、EMBL、SWISS-PROT、PDB数据库主页,打开数据库的SITE MAP页面,了解各数据库的结构和主要内容。网址:NCBI:EMBL:

SWISS-PROT: /sprot/PDB: /pdb/

2. 使用Entrez信息查询系统检索文献,并阅读感兴趣文献的摘要或全文。

2.1调用Internet浏览器并在其地址栏输入Entrez网址(/Entrez) ―进入NCBI主页―进入Entrez Home 页面选择pubmed文献数据库―在Search后的输入栏中选择Pubmed―在输入栏内输入关键词Avian Influenza/Bird Flu―点击go查询。统计查询结果,并阅读感兴趣文献的摘要或全文。练习使用AND, OR, BUT逻辑词来限定关键词,如Bird Flu AND human cases 等查询人感染禽流感的相关记录,比较查询结果。

2.2 学习使用limits等限制字段查询方式,检索与禽流感相关的文献,并统计检索结果。比较不同检索方式的查询效率。

2.2.1进入Entrez Home页面―选择Pubmed文献数据库―点击limits,进入与Pubmed有关的限制字段设置―如选择Title等不同字段,及限制期刊类型,作者等进行查询。

2.2.2 Preview(搜索结果预览)/Index(索引词表检索)的应用。所谓的索引词表检索是当你选定查询字段并键入检索词如Bird Flu时―点击Index―这时返回一个在该字段中的以“Bird Flu”开始的索引词表窗口,后面括弧中的数字代表包含该索引词的记录条数选择一个或几个关键词,点击Preview可进行结果的预览―点击Go可获得查询结果。

2.2.3 点击History,可以看到本次练习结果页面的历史记录。包括所采用的主题词、查询字段范围、花费时间、及相应结果等。

3.使用Entrez信息查询系统检索与禽流感相关的核酸序列,链接提取其中一条感兴趣的序列内容,阅读序列格式的解释,理解其含义。进入NCBI主页―进入Entrez Home页面选择Nucleotide数据库―在Search后的输入栏中选择Nucleotide―在输入栏内输入关键词H5N1―点击go查询。阅读查询结果,选择一条感兴趣的核酸序列,点击该序列与数据库的超链接,阅读序列格式的解释,理解其含义。

4.GenBank数据库FASTA序列格式的显示与保存;

以步骤3所获得的感兴趣核酸序列结果页面为例,在显示模式“Display”的下拉菜单中选择一个需要的序列格式如FASTA序列格式,然后点击Display按钮,结果就出现该序列的FASTA格式。如果需要保存该条序列信息,可以直接通过点击浏览器IE的“文件”菜单中的另存为命令将序列保存到本地计算机;也可以利用Entrez系统自身的保存功能,即点击Send to,选择File,就会出现保存文件相应的窗口,然后按指示操作即可。

5.使用SRS信息查询系统检索一条核酸序列,链接提取该序列内容,阅读序列

格式的解释,理解其含义;比较NCBI与EMBL中序列格式的异同。调用Internet 浏览器并在其地址栏输入SRS网址(),查询自己感兴趣的核酸序列。

三:实验结果

1、了解NCBI、EMBL和SWISS-PROT数据库的结构和主要内容。

答:(略)。

2、找到编码拟南芥(arabidopsis)phyA(光敏色素A)基因的核酸序列编号, 并记录查找过程。

答:○1进入NCBI主页

○2进入Entrez Home页面选择Nucleotide数据库

○3在输入栏内输入关键词arabidopsis[organism]phyA

○4点击go查询,阅读查询结果,点击fasta获取核酸序列

结果:arabidopsisphyA Nucleotide Sequence: NW_003302555

3、以phyA为检索词,在pubmed数据库中分别检索在题目和关键词字段中含有该检索词的文献,记录检索出的条目数目。

答:关键词字段条目数目:655;题目字段条目数目:58

4、仔细阅读所查询核酸序列在NCBI和EMBL数据库中格式的解释,理解各字段的含义,并比较NCBI与EMBL中序列格式的异同。

答:NCBI中的FASTA 序列格式包括三个部分:1.在注释行的第一列用字符“>”标识,后面是序列的名字和来源;2.标准的单字符标记的序列;3.可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。FASTA格式是序列分析软件最常用的格式。这种格式提供了从一个窗口到另一个窗口非常方便的拷贝途径,因为序列中没有数字或其他非字符。FASTA序列格式和蛋白质信息资源NBRF格式很相似。

EMBL与GenBank类似,通过大量信息来描述每个序列。该信息组成一个个字段,每个字段有一个标识符。这些标识符缩写成两个字母,某些字段还有次级字段。每行序列后面的数字显示片段胡位置。

5、将GenBank数据库中检索出的任一条查询核酸序列以FASTA序列格式显示并保存。

答:>gi|339961166|pdb|1VTO|E Chain E, 1.9 A Resolution Refined Structure Of Tbp Recognizing The Minor Groove Of Tataaaag GCTATAAAAGGGCN

相关文档
最新文档