生物信息学题库
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.生物信息学的大体定义是什么?其发展历程如何?
(1)利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题。
目前的生物信息学基本上只是分子生物学与信息技术(尤其是互联网技术)的结合体。
生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计
算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。
目前主要的研究方向有:序列比对、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测,以及建
立进化模型。
(2)发展历程:
✍20世纪50年代,生物信息学开始孕育✍20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系
起来✍20世纪70年代,生物信息学的真正开端④20世纪70年代到80年代初期,出现了一系列着名的序列比较方法
和生物信息分析方法⑤20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库
⑥20世纪90年代后,HGP促进生物信息学的迅速发展
2.请论述生物信息学的研究内容有哪些?
1)生物分子数据的收集与管理:
①基因组数据库(EMBL、GenBank、DDBJ)②蛋白质序列数据库(SWTSS-PROT、PIR)③蛋白质结构数据库(PDB)
2)数据库搜索及序列比较搜索同源序列在一定程度上就是通过序列比较寻找相似序列
3)①序列比较的一个基本操作就是比对(
质之间的进化关系。
4)基因组序列分析:
较
5)基因表达数据的分析与处理:
法
预测准确率超过70%的第一个软件是基于神经网络的PHD系统
(2)空间结构预测在空间结构预测方面,比较成功的理论方法是同源模型法
该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构,运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作
3.请叙述构建系统进化树的一般步骤。
构建系统发生树的5个步骤:[1]序列选择:从那些可以输出FASTA格式的数据库中选择[2]多序列比对[3]替代模型的选择[4]生成树:方式:distance-based;character-based:maximumparsimony;character-andmodel-based:maximumlikelihood;
character-andmodel-based:Bayesian基于距离的树生成软件:MEGA和PAUPMEGA应用算法:UPGMA,基于距离的算法。
[5]结果评估:原则(一致性、效率、和鲁棒性);检测方法:最为常见的方法是引导检测的分析方法
引导检测法:简单地讲就是把序列的位点都重排,重排后的序列再用相同的办法构树,如果原来树的分枝在重排后构的树中也出现了,就给这个分枝打上一分,如果没出现就给0分,这样经过你给定的repetitions次(至少1000次)重排构树打分后,每个分枝就都得出分值,计算机会给你换算成bootstrap值。
重排的序列有很多组合,值越小说明分枝的可信度越低,最好根据数据的情况选用不同的构树方法和模型.
归纳前面所讲,下面几点可以帮助我们解释进化树:
(1)从根节点到任何一个节点的惟一路径和方向代表了进化时间;(2)根是树中所有物种的共同祖先;
(3)根节点上的物种我们认为比树中其他所有的物种分化更早。
如果无法确定根节点的物种,就使用无根树进行分析。
4.NCBI的Entrez检索包含了哪些方面的信息。
Entrez是NCBI为用户提供整合的访问序列、定位、分类及结构数据的搜索和检索的系统,是一个用以整合NCBI数据库中信息的搜寻和检索的工具,包括核酸序列、蛋白质序列、蛋白质三维结构、基因组图谱和通过PubMed检索的MEDLINE。
其中,Entrez可以整合检索的序列数据库包括GenBank、EMBI—DDBJ、RefSeq、PIR-International、PRF、Swiss—Prot和PDB等。
Entrez有两个显着的特点:第一是对每个数据库中的记录都预先做相似性比较,产生一个列表,包括序列、结构和MEDLINE 文献记录等信息;第二是对某个数据库的记录与其他数据库的相关记录做了链接,使对不同数据库的访问得以整合。
所以Entrez 是通过相近性和硬连接来提供集成的信息检索。
Entrez可以用很广泛的文本方式搜索,比如作者名字、杂志名字、基因或蛋白名、物种、单一的检索号(如:accessionnumber、序列ID、PubMedID、MEDLNEUID)和其他的术语,因此,Entrez是一个强大的检索相关序列、结构和参考文献的信息检索工具。
5.BLAST系列软件分别用哪些数据搜索何种数据库?
真核基因结构注释包括哪些内容?相关的软件所依据的理论基础是什么?
GENSCAN是美国麻省理工大学的ChrisBurge于1997年开发成功的人类(或脊椎动物)基因预测软件,它根据基因的整体
通过对特征序列(GT-AG)
选择性剪切数据库:ProSplicer
分析:CodonW。
6.请概述基因组注释的大体流程。
(1)基因组注释(Genomeannotation)
(Nonredundant,NR)、已知三维空间结构的蛋白质序列数据库
和直系同源蛋白质家族数据库(Clusteroforthologousgroups,COG)等,编写了
MGAP整合的一般模块,可以被其他任何一种微生物基因组直接。