生物信息学总结复习题包括答案.docx

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息学复习题

一、名词解释

生物信息学 , 二级数据库 , FASTA序列格式 , genbank 序列格式 , Entrez ，BLAST，查询序列（ query ），打分矩阵（ scoring matrix ），空位（ gap），空位罚分， E 值, 低复杂度区域，点矩阵（ dot matrix ），多序列比对，分子钟，系统发育

（ phylogeny ），进化树的二歧分叉结构，直系同源，旁系同源，外类群，有根树，

除权配对算法（ UPGMA），邻接法构树，最大简约法构树，最大似然法构树，一致树（ consensus tree ），bootstrap ，开放阅读框（ORF），密码子偏性（codon

bias ），基因预测的从头分析法，结构域（ domain），超家族，模体（ motif ），序列表谱

（profile ），PAM矩阵，BLOSUM，PSI-BLAST，RefSeq，PDB数据库，GenPept，折叠子， TrEMBL， MMDB， SCOP， PROSITE， Gene Ontology Consortium ，表谱（profile ）。

二、问答题

1）生物信息学与计算生物学有什么区别与联系

2）试述生物信息学研究的基本方法。

3）试述生物学与生物信息学的相互关系。

4）美国国家生物技术信息中心（ NCBI）的主要工作是什么请列举 3 个以上 NCBI 维护的数据库。

5）序列的相似性与同源性有什么区别与联系

6）BLAST套件的 blastn 、 blastp 、 blastx 、tblastn和tblastx子工具的用途

什么

7）简述 BLAST搜索的算法。

8）什么是物种的标记序列

9）什么是多序列比对过程的三个步骤

10）简述构建进化树的步骤。

11）简述除权配对法（ UPGMA）的算法思想。

12）简述邻接法（ NJ）的算法思想。

13）简述最大简约法（ MP）的算法思想。

14）简述最大似然法（ ML）的算法思想。

15）UPGMA构树法不精确的原因是什么

16）在 MEGA2软件中，提供了多种碱基替换距离模型，试列举其中 2 种，解释其

含义。

17）试述 DNA序列分析的流程及代表性分析工具。

18）如何用 BLAST发现新基因

19）试述 SCOP蛋白质分类方案。

20）试述 SWISS-PROT中的数据来源。

21）TrEMBL哪两个部分

22）试述 PSI-BLAST 搜索的 5 个步骤。

三、操作与计算题

genbank 文件的1）如何获取访问号为U49845的 genbank 文件解释如

下

LOCUS行提供的信息：

LOCUS SCU498455028bp DNA linear PLN

21-JUN-1999

2）利用Entrez检索系统，对核酸数据搜索，输入如下信息，将获得什

么结果：

AF114696:AF114714[ACCN]。

3)相比使用 BLAST套件搜索数据库， BLAST2工具在结果呈现上有什

么优点

4）MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件

5）什么简约信息位点Pi

6）以下软件的主要用途是什么

RepeatMasker,CpGPlot,Splice View,Genscan, ORF finder,

neural network promoter prediction.

7)

为下面的序列比对确定比对得分：匹配得分。= +1 ，失配得分= 0 ，空位得分 = -1

TGTACGGCTATA

TC - -CGCCT–TA

8)用 UPGMA重建系统发生树，距离矩阵如下：

物种A B C D

B9

C811

D121510

E1518135

9）画出 4 个物种的 3 棵不同的无根树 . 这 4 个物种在某位置上的核苷酸分别是 T,T,C 和 C,为每个内部节点推断的祖先序列标出最可能的候选核

苷酸， 3 棵可能的无根树中有几棵是一样简约的 ( 因为他们有最小替

换数 ) 有几棵树的替换树是 2 有大于 2 个替换的树吗

10）如何将所研究的蛋白质与其他相关蛋白质做结构比对。

答案部分

一、名词解释：

生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互

联网为媒介，数据库为载体。利用数学知识建立各种数学模型 ; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。

二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。P11，第 2 段。

FASTA序列格式：是将 DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。genbank 序列格式：是 GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为 4 个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学

依据；第四部分是核苷酸序列本身，以“

D D

E E

D E(AC)(DE)A C

4 个物种在某位置上的核苷酸分别是T,T,C 和 C, 为每个内部节点推断的祖先序

D E B A C

列 , 标出最可能的候选核苷酸. 3((AC)B)(DE)( 因为

棵可能的无根树中有几棵是一样简约的

他们有最小替换数 ) 有几棵树的替换树是2，有大于 2 个替换的树吗

答：

A(T)C(C)

(T)(C)

B (T) D (C)

A (T)

B (T)

(T)(T)

C (C)

D (C)

C (C) A (T)

(T)(T)

B (T) D (C)