关于生物信息学期末考试答案

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、名词

Bioinformatics：生物信息学——是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法，以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析，并进一步挖掘和解读生物学数据。

Consensus sequence：共有序列——决定启动序列的转录活性大小。各种原核启动序列特定区域内（通常在转录起始点上游-10及-35区域）存在共有序列，是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。

Data mining：数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常是利用计算方法分析生物数据，即根据核酸序列预测蛋白质序列、结构、功能的算法等，实现对现有数据库中的数据进行发掘。

EST：(Expressed Sequence Tag)表达序列标签——是某个基因cDNA克隆测序所得的部分序列片段，长度大约为200~600bp。

Similarity：相似性——是直接的连续的数量关系，是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

Homology：同源性——是两个对象间的肯定或者否定的关系。如两个基因在进化上是否曾具有共同祖先。从足够的相似性能够判定二者之间的同源性。

Alignment：比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点，以期能够推测它们的结构、功能以及进化上的联系。或是指为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。

BLOSUM：模块替换矩阵——是指在对蛋白质数据库搜索时，采用不同的相似性分数矩阵进行检索的相似性矩阵。以序列片段为基础，从蛋白质模块数据库BLOCKS中找出一组替换矩阵，用于解决序列的远距离相关。在构建矩阵过程中，通过设置最小相同残基数百分比将序列片段整合在一起，以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。在每一片段中，计算出每个残基位置的平均贡献，使得整个片段可以有效地被看作为单一序列。通过设置不同的百分比，产生了不同矩阵。

PAM(Point Accepted Mutation)：突变数据矩阵PAM即可接受点突变——指1个PAM表示100个残基中发生一个残基突变概率的进化距离。在序列比对中，能够反映一个氨基酸发生改变的概率与两个氨基酸随机出现的概率的比值的矩阵。

Contig：叠连群——是指一组相互两两头尾拼接的可装配成长片段的DNA序列克隆群，也指彼此间可通过重叠序列而连接成连续的、扩展的、不间断的DNA序列的交叠片段产物。通过比对不同的序列，我们能够发现片段的顺序，并且contigs能被添加、删除、重排列来形成新的序列。

Phylogenetic tree：系统发生树又称为演化树（evolutionary tree）——是表明被认为具有共同祖先的各物种间演化关系的树，是一种亲缘分支分类方法。在树中，每个节点代表其各分支的最近共同祖先，而节点间的线段长度对应演化距离（如估计的演化时间）。它用来表示系统发生研究的结果，用它描述物种之间的进化关系。

In Silico Cloning：电子克隆——是近年来发展起来的一门基于表达序列标签（ESTs）的快速克隆基因的新技术，其利用种子序列从EST及UniGene数据库中搜索相似性序列，进行拼装、检索、分析等，以此获得目标基因的全长cDNA，在此基础上也能够实现基因作图定位。

二、问题思考

1、生物信息学这门学科是如何发展起来的？

答：生物学数据爆炸式增长

生物大分子数据库相继建立

生物技术与计算机技术并行飞速发展

Internet的广泛应用

人类基因组计划（HGP）的推动

生物信息学的产生是生命科学发展的必然。

2、举例说明生物信息学的主要应用？

答： a. 获取各种生物的全基因组及其他数据;

b. 新基因发现;

c. 单核苷酸多态性分析;

d. 基因组中非编码区域的结构与功能;

e. 从基因组水平研究生物进化及其他遗传语言的可能;

f. 全基因组的比较研究;

g. 基因功能预测;

h. 遗传疾病的研究以及关键基因鉴定;

i. 蛋白质组学研究;

j. 新药设计和定向化酶;

k. 生物芯片.

3、为什么说生物信息学是大规模研究生命科学的利器？

答：生物信息学主要是一门研究生物学系统和生物学过程中信息流的综合系统学科，是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法，以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析，并进一步挖掘和解读生物学数据。目前，其核心是基因组信息学，包括基因组信息的获取、处理、存储、分配和解读。还包括：蛋白质空间结构模拟、预测和药物分子设计；软件开发和方法学研究。未来，生物信息学将进一步揭示生命系统的复杂性、遗传语言、基因表达谱、基因组、蛋白质组、代谢组、细胞信号组、系统生物学等等。因此，生物信息学是大规模研究生命科学的利器。

4、生物信息学涉及的生物大分子信息有哪些？

答：涉及的有：

1）核算序列DNA

包括：基因组序列、基因序列、cDNA、EST、碱基修饰、DNA功能模块/位点(如启动子、剪接体、表达调控位点等)。

2）蛋白质Protein

包括：氨基酸组成、氨基酸序列、理化性质、原子坐标、二级结构、模体、结构域、功能域/位点、3D结构。

5、在大分子序列分析中，为何局部比对比全局比对更有意义？

答：全局比对（global alignment）——指全长序列比对，用于相似性很高的序列间的分析。

局部比对（local alignment）——指生物分子序列常常是局部具有较高的相似性，呈板块分布。此法用于整体相似性较低的序列分析，灵敏度高。

原因：

1）全局比对是沿整个长度实现序列之间匹配的最大化，尝试对齐整个序列。而局部比对是对动态规划算法的修改，是给两个序列之间得分最高的地方进行匹配，集中在寻找相似度高的序列的延伸。因此相比而言，在序列分析中将未知序列同已知序列进行相似性比较，局部比对的准确性比全局比对更高。因为要实现整个序列长度的相似性匹配，比起局部匹配分析带来的误差更大；

2）另外，与局部序列比对算法相比，全序列比对算法会导致一些局部序列相似性较高而全序列相似性很小，因为全序列的平均效应而将两者的相似性漏检。一般对于2个未知关系的序列，使用局部序