生物信息学期末考试重点

合集下载

相关主题

生物信息学复习重点

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解
释等各方面的学科，也是随着生命科学和计算机科学的迅猛发展，生命科学和计
算机科学相结合形成的一门新学科.它通过综合利用生物学，计算机科学和信息技
术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2、数据库(Database）是按照数据结构来组织、存储和管理数据的仓库，它产生于距
今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管
理不再仅仅是存储和管理数据，而转变成用户所需要的各种数据管理的方式。

数据库有很多种类型，从最简单的存储有各种数据的表格到能够进行海量数据存储的
大型数据库系统都在各个方面得到了广泛的应用。

3、表达序列标签从一个随机选择的cDNA 克隆进行5'端和3’端单一次测序获得的短
的cDNA 部分序列，代表一个完整基因的一小部分，在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。

EST 来源于一定环境下一个组织总
mRNA 所构建的cDNA 文库，因此EST也能说明该组织中各基因的表达水平。

4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列，可编码相应的蛋
白.ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个真正的单一的基因产物。

ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条件。

5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列，并进
一步折叠成特定的空间结构前者我们称为蛋白质的一级结构，也叫初级结构或基
本结构。

蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理
功能的必要基础.
6、基因识别是生物信息学的一个重要分支，使用生物学实验或计算机等手段识别
DNA序列上的具有生物学特征的片段。

基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子，如RNA基因和调控因子。

基因识别是基因组研究的基础.
7、单核苷酸多态指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。

这种变异可由单个碱基的转换（transition)或颠换(transversion）所引起，也可由
碱基的插入或缺失所致，它是人类可遗传的变异中最常见的一种。

占所有已知多态
性的90%以上。

8、系统发育进化树Phylogenetic trees用一种类似树状分支的图形来概括各种（类）
生物之间的亲缘关系,进化树由结点(node）和进化分支（branch）组成,每一结点
表示一个分类学单元（属、种群、个体等），进化分支定义了分类单元（祖先与后
代）之间的关系，一个分支只能连接两个相邻的结点。

进化树分支的图像称为进化
的拓扑结构,其中分支长度表示该分枝进化过程中变化的程度,标有分枝长度的进化
分支叫标度枝（scaled branch)。

9、序列拼接为了保证测序结果的准确性，单基因短片段（700pd左右）测序一般应
采用双向测序，然后将双向测序的结果拼接在一起，从而获得一致性序列。

线粒体
基因组测序和DNA长片段测序一般是通过分段测序来完成的，最后也需要将测出
的短片段拼接成一条完整的序列。

10、分子钟
11、直系同源（orthology）)在进化上起源于一个始祖基因并垂直传递的同源基因;分布
于两种或两种以上物种的基因组;功能高度保守乃至于近乎相同，甚至于其在近缘
物种可以相互替换；结构相似;组织特异性与亚细胞分布相似。

12、基因芯片(gene chip）通过微加工技术，将数以万计、乃至百万计的特定序列的
DNA片段（基因探针）,有规律地排列固定于2cm2的硅片、玻片等支持物上，构
成的一个二维DNA探针阵列，与计算机的电子芯片十分相似，所以被称为基因芯
片。

基因芯片主要用于基因检测工作。

13、转录组 Transcriptome 广义上指某一生理条件下,细胞内所有转录产物的集合，包括
信使RNA、核糖体RNA、转运RNA及非编码RNA；狭义上指所有mRNA的集合.
14、人类基因组计划是一项规模宏大，跨国跨学科的科学探索工程。

其宗旨在于测定
组成人类染色体（指单倍体）中所包含的30亿个碱基对组成的核苷酸序列，从而
绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最
终目的。

15、中心法则central dogma是指遗传信息从DNA传递给RNA,再从RNA传递给蛋白
质，即完成遗传信息的转录和翻译的过程。

也可以从DNA传递给DNA，即完成
DNA的复制过程。

这是所有有细胞结构的生物所遵循的法则。

在某些病毒中的
RNA自我复制(如烟草花叶病毒等）和在某些病毒中能以RNA为模板逆转录成
DNA的过程（某些致癌病毒)是对中心法则的补充。

16、序列比对将两个或多个序列排列在一起，标明其相似之处。

序列中可以插入间隔。

对应的相同或相似的符号（在核酸中是A, T（或U）， C, G,在蛋白质中是氨基酸
残基的单字母表示)排列在同一列上.这一方法常用于研究由共同祖先进化而来的序
列，特别是如蛋白质序列或DNA序列等生物序列。

在比对中,错配与突变相应，而
空位与插入或缺失对应。

17、序列拼接为了保证测序结果的准确性,单基因短片段（700pd左右）测序一般应采
用双向测序,然后将双向测序的结果拼接在一起，从而获得一致性序列.线粒体基因
组测序和DNA长片段测序一般是通过分段测序来完成的，最后也需要将测出的短
片段拼接成一条完整的序列.
18、基因预测
二、简答
1、BLAST的五个子程序
Blastn （核酸）；protein blast ；blastp(蛋白质)；tblastn（蛋白质）；tblastx（核酸）
2、系统发育树构建的方法
最大似然法：是一种具有理论性的点估计法，此方法的基本思想是：当从模型总体随
机抽取n组样本观测值后，最合理的参数估计量应该使得从模型中抽取该n组样本观测值
的概率最大，而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估
计量.
简约法:根据离散型性状包括形态学性状和分子序列（DNA，蛋白质等）的变异程度，构建生物的系统发育树,并分析生物物种之间的演化关系。

邻接法：一种快速的聚类方法，不需要关于分子钟的假设，不考虑任何优化标准，基本思想是进行类的合并时，不仅要求待合并的类是相近的,而且要求待合并的类远离其他的类,从而通过对完全没有解析出的星型进化树进行分解,来不断改善星型进化树。

3、序列比对的意义
生物信息学的研究重点主要体现在基因组学和蛋白质学两方面,具体地说就是从核酸和蛋白质序列出发, 分析序列中表达结构和功能的生物信息.生物信息学的基本任务是对各种生物分析序列进行分析，也就是研究新的计算机方法，从大量的序列信息中获取基因结构、功能和进化等知识。

而在序列分析中，将未知序列同已知序列进行相似性比较是一种强有力的研究手段，从序列的片段测定，拼接，基因的表达分析, 到RNA和蛋白质的结构功能预测,物种亲缘树的构建都需要进行生物分子序列的相似性比较.生物信息学中的序列比对算法的研究具有非常重要的理论意义和实践意义。

4、预测基因的一般步骤
基因预测的方法主要有最长ORF法、利用编码区与非编码区密码子选用频率的差异进行基因预测、ESTs预测基因。

其中最长ORF法是将每条链按6个读码框全部翻译出来，然后找出所有可能的不间断开放阅读框（ORF)，只要找出序列中最长的ORF，就能相当准确地预测出基因。

其的基本步骤为：1：获取DNA目标序列；2:查找ORF并将目标序列翻译成蛋白质序列；3：利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索。

4：进行目标序列与搜索得到的相似序列的全局比对；5进行多序列比对,获得比对区段的基因家族信息.6：查找目标序列中的特定模序7：预测目标序列蛋白质结构。

5、散弹法测序原理
散弹法又称“鸟枪法”是一种由生物基因组提取目的基因的方法.首先利用物理方法（如剪切力、超声波等)或酶化学方法（如限制性内切核酸酶）将生物细胞染色体DNA切割成为基因水平的许多片段，继而将这些片段与适当的载体结合，将重组DNA转入受体菌扩增,获得无性繁殖的基因文库，再结合筛选方法,从众多的转化子菌株中选出含有某一基因的菌株，从中将重组的DNA分离、回收。

这种方法也就是应用基因工程技术分离目的基因，其特点是绕过直接分离基因的难关，在基因组DNA文库中筛选出目的
基因。

可以说这是利用“溜散弹射击”原理去“命中"某个基因。

由于目的基因在整个基因组中太少太小，在相当程度上还得靠“碰运气”，所以人们称这个方法为“鸟枪法”或“散弹枪”实验法。

6、序列分析的任务和目的
7、引物设计的方法与原则
原则：1、择合适的靶序列：设计引物之前，必须分析待测靶序列的性质，选择高度
保守、碱基分布均匀的区域进行引物设计.
2、长度：一般来说，寡核苷酸引物长度为 15~30bp。

3、 Tm 值：引物的 Tm 值一般控制在 55～60℃,尽可能保证上下游引物的 Tm 值一致,一般不超过 2℃.若引物中的 G+C 含量相对偏低，则可以使引物长度稍长，而保证一定的退火温度.
4、（G+C)含量：有效引物中(G+C）的比例一般为 40～60%.
5、碱基的随机分布：引物中四种碱基的分布最好是随机的，不存在聚嘌呤和聚嘧啶，尤其在引物的 3'端不应超过 3 个连续的 G 或 C.
6、引物自身:引物自身不存在连续 4 个碱基以上的互补序列，如回文结构,发夹结构等，否则会影响到引物与模板之间的复性结合，尤其避免 3'末端的互补。

8、mRNA—seq建库流程
9、真核基因和原核基因的特征
10、核酸序列数据库
NCBI储存和分析分子生物学、生物化学、遗传学知识创建自动化系统；从事研究
基于计算机的信息处理过程的高级方法，用于分析生物学上重要的分子和化合物的结构与
功能;促进生物学研究人员和医护人员应用数据库和软件；努力协作以获取世界范围内的
生物技术信息.
欧洲生物信息学研究所（European Bioinformatics Institute, EBI）创建的一个核酸
序列数据库.
GenBank数据库:DNA序列数据库
TIGR数据库(TDB)包括DNA及蛋白质序列，基因表达，细胞功能以及蛋白质家族信息,并且还收录有人、植物、微生物等的分类信息，是一套大型综合数据库。

特别之处在于，这套数据库包括一个微生物信息库，
GSDB收集、管理并且发送完整的DNA序列及其相关信息,以满足主要基因组测序机构的需要。

三、论述
1、人类基因组计划与生物信息学的关系
人类基因组计划旨在对人类基因组3×109 个脱氧核苷酸对进行作图和测序，进而解读和破译生老病死以及语言、记忆和疾病发生的遗传信息.而生物信息学是集生物学、数学、信息学、计算机科学一体化的一门新的学科.随着人类基因组计划的进展,基因组的数据和信息大量,迅速地增加,信息的收集、储存、分发、分析的管理越来越显得紧迫和重要。

利用数学模式和计算机处理数据的功能来处理和分析大量增加的人类基因组信息的结果,使人类基因组计划和生物信息学紧紧地结合起来了,而且随着两者的紧密结合和互相渗透,人类基因组计划的前进步伐会大大加快，从而提前完成计划，为人类造福。

基因识别是HGP的重要内容之一;目的是要识别全部人类的基因，即基因组在生命活动中发生转录表达的DNA片段,并对其结构进行研究。

目前常采用的有二种方法:一是从基因组顺序中识别那些转录表达的DNA片段;二是从cD2 NA文库中挑取并克隆。

两种方法都必须依靠生物信息学的帮助即信息系统的建立；前者需要对基因组进行分析,后者要对基因文库进行分析,甚至还要进行分类分型，建立二级库，才能有效地挑取到所需要的DNA分子克隆。

HGP的提出和实施,实验的数据和信息急剧大量的增加，信息的管理和分析成为一项重要的研究内容。

生物信息学以基因组信息学为核心，主要任务是收集、储存、分发基因组的数据和信息，管理和分析、处理基因组及相关的蛋白质、mRNA的信息,根据基因组数据和信息的比较分析，发现新的基因,并对基因结构和功能进行研究。

随着计算机技术的发展和渗透,生物信息学在人类基因组中大规模测序的自动化控制、测序结果分析处理、序列数据的计算机管理、各类遗传图谱、物理图谱的绘制、研究数据的网
络获取、分析和交换,以数据分析的结果辅助基因组研究等都发挥着不可替代的功能，显示出越来越重要的作用。

人类基因组计划启动时，生物信息学技术就已成为发展的重点之一，目前有关基因序列、图谱的数据信息的大量积累,使生物信息学研究在人类基因组研究中的重要性越来越突出,在今后的人类基因研究中，生物信息学是一个信息库，一种高层次研究的工具。

如果生物信息学研究发展滞后,将意味着失去信息，失去高层次、高水平研究的基础。

2、已知蛋白质的aa序列，预测其蛋白质结构、分析其功能.
五、判断
1、直系同源的序列因物种形成（speciation）而被区分开(separated）:若一个基因原先存在于某个物种，而该物种分化为了两个物种,两个物种中的相同的基因功能未变化，那么新物种中的基因是直系同源的;
旁系同源的序列因基因复制（gene duplication）而被区分开（separated）:若生物体中的某个基因被复制了，功能改变了，那么两个副本序列就是旁系同源的.因此,旁系同源基因存在于同一个物种。

直系同源的一对序列称为直系同源体(orthologs)，旁系同源的一对序列称为旁系同源体(paralogs）。

六、填空
1、数据库有。