生物信息学期末复习资料(小字)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

生物信息学期末复习资料(小字)
名词解释或辨析。

1.生物信息学:生物信息学是包含生物信息的获取、处理、贮存、分发、分析和解释的所有方面的一门学科,它综合运用数学、计算机科学和生物学的各种工具进行研究,目的在于了解大量的生物学意义。

2.基因芯片:固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。

利用这类芯片与标记的生物样品进行杂交,可对样品的基因表达谱生物信息进行快速定性和定量分析。

3.人类基因组计划:HGP,是一项规模宏大,跨国跨学科的科学探索工程。

其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而描绘人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。

4.中心法则:分子生物学的基本法则,是1958年由克里克(Crick)提出的遗传信息传递的规律,包括由DNA到DNA的复制,由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。

20世纪70年代逆转录酶的发现,表明还有由RNA逆转录形成DNA的机制,是对中心法则的补充和丰富。

5.相似性和同源性:相似性(similarity)和同源性(homology)是两个完全不同的概念。

同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。

相似性是指序列比对过程中检测序列和目标序列之间
相同碱基或氨基酸残基序列所占比例的大小。

当两条序列同源时,他们的氨基酸或核苷酸序列通常有显著的一致性(identity)。

如果两条系列有一个共同进化的祖先,那么他们是同源的。

这里不存在同源性的程度问题,两条序列要么是同源的要么是不同源的。

1.生物信息学:综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。

包括生物学数据的研究、存档、显示、处理和模拟,基因组遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。

2.蛋白质组:指由一个基因组,或一个细胞、组织表达的所有蛋白质。

蛋白质组的概念与基因组的概念有许多差别,它随着组织、甚至环境状态的不同而改变。

3.电子克隆:是近年来发展起来的一门快速克隆基因的新技术,其核心技术是利用生物信息学技术的组装延伸ESTs序列,获得基因的部分乃至全长cDNA序列进一步利用RT_PCR的方法进行克隆分析、验证。

4.CDS和cDNA
cDNA序列:互补DNA序列,指的是mRNA为在逆转录酶的作用下将形成DNA的过程。

CDE序列:编码序列,从起始密码子到终止密码子的所有序列。

5.有义链和无义链:正义链,负义链一般是指的DNA 的两条链。

与mRNA序列相同的那条就是正义链或有义链,与它互补的也就是翻译出它的那条是编码链或负义链或反义链或模板链或无义链。

判断
1.生物信息学可以理解为生命科学中的信息科学(√)
2.DNA分子和蛋白质分子都含有进化信息。

(√)
3.目前生命科学研究的重点和突破点已完全转移到
生物信息学上,已不需要实验做支撑。

(×)
4.基因组与蛋白质组一样,都处于动态变化之中。

(×)
5.生物信息学的发展大致经历了:前基因组时代,基因组时代和后基因组时代。

(√)
6.蛋白质三维结构都是静态的,在行使功能的过程中其结构不会改变。

(×)
7.生物信息学中研究的生物大分子主要是脂类和多糖。

(×)
8.一个数据库记录由两部分构成:原始序列数据及其注释。

(√)
9.SWISS-PROT是目前国际上比较权威的核酸序列数据库。

(×)
10.生物信息学中一级数据库与二级数据库之间并无明确的界限。

(√)
1.生物信息学可以简单的理解为利用计算机进行生
命科学的研究。

(×)
2.生物信息学的研究范围不包括新药研究和生物进化。

(×)
3.DNA携带有进化信息,而蛋白质则不携带进化信息。

(×)
4.中心法则中遗传信息的传递只能是单向的。

(×)
5.DDBJ是重要的蛋白质结构数据库。

(×)
6.一个数据库记录一般由两部分组成:原始序列数据及其注释。

(√)
7.一级数据库与二级数据库之间并无明确的界限。

(√)
8.相似性和同源性为同一个概念。

(×)
9.蛋白质三维结构都是静态的,在行驶功能的过程中其结构不会改变。

(×)
10.生物信息学的发展大致经历了:前基因组时代,基因组时代和后基因组时代。

(√)简答题。

1、生物信息学的主要研究内容是什么?
①生物分子数据的收集与管理。

②数据库搜索及序列
比较。

③基因组序列分析。

④基因表达数据的分析与
处理。

⑤蛋白质结构预测。

2.生物信息学在基因芯片中的应用有哪些?①确定
芯片检测目标②芯片设计③实验数据管理与分析。

3.简要介绍GenBank中的DNA序列格式。

GenBank数据库(包括NCBI核酸和蛋白质序列数据
库)中条目格式如下:给出描述每一个系列的信息,
包括文献参考、系列的功能信息、mRNA和编码区域的
位置,以及重要突变的位置。

这些序列信息以字段的
形式进行组织,每一行最前端都有一个标识符。

在某
些条目中,标识符可能缩写成两个字母(例如RF代
表reference),某些字段可能还有次级字段。

计算
机程序中的序列条目位于标识符ORIGIN和//之间。

4国际上权威的核酸序列数据库有哪些?
①欧洲分子生物学实验室的EMBL②美国生物技术信
息中心的GenBank。

③日本遗传研究所的DDBJ。

5.序列分析的任务和目的分别是什么?
任务:①发现序列之间的相似性②辨别序列之间的差异。

目的:①相似序列:相似的结构,相似的功能。

②判别序列之间的同源性。

③推测序列之间的进化关系。

简答题
2.生物信息学数据库的要求和基本特征是什么?
应满足的要求:(1)时效性。

(2)注释。

(3)支
撑数据。

(4)数据质量。

(5)集成性。

特征:(1)数据库的更新速度不断加快数据量成指
数增长趋势。

(2)数据库使用频率增长更快。

(3)
数据库的复杂程度不断增加。

(4)数据库网络化。

(5)面向应用。

(6)先进的软硬件配置。

3.简要介绍FASTA序列格式
FASTA 序列格式包括三个部分:(1)在注释行的第
一列用字符“>”标识,后面是序列的名字和来源;(2)标准的单字符标记的序列。

(3)可选的“*”
表示序列的结束,它可能出现也可能不出现。

但它是许多序列分析程序正确读取序列所必须
的。

FASTA格式是序列分析软件最常用的格式。

这种格式提供了从一个窗口到另一个窗口非常方便
的拷贝途径,因为序列中没有数字或其他非字符。

FASTA序列格式和蛋白质信息资源NBRF格式很相似。

4.什么是基因识别。

基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。

基因识别的对象主要是蛋白质编码基因。

也包括其他具有一定生物学功能的因子,如RNA 基因和调控因子。

论述题。

1、生物序列相似性搜索的blast程序blastn、blastp、blastx、Tblastn、Tblastx各自有何区别
和用途?
Blastp:①检测序列:蛋白质。

②数据库类型:蛋白质。

③方法:用检测序列蛋白质搜索蛋白质序列数据库。

Blastn:①检测序列:核酸。

②数据库类型:核酸。

③方法:用检测序列核酸搜索核酸序列数据库。

Blastx①检测序列:核酸。

②数据库类型:蛋白质。

③方法:将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库。

Tblastn①检测序列:蛋白质。

②数据库类型:核酸。

③方法:用检测系列蛋白质搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库。

Tblastx①检测序列:核酸②数据库类型:核酸③方法:将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库。

2.掌握蛋白质结构有什么意义,为什么要进行蛋白质结构预测?
(1)研究蛋白质的结构意义重大,分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。

研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其他分子)之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。

(2)对于未知功能或者新发现的蛋白质分子,通过结构分析,可以进行功能注释,指导设计进行功能确认的生物学实验。

通过分析蛋白质的结构,确认功能单位或
者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。

2.简述人类基因组计划与生物信息学之间的相互促
进关系。

人类基因组计划是美国在1990年提出实施的一项伟大的科学计划,与阿波罗登月计划、曼哈顿原子弹计划统称为人类自然科学史上的三大计划。

自实施以来,该计划在世界各国引起了很大反响。

在人类基因组计划中,人们准备用15年时间,投入30亿美元完成人类全部24条染色体中的3×109个碱基对(bp,base pair)的序列测定,其主要任务包括
作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别,还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。

随着人类基因组计划的提出和实施,实验数据和可利用信息急剧增加,人类基因组计划提供了以往不可想象的巨量的生物学信息资源。

基因组信息的收集、储存、分发、分析显得越来越紧迫和重要,信息的管理和分析成为人类基因组计划实施过程中的一项重要工作,人类基因组计划向信息学提出了巨大的挑战。

值得庆幸的是,人类基因组计划一开始就与计算机技术信息、高速公路同步发展,信息技术为生物信息学的发展提供了非常好的条件,为生物信息学的研究和应用提供了非常好的支撑。

生物信息学与人类基因组计划紧密结合,互相渗透,生物信息学成为基因组计划不可分割的一部分。

事实证明,人类基因组计划在生物信息学的支持下,前进步伐大大加快,已经提前完成计划,功能基因组研究也已经全面展开。

而人类基因组计划反过来又大大促进了生
物信息学的发展,HGP丰富了生物信息学的研究内容
促进生物信息学新思想新方法的产生,生物信息学在
最近十年迅速发展的历程证明了这一点。

名词解释或辨析。

1.生物信息学:生物信息学是包含生物信息的获取、
处理、贮存、分发、分析和解释的所有方面的一门学
科,它综合运用数学、计算机科学和生物学的各种工
具进行研究,目的在于了解大量的生物学意义。

2.基因芯片:固定有寡核苷酸、基因组DNA或互补DNA 等的生物芯片。

利用这类芯片与标记的生物样品进行
杂交,可对样品的基因表达谱生物信息进行快速定性
和定量分析。

3.人类基因组计划:HGP,是一项规模宏大,跨国跨
学科的科学探索工程。

其宗旨在于测定组成人类染色
体(指单倍体)中所包含的30亿个碱基对组成的核苷
酸序列,从而描绘人类基因组图谱,并且辨识其载有
的基因及其序列,达到破译人类遗传信息的最终目
的。

4.中心法则:分子生物学的基本法则,是1958年由
克里克(Crick)提出的遗传信息传递的规律,包括
由DNA到DNA的复制,由DNA到RNA的转录和由RNA 到蛋白质的翻译等过程。

20世纪70年代逆转录酶的
发现,表明还有由RNA逆转录形成DNA的机制,是对
中心法则的补充和丰富。

5.相似性和同源性:相似性(similarity)和同源性(homology)是两个完全不同的概念。

同源序列是指
从某一共同祖先经过趋异进化而形成的不同序列。


似性是指序列比对过程中检测序列和目标序列之间
相同碱基或氨基酸残基序列所占比例的大小。

当两条
序列同源时,他们的氨基酸或核苷酸序列通常有显著
的一致性(identity)。

如果两条系列有一个共同进
化的祖先,那么他们是同源的。

这里不存在同源性的
程度问题,两条序列要么是同源的要么是不同源的。

1.生物信息学:综合计算机科学、信息技术和数学的
理论和方法来研究生物信息的交叉学科。

包括生物学
数据的研究、存档、显示、处理和模拟,基因组遗传
和物理图谱的处理,核苷酸和氨基酸序列分析,新基
因的发现和蛋白质结构的预测等。

2.蛋白质组:指由一个基因组,或一个细胞、组织表
达的所有蛋白质。

蛋白质组的概念与基因组的概念有
许多差别,它随着组织、甚至环境状态的不同而改变。

3.电子克隆:是近年来发展起来的一门快速克隆基因
的新技术,其核心技术是利用生物信息学技术的组装
延伸ESTs序列,获得基因的部分乃至全长cDNA序列
进一步利用RT_PCR的方法进行克隆分析、验证。

4.CDS和cDNA
cDNA序列:互补DNA序列,指的是mRNA为在逆转录酶的作用下将形成DNA的过程。

CDE序列:编码序列,从起始密码子到终止密码子的
所有序列。

6.有义链和无义链:正义链,负义链一般是指的DNA
的两条链。

与mRNA序列相同的那条就是正义链或有
义链,与它互补的也就是翻译出它的那条是编码链或
负义链或反义链或模板链或无义链。

判断
1.生物信息学可以理解为生命科学中的信息科学
(√)
2.DNA分子和蛋白质分子都含有进化信息。

(√)
3.目前生命科学研究的重点和突破点已完全转移到
生物信息学上,已不需要实验做支撑。

(×)
4.基因组与蛋白质组一样,都处于动态变化之中。

(×)
5.生物信息学的发展大致经历了:前基因组时代,基
因组时代和后基因组时代。

(√)
6.蛋白质三维结构都是静态的,在行使功能的过程中
其结构不会改变。

(×)
7.生物信息学中研究的生物大分子主要是脂类和多糖。

(×)
8.一个数据库记录由两部分构成:原始序列数据及其
注释。

(√)
9.SWISS-PROT是目前国际上比较权威的核酸序列数据库。

(×)
10.生物信息学中一级数据库与二级数据库之间并无
明确的界限。

(√)
1.生物信息学可以简单的理解为利用计算机进行生
命科学的研究。

(×)
2.生物信息学的研究范围不包括新药研究和生物进化。

(×)
3.DNA携带有进化信息,而蛋白质则不携带进化信息。

(×)
4.中心法则中遗传信息的传递只能是单向的。

(×)
5.DDBJ是重要的蛋白质结构数据库。

(×)
6.一个数据库记录一般由两部分组成:原始序列数据
及其注释。

(√)
7.一级数据库与二级数据库之间并无明确的界限。

(√)
8.相似性和同源性为同一个概念。

(×)
9.蛋白质三维结构都是静态的,在行驶功能的过程中
其结构不会改变。

(×)
10.生物信息学的发展大致经历了:前基因组时代,
基因组时代和后基因组时代。

(√)
简答题。

1、生物信息学的主要研究内容是什么?
①生物分子数据的收集与管理。

②数据库搜索及序列比较。

③基因组序列分析。

④基因表达数据的分析与处理。

⑤蛋白质结构预测。

2.生物信息学在基因芯片中的应用有哪些?①确定
芯片检测目标②芯片设计③实验数据管理与分析。

3.简要介绍GenBank中的DNA序列格式。

GenBank数据库(包括NCBI核酸和蛋白质序列数据库)中条目格式如下:给出描述每一个系列的信息,包括文献参考、系列的功能信息、mRNA和编码区域的位置,以及重要突变的位置。

这些序列信息以字段的形式进行组织,每一行最前端都有一个标识符。

在某些条目中,标识符可能缩写成两个字母(例如RF代
表reference),某些字段可能还有次级字段。

计算
机程序中的序列条目位于标识符ORIGIN和//之间。

4国际上权威的核酸序列数据库有哪些?
①欧洲分子生物学实验室的EMBL②美国生物技术信息中心的GenBank。

③日本遗传研究所的DDBJ。

5.序列分析的任务和目的分别是什么?
任务:①发现序列之间的相似性②辨别序列之间的差异。

目的:①相似序列:相似的结构,相似的功能。

②判别序列之间的同源性。

③推测序列之间的进化关系。

简答题
2.生物信息学数据库的要求和基本特征是什么?
应满足的要求:(1)时效性。

(2)注释。

(3)支
撑数据。

(4)数据质量。

(5)集成性。

特征:(1)数据库的更新速度不断加快数据量成指
数增长趋势。

(2)数据库使用频率增长更快。

(3)
数据库的复杂程度不断增加。

(4)数据库网络化。

(5)面向应用。

(6)先进的软硬件配置。

3.简要介绍FASTA序列格式
FASTA 序列格式包括三个部分:(1)在注释行的第
一列用字符“>”标识,后面是序列的名字和来源;(2)标准的单字符标记的序列。

(3)可选的“*”
表示序列的结束,它可能出现也可能不出现。

但它是许多序列分析程序正确读取序列所必须
的。

FASTA格式是序列分析软件最常用的格式。

这种格式提供了从一个窗口到另一个窗口非常方便
的拷贝途径,因为序列中没有数字或其他非字符。

FASTA序列格式和蛋白质信息资源NBRF格式很相似。

4.什么是基因识别。

基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。

基因识别的对象主要是蛋白质编码基因。

也包括其他具有一定生物学功能的因子,如RNA 基因和调控因子。

论述题。

1、生物序列相似性搜索的blast程序blastn、blastp、blastx、Tblastn、Tblastx各自有何区别
和用途?
Blastp:①检测序列:蛋白质。

②数据库类型:蛋白质。

③方法:用检测序列蛋白质搜索蛋白质序列数据库。

Blastn:①检测序列:核酸。

②数据库类型:核酸。

③方法:用检测序列核酸搜索核酸序列数据库。

Blastx①检测序列:核酸。

②数据库类型:蛋白质。

③方法:将核酸序列按6条链翻译成蛋白质序列后搜
索蛋白质序列数据库。

Tblastn①检测序列:蛋白质。

②数据库类型:核酸。

③方法:用检测系列蛋白质搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库。

Tblastx①检测序列:核酸②数据库类型:核酸③方法:将核酸序列按6条链翻译成蛋白质序列后搜索由核酸序列数据库按6条链翻译成的蛋白质序列数据库。

2.掌握蛋白质结构有什么意义,为什么要进行蛋白质结构预测?
(1)研究蛋白质的结构意义重大,分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。

研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其他分子)之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。

(2)对于未知功能或者新发现的蛋白质分子,通过结构分析,可以进行功能注释,指导设计进行功能确认的生物学实验。

通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子结构。

2.简述人类基因组计划与生物信息学之间的相互促
进关系。

人类基因组计划是美国在1990年提出实施的一项伟大的科学计划,与阿波罗登月计划、曼哈顿原子弹计划统称为人类自然科学史上的三大计划。

自实施以来,该计划在世界各国引起了很大反响。

在人类基因组计划中,人们准备用15年时间,投入30亿美元完成人类全部24条染色体中的3×109个碱基对
(bp,base pair)的序列测定,其主要任务包括
作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别,还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。

随着人类基因组计划的提出和实施,实验数据和可利用信息急剧增加,人类基因组计划提供了以往不可想象的巨量的生物学信息资源。

基因组信息的收集、储存、分发、分析显得越来越紧迫和重要,信息的管理和分析成为人类基因组计划实施过程中的一项重要工作,人类基因组计划向信息学提出了巨大的挑战。

值得庆幸的是,人类基因组计划一开始就与计算机技术信息、高速公路同步发展,信息技术为生物信息学的发展提供了非常好的条件,为生物信息学的研究和应用提供了非常好的支撑。

生物信息学与人类基因组计划紧密结合,互相渗透,生物信息学成为基因组计划不可分割的一部分。

事实证明,人类基因组计划在生物信息学的支持下,前进步伐大大加快,已经提前完成计划,功能基因组研究也已经全面展开。

而人类基因组计划反过来又大大促进了生物信息学的发展,HGP丰富了生物信息学的研究内容促进生物信息学新思想新方法的产生,生物信息学在最近十年迅速发展的历程证明了这一点。

相关文档
最新文档