生物信息学 复习题及答案(打印)

合集下载

生物信息考试题及答案

生物信息考试题及答案

生物信息考试题及答案生物信息学是一门结合生物学、计算机科学、信息技术和数学的交叉学科,它利用计算机技术来分析和解释生物数据。

以下是一份生物信息学考试题及答案的示例。

生物信息学考试题一、选择题(每题2分,共20分)1. 生物信息学中,用于存储DNA序列的文件格式是:A. FASTAB. JPEGC. MP3D. DOCX2. 以下哪项不是生物信息学分析的基本步骤?A. 数据收集B. 数据预处理C. 数据解释D. 数据存储3. 在蛋白质序列分析中,BLAST工具用于:A. 序列比对B. 序列组装C. 序列克隆D. 序列合成4. 以下哪个数据库不是用于存储基因表达数据的?A. NCBIB. GEOC. PDBD. ArrayExpress5. 以下哪个算法不是用于基因预测的?A. GeneMarkB. BLASTC. GlimmerD. Fgenesh二、简答题(每题10分,共30分)6. 简述生物信息学在现代生物学研究中的重要性。

7. 解释什么是基因组学,并说明其在医学研究中的应用。

8. 描述序列比对的基本原理及其在生物信息学中的作用。

三、计算题(每题15分,共30分)9. 假设你有一个DNA序列,其组成为:ATCGTA。

请计算其互补序列。

10. 给定两个蛋白质序列,序列A:A-B-C-D-E,序列B:A-C-E-B-D。

请使用Needleman-Wunsch算法计算它们的全局比对得分。

四、论述题(每题20分,共20分)11. 论述生物信息学在新药开发中的作用及其面临的挑战。

答案一、选择题1. A2. C3. A4. C5. B二、简答题6. 生物信息学在现代生物学研究中的重要性体现在它能够处理和分析大量的生物数据,如基因组序列、蛋白质结构等,帮助科学家快速发现生物现象的规律,推动生物学的发展。

7. 基因组学是研究生物基因组的结构、功能和演化的科学。

在医学研究中,基因组学可以帮助我们了解疾病的遗传基础,为个性化医疗提供理论基础。

生物信息学复习题

生物信息学复习题

名词解释1..生物信息学 :是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。

P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。

P3711.E值:衡量序列之间相似性是否显著的期望值。

河大生科院生物信息学考试复习题答案完整版

河大生科院生物信息学考试复习题答案完整版

名词解释1)生物信息学:生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2)人类基因组计划: 是由美国科学家于1985年率先提出,于1990年正式启动的,宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。

3)基因芯片:又称DNA阵列或DNA芯片是一块带有DNA微阵列(micorarray)的特殊玻璃片或硅芯片片,在数平方厘米之面积上布放数千或数万个核酸探针;检体中的DNA、cDNA、RNA等与探针结合后,借由荧光或电流等方式侦测。

4)中心法则:是指遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。

也可以从DNA传递给DNA,即完成DNA的复制过程。

5)一级数据库:一级数据库主要包括原始数据,例如DNA序列、蛋白质序列和蛋白质结构等信息。

数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。

名词辨析1)信息技术与生物信息学:信息技术是研究信息的获取、传输和处理的技术,由计算机技术、通信技术、微电子技术结合而成,即是利用计算机进行信息处理,利用现代电子通信技术从事信息采集、存储、加工、利用以及相关产品制造、技术开发、信息服务的新学科。

生物信息学是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

2)基因与基因组:基因是指具有遗传效应的DNA片段。

而基因组指的是单倍体细胞中的全套染色体,或是单倍体细胞中的全部基因。

3)相似性与同源性:相似性是指不同染色体之间基因序列的相似或相异程度。

同源性是指两个核酸分子的核苷酸序列或两个蛋白质分子的氨基酸序列间的相似程度。

生物信息学复习题及答案(陶士珩)剖析

生物信息学复习题及答案(陶士珩)剖析

生物信息学复习题名词解释1. (同源):来源于共同祖先的序列相似的序列及同源序列。

序列相似序列并不一定是同源序列。

2(直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。

3(旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。

基因复制事件是促进新基因进化的重要推动力。

4(异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。

5 : ( ) a . 总是不计入总数中。

6.点矩阵():构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。

7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。

衡量序列之间相似性是否显著的期望值。

E值大小说明了可以找到与查询序列()相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。

8值:得分为所要求的分值比对或更好的比对随机发生的概率。

它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的(高分片段对)得分的期望分布联系起来计算的。

通常使用低于0.05来定义统计的显著性。

19.打分矩阵():在相似性检索中对序列两两比对的质量评估方法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。

10.空位():在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

11:美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有, 等工具,还具有文献数据库。

生物信息学复习题

生物信息学复习题

⽣物信息学复习题⼀、名词解释1.bioinformatics:⽣物信息学,指从事对基因组研究相关的⽣物信息的获取、加⼯、储存、分配、分析和解释的⼀门科学,是⼀门⽣物学,数学和计算机相互交叉融合⽽产⽣的新兴学科。

2.molecular bioinformatics:指综合应⽤信息科学、数学的理论、⽅法和技术,管理、分析和利⽤⽣物分⼦数据的科学。

3.GenBank:是美国全国卫⽣研究所维护的基因序列数据库,汇集并注释了所有公开的核酸序列,与⽇本的DNA数据库DDBJ以及欧洲分⼦实验室核酸序列数据库EMBL⼀起,都是国际核苷酸序列数据库合作的成员。

4.EMBL:EMBL实验室—欧洲分⼦⽣物学实验室,EMBL数据库—是⾮盈利性学术组织EMBL建⽴的综合性数据库,EMBL核酸数据库是欧洲最重要的核酸序列数据库,它定期地与美国的GenBank、⽇本的DDBJ数据库中的数据进⾏交换,并同步更新。

5.DDBJ:⽇本DNA数据库,主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是⽇本的研究机构,也接受其他国家呈递的序列。

6.BLAST:基本局部⽐对搜索⼯具的缩写,是⼀种序列类似性检索⼯具。

BLAST采⽤统计学⼏分系统,同时采⽤局部⽐对算法, BLAST程序能迅速与公开数据库进⾏相似性序列⽐较。

BLAST结果中的得分是对⼀种对相似性的统计说明。

7.BLASTn:是核酸序列到核酸库中的⼀种查询。

库中存在的每条已知序列都将同所查序列作⼀对⼀地核酸序列⽐对。

8.BLASTp:是蛋⽩序列到蛋⽩库中的⼀种查询。

库中存在的每条已知序列将逐⼀地同每条所查序列作⼀对⼀的序列⽐对。

9.Clustsl X:是CLUSTAL多重序列⽐对程序的Windows版本,是⽤来对核酸与蛋⽩序列进⾏多序列⽐较的程序,也可以对来⾃不同物种的功能或结构相似的序列进⾏⽐对和聚类,通过重建系统发⽣树判断亲缘关系,并对序列在⽣物进化过程中的保守性进⾏估计。

生物信息学_复习题及答案(打印)

生物信息学_复习题及答案(打印)

⽣物信息学_复习题及答案(打印)⼀、名词解释:1.⽣物信息学:研究⼤量⽣物数据复杂关系的学科,其特征是多学科交叉,以互联⽹为媒介,数据库为载体。

利⽤数学知识建⽴各种数学模型; 利⽤计算机为⼯具对实验所得⼤量⽣物学数据进⾏储存、检索、处理及分析,并以⽣物学知识对结果进⾏解释。

2.⼆级数据库:在⼀级数据库、实验数据和理论分析的基础上针对特定⽬标衍⽣⽽来,是对⽣物学知识和信息的进⼀步的整理。

3.FASTA序列格式:是将DNA或者蛋⽩质序列表⽰为⼀个带有⼀些标记的核苷酸或者氨基酸字符串,⼤于号(>)表⽰⼀个新⽂件的开始,其他⽆特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为⼴泛的⽣物信息学序列格式之⼀。

该⽂件格式按域划分为4个部分:第⼀部分包含整个记录的信息(描述符);第⼆部分包含注释;第三部分是引⽂区,提供了这个记录的科学依据;第四部分是核苷酸序列本⾝,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核⼼检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使⽤⽅便,能够进⾏交叉索引等特点。

6.BLAST:基本局部⽐对搜索⼯具,⽤于相似性搜索的⼯具,对需要进⾏检索的序列与数据库中的每个序列做相似性⽐较。

P947.查询序列(query sequence):也称被检索序列,⽤来在数据库中检索并进⾏相似性⽐较的序列。

P988.打分矩阵(scoring matrix):在相似性检索中对序列两两⽐对的质量评估⽅法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类⽅法。

P299.空位(gap):在序列⽐对时,由于序列长度不同,需要插⼊⼀个或⼏个位点以取得最佳⽐对结果,这样在其中⼀序列上产⽣中断现象,这些中断的位点称为空位。

P2910.空位罚分:空位罚分是为了补偿插⼊和缺失对序列相似性的影响,序列中的空位的引⼊不代表真正的进化事件,所以要对其进⾏罚分,空位罚分的多少直接影响对⽐的结果。

《生物信息学》题集

《生物信息学》题集

《生物信息学》题集一、选择题(每题3分,共30分)1.生物信息学的主要研究对象是什么?A. 蛋白质结构B. 基因序列C. 生态系统D. 细胞代谢2.下列哪项技术不是生物信息学中常用的数据库技术?A. BLASTB. GenBankC. PubMedD. SWISS-PROT3.在生物信息学中,进行多序列比对时常用的软件是什么?A. MATLABB. ClustalWC. ExcelD. PowerPoint4.哪种算法常用于基因表达数据的聚类分析?A. K-meansB. DijkstraC. A*D. Floyd5.生物信息学中,下列哪项不是常用的序列分析技术?A. PCRB. 测序C. 质谱分析D. 芯片技术6.下列哪项不是生物信息学在医学领域的应用?A. 疾病诊断B. 药物设计C. 天气预报D. 个性化医疗7.下列哪项技术常用于生物大分子的结构预测?A. NMRB. X射线衍射C. 同源建模D. 质谱分析8.在生物信息学中,下列哪项不是基因注释的内容?A. 基因功能B. 基因表达水平C. 基因在染色体上的位置D. 基因的长度9.下列哪项技术不是高通量测序技术?A. Sanger测序B. Illumina测序C. 454测序D. SOLiD测序10.下列哪项不是生物信息学在农业领域的应用?A. 作物育种B. 病虫害防治C. 土壤成分分析D. 农产品品质改良二、填空题(每题2分,共20分)1.生物信息学是一门交叉学科,它主要涉及______、计算机科学和数学等领域。

2.在生物信息学中,______技术常用于基因序列的相似性搜索。

3.生物信息学在药物研发中的主要应用包括______和药物靶点的预测。

4.在基因表达数据分析中,______是一种常用的数据标准化方法。

5.生物信息学中,______技术常用于蛋白质结构的预测和分析。

6.在生物信息学数据库中,GenBank主要存储的是______数据。

生物信息学复习题已附答案

生物信息学复习题已附答案

本卷的答案仅做参考,如有疑问欢迎提出。

后面的补充复习题要靠你们自己整理答案了。

生物信息学复习题一、填空题1、 识别基因主要有两个途径即2、 表达序列标签是从 mRNA 中生成的一些很短的序列( 300-500bp ),它们代表在特定组织或发育阶段表达的基因。

3、 序列比对的基本思想,是找出 检测基因 和 目标序列 的相似性,就是通过在序列中插入 空位的方法使所比较的序列长度达到一致。

比对的数学模型大体分 为两类,分别— 和局部比对 。

4、 2-DE 的基本原理是根据蛋白质 和 分子量 不同,进行两次电泳将之分 离。

第一向是 等电聚焦分离 ,第 —S D S-P AGE 分离 o5、 蛋白质组研究的三大关键核心技术是 质谱鉴定技术 、 计算机图像数据处理与蛋白质数据库二、 判断题1、 生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,是真核生物基因组的特点之一。

(对)2、 CDS 一定就是 ORF 。

(对)3、 两者之间有没有共同的祖先,可以通过序列的同源性来确定,如果两个基因或蛋白质有着几乎一样的序列,那么它们高度同源 ,就具有共同的祖先。

(错)4、 STS,是一段 200-300bp 的特定 DNA 序列,它的序列已知,并且在基因组中属于 单拷贝。

(对)5、 非编码 DNA 是“垃圾 DNA',不具有任何的分析价值,对于细胞没有多大的作用。

(错)6、 基因树和物种树同属于系统树,它们之间可以等同。

(错)7、 基因的编码序列在 DNA 分子上是被不编码的序列隔开而不连续排列的。

&对任意一个 DNA 序列,在不知道哪一个碱基代表 CDS 的起始时,可用 获得6个潜在的蛋白质序列。

(对)9、 一个机体只有一个确定的基因组,但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。

(对)10、 外显子和内含子之间没有绝对的区分,一个基因的内含子可以是另一个基因的 外显子,同一个基因在不同的生理状况或生长发育的不同阶段,外显子组成也可以 不同。

生物信息学期末复习题与答案

生物信息学期末复习题与答案

一、单选题1、总的来说,位于染色体内超过( )个碱基的DNA,构成了人类基因组。

A.30000000000B.3000000000C.300000000D.30000000正确答案:B2、人类镰刀型红细胞贫血症是由于血红蛋白β链N端第6个氨基酸由谷氨酸突变为( )造成的。

A.苏氨酸B.缬氨酸C.赖氨酸D.谷氨酸正确答案:B3、RefSeq数据库是由哪个组织开发和维护的?( )A.NIGB.NCBIC.EMBLD.SIB正确答案:B4、Long non-coding RNA长链非编码RNA是长度大于( )个核苷酸的非编码RNA。

A.150B.250C.300D.200正确答案:D5、tBLASTx分析是用核酸序列检索核酸序列数据库,下列说法正确的是?()A.核酸序列和核酸序列数据库都不需要翻译成蛋白质序列B.只有核酸序列数据库需要翻译成蛋白质序列C.只有核酸序列需要翻译成蛋白质序列D.核酸序列和核酸序列数据库都需要翻译成蛋白质序列正确答案:D6、要搜索编码蛋白质序列的核酸序列,适宜的分析方法是?()A.BLASTxB.BLASTnC.tBLASTnD.BLASTp正确答案:A7、下列对于PCR引物修饰的说法正确的是?()A.PCR引物的5’末端和3’末端均能进行修饰B.PCR引物的5’末端和3’末端均不能进行修饰C.只有PCR引物的5’末端能进行修饰D.只有PCR引物的3’末端能进行修饰正确答案:C8、下列哪个在线分析工具可以预测DNA的外显子-内含子?()A.AugustusB.PLACEC.ORFfinderD.Entrez正确答案:A9、Smith-Waterman动态规划算法矩阵中的每个单元格有几条路径?()A.1B.2C.3D.4正确答案:D10、下列关于Needleman-Wunsch算法和Smith-Waterman算法提出早晚的论述正确的是?()A.Needleman-Wunsch算法提出时间较早B.不确定C.Smith-Waterman算法提出时间较早D.二者提出时间相当正确答案:A11、当分类单元至少为3时,下列对“有根树与无根树的数目”判断正确的是?()A.有根树的数目要少于无根树的数目B.有根树的数目与无根树的数目一样多C.有根树的数目要多于无根树的数目D.二者数目无法判断正确答案:C12、下列哪种算法建树时,选择代价最小或者枝长最短的树?A.最大似然值法B.最大简约法C.邻接法D.UPGMA法正确答案:B二、多选题1、生物信息学是由( )等学科相互交叉而形成的一门新兴学科。

关于生物信息学复习题

关于生物信息学复习题

名词解释1..生物信息学 :是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着和的迅猛发展,生命科学和计算机科学相结合形成的一门新学科。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。

P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。

P3711.E值:衡量序列之间相似性是否显着的期望值。

12.低复杂度区域:BLAST搜索的过滤选项。

(完整版)生物信息学复习题及答案(陶士珩)

(完整版)生物信息学复习题及答案(陶士珩)

生物信息学复习题一、名词解释生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E 值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。

二、问答题1)生物信息学与计算生物学有什么区别与联系?2)试述生物信息学研究的基本方法。

3)试述生物学与生物信息学的相互关系。

4)美国国家生物技术信息中心(NCBI)的主要工作是什么?请列举3个以上NCBI维护的数据库。

5)序列的相似性与同源性有什么区别与联系?6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么?7)简述BLAST搜索的算法。

8)什么是物种的标记序列?9)什么是多序列比对过程的三个步骤?10)简述构建进化树的步骤。

11)简述除权配对法(UPGMA)的算法思想。

12)简述邻接法(NJ)的算法思想。

13)简述最大简约法(MP)的算法思想。

14)简述最大似然法(ML)的算法思想。

15)UPGMA构树法不精确的原因是什么?16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。

(完整word版)生物信息学复习资料(word文档良心出品)

(完整word版)生物信息学复习资料(word文档良心出品)

一、名词解释(31个)1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。

狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。

2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

3.多序列比对:研究的是多个序列的共性。

序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。

4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。

5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。

指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。

(来自百度)6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。

用来描述在同一物种内由于基因复制而分离的同源基因。

(来自百度)7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。

8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。

(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折叠得较为紧密,各行其功能,称为结构域。

10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分,以控制空位插入的合理性。

(来自百度)11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的3’或5’端序列。

生物信息试题及答案

生物信息试题及答案

生物信息试题及答案考题一:1. 什么是生物信息学?生物信息学是一门综合学科,它融合了生物学、计算机科学和统计学等领域的知识和技术,旨在通过对生物序列、结构、功能和进化等信息的收集、管理、分析和应用,揭示生命现象和生物体的特性。

2. 生物信息学在生物研究中的应用有哪些?生物信息学在生物研究中有多种应用,包括:- 基因组学研究:通过对基因组序列的分析,探索基因组结构和功能,识别基因、编码蛋白质和非编码RNA等基因组元件。

- 转录组学研究:通过对转录组数据的分析,研究基因表达谱、异构剪切和转录调控等过程。

- 蛋白质组学研究:通过对蛋白质组数据的分析,研究蛋白质互作网络、翻译后修饰和蛋白质结构与功能等问题。

- 代谢组学研究:通过对代谢产物谱数据的分析,研究代谢途径、代谢物互作和生物样本间的代谢差异。

- 生物信息学工具开发:开发生物信息学软件和数据库,提供数据分析、可视化和挖掘的工具,并推动生物信息学的技术创新。

考题二:1. 生物序列中常见的两类序列是什么?生物序列中常见的两类序列是DNA序列和蛋白质序列。

2. 请简要解释DNA序列和蛋白质序列的意义。

DNA序列是生物遗传信息的载体,它决定了生物体的遗传特征和功能。

通过分析DNA序列,我们可以识别基因、预测基因功能,研究基因组结构和进化过程。

蛋白质序列是DNA翻译后产生的,蛋白质是生物体内多种生物学功能的主要执行者。

分析蛋白质序列可以预测蛋白质的结构和功能,从而理解生物体内蛋白质相互作用、代谢途径和信号传导等重要生物过程。

考题三:1. 什么是基因组学?基因组学是研究生物体基因组的学科,它包括了对基因组序列、结构、功能和进化等多个方面的研究。

基因组是一个生物体所有基因的集合,通过对基因组的研究,可以揭示生物体的遗传信息和特征。

2. 基因组学研究的主要内容有哪些?基因组学研究的主要内容包括以下几个方面:- 基因组测序:通过高通量测序技术,获取生物体基因组的序列信息。

生物信息学 考试答案

生物信息学 考试答案

Bioinformatics (包括陈老师6道题和师兄的四道题)1.什么是生物信息学?你怎么理解它的含义?(或者问什么是生物信息学,为什么生物信息学研究是重要的)答:生物信息学含义主要答3点:(1)它是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。

(2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。

(3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。

它是本世纪自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

第二问:2.发现新基因的两种方法是什么?算法的本质是?(或者问通过DB如何发现新基因,通过何种途径)3.研究生物进化的步骤有哪些,当前面临的困难是什么?如何解决?答:步骤:(1)序列相似性比较。

就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。

完成这一工作只需要使用两两序列比较算法。

常用的程序包有BLAST、FASTA等;(2)序列同源性分析。

是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。

这是理论分析方法中最关键的一步。

完成这一工作必须使用多序列比较算法。

常用的程序包有CLUSTAL等;(3)构建系统进化树。

根据序列同源性分析的结果,重建反映物种间进化关系的进化树。

为完成这一工作已发展了多种软件包,象PYLIP、MEGA等;(4)稳定性检验。

为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出现的分支点才是可靠的。

通用的方法使用Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。

关于生物信息学复习题

关于生物信息学复习题

名词解释1..生物信息学 :是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。

P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。

P3711.E值:衡量序列之间相似性是否显著的期望值。

生物信息学期末复习题

生物信息学期末复习题
8)为什么要构建生物分子数据库。答案:(1)生物分子数据高速增长(2)分子生物学及相关领域研究人员迅速获得最新实验数据。
9)预测基因的一般步骤是什么?答案:⑴获取DNA目标序列⑵查找ORF并将目标序列翻译成蛋白质序列,利用相应工具查找ORF并将DNA序列翻译成蛋白质序列⑶在数据库中进行序列搜索,利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索⑷进行目标序列与搜索得到的相似序列的全局对比⑸查找基因家族进行多序列比对,获得比对区段的基因家族信息⑹查找目标序列中的特定模序,分别在Prosite、BLOCK、Motif数据库中进行profile、模块(block)、模序(motif)检索⑺预测目标序列蛋白质结构,利用PredictProtein(EMBL)、NNPREDICT等预测目标序列的蛋白质二级结构。
15)在基因组序列分析方面,科学家关注哪些信息?答案:就人类基因组而言,编码区域在人类基因组所占的比例不超过3%。其余97%是非编码序列。对于非编码序列,人们了解得比较少,尚不清楚其含义或功能。然而,非编码区域对于生命活动具有重要的意义。这部分序列主要包括内含子、简单重复序列、移动元件(mobile element)及其遗留物、伪基因(pseudo gene)等。
3)简要介绍FASTA序列格式答案:FASTA格式,又叫Pearson格式,是最简单的,使用最多的格式。它的基本形式分为三个部分:⑴第一行:大于号(﹥)表示一个新的序列文件的开始,为标记符。后面可以加上文字说明,gi号,GenBank检索号,LOCUS名称等信息。⑵第二行:序列本身,为DNA的标准符号,通常大小写均可。⑶结束:无特殊标志,但建议多留一个空行,以便将序列和其他内容区分开。
16)为什么要进行序列片段组装?在进行序列片段组装时会遇到哪些问题?答案:大规模基因组测序得到待测序列的一系列序列片段,这些序列片段覆盖待测序列,序列片段之间也存在着相互覆盖或者重叠。遇到的问题:碱基标识错误;不知道片段的方向;存在重复区域;缺少覆盖。

生物信息学复习题及答案陶士珩

生物信息学复习题及答案陶士珩

生物信息学复习题一、名词解释生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。

二、问答题1)生物信息学与计算生物学有什么区别与联系2)试述生物信息学研究的基本方法。

3)试述生物学与生物信息学的相互关系。

4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI维护的数据库。

5)序列的相似性与同源性有什么区别与联系6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么7)简述BLAST搜索的算法。

8)什么是物种的标记序列9)什么是多序列比对过程的三个步骤10)简述构建进化树的步骤。

11)简述除权配对法(UPGMA)的算法思想。

12)简述邻接法(NJ)的算法思想。

13)简述最大简约法(MP)的算法思想。

14)简述最大似然法(ML)的算法思想。

15)UPGMA构树法不精确的原因是什么16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。

《生物信息学》练习题及答案

《生物信息学》练习题及答案

《生物信息学》练习题及答案1、在Genbank中查找以下6个植物蛋白序列:protein1:NP_974673.2;protein2:NP_187969.1;protein3: NP_190855.1;protein4:NP_565618.1;protein5: NP_200511.1;protein6:NP_191407.1(以FASTA格式)。

(1)用EBI上的ClustalW2工具对其进行多序列比对,分析各蛋白序列之间的同源性。

序列比对结果比对结果表明:protein1:NP_974673.2和protein4: NP_565618.1的亲缘关系最近。

(2)利用Phylip软件,选择距离法构建其进化树(要求写出具体的建树步骤)。

1.将蛋白序列保存为FASTA格式,存于txt文档;2.用Clustalx打开txt文本,保存为*.phy文件;3.用seqboot程序打开phy文件,输出结果文件*_seqboot4.用protdist程序打开*_seqboot文件,输出为*_protdist文件5.用neighbor程序打开*_protdist文件,输出为*_neighbor 文件6.用consense程序打开*_neighbor文件,输出为*_consense 文件7.用dratree程序打开*_consense文件得到进化树。

(注:由于seqboot软见无法正常运行,因此进化树无法显示)(3)任意选取其中的一个蛋白进行蛋白质一级序列分析、二级结构预测及三维结构的模拟。

选择protein3:NP_190855.1一级结构网址:/doc/479b86d06edb6f1afe001f6e.html /tools/protparam.htmlNumber of amino acids:456氨基酸数目Molecular weight:51154.5相对分子质量Theoretical pI:8.69理论pI值Amino acid composition氨基酸组成Ala(A)306.6%Arg(R)286.1%Asn(N)153.3%Asp(D)275.9%Cys(C)51.1%Gln(Q)183.9%Glu(E)286.1%Gly(G)378.1%His(H)163.5%Ile(I)163.5%Leu(L)429.2%Lys(K)327.0%Met(M)51.1%Phe(F)173.7%Pro(P)163.5%Ser(S)4610.1%Thr(T)214.6%Trp(W)81.8%Tyr(Y)194.2%Val(V)306.6%Pyl(O)00.0%Sec(U)00.0%(B)00.0%(Z)00.0%(X)00.0%正/负电荷残基数Total number of negatively charged residues(Asp+Glu): 55Total number of positively charged residues(Arg+Lys): 60Atomic composition:原子组成Carbon C2270Hydrogen H3531Nitrogen N645Oxygen O686Sulfur S10Formula:C2270H3531N645O686S10分子式Total number of atoms:7142总原子数Extinction coefficients:消光系数Extinction coefficients are in units of M-1cm-1,at280 nm measured in water.Ext.coefficient72560Abs0.1%(=1g/l)1.418,assuming all pairs of Cys residues form cystines Ext.coefficient72310Abs0.1%(=1g/l) 1.414,assuming all Cys residues are reducedEstimated half-life:半衰期The N-terminal of the sequence considered is M(Met). The estimated half-life is:30hours(mammalian reticulocytes,in vitro).>20hours(yeast,in vivo).>10hours(Escherichia coli,in vivo).Instability index:不稳定系数The instability index(II)is computed to be48.99This classifies the protein as unstable.Aliphatic index:75.26脂肪系数Grand average of hydropathicity(GRAVY):-0.554总平均亲水性蛋白质亲疏水性分析所用氨基酸标度信息Ala:1.800Arg:-4.500Asn:-3.500Asp:-3.500Cys:2.500 Gln:-3.500Glu:-3.500Gly:-0.400His:-3.200Ile:4.500 Leu:3.800Lys:-3.900Met:1.900Phe:2.800Pro:-1.600 Ser:-0.800Thr:-0.700Trp:-0.900Tyr:-1.300Val: 4.200:-3.500:-3.500:-0.490分析所用参数信息Weights for window positions1,..,9,using linear weight variation model:1234567891.001.001.001.001.001.001.001.001.00edge center edge跨膜结构预测结果(没有跨膜结构)信号肽分析:二级结构预测三级结构预测网站/doc/479b86d06edb6f1afe001f6e.html/~phyre2、在拟南芥基因组数据库中(/doc/479b86d06edb6f1afe001f6e.ht ml/)查找编号分别为At4G33050,At3G13600,At3G52870或At2G26190基因,针对所查找的基因进行初步的生物信息学分析(每人任选其中一个基因)。

生物信息学复习题

生物信息学复习题

生物信息学复习题名词解释1..生物信息学:是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI 的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。

P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。

P3711.E值:衡量序列之间相似性是否显著的期望值。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、名词解释:1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。

3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。

4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。

5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。

包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。

P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。

P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。

P37 11.E值:衡量序列之间相似性是否显著的期望值。

E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E 值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。

P9512.低复杂度区域:BLAST搜索的过滤选项。

指序列中包含的重复度高的区域,如poly(A)。

13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。

14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。

15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。

16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。

17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。

系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。

18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。

(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。

)19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。

(书:由于基因重复事件产生的相似序列。

)20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。

21.有根树:能够确定所有分析物种的共同祖先的进化树。

22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。

23.邻接法(neighbor-joining method):是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGMA算法要求进化速率保持恒定的缺陷。

24.最大简约法(MP):在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。

25.最大似然法(ML):它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。

最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。

26.一致树(consensus tree):在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。

27.自举法检验(Bootstrap):放回式抽样统计法。

通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。

28.开放阅读框(ORF):开放阅读框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。

29.密码子偏好性(codon bias):氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。

30.基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。

31.结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。

相同功能的同源结构域具有序列的相似性。

32.超家族:进化上相关,功能可能不同的一类蛋白质。

33.模体(motif):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。

34.序列表谱(profile):是一种特殊位点或模体序列,在多序列比较的基础上,氨基酸的权值和空位罚分的表格。

35.PAM矩阵:PAM指可接受突变百分率。

一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。

一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。

36.BLOSUM矩阵:模块替代矩阵。

矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。

每个矩阵适合特定的进化距离。

例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。

37.PSI-BLAST:位点特异性迭代比对。

是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相关的蛋白。

38.RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank 序列。

39.PDB(Protein Data Bank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。

PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。

40.GenPept:是由GenBank中的DNA序列翻译得到的蛋白质序列。

数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。

41.折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。

42.TrEMBL:是与SWISS-PROT相关的一个数据库。

包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。

43.MMDB(Molecular Modeling Database):是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。

与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。

44.SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。

SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。

可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(super family)、家族(family)、单个PDB蛋白结构记录。

45.PROSITE:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。

PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。

46.Gene Ontology 协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。

从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。

47.表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。

48.比较基因组学:是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。

49.简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。

其它位点为都是非简约性信息位点。

二、问答题1)生物信息学的发展经历了哪几个阶段答:生物信息学的发展经历了3个阶段。

第一个阶段是前基因组时代。

这一阶段主要是以各种算法法则的建立、生物数据库的建立以及DNA和蛋白质序列分析为主要工作;第二阶段是基因组时代。

这一阶段以各种基因组计划测序、网络数据库系统的建立和基因寻找为主要工作。

第三阶段是后基因组时代。

这一阶段的主要工作是进行大规模基因组分析、蛋白质组分析以及其他各种基因组学研究。

2)生物信息学步入后基因组时代后,其发展方向有哪几个方面。

答:生物信息学步入后基因组时代后,其发展方向主要有:①各种生物基因组测序及新基因的发现;②单核苷酸多态性(SNP)分析;③基因组非编码区信息结构与分析;④比较基因组学和生物进化研究;⑤蛋白质结构和功能的研究。

相关文档
最新文档