中科院生物信息学期末考试复习题

合集下载

生物信息学复习题

生物信息学复习题生物信息学是一门结合生物学、计算机科学、信息学和数学的交叉学科，它利用计算机技术来处理和分析生物数据。

以下是一些生物信息学复习题，供同学们参考：1. 生物信息学的定义和应用领域- 生物信息学是如何定义的？- 生物信息学在哪些领域有应用？2. 基因组学基础- 什么是基因组学？- 基因组测序的基本原理是什么？3. 序列比对- 序列比对的目的是什么？- 简述局部比对和全局比对的区别。

4. BLAST算法- BLAST算法的原理是什么？- 如何使用BLAST进行序列相似性搜索？5. 基因表达数据分析- 基因表达数据有哪些类型？- 描述基因表达数据的预处理步骤。

6. 蛋白质结构预测- 蛋白质结构预测的重要性是什么？- 简述几种常见的蛋白质结构预测方法。

7. 系统生物学和网络分析- 系统生物学研究的是什么？- 网络分析在系统生物学中的应用。

8. 生物信息学中的数据库- 列举几个常见的生物信息学数据库。

- 解释数据库在生物信息学研究中的作用。

9. 生物信息学中的编程语言- 哪些编程语言在生物信息学中常用？- 简述Python在生物信息学中的应用。

10. 伦理和隐私问题- 在生物信息学研究中可能遇到哪些伦理问题？- 如何保护生物信息数据的隐私？11. 案例研究- 描述一个生物信息学在医学研究中的应用案例。

- 分析该案例中使用的方法和技术。

12. 未来趋势- 预测生物信息学未来的发展趋势。

- 讨论生物信息学如何影响未来的科学研究和医疗保健。

通过这些问题的复习，同学们可以更全面地了解生物信息学的基础概念、关键技术和应用领域。

希望这些复习题能够帮助同学们更好地准备考试和理解生物信息学的重要性。

生物信息考试题及答案

生物信息考试题及答案生物信息学是一门结合生物学、计算机科学、信息技术和数学的交叉学科，它利用计算机技术来分析和解释生物数据。

以下是一份生物信息学考试题及答案的示例。

生物信息学考试题一、选择题（每题2分，共20分）1. 生物信息学中，用于存储DNA序列的文件格式是：A. FASTAB. JPEGC. MP3D. DOCX2. 以下哪项不是生物信息学分析的基本步骤？A. 数据收集B. 数据预处理C. 数据解释D. 数据存储3. 在蛋白质序列分析中，BLAST工具用于：A. 序列比对B. 序列组装C. 序列克隆D. 序列合成4. 以下哪个数据库不是用于存储基因表达数据的？A. NCBIB. GEOC. PDBD. ArrayExpress5. 以下哪个算法不是用于基因预测的？A. GeneMarkB. BLASTC. GlimmerD. Fgenesh二、简答题（每题10分，共30分）6. 简述生物信息学在现代生物学研究中的重要性。

7. 解释什么是基因组学，并说明其在医学研究中的应用。

8. 描述序列比对的基本原理及其在生物信息学中的作用。

三、计算题（每题15分，共30分）9. 假设你有一个DNA序列，其组成为：ATCGTA。

请计算其互补序列。

10. 给定两个蛋白质序列，序列A：A-B-C-D-E，序列B：A-C-E-B-D。

请使用Needleman-Wunsch算法计算它们的全局比对得分。

四、论述题（每题20分，共20分）11. 论述生物信息学在新药开发中的作用及其面临的挑战。

答案一、选择题1. A2. C3. A4. C5. B二、简答题6. 生物信息学在现代生物学研究中的重要性体现在它能够处理和分析大量的生物数据，如基因组序列、蛋白质结构等，帮助科学家快速发现生物现象的规律，推动生物学的发展。

7. 基因组学是研究生物基因组的结构、功能和演化的科学。

在医学研究中，基因组学可以帮助我们了解疾病的遗传基础，为个性化医疗提供理论基础。

生物信息学复习题

生物信息学复习题### 生物信息学复习题#### 一、选择题1. 生物信息学主要研究的是什么？A. 生物学数据的收集和存储B. 生物学数据的分析和解释C. 生物学实验的设计和执行D. 生物学仪器的操作和维护2. 下列哪一项不是生物信息学中常用的数据库？A. GenBankB. PDBC. PubMedD. Google Scholar3. 序列比对的目的是什么？A. 确定序列间的同源性B. 预测蛋白质的三维结构C. 鉴定基因的功能D. 计算基因的表达量#### 二、填空题1. 生物信息学中的BLAST工具主要用于__________。

2. 基因表达分析中常用的芯片技术包括__________和__________。

3. 在蛋白质结构预测中，同源建模依赖于__________数据库中的已知结构。

4. 转录组测序（RNA-Seq）可以用于研究__________和__________。

#### 三、简答题1. 描述基因组注释的一般流程。

2. 阐述生物信息学在药物设计中的应用。

3. 解释什么是系统发育树，并说明其在进化研究中的意义。

#### 四、计算题1. 给定一段DNA序列，计算其GC含量。

（示例序列：ATCGTACGTAGCTAGCTAG）2. 如果一个蛋白质序列的分子量为12345 Da，其氨基酸的平均分子量为110 Da，计算该蛋白质序列中氨基酸的数量。

#### 五、论述题1. 讨论生物信息学在个性化医疗中的作用和挑战。

2. 分析高通量测序技术对生物信息学领域的影响。

通过以上题目的复习，可以帮助学生掌握生物信息学的基础知识和技能，包括对生物数据的分析、解释和应用。

这些知识点不仅涵盖了生物信息学的基础理论，还涉及到实际应用，如药物设计、个性化医疗等，为学生提供了一个全面的复习框架。

生物信息学复习题

⽣物信息学复习题⼀、名词解释1.bioinformatics：⽣物信息学，指从事对基因组研究相关的⽣物信息的获取、加⼯、储存、分配、分析和解释的⼀门科学，是⼀门⽣物学，数学和计算机相互交叉融合⽽产⽣的新兴学科。

2.molecular bioinformatics：指综合应⽤信息科学、数学的理论、⽅法和技术，管理、分析和利⽤⽣物分⼦数据的科学。

3.GenBank：是美国全国卫⽣研究所维护的基因序列数据库，汇集并注释了所有公开的核酸序列，与⽇本的DNA数据库DDBJ以及欧洲分⼦实验室核酸序列数据库EMBL⼀起，都是国际核苷酸序列数据库合作的成员。

4.EMBL：EMBL实验室—欧洲分⼦⽣物学实验室，EMBL数据库—是⾮盈利性学术组织EMBL建⽴的综合性数据库，EMBL核酸数据库是欧洲最重要的核酸序列数据库，它定期地与美国的GenBank、⽇本的DDBJ数据库中的数据进⾏交换，并同步更新。

5.DDBJ：⽇本DNA数据库，主要向研究者收集DNA序列信息并赋予其数据存取号，信息来源主要是⽇本的研究机构，也接受其他国家呈递的序列。

6.BLAST：基本局部⽐对搜索⼯具的缩写，是⼀种序列类似性检索⼯具。

BLAST采⽤统计学⼏分系统，同时采⽤局部⽐对算法， BLAST程序能迅速与公开数据库进⾏相似性序列⽐较。

BLAST结果中的得分是对⼀种对相似性的统计说明。

7.BLASTn：是核酸序列到核酸库中的⼀种查询。

库中存在的每条已知序列都将同所查序列作⼀对⼀地核酸序列⽐对。

8.BLASTp：是蛋⽩序列到蛋⽩库中的⼀种查询。

库中存在的每条已知序列将逐⼀地同每条所查序列作⼀对⼀的序列⽐对。

9.Clustsl X：是CLUSTAL多重序列⽐对程序的Windows版本，是⽤来对核酸与蛋⽩序列进⾏多序列⽐较的程序，也可以对来⾃不同物种的功能或结构相似的序列进⾏⽐对和聚类，通过重建系统发⽣树判断亲缘关系，并对序列在⽣物进化过程中的保守性进⾏估计。

生物信息学复习题及答案（打印）

生物信息学复习题及答案（打印）一、名词解释：1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。

2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

3.FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。

4.genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。

5.Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI 的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。

6.BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。

包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。

P29 9.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

P2910.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。

中科院生物信息学期末考试复习题

中科院生物信息学期末考试复习题陈润生老师部分：1.什么是生物信息学，如何理解其含义？为什么在大规模测序研究中，生物信息学至关重要？答：生物信息学有三个方面的含义：1)生物信息学是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面，是基因组研究不可分割的部分。

2)生物信息学是把基因组DNA序列信息分析作为源头，破译隐藏在DNA序列中的遗传语言，特别是非编码区的实质；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测；其本质是识别基因信号。

3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。

它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

生物信息学是把基因组DNA序列信息分析作为源头，找到基因组序列中代表蛋白质和RNA 基因的编码区；同时阐明基因组中大量存在的非编码区的信息实质，破译隐藏在DNA序列中的遗传语言规律：在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据，从而认识代谢、发育、分化、进化的规律。

同时在发现了新基因信息之后，其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测，并将此类信息与生物体和生命过程中的生理生化信息结合，阐明其分子机制，最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。

2.如何利用数据库信息发现新基因，基本原理？答：利用数据库资源发现新基因，根据数据源不同，可分2种不同的查找方式：1)从大规模基因组测序得到的数据出发，经过基因识别发现新基因：（利用统计，神经网络，分维，复杂度，密码学，HMM，多序列比对等方法识别特殊序列，预测新ORF。

但因为基因组中编码区少，所以关键是“数据识别”问题。

）利用大规模拼接好的基因组，使用不同数据方法，进行标识查找，并将找到的可能的新基因同数据库中已有的基因对比，从而确定是否为新基因。

可分为：①基于信号，如剪切位点、序列中的启动子与终止子等。

生物信息学期末复习题与答案

一、单选题1、总的来说，位于染色体内超过( )个碱基的DNA，构成了人类基因组。

A.30000000000B.3000000000C.300000000D.30000000正确答案：B2、人类镰刀型红细胞贫血症是由于血红蛋白β链N端第6个氨基酸由谷氨酸突变为( )造成的。

A.苏氨酸B.缬氨酸C.赖氨酸D.谷氨酸正确答案：B3、RefSeq数据库是由哪个组织开发和维护的？( )A.NIGB.NCBIC.EMBLD.SIB正确答案：B4、Long non-coding RNA长链非编码RNA是长度大于( )个核苷酸的非编码RNA。

A.150B.250C.300D.200正确答案：D5、tBLASTx分析是用核酸序列检索核酸序列数据库，下列说法正确的是？（）A.核酸序列和核酸序列数据库都不需要翻译成蛋白质序列B.只有核酸序列数据库需要翻译成蛋白质序列C.只有核酸序列需要翻译成蛋白质序列D.核酸序列和核酸序列数据库都需要翻译成蛋白质序列正确答案：D6、要搜索编码蛋白质序列的核酸序列，适宜的分析方法是？（）A.BLASTxB.BLASTnC.tBLASTnD.BLASTp正确答案：A7、下列对于PCR引物修饰的说法正确的是？（）A.PCR引物的5’末端和3’末端均能进行修饰B.PCR引物的5’末端和3’末端均不能进行修饰C.只有PCR引物的5’末端能进行修饰D.只有PCR引物的3’末端能进行修饰正确答案：C8、下列哪个在线分析工具可以预测DNA的外显子-内含子？（）A.AugustusB.PLACEC.ORFfinderD.Entrez正确答案：A9、Smith-Waterman动态规划算法矩阵中的每个单元格有几条路径？（）A.1B.2C.3D.4正确答案：D10、下列关于Needleman-Wunsch算法和Smith-Waterman算法提出早晚的论述正确的是？（）A.Needleman-Wunsch算法提出时间较早B.不确定C.Smith-Waterman算法提出时间较早D.二者提出时间相当正确答案：A11、当分类单元至少为3时，下列对“有根树与无根树的数目”判断正确的是？（）A.有根树的数目要少于无根树的数目B.有根树的数目与无根树的数目一样多C.有根树的数目要多于无根树的数目D.二者数目无法判断正确答案：C12、下列哪种算法建树时，选择代价最小或者枝长最短的树？A.最大似然值法B.最大简约法C.邻接法D.UPGMA法正确答案：B二、多选题1、生物信息学是由( )等学科相互交叉而形成的一门新兴学科。

生物信息学考试试题

生物信息学考试试题一、选择题（每题 3 分，共 30 分）1、以下哪种不是常见的生物信息学数据库？（）A GenBankB SWISSPROTC PubMedD Baidu2、在 DNA 序列分析中，以下哪个不是用于序列比对的算法？（）A NeedlemanWunsch 算法B SmithWaterman 算法C BLAST 算法D Fourier 变换算法3、蛋白质结构预测的方法不包括（）A 同源建模B 从头预测C 折叠识别D 随机模拟4、以下哪种不是基因表达数据分析的常用方法？（）A 聚类分析B 主成分分析C 判别分析D 回归分析5、生物信息学中，用于预测蛋白质功能的方法有（）A 基于序列相似性B 基于结构相似性C 基于基因共表达D 以上都是6、在基因组学中，以下哪个不是测序技术？（）A Sanger 测序B 二代测序C 三代测序D 四代测序7、系统发生树构建的方法不包括（）A 距离法B 最大简约法C 最大似然法D 最小二乘法8、以下哪种不是生物信息学中常用的编程语言？（）A PythonB JavaC C+＋D Visual Basic9、以下哪个不是生物信息学在医学领域的应用？（）A 疾病诊断B 药物研发C 医疗美容D 个性化医疗10、生物信息学中，处理大规模数据常用的工具是（）A ExcelB R 语言C SPSSD Word二、填空题（每题 2 分，共 20 分）1、生物信息学是一门融合了生物学、计算机科学和（）的交叉学科。

2、常见的核酸序列格式有 FASTA 和（）。

3、蛋白质的二级结构包括α螺旋、β折叠和（）等。

4、基因芯片技术是一种（）分析技术。

5、序列比对的目的是寻找两个或多个序列之间的（）。

6、人类基因组计划的主要目标是测定人类基因组的（）序列。

7、生物信息学中的隐马尔可夫模型主要用于（）。

8、系统发生分析中，外群的作用是（）。

9、蛋白质相互作用网络分析有助于理解（）。

10、生物信息学数据库可以分为一级数据库和（）数据库。

生物信息学期末期末复习

■一、选择题：1.以下哪一个是mRNA条目序列号：A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是：■.UnigeneB.EntrezC.LocusLinkD.PCR3.一个基因可能对应两个Unigene簇吗？■可能B.不可能4.下面哪种数据库源于mRNA信息：■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建：A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区另1J：A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息，下列哪个数据库是你最佳选择：A.OMIMB.Entrez■PubMedD.PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法，下列哪种说法正确：A.因为GenBank的数据比EMBL更多，Entrez给出的搜索结果将更多B.搜索结果很可能一样，因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当，但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于：■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为：■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变：A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变：A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同：A.全局比对通常用于比对DNA序列，而局部比对通常用于比对蛋白质序列B.全局比对允许间隙，而局部比对不允许C.全局比对寻找全局最大化，而局部比对寻找局部最大化■全局比对比对整体序列，而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。

生物信息考试题及答案

生物信息考试题及答案一、选择题（每题2分，共20分）1. 基因组学研究的核心是（）。

A. 基因克隆B. 基因表达C. 基因组序列D. 基因功能答案：C2. 下列哪项不是生物信息学的主要研究内容？（）A. 基因组序列分析B. 蛋白质结构预测C. 植物分类学D. 基因表达分析答案：C3. 转录组学研究的是（）。

A. 基因组中的所有基因B. 特定细胞或组织中的所有RNA分子C. 特定细胞或组织中的所有蛋白质分子D. 特定细胞或组织中的所有DNA分子答案：B4. 下列哪个数据库主要用于存储蛋白质序列信息？（）A. GenBankB. PDBC. Swiss-ProtD. EMBL答案：C5. 以下哪个不是生物信息学中常用的序列比对工具？（）A. BLASTB. FASTAC. ClustalWD. PCR答案：D6. 以下哪个是用于蛋白质三维结构预测的软件？（）A. Swiss-ProtB. PDBC. MODELLERD. GenBank答案：C7. 以下哪个是用于基因表达分析的高通量技术？（）A. Sanger测序B. 微阵列C. PCRD. 质谱分析答案：B8. 下列哪个是用于基因组关联研究的统计方法？（）A. 聚类分析B. 系统发育分析C. 连锁不平衡分析D. 多态性分析答案：C9. 以下哪个是用于蛋白质-蛋白质相互作用网络分析的工具？（）A. STRINGB. BLASTC. ClustalWD. GenBank答案：A10. 下列哪个是用于生物信息学数据可视化的工具？（）A. R语言B. PythonC. CytoscapeD. Perl答案：C二、填空题（每题2分，共20分）1. 生物信息学是一门结合了__________、__________和__________的交叉学科。

答案：生物学、计算机科学、信息技术2. 基因组学中的“组”指的是__________的集合。

答案：基因3. 转录组学研究的RNA分子包括__________、__________和__________。

生物信息学复习题已附答案

本卷的答案仅做参考，如有疑问欢迎提出。

后面的补充复习题要靠你们自己整理答案了。

生物信息学复习题一、填空题1、识别基因主要有两个途径即2、表达序列标签是从 mRNA 中生成的一些很短的序列（ 300-500bp ），它们代表在特定组织或发育阶段表达的基因。

3、序列比对的基本思想，是找出检测基因和目标序列的相似性，就是通过在序列中插入空位的方法使所比较的序列长度达到一致。

比对的数学模型大体分为两类，分别— 和局部比对。

4、 2-DE 的基本原理是根据蛋白质和分子量不同，进行两次电泳将之分离。

第一向是等电聚焦分离 ,第 —S D S-P AGE 分离 o5、蛋白质组研究的三大关键核心技术是质谱鉴定技术、计算机图像数据处理与蛋白质数据库二、判断题1、生物体的结构和功能越复杂的种类就越多，所需要的基因也越多，是真核生物基因组的特点之一。

（对）2、 CDS 一定就是 ORF 。

（对）3、两者之间有没有共同的祖先，可以通过序列的同源性来确定，如果两个基因或蛋白质有着几乎一样的序列，那么它们高度同源，就具有共同的祖先。

（错）4、 STS,是一段 200-300bp 的特定 DNA 序列，它的序列已知，并且在基因组中属于单拷贝。

（对）5、非编码 DNA 是“垃圾 DNA'，不具有任何的分析价值，对于细胞没有多大的作用。

（错）6、基因树和物种树同属于系统树，它们之间可以等同。

（错）7、基因的编码序列在 DNA 分子上是被不编码的序列隔开而不连续排列的。

&对任意一个 DNA 序列，在不知道哪一个碱基代表 CDS 的起始时，可用获得6个潜在的蛋白质序列。

（对）9、一个机体只有一个确定的基因组，但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。

（对）10、外显子和内含子之间没有绝对的区分，一个基因的内含子可以是另一个基因的外显子，同一个基因在不同的生理状况或生长发育的不同阶段，外显子组成也可以不同。

生物信息学复习题

生物信息学复习题生物信息学复习题生物信息学是一门研究生物学数据的收集、存储、管理和分析的学科。

它利用计算机科学和统计学的方法来解决生物学中的问题。

在这篇文章中，我将提供一些生物信息学的复习题，帮助大家巩固对这门学科的理解。

1. 什么是基因组学？基因组学是研究生物体基因组的学科。

它涉及到对基因组的序列、结构和功能的研究。

基因组学的发展使得我们能够更好地理解基因组的组成和功能，从而有助于解决生物学中的一些重要问题。

2. 什么是DNA序列？DNA序列是指DNA分子中碱基的顺序。

DNA序列的研究可以帮助我们了解基因组的组成和功能。

通过对DNA序列的分析，我们可以识别基因、预测蛋白质编码区域，并研究基因组的演化等。

3. 什么是蛋白质序列？蛋白质序列是指蛋白质分子中氨基酸的顺序。

蛋白质序列的研究可以帮助我们了解蛋白质的结构和功能。

通过对蛋白质序列的分析，我们可以预测蛋白质的结构、功能和相互作用等。

4. 什么是序列比对？序列比对是指将两个或多个序列进行比较，找出它们之间的相似性和差异性。

序列比对可以通过比较序列中的碱基或氨基酸的顺序来进行。

序列比对的结果可以帮助我们了解序列的进化关系，预测序列的功能以及发现新的序列。

5. 什么是基因表达谱？基因表达谱是指在特定条件下，基因在细胞或组织中的表达水平。

基因表达谱的研究可以帮助我们了解基因的功能以及基因在生物体中的调控机制。

通过对基因表达谱的分析，我们可以发现与特定生理过程或疾病相关的基因。

6. 什么是蛋白质结构预测？蛋白质结构预测是指根据蛋白质的氨基酸序列，预测蛋白质的三维结构。

蛋白质结构预测的研究可以帮助我们了解蛋白质的功能和相互作用。

通过蛋白质结构预测，我们可以预测蛋白质的功能、鉴定药物靶点以及设计新的蛋白质。

7. 什么是基因组注释？基因组注释是指对基因组中的基因和非编码区域进行功能和结构的描述。

基因组注释的研究可以帮助我们了解基因组的组成和功能。

通过基因组注释，我们可以识别基因、预测蛋白质编码区域，并研究基因组的演化等。

生物信息试题及答案

生物信息试题及答案一、选择题（每题2分，共20分）1. 生物信息学的主要研究对象是（）。

A. 蛋白质结构B. 基因组序列C. 细胞信号传导D. 生物分子相互作用答案：B2. 以下哪项不是生物信息学的主要任务？（）A. 基因预测B. 蛋白质功能预测C. 疾病诊断D. 植物分类学研究答案：D3. 人类基因组计划的主要目标是（）。

A. 确定人类基因组中的所有基因B. 确定人类基因组中的所有蛋白质C. 确定人类基因组中的所有核苷酸序列D. 确定人类基因组中的所有代谢途径答案：C4. 以下哪种生物信息数据库不是公共数据库？（）A. GenBankB. Swiss-ProtC. PDBD. Myriad Genetics答案：D5. 在生物信息学中，BLAST是一种（）。

A. 基因克隆技术B. 基因表达分析软件C. 序列比对工具D. 蛋白质结构预测方法答案：C6. 以下哪种序列分析方法不适用于大规模基因组数据？（）A. 多重序列比对B. 单序列比对C. 基因预测D. 基因家族分析答案：B7. 以下哪种技术不是用于蛋白质结构预测的？（）A. 同源建模B. 从头预测C. 基因克隆D. 蛋白质折叠模拟答案：C8. 以下哪种生物信息学工具主要用于蛋白质功能预测？（）A. PfamB. BLASTC. ClustalWD. Swiss-Prot答案：A9. 以下哪种生物信息学数据库专门存储蛋白质结构数据？（）A. GenBankB. Swiss-ProtC. PDBD. KEGG答案：C10. 在生物信息学中，以下哪种数据类型不是高通量数据？（）A. 基因表达数据B. 蛋白质组数据C. 代谢组数据D. 单个基因序列答案：D二、填空题（每题2分，共20分）1. 生物信息学是应用__________和__________技术，研究生物大分子结构、功能和相互作用的科学。

答案：计算机；信息技术2. 人类基因组计划完成于__________年。

生物信息学考试试题

生物信息学考试试题1. 选择题1. DNA序列中哪种碱基与腺嘌呤形成碱基对？A. 腺嘌呤B. 胸腺嘧啶C. 钝甲嘧啶D. 尿嘧啶2. 下列哪种不属于生物信息学中常用的序列比对软件？A. BLASTB. ClustalWC. PhotoshopD. MEGA3. 在生物信息学中，什么是基因组装？A. 把基因组序列和蛋白质序列对应起来B. 把已知的DNA序列分析并组装成完整的基因组C. 把DNA序列和RNA序列对比分析D. 把基因组序列转录为RNA序列4. 下列哪个软件主要用于预测DNA序列中的基因结构？A. BLASTB. ClustalWC. FGENESD. MEGA5. 在生物信息学中，什么是密码子？A. DNA序列中的重复单元B. 氨基酸序列C. tRNA分子上的核苷酸组合D. mRNA上的三联体核苷酸序列2. 简答题1. 请简要解释生物信息学在基因组学中的应用。

2. 什么是序列比对？序列比对的意义是什么？3. 解释基因组装和基因注释在生物信息学中的作用。

4. 生物信息学中常用的两种序列分析方法分别是什么？简要描述它们的原理。

5. 请简要介绍生物信息学在进化比较基因组学中的应用。

3. 计算题1. 给定以下两条序列，求它们的相似度：序列1: ATCGTCCGATT序列2: ATCGACCGTTA2. 已知一个DNA序列长度为1000bp，其中AT含量为60%，求该序列中GC含量百分比。

4. 应用题1. 请利用BLAST软件对一组已知DNA序列进行序列比对，并解释结果。

2. 请使用ClustalW对两个已知蛋白质序列进行多序列比对，并分析比对结果。

3. 选取一个基因组装软件，对一个已知基因组序列进行装配，并解释装配结果。

以上是生物信息学考试试题，希望您认真作答，祝您考试顺利！。

(完整word版)生物信息学_复习题及答案(打印)

一、名词解释：1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。

2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

3.FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。

4.genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

5.Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。

6.BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。

包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。

P299.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

生物信息学(期末)-生技08

齐齐哈尔大学试卷考试科目: 生物信息学适用对象: 生物技术08本使用学期: 2011—2012—1 第七学期课程编码: 05113019 总分80分共 2 页１）考生须知:２）姓名必须写在装订线左侧, 其它位置一律作废。

３）请先检查是否缺页, 如缺页应向监考教师声明, 否则后果由考生负责。

４）答案一律写在答题纸上, 可不抄题, 但要标清题号。

５）用蓝色或黑色的钢笔、圆珠笔答题。

监考须知: 请将两份题签放在上层随答题纸一起装订。

一、名词解释（每小题3分, 共4小题12分）表达序列标签, 外类群, 开放阅读框, 蛋白质组学二、选择题（每小题1分, 共10小题10分）1.下列哪项不属于人类基因组计划的研究内容（）A.绘制化学图谱、物理图谱B.获得全部人类基因组的序列C.获得转录图谱D.获得人体内全部的蛋白质序列2.图中哪一项为直系同源（）A.HA1和HA2B.HA1和WA2C.HA1和HBD.WA1和WA23.下列软件中哪一个能够用来构建系统发育树的（）A CLUSTALB BLASTC AssemblerD Treeview4.核酸序列增长最快是在哪一时期（）A 1970-1980年B 1980-1990年C 1990-2000年D 2000-2008年5. 研究一条测序获得的DNA序列时首先需要（）A.屏蔽重复序列B.去除序列污染C.查找开放阅读框D.查找密码子偏好性6. 对于序列ATGCCCCGA和序列ATCCGA哪一种是正确的序列对位排列方式（）A ATGCCCCGAAT_CC__GAB ATGCCCCGAAT_CCG__AC ATGCCCCGAAT_CC_G_AD ATGCCCCGAAT_C__G_A7.BLAST系列软件与下列哪一项能够在同一网站中检索到（）A GeneBank数据库B DDBJ数据库C EMBL数据库D CLUSTAL W8.生物信息学数据以什么形式存储（）A.文件系统B.程序软件C.数据库D.手工管理9.下列陈述哪一项是错误的（）A PIR-PSD是国际上最大的蛋白质序列数据库B 数据库的检索分为关键词检索和序列检索C STS是基因组作图时常用的一种图标D ACeDB仅储存秀丽新小杆线虫数据10.在使用CLUSTAL软件进行比对时, 多序列的比对结构中几条序列都相同的核苷酸位点用什么标注（）A 不同的颜色B “*”C “-”D “_”三、判断题（每小题1分, 共10小题10分, 对的画“√”, 错的画“×”）1.华盛顿大学的Phred软件是用来处理数据冗余的（）2.NCBI网站不能用来查询文章（）3.CLUSTAL X有汉化版（）4.EcoCyc是大肠杆菌的知识体系数据库系统（）5. 文昌鱼是人类的五种模式生物之一（）6.生物信息学研究物种信息, 不包括序列（）7.研究一条测序获得的DNA序列时首先应该去除污染序列（）8.双向凝胶电泳技术是蛋白质组研究的关键技术（）9.CAP3是EST序列的拼接软件（）10.氨基酸的顺序决定蛋白质的构象，即蛋白质的一级结构决定蛋白质的二级结构。

生物信息学期末复习题

8)为什么要构建生物分子数据库。答案：（1）生物分子数据高速增长（2）分子生物学及相关领域研究人员迅速获得最新实验数据。
9)预测基因的一般步骤是什么？答案：⑴获取DNA目标序列⑵查找ORF并将目标序列翻译成蛋白质序列，利用相应工具查找ORF并将DNA序列翻译成蛋白质序列⑶在数据库中进行序列搜索，利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索⑷进行目标序列与搜索得到的相似序列的全局对比⑸查找基因家族进行多序列比对，获得比对区段的基因家族信息⑹查找目标序列中的特定模序，分别在Prosite、BLOCK、Motif数据库中进行profile、模块（block）、模序（motif）检索⑺预测目标序列蛋白质结构，利用PredictProtein（EMBL）、NNPREDICT等预测目标序列的蛋白质二级结构。
15)在基因组序列分析方面，科学家关注哪些信息？答案：就人类基因组而言，编码区域在人类基因组所占的比例不超过3%。其余97%是非编码序列。对于非编码序列，人们了解得比较少，尚不清楚其含义或功能。然而，非编码区域对于生命活动具有重要的意义。这部分序列主要包括内含子、简单重复序列、移动元件（mobile element）及其遗留物、伪基因（pseudo gene）等。
3)简要介绍FASTA序列格式答案：FASTA格式，又叫Pearson格式，是最简单的，使用最多的格式。它的基本形式分为三个部分：⑴第一行：大于号（﹥）表示一个新的序列文件的开始，为标记符。后面可以加上文字说明，gi号，GenBank检索号，LOCUS名称等信息。⑵第二行：序列本身，为DNA的标准符号，通常大小写均可。⑶结束：无特殊标志，但建议多留一个空行，以便将序列和其他内容区分开。
16)为什么要进行序列片段组装？在进行序列片段组装时会遇到哪些问题？答案：大规模基因组测序得到待测序列的一系列序列片段，这些序列片段覆盖待测序列，序列片段之间也存在着相互覆盖或者重叠。遇到的问题：碱基标识错误；不知道片段的方向；存在重复区域；缺少覆盖。

生物信息学试题及答案

生物信息学试题及答案一、单项选择题（每题2分，共20分）1. 生物信息学的主要研究对象是（）。

A. 生物数据B. 生物实验C. 生物模型D. 生物技术答案：A2. 下列哪项不是生物信息学中的常用数据库（）。

A. GenBankB. Swiss-ProtC. PubMedD. Google Scholar答案：D3. 蛋白质序列比对的主要目的是（）。

A. 确定蛋白质的三维结构B. 预测蛋白质的功能C. 比较蛋白质的氨基酸序列D. 计算蛋白质的分子量答案：B4. 在生物信息学中，以下哪种算法不是用于序列比对的（）。

A. BLASTB. FASTAC. Smith-WatermanD. Hidden Markov Model答案：D5. 下列哪种生物信息学工具主要用于基因表达分析（）。

A. ClustalWB. Primer3C. R语言D. PDB答案：C6. 以下哪种技术不是用于蛋白质结构预测的（）。

A. 同源建模B. 从头预测C. 序列比对D. 折叠识别答案：C7. 以下哪种生物信息学工具主要用于基因组注释（）。

A. BLASTC. GATKD. Primer3答案：B8. 在生物信息学中，以下哪种方法不用于基因表达数据的聚类分析（）。

A. K-meansB. Hierarchical clusteringC. Principal component analysisD. Multiple sequence alignment答案：D9. 下列哪种生物信息学工具主要用于蛋白质-蛋白质相互作用网络分析（）。

A. STRINGB. BLASTD. Primer3答案：A10. 在生物信息学中，以下哪种数据库不包含蛋白质结构信息（）。

A. PDBB. UniProtC. RCSBD. GenBank答案：D二、多项选择题（每题3分，共15分）11. 生物信息学中常用的序列比对工具包括（）。

A. BLASTB. FASTAC. ClustalWD. Pfam答案：ABC12. 以下哪些是生物信息学中常用的基因表达分析软件（）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

中科院生物信息学期末考试复习题润生老师部分：1.什么是生物信息学，如何理解其含义？为什么在大规模测序研究中，生物信息学至关重要？答：生物信息学有三个方面的含义：1)生物信息学是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面，是基因组研究不可分割的部分。

3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。

它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

生物信息学是把基因组DNA序列信息分析作为源头，找到基因组序列中代表蛋白质和RNA 基因的编码区；同时阐明基因组量存在的非编码区的信息实质，破译隐藏在DNA序列中的遗传语言规律：在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据，从而认识代、发育、分化、进化的规律。

但因为基因组中编码区少，所以关键是“数据识别”问题。

）利用大规模拼接好的基因组，使用不同数据方法，进行标识查找，并将找到的可能的新基因同数据库中已有的基因对比，从而确定是否为新基因。

可分为：①基于信号，如剪切位点、序列中的启动子与终止子等。

②基于组分，即基因家族、特殊序列间比较，Complexity analysis，Neural Network2)利用EST数据库发现新基因和新SNPs：（归属于同一基因的EST片断一定有overlapping，通过alignment可组装成一完整的基因，但EST片断太小，不存在数据来源，主要是拼接问题）数据来源于大量的序列小片段，EST较短，故关键在正确拼接。

方法有基因组序列比对、拼接、组装法等。

经常采用SiClone策略。

其主要步骤有：构建数据库；将序列纯化格式标准化；从种子库中取序列和大库序列比对；延长种子序列，至不能再延长；放入contig库①构建若干数据库：总的纯化的EST数据库，种子数据库，载体数据库，杂质、引物数据库，蛋白数据库，cDNA数据库；②用所用种子数据库和杂质、引物数据库及载体数据库比对，去除杂质；③用种子和纯化的EST数据库比对④用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较，判断是否为已有序列，再利用该大片段与纯化的EST数据库比对，重复以上步骤，直到序列不能再延伸；⑤判断是否为全长cDNA序列。

（利用EST数据库：原理：当测序获得一条EST序列时，它来自哪一个基因的哪个区域是未知的（随机的），所以属于同一个基因的不同EST序列之间常有交叠的区域。

根据这种“交叠”现象，就能找出属于同一个基因的所有EST序列，进而将它们拼接成和完整基因相对应的全长cDNA序列。

而到目前为止，公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。

估计这些序列已覆盖了人类全部基因的95%以上，平均起来每个基因有10倍以上的覆盖率。

）3.用蛋白或核酸序列数据库研究生物演化的主要步骤是什么？当前的困难是什么，如何克服？（核酸或氨基酸序列进行进化研究要进行哪些计算步骤？当前遇到什么问题？怎样解决？）答：计算步骤，构建系统进化树，其主要步骤如下：1)序列相似性比较。

就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。

完成这一工作只需要使用两两序列比较算法。

常用的程序包有BLAST、FASTA等；2)序列同源性分析。

是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。

这是理论分析方法中最关键的一步。

完成这一工作必须使用多序列比较算法。

常用的程序包有CLUSTAL等；3)构建系统进化树。

根据序列同源性分析的结果，重建反映物种间进化关系的进化树。

为完成这一工作已发展了多种软件包，如PYLIP、MEGA等；4)稳定性检验。

为了检验构建好的进化树的可靠性，需要进行统计可靠性检验，通常构建过程要随机地进行成百上千次，只有以大概率（70％以上）出现的分支点才是可靠的。

通用的方法使用 Bootstrap算法。

【(1.序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么，完成这一工作只需要使用两两序列比较算法。

常用的序列包有BBLAST、FASTA等；(2. 序列同源性分析：将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其他序列间的同源性大小，这是理论分析方法中最关键的一步，完成这一工作必须使用多序列比较算法，常用的程序包有CLUSTAL等；(3.构建系统进化树：根据序列同源性分析的结果，重建反应物种间进化关系的进化树，为完成这一工作，已发展了多种软件包，如PYLIP、MEGA等(4.稳定性检验：为了检验构建好的进化树的可靠性，需要进行统计可靠性检验，通常构建过程要随机地进行成百上千次，只有以大概率（70%以上）出现的分支点才是可靠的。

通用的方法使用Bootstrap算法，相应的软件已包括在构建系统进化树所用的软件包当中。

】当前的主要困难：是发现了基因的横向迁移（LGT）现象，即进化程度不同的物种间存在着遗传信息基因的传递，如果拿迁移的基因做进化分析就会出错。

克服LGT的方法（可能的解决途径）：1)纵向思路：选择垂直进化而来的序列进行研究，即去除横向迁移的数据库，如COG数据库；2)横向思路：发展基于完整基因组构建进化树，即使用全基因组数据库进行基因组水平上的对比；利用生物体的蛋白质组构建进化树。

选取特征对比，不同长度的序列字符串进行对比后，对照其genome进行归一化；ORF对比，将all predicted ORF采用COG的分类规则进行分类，再构建进化树4.什么是SNP？为什么SNP的研究是重要的？SNP研究有哪些优点？举出2~3个SNP相关的。

答：SNP是指单核苷酸多态性，主要是指在基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性，代表了基因组水平上遗传密码的变异，由于这种变异很多以单碱基突变的形式出现，因此称为单核苷酸多态性；它反映了不同个体间、正常与异常个体之间基因组上的差别，现在这个概念有所扩大，不限于一个核苷酸的差异。

重要性：因为SNP研究是基因组领域理论成果走向应用的关键步骤，是联系基因型和表现型之间关系的桥梁，是研究人类基因组计划走向应用的重要步骤。

优点：（1）SNP在基因组中分布相当广泛，使人们有机会发现与各种疾病相关的基因组突变；（2）不直接导致疾病基因表达的SNP，与某些疾病基因相邻，成为重要标记，有助于发现疾病基因（3）从实验操作来看，通过SNP发现疾病相关基因突变，比通过家系发现更加容易。

（4）基础研究中非常重要，如对Y染色体SNP分析有重要成果。

SNP的特点：1.位点丰富2.具有代表性3.遗传稳定性4.易于进行自动化，规模化分析，缩短了研究时间SNP研究的意义：通过大批量、高通量的SNP的发现与鉴定，人类SNP—Haplotype遗传图谱的构建，在连锁不平衡基础上的关联分析等，有望为人类致命基因的寻找和疾病的防治提供快速和有效的途径，一系列发现和检测SNP的方法，构建图谱的策略，及连锁不平衡和关联分析等技术，正在动植物研究领域中受到广泛的关注，毫无疑问将在分子和群体遗传、动植物育种和生物进化等研究领域中发挥越来越大的作用。

SNP相关的一些：1)SNP Consortium's database(/index.html)2)NCBI SNP database将这些数据进行整理，去掉冗余，使每个SNP都是唯一的。

此时的SNP被称为reference SNP或refSNP。

（(/SNP/overview.html) 3)The Human Genic Bi-Allelic Sequences Database(HGBASE) 这一数据库收录了人基因组中所有已知的序列变化，包括：SNPs、序列的插入和缺失(Indels)、简单重复序列等。

（hgbase.cgr.ki.se/）4)The Human Gene Mutation Database（HGMD）(/)5)The Protein Mutant Database(PMD)，蛋白突变数据库。

收录了蛋白质特定位点的氨基酸突变信息，以及这些突变对蛋白质结构功能的影响。

（pmd.ddbj.nig.ac.jp/）6)The Allele Frequency Database(ALFRED)：人类群体等位基因频率数据库，/alfred/index.asp5. 什么是系统生物学？系统生物学对生命科学概念上的发展？系统生物学对生物功能实现的理解有何本质变化？系统生物学的研究思路是什么？答：系统生物学是指在系统的层面上研究生命活动。

（研究一个生物系统中所有组成成分的构成，以及特定条件下组分间互作关系。

）【系统生物学就是自基因组研究以来，各个层次的所有资料和数据（包括基因组测序数据，功能基因组数据，蛋白质三维结构信息以及相互作用的数据等）的整合，以及这些整合数据为基础建立数学模型，再以这些模型模拟仿真研究生命活动的影响之后生命活动的反应以及变化】包含三个相互衔接的组成（三部曲）：整合数据，即整合所有各个层次（DNA水平，RNA水平，蛋白质水平，蛋白质相互作用水平）的信息数据；系统建模，即用这些信息构建描绘生命活动的数学模型；预测未知，即用这个模型预测生命未来的发展及外界干扰后系统的变异（生命活动及外界因素变化对其产生的影响）。

学术概念上的发展主要有：传统生物学是从基因组序列到结构，再到功能，而它从各个层次的相互作用到网络，再到功能。

与以往不同的是，系统生物学一开始就考虑元件之间的相互作用，把整个生命活动作为网络，考虑其相互作用。

1)研究思路的变化：传统的分子生物学研究步骤一般为：DNA序列→蛋白结构→蛋白功能（一维），而系统生物学是在二维的角度研究生命科学，即：相互作用→网络→功能，是由一组基因产生并相互作用共同实现的。