(完整版)生物信息学复习题及答案(陶士珩)

合集下载

生物信息学复习题

生物信息学复习题生物信息学是一门结合生物学、计算机科学、信息学和数学的交叉学科，它利用计算机技术来处理和分析生物数据。

以下是一些生物信息学复习题，供同学们参考：1. 生物信息学的定义和应用领域- 生物信息学是如何定义的？- 生物信息学在哪些领域有应用？2. 基因组学基础- 什么是基因组学？- 基因组测序的基本原理是什么？3. 序列比对- 序列比对的目的是什么？- 简述局部比对和全局比对的区别。

4. BLAST算法- BLAST算法的原理是什么？- 如何使用BLAST进行序列相似性搜索？5. 基因表达数据分析- 基因表达数据有哪些类型？- 描述基因表达数据的预处理步骤。

6. 蛋白质结构预测- 蛋白质结构预测的重要性是什么？- 简述几种常见的蛋白质结构预测方法。

7. 系统生物学和网络分析- 系统生物学研究的是什么？- 网络分析在系统生物学中的应用。

8. 生物信息学中的数据库- 列举几个常见的生物信息学数据库。

- 解释数据库在生物信息学研究中的作用。

9. 生物信息学中的编程语言- 哪些编程语言在生物信息学中常用？- 简述Python在生物信息学中的应用。

10. 伦理和隐私问题- 在生物信息学研究中可能遇到哪些伦理问题？- 如何保护生物信息数据的隐私？11. 案例研究- 描述一个生物信息学在医学研究中的应用案例。

- 分析该案例中使用的方法和技术。

12. 未来趋势- 预测生物信息学未来的发展趋势。

- 讨论生物信息学如何影响未来的科学研究和医疗保健。

通过这些问题的复习，同学们可以更全面地了解生物信息学的基础概念、关键技术和应用领域。

希望这些复习题能够帮助同学们更好地准备考试和理解生物信息学的重要性。

生物信息考试题及答案

生物信息考试题及答案生物信息学是一门结合生物学、计算机科学、信息技术和数学的交叉学科，它利用计算机技术来分析和解释生物数据。

以下是一份生物信息学考试题及答案的示例。

生物信息学考试题一、选择题（每题2分，共20分）1. 生物信息学中，用于存储DNA序列的文件格式是：A. FASTAB. JPEGC. MP3D. DOCX2. 以下哪项不是生物信息学分析的基本步骤？A. 数据收集B. 数据预处理C. 数据解释D. 数据存储3. 在蛋白质序列分析中，BLAST工具用于：A. 序列比对B. 序列组装C. 序列克隆D. 序列合成4. 以下哪个数据库不是用于存储基因表达数据的？A. NCBIB. GEOC. PDBD. ArrayExpress5. 以下哪个算法不是用于基因预测的？A. GeneMarkB. BLASTC. GlimmerD. Fgenesh二、简答题（每题10分，共30分）6. 简述生物信息学在现代生物学研究中的重要性。

7. 解释什么是基因组学，并说明其在医学研究中的应用。

8. 描述序列比对的基本原理及其在生物信息学中的作用。

三、计算题（每题15分，共30分）9. 假设你有一个DNA序列，其组成为：ATCGTA。

请计算其互补序列。

10. 给定两个蛋白质序列，序列A：A-B-C-D-E，序列B：A-C-E-B-D。

请使用Needleman-Wunsch算法计算它们的全局比对得分。

四、论述题（每题20分，共20分）11. 论述生物信息学在新药开发中的作用及其面临的挑战。

答案一、选择题1. A2. C3. A4. C5. B二、简答题6. 生物信息学在现代生物学研究中的重要性体现在它能够处理和分析大量的生物数据，如基因组序列、蛋白质结构等，帮助科学家快速发现生物现象的规律，推动生物学的发展。

7. 基因组学是研究生物基因组的结构、功能和演化的科学。

在医学研究中，基因组学可以帮助我们了解疾病的遗传基础，为个性化医疗提供理论基础。

生物信息学复习题及答案

生物信息学复习题及答案1. 什么是生物信息学？生物信息学是一门交叉学科，它结合了生物学、计算机科学和信息技术，用于管理和分析生物数据。

它涉及基因组学、蛋白质组学、转录组学等多个领域，目的是从大量生物数据中提取有用的生物学信息。

2. 基因组学的主要研究内容是什么？基因组学主要研究基因组的结构、功能和相互作用，包括基因的识别、基因表达的分析以及基因组的比较研究。

3. 转录组学与基因组学有何不同？转录组学关注的是细胞在特定条件下转录产生的所有RNA分子，而基因组学研究的是整个基因组的DNA序列。

转录组学可以揭示基因表达的变化，而基因组学提供了基因存在的信息。

4. 蛋白质组学研究的是什么？蛋白质组学研究细胞或组织中所有蛋白质的组成、结构、功能和相互作用。

它涉及蛋白质的鉴定、定量和功能分析。

5. 生物信息学中常用的数据库有哪些？常用的生物信息学数据库包括GenBank、PDB（蛋白质数据银行）、UniProt和KEGG等，它们存储了大量的基因、蛋白质和生物途径信息。

6. 什么是序列比对？序列比对是将两个或多个生物序列（如DNA、RNA或蛋白质序列）进行排列，以便识别出相同或相似的区域，这是发现序列间同源性的重要方法。

7. 简述系统发育树的构建过程。

系统发育树的构建通常包括以下步骤：收集序列数据、选择适当的比对方法进行序列比对、计算序列间的同源性、选择系统发育分析方法（如最大似然法、邻接法等）构建树，并进行树的优化和验证。

8. 什么是基因表达谱分析？基因表达谱分析是一种研究基因在不同条件下表达模式变化的技术，它可以帮助我们理解基因如何响应环境变化或参与特定生物学过程。

9. 什么是高通量测序技术？高通量测序技术，也称为下一代测序技术，是一种能够快速、低成本地测定大量DNA或RNA序列的技术，它在基因组学、转录组学等领域有广泛应用。

10. 什么是生物信息学中的网络分析？网络分析在生物信息学中用于研究生物分子间的相互作用，如蛋白质-蛋白质相互作用网络、基因调控网络等，它有助于揭示生物系统的复杂性和动态性。

生物信息学复习题

⽣物信息学复习题⼀、名词解释1.bioinformatics：⽣物信息学，指从事对基因组研究相关的⽣物信息的获取、加⼯、储存、分配、分析和解释的⼀门科学，是⼀门⽣物学，数学和计算机相互交叉融合⽽产⽣的新兴学科。

2.molecular bioinformatics：指综合应⽤信息科学、数学的理论、⽅法和技术，管理、分析和利⽤⽣物分⼦数据的科学。

3.GenBank：是美国全国卫⽣研究所维护的基因序列数据库，汇集并注释了所有公开的核酸序列，与⽇本的DNA数据库DDBJ以及欧洲分⼦实验室核酸序列数据库EMBL⼀起，都是国际核苷酸序列数据库合作的成员。

4.EMBL：EMBL实验室—欧洲分⼦⽣物学实验室，EMBL数据库—是⾮盈利性学术组织EMBL建⽴的综合性数据库，EMBL核酸数据库是欧洲最重要的核酸序列数据库，它定期地与美国的GenBank、⽇本的DDBJ数据库中的数据进⾏交换，并同步更新。

5.DDBJ：⽇本DNA数据库，主要向研究者收集DNA序列信息并赋予其数据存取号，信息来源主要是⽇本的研究机构，也接受其他国家呈递的序列。

6.BLAST：基本局部⽐对搜索⼯具的缩写，是⼀种序列类似性检索⼯具。

BLAST采⽤统计学⼏分系统，同时采⽤局部⽐对算法， BLAST程序能迅速与公开数据库进⾏相似性序列⽐较。

BLAST结果中的得分是对⼀种对相似性的统计说明。

7.BLASTn：是核酸序列到核酸库中的⼀种查询。

库中存在的每条已知序列都将同所查序列作⼀对⼀地核酸序列⽐对。

8.BLASTp：是蛋⽩序列到蛋⽩库中的⼀种查询。

库中存在的每条已知序列将逐⼀地同每条所查序列作⼀对⼀的序列⽐对。

9.Clustsl X：是CLUSTAL多重序列⽐对程序的Windows版本，是⽤来对核酸与蛋⽩序列进⾏多序列⽐较的程序，也可以对来⾃不同物种的功能或结构相似的序列进⾏⽐对和聚类，通过重建系统发⽣树判断亲缘关系，并对序列在⽣物进化过程中的保守性进⾏估计。

（完整word版）生物信息学填空题（个人整理）

（完整word版）生物信息学填空题（个人整理）1、BLAST教案所程序中，哪个方法是不存在的？（D）A：BLASTP B：BLASTN C：BLASTX D:BLASTQ2、下列哪个软件不是常用来观察蛋白质结构视图的？（D）A：AVS B：Chimera C:MICE D:HMM3、下列哪个不是点突变的类型?(A)A:染色体畸变 B：错义突变 C：无义突变 D：移码突变4、基因突变的效应不包括：（C）A：有利突变 B：中性突变 C：移码突变D：遗传多态现象5、人类基因组的结构特点不包括：（A）A：基因进化 B：基因数目 C：基因重复序列 D：基因组复制6、世界上三大数据库不包括：（B）A:NCBI B:BLAST C:UCSC D:Ensembl7、常用序列比对方法错误的是：（C）A：编辑距离 B：点阵描图 C：局部比对 D：记分模式8、下列哪个不是蛋白质结构模型？（D）A：同源性模型B：折叠识别C：ab initio折叠D：MoLScript 结构9、下列哪个选项不是微阵列实验设计的内容？（A）A：贝叶斯网络法 B：对照组的选择 C：重复样本的使用 D：随机化原则10、构建序列进化树的一般步骤不包括：（A）A：建立DNA文库 B：建立数据模型 C：建立取代模型 D：建立进化树11、下列中属于一级蛋白质结构数据库的是：（C）A. EMBLB. DDBJC. PDBD.SWISS-PROT12．蛋白质结构预测分为：（B）A．一级和三级结构预测 B. 二级和空间结构预测C. 三级和空间结构预测D. 二级和三级结构预测13．数据挖掘的四个步骤不包括下列哪个：（C）A. 数据选择B. 数据转换C. 数据记录D. 结果分析14．下列哪项不是生物学研究必备的工具：（A）A.数据分析Ｂ．数据统计Ｃ．因素分析Ｄ．多元回归分析15.Linux中rmdir 命令的功能是：（D）A．改变工作目录 B.删除工作目录C. 创建目录D.删除空目录16．BLAST教案所程序中，哪个方法是不存在的？（D）A：BLASTP B：BLASTN C：BLASTX D:BLASTQ17．下列哪个不是蛋白质结构模型？（D）A：同源性模型B：折叠识别C：ab initio折叠D：MoLScript 结构18．人类基因组的结构特点不包括：（A）A：基因进化 B：基因数目 C：基因重复序列 D：基因组复制19、下列哪个选项不是微阵列实验设计的内容？（A）A：贝叶斯网络法 B：对照组的选择 C：重复样本的使用 D：随机化原则20、构建序列进化树的一般步骤不包括：（A）A：建立DNA文库 B：建立数据模型 C：建立取代模型 D：建立进化树三、填空题1、数据格式的建立、数据的准确性和质量控制、方便的数据搜寻方式以及数据的及时更新是数据库建立和维护中的重要问题。

生物信息学复习题

名词解释1..生物信息学：是研究生物信息的采集、处理、存储、传播，分析和解释等各方面的学科，也是随着生命科学和计算机科学的迅猛发展，生命科学和计算机科学相结合形成的一门新学科。

2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

3.FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号（〉)表示一个新文件的开始，其他无特殊要求。

4。

genbank序列格式:是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身,以“//"结尾.5.Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有链接的数据库多,使用方便,能够进行交叉索引等特点。

6.BLAST:基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。

P947.查询序列（query sequence）:也称被检索序列，用来在数据库中检索并进行相似性比较的序列。

P988.打分矩阵（scoring matrix）:在相似性检索中对序列两两比对的质量评估方法.包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM)两类方法。

P299.空位(gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象，这些中断的位点称为空位。

P2910.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分,空位罚分的多少直接影响对比的结果。

P3711。

E值：衡量序列之间相似性是否显著的期望值。

生物信息学基础考试试题

生物信息学基础考试试题生物信息学基础考试试题回答一、选择题（每题5分，共20题）1. 生物信息学的定义是什么？A. 研究生物的基本信息B. 利用计算机科学分析生物学数据C. 研究生物的遗传编码D. 生物学的一个分支学科答案：B2. 以下哪个是常用的生物信息学数据库？A. NCBIB. C++C. DNAD. Photosynthesis答案：A3. 在DNA序列中，碱基A配对的是？A. TB. CC. GD. U答案：A4. 以下哪个是生物信息学中常用的序列比对算法？A. BLASTB. MATLABC. PCRD. ELISA答案：A5. 基因组学是研究什么的科学？A. 蛋白质结构B. DNA修复C. 基因组DNA的组成和功能D. 细胞分裂答案：C6. 哪种技术可用于测定DNA序列？A. 单克隆抗体技术B. RNA干扰技术C. 半制备列序法D. 高效液相色谱法答案：C7. 生物信息学中的序列模拟是指什么？A. 通过计算机模拟生物进化过程B. 利用计算机模拟DNA合成过程C. 模拟生物对某种药物的反应D. 利用计算机模拟细胞分裂过程答案：A8. 以下哪个是生物信息学的一个重要应用领域？A. 化学合成B. 建筑设计C. 新药研发D. 环境保护答案：C9. 哪个工具常用于分析生物信息中的调控网络？A. PhotoshopB. CytoscapeC. ExcelD. SPSS答案：B10. 蛋白质结构预测是生物信息学的一个重要研究方向，以下哪种是蛋白质的一级结构？A. α螺旋B. 葡萄糖C. 多肽链D. 抗原答案：C11. 生物信息学与生物医学工程有什么相似之处？A. 都研究细胞生物学B. 都属于理学院系C. 都涉及到计算机科学D. 都使用相同的实验方法答案：C12. 在基因组测序中，什么是基因组装？A. 利用计算机将碎片序列拼接成连续的基因组B. 测定基因组中的突变位点C. 研究基因间的调控关系D. 将RNA转录为蛋白质的过程答案：A13. 以下哪个不属于生物信息学的软件工具？A. BLASTB. PhotoshopC. RD. Python答案：B14. 哪种常见的DNA测序技术被广泛应用于基因组学研究？A. Sanger测序B. 吉姆斯法则C. CRISPR-Cas9技术D. 免疫印迹法答案：A15. 生物信息学中的反向遗传学用于研究什么？A. DNA复制B. 基因的转录和翻译C. RNA干扰D. 基因组的组装答案：B16. 哪种方法可用于鉴定基因表达谱中的关键基因？A. 蛋白质降解法B. 基因芯片技术C. 聚合酶链式反应D. 免疫组化技术答案：B17. 生物信息学研究中常用的基因表达定量方法是什么？A. Western BlotB. ELISAC. qPCRD. 蛋白质组学答案：C18. 生物信息学中的系统生物学研究的是什么？A. 各个细胞器的功能B. 化学元素与生物体的相互作用C. 生物学过程中的相互关系D. 各个动物种群的遗传特征答案：C19. 下面哪个数据库不是用于蛋白质结构预测的？A. PDBB. UniProtC. Swiss-ProtD. Entrez Gene答案：D20. 生物信息学中常用的序列对比方法是什么？A. 水平基因转移B. Smith-Waterman算法C. 单克隆抗体制备D. RNA干扰技术答案：B二、简答题（每题10分，共5题）1. 编程语言在生物信息学中的作用是什么？编程语言在生物信息学中扮演着重要角色。

《生物信息学》题集

《生物信息学》题集一、选择题（每题3分，共30分）1.生物信息学的主要研究对象是什么？A. 蛋白质结构B. 基因序列C. 生态系统D. 细胞代谢2.下列哪项技术不是生物信息学中常用的数据库技术？A. BLASTB. GenBankC. PubMedD. SWISS-PROT3.在生物信息学中，进行多序列比对时常用的软件是什么？A. MATLABB. ClustalWC. ExcelD. PowerPoint4.哪种算法常用于基因表达数据的聚类分析？A. K-meansB. DijkstraC. A*D. Floyd5.生物信息学中，下列哪项不是常用的序列分析技术？A. PCRB. 测序C. 质谱分析D. 芯片技术6.下列哪项不是生物信息学在医学领域的应用？A. 疾病诊断B. 药物设计C. 天气预报D. 个性化医疗7.下列哪项技术常用于生物大分子的结构预测？A. NMRB. X射线衍射C. 同源建模D. 质谱分析8.在生物信息学中，下列哪项不是基因注释的内容？A. 基因功能B. 基因表达水平C. 基因在染色体上的位置D. 基因的长度9.下列哪项技术不是高通量测序技术？A. Sanger测序B. Illumina测序C. 454测序D. SOLiD测序10.下列哪项不是生物信息学在农业领域的应用？A. 作物育种B. 病虫害防治C. 土壤成分分析D. 农产品品质改良二、填空题（每题2分，共20分）1.生物信息学是一门交叉学科，它主要涉及______、计算机科学和数学等领域。

2.在生物信息学中，______技术常用于基因序列的相似性搜索。

3.生物信息学在药物研发中的主要应用包括______和药物靶点的预测。

4.在基因表达数据分析中，______是一种常用的数据标准化方法。

5.生物信息学中，______技术常用于蛋白质结构的预测和分析。

6.在生物信息学数据库中，GenBank主要存储的是______数据。

生物信息学期末期末复习

■一、选择题：1.以下哪一个是mRNA条目序列号：A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是：■.UnigeneB.EntrezC.LocusLinkD.PCR3.一个基因可能对应两个Unigene簇吗？■可能B.不可能4.下面哪种数据库源于mRNA信息：■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建：A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区另1J：A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank,提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息，下列哪个数据库是你最佳选择：A.OMIMB.Entrez■PubMedD.PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法，下列哪种说法正确：A.因为GenBank的数据比EMBL更多，Entrez给出的搜索结果将更多B.搜索结果很可能一样，因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当，但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于：■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为：■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变：A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变：A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同：A.全局比对通常用于比对DNA序列，而局部比对通常用于比对蛋白质序列B.全局比对允许间隙，而局部比对不允许C.全局比对寻找全局最大化，而局部比对寻找局部最大化■全局比对比对整体序列，而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。

生物信息学复习题已附答案

本卷的答案仅做参考，如有疑问欢迎提出。

后面的补充复习题要靠你们自己整理答案了。

生物信息学复习题一、填空题1、识别基因主要有两个途径即2、表达序列标签是从 mRNA 中生成的一些很短的序列（ 300-500bp ），它们代表在特定组织或发育阶段表达的基因。

3、序列比对的基本思想，是找出检测基因和目标序列的相似性，就是通过在序列中插入空位的方法使所比较的序列长度达到一致。

比对的数学模型大体分为两类，分别— 和局部比对。

4、 2-DE 的基本原理是根据蛋白质和分子量不同，进行两次电泳将之分离。

第一向是等电聚焦分离 ,第 —S D S-P AGE 分离 o5、蛋白质组研究的三大关键核心技术是质谱鉴定技术、计算机图像数据处理与蛋白质数据库二、判断题1、生物体的结构和功能越复杂的种类就越多，所需要的基因也越多，是真核生物基因组的特点之一。

（对）2、 CDS 一定就是 ORF 。

（对）3、两者之间有没有共同的祖先，可以通过序列的同源性来确定，如果两个基因或蛋白质有着几乎一样的序列，那么它们高度同源，就具有共同的祖先。

（错）4、 STS,是一段 200-300bp 的特定 DNA 序列，它的序列已知，并且在基因组中属于单拷贝。

（对）5、非编码 DNA 是“垃圾 DNA'，不具有任何的分析价值，对于细胞没有多大的作用。

（错）6、基因树和物种树同属于系统树，它们之间可以等同。

（错）7、基因的编码序列在 DNA 分子上是被不编码的序列隔开而不连续排列的。

&对任意一个 DNA 序列，在不知道哪一个碱基代表 CDS 的起始时，可用获得6个潜在的蛋白质序列。

（对）9、一个机体只有一个确定的基因组，但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。

（对）10、外显子和内含子之间没有绝对的区分，一个基因的内含子可以是另一个基因的外显子，同一个基因在不同的生理状况或生长发育的不同阶段，外显子组成也可以不同。

生物信息学期末复习题与答案

一、单选题1、总的来说，位于染色体内超过( )个碱基的DNA，构成了人类基因组。

A.30000000000B.3000000000C.300000000D.30000000正确答案：B2、人类镰刀型红细胞贫血症是由于血红蛋白β链N端第6个氨基酸由谷氨酸突变为( )造成的。

A.苏氨酸B.缬氨酸C.赖氨酸D.谷氨酸正确答案：B3、RefSeq数据库是由哪个组织开发和维护的？( )A.NIGB.NCBIC.EMBLD.SIB正确答案：B4、Long non-coding RNA长链非编码RNA是长度大于( )个核苷酸的非编码RNA。

A.150B.250C.300D.200正确答案：D5、tBLASTx分析是用核酸序列检索核酸序列数据库，下列说法正确的是？（）A.核酸序列和核酸序列数据库都不需要翻译成蛋白质序列B.只有核酸序列数据库需要翻译成蛋白质序列C.只有核酸序列需要翻译成蛋白质序列D.核酸序列和核酸序列数据库都需要翻译成蛋白质序列正确答案：D6、要搜索编码蛋白质序列的核酸序列，适宜的分析方法是？（）A.BLASTxB.BLASTnC.tBLASTnD.BLASTp正确答案：A7、下列对于PCR引物修饰的说法正确的是？（）A.PCR引物的5’末端和3’末端均能进行修饰B.PCR引物的5’末端和3’末端均不能进行修饰C.只有PCR引物的5’末端能进行修饰D.只有PCR引物的3’末端能进行修饰正确答案：C8、下列哪个在线分析工具可以预测DNA的外显子-内含子？（）A.AugustusB.PLACEC.ORFfinderD.Entrez正确答案：A9、Smith-Waterman动态规划算法矩阵中的每个单元格有几条路径？（）A.1B.2C.3D.4正确答案：D10、下列关于Needleman-Wunsch算法和Smith-Waterman算法提出早晚的论述正确的是？（）A.Needleman-Wunsch算法提出时间较早B.不确定C.Smith-Waterman算法提出时间较早D.二者提出时间相当正确答案：A11、当分类单元至少为3时，下列对“有根树与无根树的数目”判断正确的是？（）A.有根树的数目要少于无根树的数目B.有根树的数目与无根树的数目一样多C.有根树的数目要多于无根树的数目D.二者数目无法判断正确答案：C12、下列哪种算法建树时，选择代价最小或者枝长最短的树？A.最大似然值法B.最大简约法C.邻接法D.UPGMA法正确答案：B二、多选题1、生物信息学是由( )等学科相互交叉而形成的一门新兴学科。

生物信息学复习要点

一、名词解释（每小题3分，共30分）1.生物信息学2.数据库技术3.数据仓库4.EST5.概念性翻译6.同源性7.单系类群8.全局排列9.基因作图10．直系同源体簇二、填空题（每空1分，共10分）1．生物信息学主要研究的两种信息载体是和。

2．国际上的三大核苷酸序列数据库分别是、和。

3．数据挖掘的三大技术支柱是、和。

4．相同类型核苷酸的替换称为，不同类型核苷酸的替换称为。

三、单项选择题（每小题1分，共10分）1.在对模式生物进行全基因组的测定中，作为真菌模式生物的是。

A、大肠杆菌B、青霉菌C、酵母菌D、线虫2．NCBI成立于。

A、1988年B、1989年C、1990年D、1992年3．根据数据库管理系统所支持的基本数据模型的不同，可以将数据库分为五类，其中第二代数据库是。

A、层次数据库B、网状数据库C、关系数据库D、分布式数据库4．在向GenBank投送序列的工具中，是标准的序列投送工具。

A、Cn3DB、tb12asnC、BankItD、Sequin5. 目前最为常用和注释最全的蛋白质序列数据库是。

A、IdentifyB、OWLC、PIRD、SWISS-PROT6. 下列选项中根据蛋白质三维折叠模式和进化关系划分的结构分类数据库是。

A、PDBsumB、GDBC、SCOPD、CATH7. 构建系统发生树的方法很多，其中耗时最短的是。

A、进化简约法B、最大简约法C、最大似然法D、距离矩阵法8. 下列数据库选项中不属于蛋白质序列二次数据库的是。

A、PROSITEB、PRINTSC、BLOCKSD、PDB9. 在系统发生树的检验中，较为常用的方法是。

A、MP法B、重复取样法C、NJ法D、ML法10. 下列工具中用于发现开放阅读框的软件是。

A、Translate ToolB、ORF FinderC、Gene WiseD、E-PCR四、多项选择题（每小题2分，共20分）1．生物大分子携带的三种信息是。

A、遗传信息B、功能信息C、调控信息D、进化信息2. 为实现3个抽象级别间的数据转换，DBMS提供的两层映射是。

生物信息学复习题及答案(陶士珩)

生物信息学复习题名词解释1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。

序列相似序列并不一定是同源序列。

（直系同源）：指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列，它们具有相似的功能。

（旁系（并系）同源）：指同一个物种中具有共同祖先，通过基因复制产生的一组基因，这些基因在功能上的可能发生了改变。

基因复制事件是促进新基因进化的重要推动力。

(异同源)：通过横向转移，来源于共生或病毒侵染而产生的相似的序列，为异同源。

Score：The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。

6.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。

7. E值：得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。

衡量序列之间相似性是否显着的期望值。

E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义，E值越接近零，越不可能找到其他匹配序列。

值：得分为所要求的分值比对或更好的比对随机发生的概率。

它是将观测得到的比对得分S，与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP（高分片段对）得分的期望分布联系起来计算的。

通常使用低于来定义统计的显着性。

生物信息考试题及答案

生物信息考试题及答案一、选择题（每题2分，共20分）1. 基因组学研究的核心是（）。

A. 基因克隆B. 基因表达C. 基因组序列D. 基因功能答案：C2. 下列哪项不是生物信息学的主要研究内容？（）A. 基因组序列分析B. 蛋白质结构预测C. 植物分类学D. 基因表达分析答案：C3. 转录组学研究的是（）。

A. 基因组中的所有基因B. 特定细胞或组织中的所有RNA分子C. 特定细胞或组织中的所有蛋白质分子D. 特定细胞或组织中的所有DNA分子答案：B4. 下列哪个数据库主要用于存储蛋白质序列信息？（）A. GenBankB. PDBC. Swiss-ProtD. EMBL答案：C5. 以下哪个不是生物信息学中常用的序列比对工具？（）A. BLASTB. FASTAC. ClustalWD. PCR答案：D6. 以下哪个是用于蛋白质三维结构预测的软件？（）A. Swiss-ProtB. PDBC. MODELLERD. GenBank答案：C7. 以下哪个是用于基因表达分析的高通量技术？（）A. Sanger测序B. 微阵列C. PCRD. 质谱分析答案：B8. 下列哪个是用于基因组关联研究的统计方法？（）A. 聚类分析B. 系统发育分析C. 连锁不平衡分析D. 多态性分析答案：C9. 以下哪个是用于蛋白质-蛋白质相互作用网络分析的工具？（）A. STRINGB. BLASTC. ClustalWD. GenBank答案：A10. 下列哪个是用于生物信息学数据可视化的工具？（）A. R语言B. PythonC. CytoscapeD. Perl答案：C二、填空题（每题2分，共20分）1. 生物信息学是一门结合了__________、__________和__________的交叉学科。

答案：生物学、计算机科学、信息技术2. 基因组学中的“组”指的是__________的集合。

答案：基因3. 转录组学研究的RNA分子包括__________、__________和__________。

(完整word版)生物信息学复习资料(word文档良心出品)

一、名词解释(31个)1.生物信息学:广义：应用信息科学的方法和技术，研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。

狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。

2.二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

3.多序列比对：研究的是多个序列的共性。

序列的多重比对可用来搜索基因组序列的功能区域，也可用于研究一组蛋白质之间的进化关系。

4.系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。

5.直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。

指的是不同物种之间的同源性，例如蛋白质的同源性，DNA序列的同源性。

（来自百度）6.旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会进化出新的与原来有关的功能。

用来描述在同一物种内由于基因复制而分离的同源基因。

（来自百度）7.FASTA序列格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。

8.开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。

（来自百度）9.结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域，折叠得较为紧密，各行其功能，称为结构域。

10.空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。

（来自百度）11.表达序列标签：通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的3’或5’端序列。

(完整word版)生物信息学期末资料(word文档良心出品)

一、名词解释1）人类基因组测序计划: 是一项规模宏大, 由美国科学家于1985年率先提出, 于1990年正式启动的跨国跨学科的科学探索工程。

其宗旨在于测定组成人类染色体中所包含的30亿个碱基对组成的核苷酸序列, 从而绘制人类基因组图谱, 并且辨识其载有的基因及其序列, 达到破译人类遗传信息的最终目的。

2）BLAST搜索: 又称为"类BLAST比对工具", 基本局部比对搜索工具, 用于相似性搜索的工具, 对需要进行检索的序列与数据库中的每个序列做相似性比较。

3）SNP: 称单核苷酸多态性, 是指在基因组上单个核苷酸的变异, 包括转换、颠换、缺失和插入, 形成的遗传标记, 其数量很多, 多态性丰富。

4）物理图谱: 利用限制性内切酶将染色体切成片段, 再根据重叠序列确定片段间连接顺序, 以及遗传标记之间物理距离碱基对(bp) 或千碱基对(kb)或兆碱基对(Mb)的图谱。

5）一级数据库: 记录实验结果和一些初步的解释, 数据库中的数据直接来源于实验获得的原始数据, 只经过简单的归类整理和注释。

6）分子系统树: 从生物大分子（氨基酸、核苷酸）的遗传信息推断生物进化的历史, 并以系统树（谱系）的形式表达出来。

7）基因识别: 是生物信息学的一个重要分支, 使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。

基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子, 如RNA 基因和调控因子。

8）基因组作图: 确定界标或基因在构成基因组的各条染色体上的位置, 以及染色体上各个界标或基因之间的相对距离, 绘制遗传连锁图或物理图。

9）功能蛋白质组学: 指对蛋白质间、蛋白质与DNA/RNA间的相互作用的研究。

以细胞内某个功能有关的或某种条件下的一群蛋白质为主要研究内容, 由此建立细胞内外信号传递的复杂网络。

10）HMM隐马尔可夫模型: 由马尔科夫链发展扩充而来的一种随机模型。

生物信息学复习题

生物信息学复习题生物信息学复习题生物信息学是一门研究生物学数据的收集、存储、管理和分析的学科。

它利用计算机科学和统计学的方法来解决生物学中的问题。

在这篇文章中，我将提供一些生物信息学的复习题，帮助大家巩固对这门学科的理解。

1. 什么是基因组学？基因组学是研究生物体基因组的学科。

它涉及到对基因组的序列、结构和功能的研究。

基因组学的发展使得我们能够更好地理解基因组的组成和功能，从而有助于解决生物学中的一些重要问题。

2. 什么是DNA序列？DNA序列是指DNA分子中碱基的顺序。

DNA序列的研究可以帮助我们了解基因组的组成和功能。

通过对DNA序列的分析，我们可以识别基因、预测蛋白质编码区域，并研究基因组的演化等。

3. 什么是蛋白质序列？蛋白质序列是指蛋白质分子中氨基酸的顺序。

蛋白质序列的研究可以帮助我们了解蛋白质的结构和功能。

通过对蛋白质序列的分析，我们可以预测蛋白质的结构、功能和相互作用等。

4. 什么是序列比对？序列比对是指将两个或多个序列进行比较，找出它们之间的相似性和差异性。

序列比对可以通过比较序列中的碱基或氨基酸的顺序来进行。

序列比对的结果可以帮助我们了解序列的进化关系，预测序列的功能以及发现新的序列。

5. 什么是基因表达谱？基因表达谱是指在特定条件下，基因在细胞或组织中的表达水平。

基因表达谱的研究可以帮助我们了解基因的功能以及基因在生物体中的调控机制。

通过对基因表达谱的分析，我们可以发现与特定生理过程或疾病相关的基因。

6. 什么是蛋白质结构预测？蛋白质结构预测是指根据蛋白质的氨基酸序列，预测蛋白质的三维结构。

蛋白质结构预测的研究可以帮助我们了解蛋白质的功能和相互作用。

通过蛋白质结构预测，我们可以预测蛋白质的功能、鉴定药物靶点以及设计新的蛋白质。

7. 什么是基因组注释？基因组注释是指对基因组中的基因和非编码区域进行功能和结构的描述。

基因组注释的研究可以帮助我们了解基因组的组成和功能。

通过基因组注释，我们可以识别基因、预测蛋白质编码区域，并研究基因组的演化等。

(完整版)生物信息学复习题及答案(陶士珩)

生物信息学复习题一、名词解释生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez，BLAST，查询序列（query），打分矩阵（scoring matrix），空位（gap），空位罚分，E 值, 低复杂度区域，点矩阵（dot matrix），多序列比对，分子钟，系统发育（phylogeny），进化树的二歧分叉结构，直系同源，旁系同源，外类群，有根树，除权配对算法（UPGMA），邻接法构树，最大简约法构树，最大似然法构树，一致树（consensus tree），bootstrap，开放阅读框（ORF），密码子偏性（codon bias），基因预测的从头分析法，结构域（domain），超家族，模体（motif），序列表谱（profile），PAM矩阵，BLOSUM，PSI-BLAST，RefSeq，PDB数据库，GenPept，折叠子，TrEMBL，MMDB，SCOP，PROSITE，Gene Ontology Consortium，表谱（profile）。

二、问答题1）生物信息学与计算生物学有什么区别与联系？2）试述生物信息学研究的基本方法。

3）试述生物学与生物信息学的相互关系。

4）美国国家生物技术信息中心（NCBI）的主要工作是什么？请列举3个以上NCBI维护的数据库。

5）序列的相似性与同源性有什么区别与联系？6）BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？7）简述BLAST搜索的算法。

8）什么是物种的标记序列？9）什么是多序列比对过程的三个步骤？10）简述构建进化树的步骤。

11）简述除权配对法（UPGMA）的算法思想。

12）简述邻接法（NJ）的算法思想。

13）简述最大简约法（MP）的算法思想。

14）简述最大似然法（ML）的算法思想。

15）UPGMA构树法不精确的原因是什么？16）在MEGA2软件中，提供了多种碱基替换距离模型，试列举其中2种，解释其含义。

生物信息学试题及答案

生物信息学试题及答案一、单项选择题（每题2分，共20分）1. 生物信息学的主要研究对象是（）。

A. 生物数据B. 生物实验C. 生物模型D. 生物技术答案：A2. 下列哪项不是生物信息学中的常用数据库（）。

A. GenBankB. Swiss-ProtC. PubMedD. Google Scholar答案：D3. 蛋白质序列比对的主要目的是（）。

A. 确定蛋白质的三维结构B. 预测蛋白质的功能C. 比较蛋白质的氨基酸序列D. 计算蛋白质的分子量答案：B4. 在生物信息学中，以下哪种算法不是用于序列比对的（）。

A. BLASTB. FASTAC. Smith-WatermanD. Hidden Markov Model答案：D5. 下列哪种生物信息学工具主要用于基因表达分析（）。

A. ClustalWB. Primer3C. R语言D. PDB答案：C6. 以下哪种技术不是用于蛋白质结构预测的（）。

A. 同源建模B. 从头预测C. 序列比对D. 折叠识别答案：C7. 以下哪种生物信息学工具主要用于基因组注释（）。

A. BLASTC. GATKD. Primer3答案：B8. 在生物信息学中，以下哪种方法不用于基因表达数据的聚类分析（）。

A. K-meansB. Hierarchical clusteringC. Principal component analysisD. Multiple sequence alignment答案：D9. 下列哪种生物信息学工具主要用于蛋白质-蛋白质相互作用网络分析（）。

A. STRINGB. BLASTD. Primer3答案：A10. 在生物信息学中，以下哪种数据库不包含蛋白质结构信息（）。

A. PDBB. UniProtC. RCSBD. GenBank答案：D二、多项选择题（每题3分，共15分）11. 生物信息学中常用的序列比对工具包括（）。

A. BLASTB. FASTAC. ClustalWD. Pfam答案：ABC12. 以下哪些是生物信息学中常用的基因表达分析软件（）。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

二、问答题1）生物信息学与计算生物学有什么区别与联系？2）试述生物信息学研究的基本方法。

3）试述生物学与生物信息学的相互关系。

4）美国国家生物技术信息中心（NCBI）的主要工作是什么？请列举3个以上NCBI维护的数据库。

5）序列的相似性与同源性有什么区别与联系？6）BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？7）简述BLAST搜索的算法。

8）什么是物种的标记序列？9）什么是多序列比对过程的三个步骤？10）简述构建进化树的步骤。

11）简述除权配对法（UPGMA）的算法思想。

12）简述邻接法（NJ）的算法思想。

13）简述最大简约法（MP）的算法思想。

14）简述最大似然法（ML）的算法思想。

15）UPGMA构树法不精确的原因是什么？16）在MEGA2软件中，提供了多种碱基替换距离模型，试列举其中2种，解释其含义。

17）试述DNA序列分析的流程及代表性分析工具。

18）如何用BLAST发现新基因？19）试述SCOP蛋白质分类方案。

20）试述SWISS-PROT中的数据来源。

21）TrEMBL哪两个部分？22）试述PSI-BLAST 搜索的5个步骤。

三、操作与计算题1）如何获取访问号为U49845的genbank文件？解释如下genbank文件的LOCUS行提供的信息：LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-19992）利用Entrez检索系统，对核酸数据搜索，输入如下信息，将获得什么结果：AF114696:AF114714[ACCN]。

3) 相比使用BLAST套件搜索数据库，BLAST2工具在结果呈现上有什么优点？4）MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件？5）什么简约信息位点Pi？6）以下软件的主要用途是什么？RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder,neural network promoter prediction.7) 为下面的序列比对确定比对得分：匹配得分= +1，失配得分= 0，空位得分= -1。

TGTACGGCTATATC - -CGCCT –TA分别是T,T,C和C,为每个内部节点推断的祖先序列标出最可能的候选核苷酸，3棵可能的无根树中有几棵是一样简约的(因为他们有最小替换数)?有几棵树的替换树是2?有大于2个替换的树吗?10）如何将所研究的蛋白质与其他相关蛋白质做结构比对。

答案部分一、名词解释：生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。

利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。

二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。

P11，第2段。

FASTA序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。

genbank序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。

该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“//”结尾。

P13，第2段。

Entrez检索系统：是NCBI开发的核心检索系统，集成了NCBI的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。

P83-85。

BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。

P94查询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。

P98，第1段。

打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。

包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。

P29，第2段。

空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。

P29，第2段。

空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。

P37，倒数第2段。

E值：衡量序列之间相似性是否显著的期望值。

E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越接近零，越不可能找到其他匹配序列，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。

P95低复杂度区域：BLAST搜索的过滤选项。

指序列中包含的重复度高的区域，如poly （A）。

P100，第一段。

点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。

P39-41。

多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。

P48，需要概括。

分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。

P112-113系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。

P112，第一段。

进化树的二歧分叉结构：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。

P113，最后一段。

系统发育图：P114直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。

P28，P146旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上的可能发生了改变。

P28，P147外类群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。

P120 有根树：能够确定所有分析物种的共同祖先的进化树。

P113除权配对算法（UPGMA）：最初，每个序列归为一类，然后找到距离最近的两类将其归为一类，定义为一个节点，重复这个过程，直到所有的聚类被加入，最终产生树根。

P119邻接法（neighbor-joining method）：是一种不仅仅计算两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制，能够克服UPGMA算法要求进化速率保持恒定的缺陷。

P118。

最大简约法（MP）：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。

P120最大似然法（ML）：它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概率最大的进化树。

最大似然法允许采用不同的进化模型对变异进行分析评估，并在此基础上构建系统发育树。

P122一致树（consensus tree）：在同一算法中产生多个最优树，合并这些最优树得到的树即一致树。

P121自举法检验（Bootstrap）：放回式抽样统计法。

通过对数据集多次重复取样，构建多个进化树，用来检查给定树的分枝可信度。

P122开放阅读框（ORF）：开放阅读框是基因序列的一部分，包含一段可以编码蛋白的碱基序列。

P131密码子偏好性（codon bias）：氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致，大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子，这种效应称为密码子偏好性。

P133基因预测的从头分析：依据综合利用基因的特征，如剪接位点，内含子与外显子边界，调控区，预测基因组序列中包含的基因。

P134-145简约信息位点：指基于DNA或蛋白质序列，利用最大简约法构建系统发育树时，如果每个位点的状态至少存在两种，每种状态至少出现两次的位点。

其它位点为都是非简约性信息位点。

P121,第2行结构域（domain）：保守的结构单元，包含独特的二级结构组合和疏水内核，可能单独存在，也可能与其他结构域组合。

相同功能的同源结构域具有序列的相似性。

P158模体（motif）：短的保守的多肽段，含有相同模体的蛋白质不一定是同源的，一般10-20个残基。

P161,最后一行PAM矩阵：PAM指可接受突变百分率。

一个氨基酸在进化中变成另一种氨基酸的可能性，通过这种可能性可以鉴定蛋白质之间的相似性，并产生蛋白质之间的比对。

一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。

P30-31BLOSUM矩阵：模块替代矩阵。

矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。

每个矩阵适合特定的进化距离。

例如，在BLOSUM62矩阵中，比对的分值来自不超过62%一致率的一组序列。

P34折叠子（Fold）：在两个或更多的蛋白质中具有相似二级结构的大区域，这些大区域具有特定的空间取向。

P162TrEMBL：是与SWISS-PROT相关的一个数据库。

包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中。

P21PDB（Protein Data Bank）：PDB中收录了大量通过实验（X射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构，记录有原子坐标、配基的化学结构和晶体结构的描述等。