生物信息学题库说课材料

合集下载

生物信息学课后习题

绪论1、生物信息学的概念及其组成部分生物信息学（Bioinformatics）：是一门交叉学科，包含了生物信息的获取、处理、储存、分析、解释和应用在内的所有方面，它综合运用了生物学、计算机科学和数学等多方面的知识和方法，来阐述和理解大量生物学数据所包含的生物学意义，并应用于解决生命科学研究和生物技术相关产业中的各种问题。

生物信息学的三个组成部分:①建立可以存放和管理大量生物信息学数据的数据库②研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具③使用这些工具去分析和解释不同类型的生物学数据2、生物信息学的主要研究领域①生物数据的建立与搜索②序列比较与相似性搜索③基因组结构注释④蛋白质结构与功能的预测⑤基因组数据分析⑥比较基因组合系统发生遗传学分析⑦功能基因组和蛋白质组学数据分析⑧信号传导、代谢和基因调节途径的构建与描述3、初级数据库二级数据库的概念说出几个数据并说明包含什么数据一级数据库（primary database）：数据直接来源于实验获得原始数据，只经过简单的归类、整理和注释。

例如GenBank、EMBL、DDBJ、SWISSPORT、PDB二级数据库（secondary database）：在一级数据库、实验数据和理解分析的基础上针对特定的目标衍生而来，是对生物学知识和信息的进一步整理。

例如human genome databases GDB转录因子数据库等4、简述核酸序列的测序①DNA测序一般原理DNA测序一般采用全自动的荧光标记链终止反应完成，该法利用了DNA聚合酶能从脱氧核糖核苷酸（dNTP）延伸但不能从双脱氧核糖核苷酸（ddNTP）延伸的特性，通过加入限量的荧光标记过的双脱氧核苷酸来产生有特定终止碱基的嵌套DNA片段，然后通过聚丙烯酰胺凝胶电泳（PAGE）分离并通过扫描仪读取序列（300-800bp）②基因组测序策略—分而治之---shortgun因为测序反应每次只能测300-800bp故先将基因组分割成一定大小的片段，然后对这些片段分别测序，测完后再将这些片段拼接起来—鸟枪法（shortgun）③一次性测序例如：表达序列标签（EST）是其中的代表，它对随机挑选的cDNA克隆进行两端一次测序得到300-500bp的片段，代表cDNA的一部分。

生物信息学试题及答案

广东海洋大学 2013—— 2014 学年第一学期《生物信息学》课程试题答案课程号： 13432210 √ 考试 √ A 卷 √ 闭卷 □ 考查□ B 卷□ 开卷一、简答题(一) 生物信息学及主要内容？(3)生物信息学是生物和信息技术的结合，这一学科包括了用来管理、分析和操作大量生物数据集的任何计算工具和方法。

(二) 生物信息学主要由哪三个组成部分？(6)1、建立可以存放和管理大量生物信息学数据集的数据库；2、开发确定大数据集中各成员关系的算法和统计方法；3、使用这些工具来分析和解释不同类型的生物数据，包括DNA ，RNA 和蛋白质序列、蛋白质结构、基因表达以及生化途径。

(三) 存储在GenBank 中DNA 序列的类型？(6) 1、基因组DNA 2、cDNA 3、重组DNA(四) 解释下图说明基因组测序的策略？(6)1、霰弹测序法(shot gun sequencing)：随机打碎大DNA 分子，通过很多测序反应来覆盖整个分子，完整的序列通过使用计算机搜索重叠区来重新拼接。

2、克隆重叠群(clone contig)的方法中，DNA 片段用推理的方法亚克隆，并且进行系统的测序直到整个序列完成。

(五) 按制备方式分DNA 芯片的主要类型？(6)1、原位合成芯片：采用显微光蚀刻等技术在特定部位原位合成寡核苷酸而制备的芯片。

探针较短；2、 DNA 微集阵列：将预先制备的DNA 片段以显微打印的方式有序地固化于支持物表面而制成的芯班级：姓名：学号：试题共页加白纸 2张密封线GDOU-B-11-302片。

探针的来源较灵活。

(六) 解释下图说明用芯片如何测定不同组织中基因表达的差异？(8)1、将要检测的基因用芯片点样仪芯片上2、提取待测样品和对照样品的RNA，分别用用Cy3标定一种RNA，而用Cy5标定另一种RNA。

Cy3发红色荧光，Cy5发绿色荧光。

3、用不同的激发光照射，测定两种样品中DNA的表达量。

[整理]《生物信息学》学生复习资料.

《生物信息学》复习资料陈芳宋东光教材：《生物信息学简明教程》（钟扬编）1 绪论分子生物学与计算机、信息科学的结合－生物信息学(Bioinformatics);Bioinformatics is the science of storing, extracting, organizing, analyzing, interpreting, and utilizing information from biological sequences and molecules.生物信息学及其分支学科分子生物信息学(molecular informatics)－即狭义的生物信息学，指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据；生物信息学(bioinformatics)－广义的生物信息学指生命科学与数学、计算机科学和信息科学等交叉形成的一门边缘学科，对各种生物信息(主要是分子生物学信息)的获取、储存、处理、分析和阐释；生物信息学是广义的计算生物学的分支，在为生物学系统建模中应用了量化分析技术；计算分子生物学(computational molecular biology)-开发和使用数学和计算机技术以帮助解决分子生物学中的问题，侧重于发展理论模型和有效算法；分子计算(molecular computing)－将DNA作为一种信息储存器，应用PCR 技术和生物芯片等来进行计算。

生物信息学的主要目的不是分子发展最精致的算法，其目的是发现生物体以怎样的方式生存。

生物信息学和计算生物学研究包括从生物系统的性质抽象出为数学或物理模型，到实现数据分析的新算法，以及开发数据库和访问数据库的Web工具。

生物信息学的功能是表示、存储和分布数据。

开发从数据中发现知识的分析工具处于第二位。

生物信息学发展阶段与研究方向前基因组时代－数据库建立、检索工具的开发和蛋白质序列分析；基因组时代－基因寻找和识别、网络数据库系统的建立如EST数据库及电子克隆等；后基因组时代－大规模基因组分析、蛋白质组分析、各种数据的比较和整合。

《生物信息学》复习资料

超二级结构：是介于二级和三级结构之间的一个结构层次。

有的模体本身有一定的功能，有的与其他的结构成分协同发挥作用。

Conting（叠连群）：又译作连续克隆系。

为搞清某段DNA的排列顺序而建立的一组克隆。

被克隆的DNA小片段有相互邻接并部分重叠的关系，从而可以完全覆盖该段DNA，一个这样的克隆群即为一个conting。

蛋白质组：对应于基因组的概念，指由一个细胞或一个组织的基因所表达的全部相应的蛋白质。

蛋白质组是一个动态的概念：①和基因不一样。

不同组织和不同发育时期都不一样②基因在转录后，还有一系列的修饰，翻译等过程都可以影响蛋白质的表达。

因此通过对蛋白质组的研究，在此基础上更能阐明遗传、发育、进化、功能调控等基本生物学问题以及与人类健康和疾病相关的生物医学问题。

单核苷酸多态性：在DNA的某一个位点处的核苷酸，有一部分是A，另一部分是T，其他为G和C，如果各种情况的比例均为1%，则称该位点处的核苷酸为多态性的。

就一个位点而言，SNP最多为4种。

但人类基因组很多，估计平均每1000bp就有一个SNP，因此整个金一组可有3*1000000个SNP位点，因此产生多态性就是非常多了。

已知人类基因组DNA序列中最常见的变异形式是SNP。

非蛋白质编码区：非蛋白质编码区占据了人类基因组的大部分，研究表明“Junk”是许多对生命过程富有活力的不同类型的DNA的复合体，它们至少包括以下类型的DNA成分或由其表达的RNA成分：内含子、卫星DNA、小卫星DNA、微卫星DNA、非均一核RNA、短散置元、长散置元、伪基因等。

除此之外，顺式调控原件如启动子、增强子等也属于非编码序列。

分裂基因、割裂基因、不连续基因：基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列的。

其中，编码的序列叫外显子，对应于心事RNA序列的区域。

不编码的叫内含子，通常比外显子大得多。

基因两端起始和结束于外显子，对应于转录产物RNA和5和3端。

如果一个基因含n个内含子，则n+1个外显子。

华中农业大学《生物信息学》讲义

生物信息学王石平(华中农业大学生命科学技术学院)2005.2.23211.69.135.104/bio-informatics.files/bio-infor.htm /Embnetut/Gcg/index.htm一、数据库1．核苷酸数据库GenBank 、EMBL 、DDBJ （在使用方法和连接的数据库上有差异，但数据量相同。

）注：氨基酸序列是非试验来源，为推倒的结果。

使用时要谨慎！！！！）（1）GenBank（NCBI）数据解释。

/注：Display 中选FASTA 形式，显示原始的核苷酸数据，便于复制。

每条序列的3种编号（identifier）无意义）定义（描述）版本 X.Y 1.位点名（基本2.注册号 3.Geninforidentifier（GI 号） 6位（X12345）或8位数字（XY123456）；例外：自编号（一般为基因组序列）物种类型一般与Accession NO.相同（今6位型：属＋种＋X12345 8位型：与AC 相同10位数：早期8位数：现注：NID(Nucleotide ID） 1999.12取消，改用序列的数据可以更改，GI 号、NID 号变化，但AC 号不变。

GI 号。

Coding sequence 谨慎使用！！！！最后一条Reference 序列提交者的文章为。

可以知道这一基因的研究历史，便于研究。

（2）dbESTEST来源于mRNA－基因片度（300-400bp，数据长度足以分析编码的产物）或者全基因（已知）－5’端或3’端的cDNA序列（EST）－300-400bp single-pass sequence （可能有误，如果要求<0.1%的错误率，需要测序8-10次）－GenBank中71%以上的是EST序列。

/dbEST/index.html（3）UniGene来源于同一基因的非重复EST，组成基因序列群（contig）注：不同实验室各自采用poly（T）15法和随机引物合成的cDNA（不完整），不同的cDNA的加工、拼接，形成重叠群（Contig）/UniGene/（4）dbSTS （sequence tagged sites）a.短序列（200-500bp）b.已完成染色体上的定位c.可以与电子PCR相连用/dbSTS/index.html（5）dbGSS （genome survey sequence）a.基因组短序列b. cosmid、BAC、YAC外源插入片断末端序列c. Alu PCR 序列/dbGSS/index.html（6）HTG （high-throughput genome sequence）尚未完成测序的重叠群（>2kb）更新快！！！/HTGS/（7）dbSNP每100-300bp有一个SNP/SNP/（8）EMBL/embl/（9）DDBJhttp://www.ddbj.nig.ac.jp/（10）EPD （Eukaryotic Promoter Database）启动子数据库http://www.genome.jp/dbget/dbget2.html2．蛋白质数据库（1）SWISS-PROT/sprot/有详细的注释序列；与44个数据库相互参照（cross-reference）(2)TrEMBL (translation of EMBL)(3)PIR (Promoter information resource)/pir/表明了结构域（4）PRF （Promoter research foundation）http://www4.prf.or.jp/（5）PDBSTR （Re-organized Protein data Bank）/sprot/prosite.html蛋白质的二级结构、α-碳位置（6）Prosite蛋白质家族、结构域/prosite/3．结构数据库（1）PDB (Protein Data Bank)/pdb/(2) NDB (Nucleic Acid Database)/NDB/ndb.html(3)DNA-bind Protein database/NDB/structure-finder/protein/index.html（4）swiss-3D IMAGEhttp://www.expasy.ch/sw3d/4．酶和代谢数据库（1）KEGG （Kyoto Eneyclopedin of genes & genemes）http://www.genome.ad.jp/kegg/(2)PKR (Protein Kinase Resource)/kinases5．文献数据库（1）PubMed/PubMed/（2）OMIM/Omim（3）Agricola/农业相关的文献6．提交数据GenBankBankIt提交网上直接提交，立即得到临时编号（1周内提供Aceesion No.）SequIn提交下载软件填写表格，自动确定CDS、ORF和查找重复序列、查载体序列用Update功能修改二、检索数据库的方法1、用关键词或词组进行的数据库检索 Text-based database searching2、用和甘肃或蛋白质序列进行的数据库检索 Sequence-based database searching关键词：名词；描述性词、词组；Accession number体系：Entrz；Sequence retrieval system (SRS)；Integrated database retrieval system (DBGET) 检索须知1、连接词：AND OR NOT用引号将两个词组成一个词组“disease resistance”表示必须两个词先后顺序连续出现disease resistance 表示默认AND2、wild card “*”放在单词后使检索范围扩大，但是专一性降低Wan*=所有以Wan开头的单词 enzyme*=enzyme + enzymes 单复数同（1）Entrz（NCBI）优点：三种检索体系中最容易操作的；缺点：检索范围有限8大类29个与Entrz体系相连的数据库1、Nucleiotide sequence database(6)GenBank; SNP; Gene; Homologene; UniSTS; ProSet2、Protein sequence database(1)Proteins3、Structure database(4)Structure; PubChem; Compound; 3D-Domain; CDD4、Taxonomy database(1)Taxonomy5、Genome database(2)Genomes; Genome Project6、Expression database(4)UniGene; GEO Profiles; GEO database;GENSAT注：数据库来源于mRNA－cDNA－protein（更确切）7、Literature database(7)PubMed（文摘）; PubMed central（全文）; Books; OMIM; Journals; NLM catalog; MeSH8、OthersPubChem substance; Cancer chromosome; PubChem BioAssay; SiteSearch检索方法：a、数据库间的检索 b、选择数据库（可以限定检索内容和时间范围）（2）SRS (Sequence Retrieval System)/ 有不同的版本，可以下载。

《生物信息学》题集

《生物信息学》题集一、选择题（每题3分，共30分）1.生物信息学的主要研究对象是什么？A. 蛋白质结构B. 基因序列C. 生态系统D. 细胞代谢2.下列哪项技术不是生物信息学中常用的数据库技术？A. BLASTB. GenBankC. PubMedD. SWISS-PROT3.在生物信息学中，进行多序列比对时常用的软件是什么？A. MATLABB. ClustalWC. ExcelD. PowerPoint4.哪种算法常用于基因表达数据的聚类分析？A. K-meansB. DijkstraC. A*D. Floyd5.生物信息学中，下列哪项不是常用的序列分析技术？A. PCRB. 测序C. 质谱分析D. 芯片技术6.下列哪项不是生物信息学在医学领域的应用？A. 疾病诊断B. 药物设计C. 天气预报D. 个性化医疗7.下列哪项技术常用于生物大分子的结构预测？A. NMRB. X射线衍射C. 同源建模D. 质谱分析8.在生物信息学中，下列哪项不是基因注释的内容？A. 基因功能B. 基因表达水平C. 基因在染色体上的位置D. 基因的长度9.下列哪项技术不是高通量测序技术？A. Sanger测序B. Illumina测序C. 454测序D. SOLiD测序10.下列哪项不是生物信息学在农业领域的应用？A. 作物育种B. 病虫害防治C. 土壤成分分析D. 农产品品质改良二、填空题（每题2分，共20分）1.生物信息学是一门交叉学科，它主要涉及______、计算机科学和数学等领域。

2.在生物信息学中，______技术常用于基因序列的相似性搜索。

3.生物信息学在药物研发中的主要应用包括______和药物靶点的预测。

4.在基因表达数据分析中，______是一种常用的数据标准化方法。

5.生物信息学中，______技术常用于蛋白质结构的预测和分析。

6.在生物信息学数据库中，GenBank主要存储的是______数据。

生物信息学题库

■一、选择题:1.以下哪一个是mRNA条目序列号：A.J01536■.NM_15392C.NP_52280D.AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是：■.UnigeneB.EntrezC.LocusLinkD.PCR3.—个基因可能对应两个Unigene簇吗？■可能B.不可能4.下面哪种数据库源于mRNA信息：■dbESTB.PDBC.OMIMD.HTGS5.下面哪个数据库面向人类疾病构建：A.ESTB.PDB■.OMIMD.HTGS6.Refseq和GenBank有什么区别：A.Refseq包括了全世界各个实验室和测序项目提交的DNA序列B.GenBank提供的是非冗余序列■.Refseq源于GenBank，提供非冗余序列信息D.GenBank源于Refseq7.如果你需要查询文献信息，下列哪个数据库是你最佳选择：A.OMIMB.Entrez■PubMedD.PROSITE8.匕比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法，下列哪附说法正确:A.因为GenBank的数据比EMBL更多，Entrez给出的搜索结果将更多B.搜索结果很可能一样，因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当，但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于：■N/W/YB.Q/W/YC.F/W/YD.Q/N/W10.直系同源定义为:■不同物种中具有共同祖先的同源序列B.具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C.同一物种中由基因复制产生的同源序列D.同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变：A.丙氨酸B.谷氨酰胺C.甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变：A.1%B.20%■.80%D.250%13.下列哪个句子最好的描述了两个序列全局比蘇□局部匕比对的不同:A.全局匕比对通常用于比寸DNA序列，而局部匕比对通常用于比寸蛋白质序列B.全局比寸允许间隙，而局部比对不允许C.全局比对寻找全局最大化，而局部比对寻找局部最大化■全局比对比对整体序列，而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。

生物信息学习题

GTATCACACG ACTCAGCGCA GCATTTGCCC
GTATCACATA GCTCAGCGCA GCATTTGCCC
6、对于下列距离矩阵，用 UPGMA 构建系统发生树。
ABCDE
A0
B3 0
C6 5 0
D 9 9 10 0
E 12 11 13 9 0 7、对下面距离矩阵，用 UPGMA 法构建系统发生树
1、蛋白质得分矩阵类型有、
、、
和
等。
2、对位排列主要有局部比对和三、运算题 1、画出下面两条序列的简单点阵图。将第一条序列放在 x 坐标轴上，将第二条序列放在 y
坐标轴上。 TGAACTCCCTCAGATATTA CGAACCCTCACATATTAGCG
2、对两个核酸序列 ACACACTA 和 AGCACACA 进行全局比对
第八章后基因组时代的生物信息学（问题与练习）
1、比较生物还原论与生物综合论的异同 2、简述“后基因组生物信息学”的基本研究思路 3、后基因组生物信息学的主要挑战是什么？ 4、功能基因组系统学的基本特征是什么？ 5、说明后基因组生物信息学对信息流动的最新理解 6、列举几种预测蛋白质-蛋白质相互作用的理论方法 7、解释从基因表达水平关联预测蛋白质-蛋白质相互作用的理论方法 8、解释基因保守近邻法预测蛋白质-蛋白质相互作用的理论方法 9、解释基因融合法预测蛋白质-蛋白质相互作用的理论方法 10、解释种系轮廓发生法预测蛋白质-蛋白质相互作用的理论方法
正确的树的可能性比前一种情况大还是小？
5、对于下列 5 条序列的比对构造一个距离矩阵，其中序列之间的距离值为比对中失配的碱
基数目，但是颠换的权值为转换的两倍。
GTGCTGCACG GCTCAGTATA GCATTTACCC

生物信息学题库.doc

生物信息学题库一、名词解释1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础，应用计算机技术，研究生物学数据的科学。

2、相似性(similarity):相似性是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。

4、BLAST(Basic Local Alignment Search Tool):基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。

5、HMM隐马尔可夫模型:是蛋白质结构域家族序列的一种严格的统计模型，包括序列的匹配，插入和缺失状态，并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。

6、一级数据库:一级数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释(投稿文章首先要将核苷酸序列或蛋白质序列提交到相应的数据库中)7、二级数据库:对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

8、GenBank: 是具有目录和生物学注释的核酸序列综合公共数据库，由NCBI构建和维护。

9、EMBL:EMBL 实验室——欧洲分子生物学实验室，EMBL 数据库——是非盈利性学术组织 EMBL 建立的综合性数据库，EMBL 核酸数据库是欧洲最重要的核酸序列数据库，它定期地与美国的 GenBank、日本的 DDBJ 数据库中的数据进行交换，并同步更新。

10、DDBJ: 日本核酸序列数据库，是亚洲唯一的核酸序列数据库。

11、Entrez:是由 NCBI 主持的一个数据库检索系统，它包括核酸，蛋白以及Medline 文摘数据库，在这三个数据库中建立了非常完善的联系。

12、SRS(sequence retrieval system):序列查询系统，是 EBI 提供的多数据库查询工具之一。

(完整word版)生物信息学复习资料(word文档良心出品)

一、名词解释(31个)1.生物信息学:广义：应用信息科学的方法和技术，研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。

狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。

2.二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。

3.多序列比对：研究的是多个序列的共性。

序列的多重比对可用来搜索基因组序列的功能区域，也可用于研究一组蛋白质之间的进化关系。

4.系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。

5.直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。

指的是不同物种之间的同源性，例如蛋白质的同源性，DNA序列的同源性。

（来自百度）6.旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会进化出新的与原来有关的功能。

用来描述在同一物种内由于基因复制而分离的同源基因。

（来自百度）7.FASTA序列格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。

8.开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。

（来自百度）9.结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域，折叠得较为紧密，各行其功能，称为结构域。

10.空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。

（来自百度）11.表达序列标签：通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的3’或5’端序列。

生物信息学讲义

生物信息学讲义第一章：生物信息学概述什么是生物信息学：又称计算生物学（computational biology），是生物学与信息学、计算机科学相互交叉形成的新兴学科，它应用数学、计算机科学的方法研究生物学问题，它所研究的主要对象是生物学的数据。

生物信息学是为了适应人类基因组计划（Human Genome Project，HGP）的需要产生的，最主要的应用是对人类基因组计划所得到的大量生物学数据进行存储、检索和分析。

目前生物信息学已被广泛的应用于医学、人类学、结构生物学和蛋白质组学（Proteomics）等研究领域。

生物信息学的研究内容：广义地说，生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。

这一定义包括了两层含义，一是对海量数据的收集、整理与服务，也就是管好这些数据；另一个是从中发现新的规律，也就是用好这些数据。

具体地说，生物信息学是把基因组DNA序列信息分析作为源头，找到基因组序列中代表蛋白质和RNA基因的编码区；同时，阐明基因组中大量存在的非编码区的信息实质，破译隐藏在DNA序列中的遗传语言规律；在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据，从而认识代谢、发育、分化、进化的规律。

生物信息学还利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋白质功能的预测，并将此类信息与生物体和生命过程的生理生化信息相结合，阐明其分子机理，最终进行蛋白质、核酸的分子设计、药物设计和个体化的医疗保健设计。

基因组信息学、蛋白质的结构计算与模拟以及药物设计，这三者紧密地围绕着遗传信息传递的中心法则，因而必然有机地连接在一起。

1、基因组序列数据的拼接和组装基因组研究的首要目标是获得人的整套遗传密码。

人的遗传密码有32亿个碱基，而目前DNA测序多采用鸟枪法（shotgun），每个反应只能读取几百到上千个碱基。

在进行测序前，首先应用物理方法将人的基因组打碎，得到基因组片段进行测序，然后再把这些片段重新拼接起来。

(完整版)生物信息学复习题及答案(陶士珩)

生物信息学复习题一、名词解释生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez，BLAST，查询序列（query），打分矩阵（scoring matrix），空位（gap），空位罚分，E 值, 低复杂度区域，点矩阵（dot matrix），多序列比对，分子钟，系统发育（phylogeny），进化树的二歧分叉结构，直系同源，旁系同源，外类群，有根树，除权配对算法（UPGMA），邻接法构树，最大简约法构树，最大似然法构树，一致树（consensus tree），bootstrap，开放阅读框（ORF），密码子偏性（codon bias），基因预测的从头分析法，结构域（domain），超家族，模体（motif），序列表谱（profile），PAM矩阵，BLOSUM，PSI-BLAST，RefSeq，PDB数据库，GenPept，折叠子，TrEMBL，MMDB，SCOP，PROSITE，Gene Ontology Consortium，表谱（profile）。

二、问答题1）生物信息学与计算生物学有什么区别与联系？2）试述生物信息学研究的基本方法。

3）试述生物学与生物信息学的相互关系。

4）美国国家生物技术信息中心（NCBI）的主要工作是什么？请列举3个以上NCBI维护的数据库。

5）序列的相似性与同源性有什么区别与联系？6）BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？7）简述BLAST搜索的算法。

8）什么是物种的标记序列？9）什么是多序列比对过程的三个步骤？10）简述构建进化树的步骤。

11）简述除权配对法（UPGMA）的算法思想。

12）简述邻接法（NJ）的算法思想。

13）简述最大简约法（MP）的算法思想。

14）简述最大似然法（ML）的算法思想。

15）UPGMA构树法不精确的原因是什么？16）在MEGA2软件中，提供了多种碱基替换距离模型，试列举其中2种，解释其含义。

生物信息学复习资料

第一章绪论1、生物信息学*采用计算机技术和信息论方法研究pro及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的科学，是现代生命科学与信息科学、计算机科学、数学、统计学、物理学、化学等相互渗透而形成的交叉科学。

2、发展历程*前基因组时代基因组时代后基因组时代3、研究内容1）、基因组和蛋白质组2）、基因芯片3）、数据库（基因组数据库、蛋白质数据库，其他数据库）第二章生物信息学的分子生物学基础1、概念基因：是DNA分子上具有遗传信息的特点核苷酸序列的总称，即具有遗传效应的DNA分子片段基因。

基因组：包含细胞或生物体全套遗传信息的全部遗传物质。

蛋白质组：由基因表达产生的总蛋白质的总称。

2、基因克隆过程*目的基因（DNA、RNA）—载体构建—转入表达（离子转化、电转化）—克隆筛选3、DNA测序方法*(1).酶促双脱氧法(2)、化学降解法4、中心法则转录翻译DNA mRNA 蛋白质5、起始密码子：AUG终止密码子：UAA、UAG、UGA第三章生物信息学的计算机基础1、概念1）数据仓库：是一个面向主题的、集成的、相随稳定的、反映历史变化的数据集合，用于支持决策。

★2）计算机网络操作系统：为了使用计算机而专门设计的系统软件，它除了具有一般桌面操作系统的全面功能外，还应满足用户使用网络的需要。

3）数据挖掘：就是从数据库中抽取具有潜在价值的隐含信息的过程。

★4）数据库：是统一管理的相关数据的集合5）数据库管理系统：对数据库进行管理的系统软件，提供数据库的建立、查询、更新以及各种数据库控制功能6）数据库技术：是研究数据库的结构。

存储、设计、管理和应用的一门软件学科7）数据库系统：采用数据库技术的计算机系统，由数据库、计算机软硬件和数据库和管理员共同组成的系统。

8）数据模型：是数据库结构和语义的一种抽象描述，由数据结构、数据操作和完整性约束三部分组成。

2、计算机网络类型★1）、集中模式2）、专用服务器模式3）、客户机/服务器模式4）、对等模式3数据仓库的基本特点1）、存储的信息是面向主题来组织的2）、有一处专门用来存储5~10年或更久的历史数据3）、具有统一的数据结构和编码规则4）、是只读数据库，一般不轻易做改动，只能定期刷新。

《生物信息学》复习资料

《生物信息学》复习资料《生物信息学》先锋版中译本第二版科学出版社打分政策:60% 期末考试（70%掌握内容、25% 熟悉内容、5% 理解内容）（请注意红体与黑体字）A: 生物信息学概述1. 生物信息学：生物信息学是生物学和信息技术的结合，是现代科学的又一个分支学科，它利用计算机对大量生物数据进行分析处理。

生物信息学把用于存储和搜索数据的数据库开发，与用于分析和确定大分子序列、结构、表达模式和生化途径等生物数据集之间的关系的统计工具和算法的开发结合在一起。

数据库生物信息学主要由三大部分组成算法与统计工具分析与解释测序策略：逐个克隆法、全基因组鸟枪法计算机在生物信息学中的作用：生物信息学需要计算机快速、可靠地执行重复任务的能力以及处理问题的能力。

然而，生物信息学中涉及的许多问题仍需要专家的人工处理，同时原始数据的完整性和质量也很关键。

生物信息学课程范围：使初学者理解生物信息学的基本原理，并获得相应的应用能力。

具体包括生物信息学的一些关键领域：数据库使用、序列和结构分析工具、注释工具、表达分析以及生化和分子途径分析。

2. 生物信息学实例：——数据库界面Genbank/EMBL/DDBJ, Medline, SwissProt, PDB, …——序列搜索与比对BLAST, FASTA, Clustal, MultAlin, DiAlign ——基因搜索Genscan, GenomeScan, GeneMark, GRAIL——蛋白结构域分析与鉴定pfam, BLOCKS, ProDom,——基因调控元件的计算机模式识别Gibbs Sampler, AlignACE,MEME——蛋白折叠预测PredictProtein, SwissModeler生物信息学网站：包括生物信息学资源、各种数据库和生物信息学分析工具的网站3. 五个必须知道的生物信息学网站：（详细参考书本p9）NCBI (The National Center for Biotechnology Information)/EBI (The European Bioinformatics Institute)/The Canadian Bioinformatics Resource http://www.cbr.nrc.ca/SwissProt/ExPASy (Swiss Bioinformatics Resource)http://expasy.cbr.nrc.ca/sprot/PDB (The Protein Databank)/PDB/B: 数据采集一、DNA, RNA和蛋白质测序1. DNA测序原理：DNA测序是采用全自动的链终止反应完成的，这一技术通过加入限量的双脱氧核苷酸来产生有特定终止碱基的嵌套DNA片段。

生物信息学考试资料

一、定义和概念1、生物信息学广义：生命科学中的信息科学。

生物体系和过程中信息的存贮、传递和表达；细胞、组织、器官的生理、病理、药理过程的中各种生物信息。

狭义：生物分子信息的获取、存贮、分析和利用。

2、基因：有遗传效应的DNA片断,是控制生物性状的基本遗传单位。

3、中心法则是指遗传信息从DNA传递给RNA，再从RNA传递给蛋白质，即完成遗传信息的转录和翻译的过程。

也可以从DNA传递给DNA，即完成DNA的复制过程。

这是所有有细胞结构的生物所遵循的法则。

4、一级数据库数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释5、基因芯片基因芯片（gene chip），又称DNA微阵列（microarray），是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过杂交检测信息。

6、推动生物信息学快速发展的学科核心和灵魂：生物学基本工具：数学与计算机技术7、“组”学的主要创新点对生命科学发展的作用与意义21世纪是生物技术和信息技术的时代，基因组研究由结构基因组研究转向功能基因组研究，蛋白质组学已成为当前研究的热点和重点，生物信息学加快了生命科学的发展步伐。

蛋白组研究的兴起和发展，在揭示生命运动的本质及疾病的诊断、治疗等方面发挥着重要作用。

随着基因组学研究的不断深入，在基因组测序、蛋白质序列测定和结构解析等实验的基础上，产生了大量有关生物分子的原始数据，这些原始的数据需要利用现代计算机技术进行收集、整理、管理以便检索使用，生物信息学应用而生，其研究重点集中在核酸和蛋白质两个方面。

所谓组学，即从一个整体的角度来研究。

相对于传统生命科学零敲碎打的研究手段，研究单个的基因或蛋白的功能、结构，而组学则是着眼于大局，将单个的基因、蛋白以“组”的水平进行研究，从而对于生命科学能够有一个大局的把握。

作用：(1) 从学科角度方面：生命科学进入了新的发展时期；研究体系的突破：局部到整体；学科性质：经验型、资料积累到总结规律(2) 从研究人员角度：提高研究效率、深化研究成果、显著增加论文“厚度”与“重量”意义：正对生命科学产生深远的影响，极大提高科研的效率、质量、促进生命科学实现跨越式的发展。

生物信息学课后题及答案

生物信息学课后习题及答案（由10级生技一、二班课代表整理）一、绪论1.你认为，什么是生物信息学？采用信息科学技术，借助数学、生物学的理论、方法，对各种生物信息（包括核酸、蛋白质等）的收集、加工、储存、分析、解释的一门学科。

2.你认为生物信息学有什么用？对你的生活、研究有影响吗？（1）主要用于：在基因组分析方面：生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等在医药方面：新药物设计、基因芯片疾病快速诊断、流行病学研究：SARS、人类基因组计划、基因组计划：基因芯片。

（2）指导研究和实验方案，减少操作性实验的量；验证实验结果；为实验结果提供更多的支持数据等材料。

3.人类基因组计划与生物信息学有什么关系？人类基因组计划的实施，促进了测序技术的迅猛发展，从而使实验数据和可利用信息急剧增加，信息的管理和分析成为基因组计划的一项重要的工作。

而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。

4简述人类基因组研究计划的历程。

通过国际合作，用15年时间（1990-2005）至少投入30亿美元，构建详细的人类基因组遗传图和物理图，确定人类DNA的全部核苷酸序列，定位约10万基因，并对其他生物进行类似研究。

1990，人类基因组计划正式启动。

1996，完成人类基因组计划的遗传作图，启动模式生物基因组计划。

1998完成人类基因组计划的物理作图，开始人类基因组的大规模测序。

Celera公司加入，与公共领域竞争启动水稻基因组计划。

1999，第五届国际公共领域人类基因组测序会议，加快测序速度。

2000，Celera公司宣布完成果蝇基因组测序，国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。

2001，人类基因组“中国卷”的绘制工作宣告完成。

2003，中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功，人类基因组计划的.目标全部实现。

2004，人类基因组完成图公布。

生物信息学完结版说课材料

生物信息学论文完结版生物信息学论文学院：生命科学技术学院专业：生物科学班级：2013 级老师：高亚梅学生：蔡欣月学号：20134083003链孢霉GH5-1及GH6-3基因生物信息学分析蔡欣月(黑龙江八一农垦大学，生命科学技术学院，2013级生物科学专业，黑龙江省，大庆市)【摘要】目的：分析和预测链抱霉菌GH5-1和GH6-3基因及其编码蛋白质的结构和特征。

方法：利用NCBI、CBS和ExPASy网站中的各种信息分析工具，并结合VectorNTIsuite8.0生物信息分析软件包，分析预测链抱霉菌GH5-1和GH6-3基因并预测该基因编码蛋白结构的特征和功能。

结果：GH5-1基因全长2006bp,编码区具有390个氨基酸，在Gen Ba nk同源序列中，其与endoglucanase 3 [Neurospora crassa OR74A]因氨基酸序列一致性达到100%，且有GH5-1保守域。

GH5-1蛋白相对分子量预测为41907.4,理论等电点为5.14。

预测GH5-1编码蛋白a螺旋(H )、B折叠(E )、无规则卷(L )的比例分别是16.92%、33.85%、49.23%，2个GTPase结构域。

GH5-1蛋白为亲水蛋白，无跨膜区，有信号肽。

GH6-3基因全长1914bp,编码区具有419个氨基酸，在Gen Ba nk同源序列中，其与exoglucanase 3 [Neurospora crassa OR74基因氨基酸序列一致性达到100%，且有GH6-3 保守域。

GH6-3蛋白相对分子量预测为44839.3,理论等电点为6.51。

预测GH6-3编码蛋白a 螺旋(H )、B折叠(E )、无规则卷(L )的比例分别是29.59%、16.71%、53.75%，1个GTPase 结构域。

GH6-3蛋白为亲水蛋白，有跨膜区，无信号肽。

结论：成功预测GH5-1和GH6-3基因及其编码蛋白生化及其结构特征，为下一步对其进行克隆和表达奠定基础。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息学题库■一、选择题:1.以下哪一个是mRNA条目序列号： A. J01536■. NM_15392 C. NP_52280 D. AAB1345062.确定某个基因在哪些组织中表达的最直接获取相关信息方式是：■. Unigene B. Entrez C. LocusLink D. PCR3.一个基因可能对应两个Unigene簇吗？■可能 B. 不可能4.下面哪种数据库源于mRNA信息：■ dbEST B. PDB C. OMIM D. HTGS5.下面哪个数据库面向人类疾病构建： A. EST B. PDB ■. OMIM D. HTGS6.Refseq和GenBank有什么区别： A. Refseq包括了全世界各个实验室和测序项目提交的DNA序列B. GenBank提供的是非冗余序列■. Refseq源于GenBank，提供非冗余序列信息D. GenBank源于Refseq7.如果你需要查询文献信息，下列哪个数据库是你最佳选择： A. OMIM B. Entrez ■ PubMed D. PROSITE8.比较从Entrez和ExPASy中提取有关蛋白质序列信息的方法，下列哪种说法正确：A. 因为GenBank的数据比EMBL更多，Entrez给出的搜索结果将更多B. 搜索结果很可能一样，因为GenBank和EMBL的序列数据实际一样■搜索结果应该相当，但是ExPASy中的SwissProt记录的输出格式不同9.天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于：■ N/W/Y B. Q/W/Y C. F/W/Y D. Q/N/W10.直系同源定义为：■不同物种中具有共同祖先的同源序列B. 具有较小的氨基酸一致性但是有较大的结构相似性的同源序列C. 同一物种中由基因复制产生的同源序列D. 同一物种中具有相似的并且通常是冗余的功能的同源序列11.下列那个氨基酸最不容易突变： A. 丙氨酸 B. 谷氨酰胺 C. 甲硫氨酸■半胱氨酸12.PAM250矩阵定义的进化距离为两同源序列在给定的时间有多少百分比的氨基酸发生改变： A. 1% B. 20%■. 80% D. 250%13.下列哪个句子最好的描述了两个序列全局比对和局部比对的不同：A. 全局比对通常用于比对DNA序列，而局部比对通常用于比对蛋白质序列B. 全局比对允许间隙，而局部比对不允许C. 全局比对寻找全局最大化，而局部比对寻找局部最大化■全局比对比对整体序列，而局部比对寻找最佳匹配子序列14.假设你有两条远源相关蛋白质序列。

为了比较它们，最好使用下列哪个BLOSUM和PAM矩阵：■ BLOSUM45和PAM250 B. BLOSUM45和PAM1 C. BLOSUM80和PAM250 D. BLOSUM10和PAM115.与PAM打分矩阵比较，BLOSUM打分矩阵的最大区别是：A. 最好用于比对相关性高的蛋白B. 它是基于近相关蛋白的全局多序列比对■它是基于远相关蛋白的局部多序列比对D. 它结合了全局比对和局部比对16.如果有一段DNA序列，它可能编码多少种蛋白质序列： A. 1 B. 2 C. 3 ■. 617.要在数据库查询一段与某DNA序列编码蛋白质最相似的序列，应选择： A. blastn B. blastp C. tblastn D. tblastp■ blastx18.为什么ClustalW（一个采用了Feng-Doolittle渐进比对算法的程序）不报告E值：A. ClustalW报告E值■使用了全局比对 C. 使用了局部比对 D. 因为是多序列比对19.Feng-Doolittle方法提出“一旦是空隙，永远是空隙”规则的依据是：A. 保证空隙不会引物序列加入而填充B. 假定进化早期分歧的序列有较高优先级别■假定最近序列空隙应该保留 D. 假定最远序列空隙应该保留20.根据分子钟假说： A. 所有蛋白质都保持一个相同的恒定进化速率 B. 所有蛋白质的进化速率都与化石记录相符合C. 对于每一个给定的蛋白质，分子进化的速率是逐渐减慢的，就如同不准时的钟■对于每一个给定的蛋白质，其分子进化的速率在所有的进化分支上大致是恒定21.系统发生树的两个特征是： A. 进化分支和进化节点■树的拓扑结构和分支长度C. 进化分支和树根D. 序列比对和引导检测方法22.下列哪一个是基于字母特征的系统发生分析的算法： A. 邻位连接法（NJ法）B. Kimura算法■最大似然法（ML）D. 非加权平均法（UPGMA）23.基于字母特征和基于距离的系统发生分析的算法的基本差异是：■基于字母特征的算法没有定义分支序列的中间数据矩阵B. 基于字母特征的算法可应用于DNA或者蛋白质序列，而基于距离仅能用于DNAC. 基于字母特征的算法无法运用简约算法D. 基于字母特征的算法的进化分支与进化时间无关24.一个操作分类单元（OTU）可指：A. 多序列比对■蛋白质序列C. 进化分支D. 进化节点25.构建进化树最直接的错误来源是：■多序列比对错误B. 采样的算法差异C. 假设进化分支是单一起源D. 尝试推测基因的进化关系26.第一个被完整测定的基因组序列是： A. 啤酒酵母的3号染色体B. 流感病毒■ФX174 D. 人类基因组27.普通的真核生物线粒体基因组编码大约多少个蛋白质：■ 10 B. 100 C. 1000 D. 1000028.根据基因组序列预测蛋白质编码基因的算法的最大问题是： A. 软件太难使用■. 假阳性率太高，许多不是外显子的序列部分被错误指定C. 假阳性率太高，许多不是外显子功能未知 D. 假阴性率太高，丢失太多外显子位点29.HIV病毒亚型的系统演化研究可以： A. 证实HIV病毒是由牛病毒演化而来■. 用于指导开发针对保守蛋白的疫苗C. 证实哪些人类组织最容易遭受病毒侵染30.一个典型的细菌基因组大小约为多少bp： A. 20000■. 200000 C. 2000000 D. 2000000031.细菌基因组与真核生物基因组分析工具存在较大差异的主要原因是：A. 细菌拥有不同的密码子 B. 细菌没有细胞核C. 细菌很少有基因与真核同源■细菌DNA的基因含量、组成结构很不一样32.下列具有最小基因组的原核生物可能是：A. 嗜极生物B. 病毒■胞内细菌D. 杆菌33.要证明某大肠杆菌中的某个基因是水平转移而来，需要：A. 分析该大肠杆菌中该基因的GC含量与其他基因是否有很大差异B. 分析该大肠杆菌中该基因的密码子使用与其他基因是否有很大差异C. 系统发生分析该基因与其他物种中基因的同源关系■获取以上三个方面的信息34.C值矛盾是指： A. 某些基因组中核苷酸C的含量少B. 真核生物基因组大小同编码蛋白质的基因个数没有相关性■真核生物基因组大小同屋中的复杂性相关性很小D. 真核生物基因组大小同进化上的年龄相关性小35.成百上千个4~8bp的重复序列单元最可能出现在： A. 散布性重复序列中 B. 假基因中■端粒中D. 片段复制区域36.从头预测真核基因的原因有：A. 外显子/内含子边界难以确定B. 内含子长度可能只有几个碱基对C. 编码区域的GC含量并不总是与非编码区相同■以上三个方面的原因37.人类基因组大小大约是多少Mb： A. 130 B. 300 ■3000 D. 3000038.各种重复元件在人类基因组中大约占的百分比为： A. 5% B. 25% ■50% D. 95%39.蛋白质编码区域占人类基因组百分比是：■ 1-5% B. 5-10% C. 10-20% D. 20-4-%40.人类基因组中GC含量高的区域：A. 基因密度相对较低■基因密度相对较高C. 基因密度多变 D. 基因所含密码子相对较少41.人类复合孟德尔遗传的基因疾病约占疾病基因的：■ 1% B. 10% C. 50% D. 60%42.单基因疾病趋向于：■在普通人群较少见，并且发生时间较早 B. 在普通人群较常见，并且发生时间较早C. 在普通人群较少见，并且发生时间较晚D. 在普通人群较常见，并且发生时间较晚C值真核生物基因组大小同屋中的复杂性相关性很小Feng-Doolittle假定最近序列空隙应该保留HIV用于指导开发针对保守蛋白的疫苗PAM250 80%Refseq源于GenBank，提供非冗余序列信息比较从E 搜索结果应该相当成百端粒中从头以上单基在普通人群较少见，并且发生时间较早蛋白1-5% 第一ФX174 各种50%根据对于每一个给定的蛋白质，其分子进化的速率在所有的进化分支上大致是恒定根据假阳性率太高，许多不是外显子的序列部分被错误指定构建多序列比对错误基于字母特征的算法没有定义分支序列的中间数据矩阵假设BLOSUM45和PAM250普通10 确定Unigene 人类1% 人类3000人类基因密度相对较高如果6如果PubMed 天冬N/W/Y为什使用了全局比对系统树的拓扑结构和分支长度细菌DNA的基因含量、组成结构很不一样下列半胱氨酸下列胞内细菌下列全局比对比对整体序列下列最大似然法（ML）下面dbEST下面OMIM要在blastx要证获取以上一个200000一个蛋白质序列一个可能以下NM_15392与PAM它是基于远相关蛋白的局部多序列比对直系不同物种中具有共同祖先的同源序列名词解释1.生物信息学（bioinformatics）：是一门结合生物技术和信息技术从而揭示生物学中新原理的科学。

2.鸟枪法测序（shotgun method）一种测序方法，包括从基因组中获得随机的、已测序的克隆片段，并且对初始基因的位置一无所知。

3.BLAST：基本局部相似性比对搜索工具。

在序列数据库中快速查找与给定的序列具有最优局部对准结果的序列的一种序列对算法。

4.整体联配（global alignment）：对两个核苷酸或蛋白质序列的全长所进行的比对。

5.FASTA：是第一个被广泛使用的数据库相似性搜索算法，这个程序通过扫描序列中“词”的小配对，从而寻找最优局部比对。

6.算法（algorithm）：在计算机程序中包含的一种固定过程。

7.序列比对（alignment）：将两个或多个序列排在一起，以达到最大一致性的过程（对于氨基酸序列是比较他们的保守性），这样评估序列间的相似性和同源性。

8.多序列比对（multiple sequence alignment）：三个或多个序列之间的比对，如果序列在同一列有相同结构位置的残基和（或）祖传的残基，则会在该位置插入空位。

9.最佳联配（optimal alignment）：两个序列之间有最高打分值的排列。

10.空位（gap）：在两条序列比对过程中需要在检测序列或目标序列中引入空位，以表示插入或删除。