生物信息学中的序列比对算法

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

生物信息学中的序列比对算法

张永１，王瑞２

（１．南昌航空大学计算机学院，江西南昌３３００６３；２．江西大宇职业技术学院，江西南昌３３００３８）

摘要：生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学。序列比对是生物信息学中的一个基本问题，设计快速而有效的序列比对算法是生物信息学研究的一个重要内容，通过序列比较可以发现生物序列中的功能、结构和进化的信息，序列比较的基本操作是比对。本文介绍了序列比对算法的发展现状，描述了常用的各类序列比对算法，并分析了它们的优劣。

关键词：生物信息学；双序列比对；多序列比对

中图分类号：ＴＰ３０１文献标识码：Ａ文章编号：１００９－３０４４（２００８）０３－１０１８１－０４

ＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔＡｌｇｏｒｉｔｈｍｓｉｎＢｉｏｉｎｆｏｒｍａｔｉｃｓ

ＺＨＡＮＧＹｏｎｇ１，ＷＡＮＧＲｕｉ２

（１．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｉｎｇ，ＮａｎｃｈａｎｇＨａｎｇｋｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｎａｎｃｈａｎｇ３３００６３，Ｃｈｉｎａ；２．ＪｉａｎｇｘｉＤａｙｕＶｏｃａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅ，Ｎａｎｃｈａｎｇ３３００３８，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｂｉｏｉｎｆｏｒｍａｔｉｃｓｉｓｔｈｅｓｕｂｊｅｃｔｏｆｕｓｉｎｇｃｏｍｐｕｔｅｒｔｏｓｔｏｒｅ，ｒｅｔｒｉｅｖｅａｎｄａｎａｌｙｚｅｂｉｏｌｏｇｉｃａｌｉｎｆｏｒｍａｔｉｏｎ．Ｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔｉｓａｂａ－ｓｉｃｐｒｏｂｌｅｍｉｎＢｉｏｉｎｆｏｒｍａｔｉｃｓ，ａｎｄｉｔｓｍａｉｎｒｅｓｅａｒｃｈｗｏｒｋｉｓｔｏｄｅｖｅｌｏｐｒａｐｉｄａｎｄｅｆｆｅｃｔｉｖｅｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔａｌｇｏｒｉｔｈｍｓ．Ｗｅｍａｙｄｉｓｃｏｖ－ｅｒｆｕｎｃｔｉｏｎａｌ，ｓｔｒｕｃｔｕｒａｌａｎｄｅｖｏｌｕｔｉｏｎａｒｙｉｎｆｏｒｍａｔｉｏｎｉｎｂｉｏｌｏｇｉｃａｌｓｅｑｕｅｎｃｅｓｂｙｓｅｑｕｅｎｃｅｃｏｍｐａｒｉｎｇ．Ｔｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅｄｅｖｅｌｏｐ－ｍｅｎｔａｃｔｕａｌｉｔｙｏｆｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔａｌｇｏｒｉｔｈｍｓ，ｄｅｓｃｒｉｂｅｓｖａｒｉｅｔｙｏｆｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔａｌｇｏｒｉｔｈｍａｎｄａｎａｌｙｓｅｓｔｈｅａｄｖａｎｔａｇｅｓａｎｄｄｉｓａｄ－ｖａｎｔａｇｅｓｏｆｔｈｅｍ．

Ｋｅｙｗｏｒｄｓ：Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ；ＰａｉｒｗｉｓｅＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ；ＭｕｌｔｉｐｌｅＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ

１引言

生物信息学是８０年代末随着人类基因组计划的启动而兴起的一门新的交叉学科，最初常被称为基因组信息学。生物信息学是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一，同时也将是２１世纪自然科学的核心领域之一。其研究重点主要体现在基因组学和蛋白组学两方面，具体说，是从核酸和蛋白质序列出发，分析序列中表达结构与功能的生物信息。

生物信息学的研究重点主要体现在基因组学和蛋白质学两方面，具体地说就是从核酸和蛋白质序列出发，分析序列中表达结构和功能的生物信息。生物信息学的基本任务是对各种生物分析序列进行分析，也就是研究新的计算机方法，从大量的序列信息中获取基因结构、功能和进化等知识。在从事分子生物学研究的几乎所有实验室中，对所获得的生物序列进行生物信息学分析已经成为下一步实验之前的一个标准操作。而在序列分析中，将未知序列同已知序列进行相似性比较是一种强有力的研究手段，从序列的片段测定，拼接，基因的表达分析，到ＲＮＡ和蛋白质的结构功能预测，物种亲缘树的构建都需要进行生物分子序列的相似性比较。例如，有关病毒癌基因与细胞癌基因关系的研究，免疫分子相互识别与作用机制的研究，就大量采用了这类比较分析方法。这种相似性比较分析方法就称为系列比对（ＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ）。目前，国际互联网上提供了众多的序列比对分析软件。然而，不同的分析软件会得到不同的结果，同时所使用的参数在很大程度上影响到分析的结果。有时常常会由于采用了不合适的参数而丢失了弱的但却具有统计学显著性意义的主要信息，导致随后的实验研究走弯路。因此，生物信息学中的序列比对算法的研究具有非常重要的理论与实践意义。

序列比对问题根据同时进行比对的序列数目分为双序列比对和多序列比对。双序列比对有比较成熟的动态规划算法，而多序列比对目前还没有快速而又十分有效的方法。一般来说，评价生物序列比对算法的标准有两个：一为算法的运算速度，二为获得最佳比对结果的敏感性或准确性。人们虽已提出众多的多序列比对算法，但由于问题自身的计算复杂性，它还尚未得到彻底解决，是

收稿日期：２００７－１１－２５

基金资助：南昌航空大学校自选（ＥＣ２００７０６０８６）

作者简介：张永（１９７７－），男，硕士，辽宁铁岭人，南昌航空大学计算机学院讲师，研究方向：生物信息学、信息处理；王瑞（１９７７－），男，江西大宇职业技术学院外语系助教。

生物信息学中一个非常重要且具有挑战性的研究课题。

２序列比对

比较是科学研究中最常见的方法，通过将研究对象相互比较来寻找对象可能具备的特性。在生物信息学研究中，比对是最常用的研究手段。

最常见的比对是蛋白质序列之间或核酸序列之间的两两比对，通过比较两个序列之间的相似区域和保守性位点，寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较，寻找这些有进化关系的序列之间共同的保守区域、位点和ｐｒｏｆｉｌｅ，从而探索导致它们产生共同功能的序列模式。此外，还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架；把蛋白质序列与具有三维结构信息的蛋白质相比较，从而获得蛋白质折叠类型的信息。

序列比对的理论基础是进化学说，如果两个序列之间具有足够的相似性，就推测二者可能有共同的进化祖先，经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。

早期的序列比对是全局的序列比较，但由于蛋白质具有的模块性质，可能由于外显子的交换而产生新蛋白质，因此局部比对会更加合理。通常用打分矩阵描述序列两两比对，两条序列分别作为矩阵的两维，矩阵点记录两个维上对应的两个残基的相似性分数，分数越高则说明两个残基越相似。因此，序列比对问题变成在矩阵里寻找最佳比对路径，目前最有效的方法是Ｎｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈ动态规划算法，在此基础上又改良产生了Ｓｍｉｔｈ－Ｗａｔｅｒｍａｎ算法。

在进行序列两两比对时，有两方面问题直接影响相似性分值：取代矩阵和空位罚分。粗糙的比对方法仅仅用相同／不同来描述两个残基的关系，显然这种方法无法描述残基取代对结构和功能的不同影响效果。用一个取代矩阵来描述氨基酸残基两两取代的分值会大大提高比对的敏感性和生物学意义。虽然针对不同的研究目标和对象应该构建适宜的替换矩阵，但国际上常用的替换矩阵有ＰＡＭ和ＢＬＯＳＵＭ等。它们来源于不同的构建方法和不同的参数选择。对于不同的对象可以采用不同的替换矩阵以获得更多信息。

多序列比对就是把两条以上可能有系统进化关系的序列进行比对的方法。目前对多序列比对的研究还在不断前进中，现有的大多数算法都基于渐进的比对思想，在两两比对的基础上逐步得到多序列比对的结果。

多序列比对算法是生物信息学中的最基本算法，是生物体的进化分析、蛋白质的分析和预测等生物体研究的基础，具有重要的理论意义和使用价值。

３序列同源性与序列相似性

序列相似和序列同源是不同的概念，序列之间的相似程度是可以量化的参数，而序列是否同源需要有进化事实的验证。序列同源（ｈｏｍｏｌｏｇｙ）指的是序列来自相同的祖先，意味着这些序列具有相同的进化历史，而序列的相似性（ｓｉｍｉｌａｒｉｔｙ）指的是两序列在某参数条件下的相像，它可以用相同残基的百分比或是其他的方法来表示。序列之间的相似度是可以量化的参数，而序列是否同源需要有进化事实的验证，显著的相似性通常意味着同源。

序列比对是运用某种特定的数学模型或算法，找出两个或多个序列之间的最大匹配碱基或残基数，比对算法的结果在很大程度上反映了序列之间的相似性程度以及它们的生物学特征。序列比对根据同时进行比对的序列数目多少可分为双序列比对（ｐａｉｒ－ｗｉｓｅｓｅｑｕｅｎｃｅａｌｉｇｎｍｅｎｔ）和多序列比对（ｍｕｌｔｉｐｌｅｓｅｑｕｅｎｃｅａｌｉｎｍｅｎｔ）。序列比对从比对范围考虑也可分为全局比对（ｇｌｏｂａｌａｌｉｇｎｍｅｎｔ）和局部比对（ｌｏｃａｌａｌｉｇｎｍｅｎｔ），全局比对考虑序列的全局相似性，局部比对考虑序列片断之间的相似性。如下所示。

全局比对：

ＬＧＰＳＳＫＱＴＧＫＧＳ－ＳＲＩＷＤＮ

ＬＮ－ＩＴＫＳＡＧＫＧＡＩＭＲＬＧＤＡ

局部比对：

－－－－－－－－－－－ＴＧＫＧ－－－－－－－－－－－－

－－－－－－－－－－－ＡＧＫＧ－－－－－－－－－－－－

在实际应用中，用全局比对方法企图找出只有局部相似性的两个序列之间的关系显然是徒劳的；而用局部比对得到的局部相似性结果则同样不能说明这两个序列的三维结构或折叠方式是否相同。

４序列比对算法

在生物分子信息处理过程中，将生物分子序列抽象为字符串，其中的字符取自特定的字母表。字母表是一组符号或字符，字母表中的元素组成序列。如ＤＮＡ序列由四种核苷酸组成，用“Ａ”，“Ｔ”，“Ｃ”，“Ｇ”代表四种碱基，其复杂度为４，“ＣＣＡＴＧＣＴＡＧＡＴ”可代表一个简单的ＤＮＡ序列。蛋白质序列由２０中氨基酸组成，由｛ＡＢＣＤＥＦＧＨＩＫＬＭＮＰＱＲＳＴＶＷＸＹＺ｝代表不同的残基。“Ｘ”表示某个不确定的残基。“Ｂ”表示天冬胺或天冬胺酸，用三个字符表示“Ａｓｘ”。“Ｚ”表示谷氨酰胺或谷氨酸，用三个字符表示为“Ｇｌｘ”，其复杂度为２３，“ＢＥＧＳＳＴＴＮＭＡＢＮＮＭＡ”可代表一个简单的蛋白质序列。因此生物序列比对可以看作字符串的比对。对字符串的编辑操作有

—用另一个字符替代某个字以下三种：插入——

—在序列中删除一个或多个字符；替换——

—在序列中插入一个或多个字符；删除——

符。

４．１序列比对基本定义