生物序列比对算法研究现状与展望
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
生物序列比对算法研究现状与展望
张
敏1,2
(1.大连理工大学计算机科学与工程系,辽宁大连116024;2.大连大学信息工程学院,辽宁大连
116622)Ξ
摘 要:序列比对是生物信息学研究的一个基本方法,寻求更快更灵敏的序列比对算法一直是生物信息学
研究的热点.本文给出了生物序列比对问题的定义,综述了目前常用的各类比对算法,并对每一类算法的
优缺点以及应用范围进行了分析,最后指出序列比对算法目前存在的问题以及未来的发展方向.
关 键 词:生物信息学;两序列比对;多序列比对;算法
中图分类号:TP301 文献标识码:A 文章编号:100822395(2004)0420075205
Current and prospect of bio 2sequence alignment algorithm
ZH ANG Min 1,2
(1.Department of C om puter Science and Engineering ,Dalian University of T echnology ,Dalian 116024,China ;2.C ollege of In formation
Engineering ,Dalian University ,Dalian 116622,China )
Abstract :Sequence alignment is a basic and important tool in bioin formatics.The research of fast and sensitive biology
sequence alignment alg orithm is a current hot topic of bioin formatics.This paper introduces a definition of sequence align 2
ment ;as wellas the research advance of alignment alg orithms at present ,and describes the advantage and limit of the al 2
g orithms and applicable stly ,the problems and development directions are pointed out.
K ey w ords :bioin formatics ;pair 2wise alignment ;multiple alignment ;alg orithm
随着人类基因组计划的实施,DNA 和蛋白质序列数据库的规模已呈指数增长,单纯依靠实验手段研究、理解这些生物大分子的生物意义已远远不能满足目前分子生物学发展的要求.生物信息学(Bioin for 2matics )作为一门综合运用分子生物学、数学和计算机等学科的理论和方法的交叉学科为阐明和理解这些海量数据所包含的生物意义提供了可能.序列比对是生物信息学研究的重要方法之一,它通过对DNA 和蛋白质序列进行相似性比较,指明序列间的保守区域和不同之处,为进一步研究它们在结构、功能以及进化上的联系提供了重要的参考依据.
本文给出了生物序列比对问题的定义,综述了目前常用的各类比对算法,分析了每一类算法的应用范围,最后指出了序列比对目前存在的问题以及未来发展方向.
1 序列比对问题的定义与分类
定义:序列比对问题可以表示为一个五元组MSA =(
∑’,S ,A ,F ),其中:
(1)∑’=∑∪{-}为序列比对的符号集;“-”表示空位(gap );∑表示基本字符集,对于DNA 序列,∑={a ,c ,g ,t}代表4个碱基;对于蛋白质序列,∑由20个字符组成,每个字符代表一种氨基酸残
Ξ收稿日期:2003207215基金项目:大连市科技计划项目(2002年)
作者简介:张 敏(1966-),女,副教授,博士生.
第25卷 第4期2004年8月大连大学学报J OURNA L OF DA LI AN UNI VERSITY Vol.25 No.4Aug. 2004
基;
(2)S ={S 1,S 2,…,S N }为序列集,其中S i =(c i 1,c i ,2,…,c iL i
)T ,c ij ∈∑,L i 为第i 个序列的长度;(3)矩阵A =(a ij )N ×M ,(M ≥max{L 1,L 2,…,L N },a ij ∈∑
′是序列集S 的一个比对结果,其中:矩阵的第i 行是参与比对的第i 个序列的扩张序列(即插入空位的序列,如果移去所有的“-”将得到原来的序列);矩阵中的每一列不允许同时为“-”;
(4)F 是比对A 的相似性度量函数,用来表示比对A 中各扩张序列的相似度;
(5)序列比对问题MSA 就是通过适当的空位插入,构建一个使得相似性度量函数F (A )达到最大的比对A.
序列比对问题实质上是个组合优化问题,为了容易处理,目标函数通常选用WSP (Weighted sum 2of 2
pairs )度量F (A )=
∑N i =1∑N
j =1w i jS (S i ,S j ),其中:w ij 是第i ,j 两个序列间的权重,S (S i ,S j )是两个序列比对的
相似分值.
由上述定义可知:序列比对问题就是通过适当的空位插入来模拟生物分子进化过程中的突变现象,寻找保守区域,以反映它们间的进化关系,为两个或多个序列的残基之间的相互关系提供了一个非常明确的关系图谱(图1).
1C LF
AYKI ADSC VSCG A --C ASECPVNAIS QG DSIFVI DADT CI DCG ------NC ANVCPVG APVQE -- 1FC A
AY VI NE ACISCG A --CEPECPVDAIS QGG SRY VI DADT CI DCG ------AC AG VCPVDAPVQA -- 1BLU
A LMIT DECI NC DV --CEPECPNG AIS QG DETY VIEPS LCTEC VGY HYETS QC VE VCPVDCIIK DPS FER -BACSC
AY VITEPCIG TK DASC VE VCPVDCIHEGE DQYYI DPDVCI DCG ------ACE AVCPVS AIY HE DF FER -BUT ME AYKIT DECI ACG S --C ADQCPVE AISEG -SIYEI DE A LCT DCG ------AC ADQCPVE AI VPE D -
图1 多序列比对
序列比对类型可以从两个不同角度来划分:一是从序列个数,序列比对可分为两序列比对和多序列比对;另一个是从比对范围,可分为从头到尾全程比较的全局比对,和只考虑部分区域相似性的局域比对.2 两序列比对(pair 2wise alignment )算法
2.1 两序列比对的动态规划算法
到目前为止,两序列比对问题已基本解决,标准方法是采用可以保证得到一个数学优化的比对结果的动态规划比对算法[1].两序列的动态规划比对算法是多序列比对的重要理论基础.
动态规划比对算法具体如下:对于长度分别为n ,m 的序列A (a 1,a 2,…a n )和B (b 1,b 2,…b m ),其比对过程可用一个以序列A 为列,B 为行的(n +1)3(m +1)二维矩阵来表示(图2).每个单元的评价值可由(1)式递归计算,其中g (k )=u +kv 是连续k 个gap 的空位罚分,s (a i ,b j )是两个残基的相似度.
D i ,j =max{max k {D i ,j -k -g (k )},max l
{D i -l ,j -g (l )},D i -1,j -1+s (a i ,b j )}(1
)图2 两个序列A ,B 的动态规划比对算法
其中,u =0,v =1,若a i =b j ,则s (a i ,b j )=2,否则s (a i ,b j )=-1.
76 大连大学学报第25卷