隐马尔科夫模型在多序列比对中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
隐马尔科夫模型在多序列比对中的应用
摘要:序列比对是生物信息学研究中的一个重要的方法, 是生物信息学的基础。
随着测序技术及生物信息学的高速发展,目前已经获得了大量的生物序列和数据结构,传统研究生物序列的方法已经无法再满足人们的需求,而隐马尔科夫模型(HMM)也渐渐在生物序列分析中脱颖而出。
隐马尔科夫模型是一个双重随机过程,具有一定状态数的隐马尔科夫链和显示随机函数集,该模型用于生物序列分析是生物信息学(Bioinformatics) 研究的新领域。
本文主要介绍了HMM在多序列比对中的应用。
关键词:隐马尔科夫模型(HMM);生物信息学;多序列比对
1 生物序列比对的意义及概念
序列比对是生物信息学中最基本、最重要的操作,通过序列比对可以发现生物序列中的功能、结构和进化的信息。
序列比对的根本任务是:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的差异。
研究序列相似性的目的之一是,通过相似序列的序列得到相似的结构或相似的功能。
序列比对的理论基础是进化学说。
许多生物学的事实表明:不同的核酸或蛋白质序列可能源于同一原始序列,经过序列内残基的取代、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。
在残基-残基比对中,可以明显看到序列中某些残基比其他位置上的残基更保守,这些信息揭示了这些保守位点上的残基对序列的结构和功能是至关重要的。
因此,序列比对可用于蛋白质的功能域识别、二级结构预测、基因识别以及分子系统发育分析等方面的研究。
序列比对根据同时进行比对的数目分为双序列比对(Pair-Wise Sequence Alignment)和多重序列比对(Multiple Sequence Alignment)。
双序列比对是将两个序列的各个字符按照对应等同或者置换的关系进行对比排列,其结果是找出两个序列共有的排列顺序,这是学列相似程度的一种定性描述。
与序列两两比对不一样,多重序列比对研究的是多个序列的相似性。
序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。
2 隐马尔科夫模型
隐马尔科夫模型(Hidden Markov Models, HMM)是一种概率论模型,这种方法已经成功地应用于多个领域,如语音识别、光学字符识别等。
HMM在生物信息学领域中也有着重要的应用,如基因识别、序列分析、进化发育分析及蛋白质结构预测研究等。
隐马尔科夫模型可以用五个元素来描述:(1)N,模型的隐状态数目。
虽然这些状态是隐含的,但在许多实际应用中,模型的状态通常有具体的物理意义;(2)M,每个状态的不同观测值的数目;(3)A ,状态转移概率矩阵。
描述了HMM模型中各个状态之间的转移概率。
其中A_{IJ}= P(A_{T+1} =S_{J} | Q_{T}=S_{I}),1≤I,J≤N. 表示在T时刻、状态为SI的条件下,在T+1时刻状态是SJ的概率;(4)B ,观测概率矩阵。
其中BJ(K) = P[VK(T) | QT = SJ]; 1≤J≤N,1≤K≤M.表示在T时刻、状态是SJ条件下,观察符号为VK(T)的概率;(5)π初始状态概率矩阵π={π_{J}| π_{J}= P[Q_{1} = S_{J}];1≤J≤N.表示在初始T=1时刻状态为SJ的概率。
一般的,可以用λ=(A,B,π)来简洁的表示一个隐马尔科夫模型。
给定了N,M,A,B,π后,隐马尔科夫模型可以产生一个观测序列 O=O1O2O3…OT。
表示DNA序列的HMM如图1所示(方框表示各种状态,方框之间的连线表示状态转换):
3 基于隐马尔科夫模型的多重序列比对算法
迭代比对是另一类有效的多重序列比对策略。
它基于一个能产生比对的算法,并通过一系列的迭代方式改进多重序列比对,直到比对结果不再改善为止。
这类算法根据改善比对的策略可以分为确定型和随机迭代比对方法。
最简单的迭代比对类型是确定性。
随机迭代方法包括Prrp,隐马尔科夫模型,模拟退火,遗传算法以及其他方法。
某些方法可能是渐进方法和迭代方法的混合。
隐马尔科夫模型是最近几年在机器学习领域都得到成功应用的关于序列分析的重要统计模型。
隐马尔科夫模型最早用于语音识别,在80年代末90年代初开始用于生物信息学,目前已经用于DNA 模型构建,多重序列比对,蛋白质二级结构预测,基因预测等方向。
生物的基因组可以认为是某祖先基因经过若干代的进化而来的,这个祖先基因经过插入、删除和匹配而不断进化,最终衍变为一个基因家族。
因此,隐马尔科夫模型之所以在生物序列分析中得到普遍应用是因为它正好模拟了生物基因的突变、插入、缺失、匹配过程。
3.1基于隐马尔科夫模型的多重序列比对具体实现过程
解决多重序列比对问题,就是通过对序列碱基的匹配、插入和删除操作,获得一个在某个评价模型下比分最优的结果集。
基于隐马尔科夫模型具体实现过程为:
(1)预处理即序列特征统计。
由于生物序列本身的统计学特征,在某一位置出现字母表中字符的概率并不是均等的,因此需要获得一组给定相似序列组S (i )的序列特征统计,一般被称为统计图谱或特征统计矩阵;
(2)训练模型。
即以一组给定序列相似组S (i )作为训练序列,采用期望最大算法获取该序列组的隐马尔科夫模型参数Θ,构建隐马尔科夫模型M ;
(3)新序列评估。
即采用前向-后向算法将未知序列X (i )与M 比对,根据其相似成素,所得到的比对融入多重比对以完善模型;
(4)构造多重比对。
根据M 进行多重序列的比对,及采用Viterbi 算法求解在模型M 条件下生成未知序列X (i )的状态序列,并根据状态序列构造多重序列比对结果X (i )'。
3.2 DNA 序列的比对中的隐马尔科夫模型
定义一个长度为L 的序列特征统计P 是一系列的概率集合e i (b) , e i (b)表示在第i (1≤i≤L) 个位置上出现字母表中字符b 的概率,并定义p(b)是字母b 的背景出现频率。
一个基因的HMM 模型,有L 个“匹配”状态的M 1,M 2,···,M L ,它们对应于特征统计的匹配。
所有这些状态顺序连接起来,即状态M J 连接到后继M J+1,如下图所示。
其中,从状态M J 释放字符b 的概率为e J (b)。
为了在比对中允许插入“空格”操作,在上述基本模型中加入“插入”状态I 0 ,I 1,···,I L ,并假设Θ
∀b∈A e Ij
(b)=p(b)
图1 DNA 序列的HMM
对于每个插入状态I J ,有一个来自相应匹配状态M J 的连接,有一个匹配到状态M J+1的连接,还有一个自循环连接。
根据“空位”的惩罚原则,给这些状态转换赋予适当的概率。
为了允许“删除”操作,可以进一步加入“删除”状态D 1,D 2 ,···,D L ,这些状态不能释放任何字符。
删除状态依然顺序裂解,同时增加从D 1到I J 的连接以及从I J 到D J+1的连接。
完整的HMM 模型如下图所示。
对于DNA 多重序列比对,隐马尔科夫链可以看成在DNA 序列上运动,从一个起始状态开始,以某概率进入配对、插入、删除状态之间的某一个,其中配对和插入状态将产生一个新的碱基,删除状态从原始DNA 序列中去掉一个特定的碱基。
每个状态结束之后,模型转换到下一个状态,同样,在新的状态,又可以进入配对、插入、删除状态。
于是当隐马尔科夫链经历了从起始状态到结束状态时,便可得到两个学列,一是状态序列(观察不到),而是A,C,G,T 组成的字母序列(可观察到)。
对于与模型想复合的序列,能以较大的概率产生该序列;若不与该模型符合的序列,则按此模型产生改序列的概率会较小。
采用上述模型具有以下优点:(1)模型中采用的是位置序列,每一个位置都考虑了所有氨基酸的分布;(2)在连续的两个位置之间考虑了忽略某一位置及插入额外的氨基酸;(3)允许连续的插入碱基。
3.3 DNA 序列观察概率的计算:前向—后向算法
设O = O1 ,O2 , ⋯, OT 是一个观察序列( DNA 序列) ,记t 时刻的状态为q t ,q 0= s 0 = Begin ,q T+1 = S T+1 = End 。
该序列O = O1 ,O2 , ⋯, OT 的概率P( O | λ) 的计算可用前向—后向算法解决。
·定义前向变量:
αt ( i) = P(O1 ,O2 , ⋯, Ot ,q t = s i | λ) (1)
这就是说,前向变量αt ( i) 是指在给定模型λ的条件下,产生t 以前的部分观察序列{ O1 ,O2 , ⋯, Ot } ,且t 时又处于状态s i 的概率,前向变量αt ( i) 可按下列步骤进行迭代计算:
1) 初始化
α1( i) = α0i b i (O1) 1 ≤ i ≤ N (3)
2) 迭代计算
αt+1(j) = [ ∑αt (i )αij ]b j (o t+1) t =1,2,···,T −1 1≤j ≤N N i=1 (4)
·后向算法与前向算法相类似,定义后向变量:
βt ( i) = P(O t+1 ,O t+2 , ⋯, O t ,q t = s i | λ)
(5)
图2 多重序列比对问题HMM 图
即在给定模型λ和t 时状态为s i 的条件下,从t + 1 时到最后的部分观察序列{ O t+1 ,O t+2 ,···, O t } 的概率, 可按下步骤进行迭代计算:
1) 初始化
ΒT (i)= αi, T+1 1 ≤ i ≤ N (6)
2)迭代计算
βt (i )=∑αij b j (o t+1)βt+1(j ) t =T −1,T −2,···,1 1≤i ≤N N j=1 (7)
·在给定模型λ下,产生观察序列O 的概率
P (O |λ)=∑αt (i )βt (i ) 1≤t ≤T N i=1 (8)
特别 P (O |λ)=∑αT (i )αi,T+1N i=1 (9)
3.4 现有算法分析
在理论上基于动态规划的同步算法可以求得多序列的精确解。
但是,随着序列数量的增加,算法复杂度也不断增加,呈指数规律增长,因此这类方法对于计算机的系统资源要求较高。
在实际应用中,比对三台哦序列是很容易实现。
如果仅仅搜索N 维空间上有限的区域(序列长度在100之内),7条和8条序列比对是可以管理的,但超过这个限度之后,组合数将剧增,外加上存储空间和计算时间的限制,通常不能满足大而长的序列比对需求。
所以,同步法只能进行序列数目在10条之内,长度不超过100的少量、短序列的比对。
CLUSTAL 算法作为渐进比对算法中比较成功的算法,已经发展很成熟了,它的优点是算法简单,运算速度快,但仍然存在着一些不足之处。
在给出的两条序列按照双序列的全局比对算法得到祖先序列的过程中,当对应位置的残基不用时,CLUSTAL 算法的解决办法是任意取其中一个,这样就丢失了另一个序列中的信息。
因此,其缺点是在这样进行选择的过程中往往要丢失一些信息,导致结果不很可靠,使其容易陷入局部最优化,这一点是它最致命的缺陷。
基于隐马尔科夫模型的迭代比对算法是搜索全局最小值的随机方法,它是个概率模拟算法,在迭代步骤无限大,具有陷入局部最小值的危险。
而采用并行隐马尔科夫模型算法可以大大提高运算速度,在一定程度上避免陷入局部最小值得危险。
基于隐马尔科夫模型的多重序列比对算法的优点是:模型采用的是位置序列,每一个位置都考虑了所有残基的分布;对于进化过程中残基的缺失能更有效的修复。
缺点是模型本身需要大量相似序列进行训练,在根据训练结果对目标序列进行匹配,需要占用大量的系统资源。
4 总结
随着测序技术的发展及生物信息学的广泛应用,大量的数据生物序列及生物数据不断积累,对于多重序列比对的需求也将逐渐上升,隐马尔科夫模型的应用将会越来越广泛。
隐马尔科夫模型在生物信息学中的应用仍在不断深入, 并将出现新的模型结构以适应各种新的生物学问题,同时隐马尔科夫模型方法,还可以与其它一些序列分析手段相结合, 如, 贝叶斯方法、神经网络方法和形式语言方法等, 使得隐马尔科夫模型方法在生物信息学中应用的范围不断扩展,随着研究的不断深入,隐马尔科夫模型将在生物信息学中发挥了越来越大的作用。
参考文献:
[1] 杜世平,李海.隐马尔可夫模型在多序列比对中的应用[J].四川教育学院学报,2004,20(9):90-92.
[2] 罗泽举,宋丽红.隐马尔可夫模型的多序列比对研究[J].计算机工程与应用,2010,46(7):171-174.
[3] 周海延.隐马尔科夫过程在生物信息学中的应用[J],生命科学研究,2002,6(3):204-210.
[4] 邓志超.基于隐马尔可夫模型的并行多重序列比对[D],东北师范大学,2007.
[5] 蒋红敬.HMM及其在生物信息学中应用[D],中南大学,2009.
[6] 曹晓燕,徐安龙.生物信息学中的马尔可夫模型[J],中山大学学报论丛,2000,20(1):1-9.
[7] 张敏.生物序列比对算法研究现状与展望[J],大连学报,2004,4:76-78.
[8] 罗泽举,朱思铭,何淼.基于隐马尔可夫模型的多重序列分析[J],中山大学学报,2005,3:10-12.
[9] 刘河生,高小榕,杨福生.隐马尔可夫模型的原理与实现[J],国外医学生物医学工程分册,2002,25
(6):254-259.
[10] LAWRENCE R A. Tutorial on hidden Markov models and selected applications in speech recognition
[J].Proceedings of the IEEE, 1989, 77( 2) : 257- 286.
[11] KROGH M. Hidden Markov models in computational biology: Applications to protein modeling
[J] . JMol Biol, 1994, 235: 1501- 1531.
[12] HUGHEY R, KROGH A.Hidden Markov models for sequence analysis: Extension and analysis of the
basic method [J].CABIOS, 1996, 12: 95- 107.
[13] Eld D G,Cient E.Methods for multiple sequence alignment with guaranteed error
bounds[J].Bulletin of Mathematical Biology,1993,55:141-154.
[14] Knapp K,Chen Y P.An evaluation of contemporary hidden Markov model genefinders with a
predicted exon taxonomy[J].Nucleic Acids Research,2007,35(1):317-324.
[15] Birney E. Hidden Markov Models in biological sequence analysis [ J ]. IBM Journal of Research
and Development V olume 45 , N umbers 3/ 4 ,2001.。