隐马尔可夫模型的多序列比对研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 引言
随着 21 世纪生命科学时代的来临,生命的进化已成为人 类研究的一个热点。为了探索进化的轨迹,就必须研究其家族 的同源性,而一个基因家族往往由若干条 DNA 序列组成,因此 只有弄清多个序列之间的相互关系,才能真正揭示基因家族的 进化特征。如果能知道蛋白质的结构信息,它将比序列信息更 适合解释实际发生的遗传事件,因为蛋白质结构除了提供序列 信息外,还描绘了分子间相互作用等。然而,遗憾的是,目前得 到的蛋白质三维结构数据非常有限,人们还无法弄清许许多多 的蛋白质结构,这就迫使人们不得不利用大量已知的一维序列 信息进行研究。多序列比对分析正是在这样的背景下产生的, 它提供了人们通过研究序列的相似性来探索同源性的重要方 法。通过多重序列比对,发现代表它们进化的特征序列(con- sensus sequence),于是基因家族成员的进化可以看成是由这
PP(′(′ XX,|YY))-ΣX P(X|Y)ln
PP((XX,|YY))=
ΣP(X|Y)ln X
PP(′(′ XX,|YY))+ΣX P(X|Y)ln
PP((XX,|YY))=
ΣP(X|Y)ln X
PP((′ XX,,YY))+ΣX P(X|Y)ln
源自文库
4 隐马尔可夫模型 4.1 隐马尔可夫模型的定义
定义 2 模型 λ=(S,Σ,A,B,π)称为隐马尔可夫模型。其中 S={S1 ,S2 ,…,SN }为状态集合,Σ={O1 ,O2 ,…,OM }是观察符号或 观察向量的集合,A=(aij)为状态转移概率矩阵,记为 aij =P(qt+1 = Sj |qt =Si),1≤i,j≤N;B=(b(j k))表示在状态 Sj 时产生观察符号 vk ∈Σ 的离散概率值或连续概率密度矩阵。其中 b(j k)=P(vk |qt = Sj),1≤j≤N,1≤k≤M;π=(πj)是初始状态分布矩阵,πj =P(q1 = Sj),1≤j≤N,πj ≥0,Σπj =1。
提出一种基于隐马尔可夫模型的多序列比对算法,利用 L 值和特征序列的保守性,通过增加频率因子,改进传统隐马尔 可夫模型算法的不足。实验表明,用于蛋白质家族的识别,新算 法比传统算法的识别率提高了 3.3 个百分点。
2 多重序列比对的数学模型
定义 1 三元组 Ω=(Σ,S,G) 称为一个多重序列比对序列
图 1 一个有 5 条序列的多重序列比对矩阵 G
3 特征序列
序列的进化可以看成是一个特征序列经过若干代衍变的 结果,这个特征序列描绘了这个多重序列共同进化的本质特 征,算法的关键就是寻找和这个特征序列相同的匹配。这里利 用子序列(Subsequence)方法来描述特征序列,就是从多重序 列比对中找出每列出现字符最多的元素,例如图 1 的 S1 ,S2 , …,S5 的特征序列是:ATGTC。如果多重序列比对里每列元素中 出现字符一样多,则随机取其中一个元素。
组,其中 Σ 是比对序列字母集,S={S1 ,S2 ,…,Sk }是比对序列的
集合,其中 S(i i=1,2,…,k)是以集合的形式代表一条序列,G=
(gij)是一个比对矩阵,其元素是 Σ 中的元素。
例如,若对 DNA,Σ={A,T,G,C,-(} 其中“-”表示空位或删
除状态),对 RNA,Σ={A,U,G,C,-},若针对蛋白质,Σ 是 20 种
同事于 60 年代末 70 年代初提出,并开始用于语音识别[5]。最早 用于计算生物学是于 80 年代末 90 年代初,目前已经用于 DNA 模型构建,蛋白质二级结构预测,基因预测,横跨膜蛋白 识别,其中应用最为普遍的是 Krogh 等人的基于 profile 家族 共同特征提取的蛋白质序列分析[6-7]。
摘 要:研究一种关于隐马尔可夫模型的多序列比对,利用值和特征序列的保守性,通过增加频率因子,改进传统隐马尔可夫模型 算法的不足。实验表明,新算法不但提高了模型的稳定性,而且应用于蛋白质家族识别,平均识别率比传统隐马尔可夫算法提高了 3.3 个百分点。 关键词:隐马尔可夫模型;多序列分析;蛋白质识别 DOI:10.3778/j.issn.1002-8331.2010.07.052 文章编号:1002-8331(2010)07-0171-04 文献标识码:A 中图分类号:TP391;TN957.52
作者简介:罗泽举(1965-),博士,主要研究方向:机器学习与模式识别,生物信息学;宋丽红(1969-),实验师,主要从事机器学习、数据仓库等研究。 收稿日期:2008-09-17 修回日期:2008-12-15
172 2010,46(7)
Computer Engineering and Applications 计算机工程与应用
由于 HMMS 模型能节省大量时间和空间,因而越来越引 起计算生物学的关注。隐马尔可夫理论最初是由 Baum 及他的
基金项目:国家“十一五”科技支撑计划重大项目资助(the National Great Project of Scientific and Technical Supporting Programs Funded by Ministry of Science & Technology of China During the 11th Five-year Plan. No.2006BAJ05A06);重庆市科委自然科学基金(No.2007BB2205); 重庆市科委重点攻关项目(No.2008AC0043)。
对特征序列进行研究具有重要意义,首先,利用特征序列 可以对一个序列进行数据库搜索,以寻找它所在家族;其次,可 以比较不同家族的进化关系;另外,它是构建隐马尔可夫模型 的理论基础。如果所进行比对的序列是具有生物学进化意义的 相关序列家族,那么每条序列可以看成是这条特征序列经过插 入、删除、匹配而进化的结果。
400067,China 2.School of Computer Science & Information Engineering,Chongqing Technology and Business University,Chongqing 400067,China 3.Economics and Management Center,Chongqing Technology and Business University,Chongqing 400067,China E-mail:luozeju@126.com
氨基酸字母和“-”的集合,即 Σ={G,A,L,M,F,W,K,S,N,D,P,
V,I,C,Y,H,R,T,Q,E,-};对于模型中 S(i i=1,2,…,k),例如
S1
={A,G,A,C,G,T,C},代表序列
AGACGTC;对于
G
=(g
),例
ij
如图 1 G 是有 5 个序列的比对。
S1 A A - T C S2 A T G - C S3 C T G T G S4 C T G - C S5 A C - T C
上述定义中当观察符号 vk 是离散符号时,叫离散马尔可
夫模型;当 vk 是连续矢量时,叫连续马尔可夫模型,其关键参
数是 A,B,π,故模型一般简记为 λ=(A,B,π)。
定义 3(logarithm likelihood Value,L 值) 设由模型 λ 产生
观察序列 O 的概率为 P(O|λ),其自然对数值 L=logP(O|λ)=
Computer Engineering and Applications 计算机工程与应用
2010,46(7) 171
隐马尔可夫模型的多序列比对研究
罗泽举 1,2,宋丽红 3 LUO Ze-ju1,2,SONG Li-hong3
1.重庆工商大学 长江上游经济研究中心,重庆 400067 2.重庆工商大学 计算机科学与信息工程学院,重庆 400067 3.重庆工商大学 经济管理实验教学中心,重庆 400067 1.Research Center of the Economy of the Upper Reaches of Yangtze River,Chongqing Technology and Business University,Chongqing
** *
为 λ =(A ,B ,π ),则有:
定理 1 设 X 和 Y 是两个随机变量,在模型 λ 下具有概率
*
分布 P(X)和 P(Y),P(′ X)和 P(′ Y)是在模型 λ 下的概率分布,
若 P(′ X|Y)>0,P(X|Y)>0,P(′ X,Y)>0,P(X,Y)>0 且ΣP(X|Y)× X
个特征序列经过若干代衍变的结果[1]。 多重序列分析是一个非常困难的问题,涉及许多模型的选
择,Carillo 和 Lipman 引入了基于两两最优化比对分数的多重 序列比对方法,并得到了广泛应用,但是这种方法对于计算时 间和空间的耗费极大,被证明是 NP 难题[2]。许多研究者利用启 发式和近似算法改进了比对分数算法[3],包括 Feng 和 Doolittle 的 Clustal 算法,但这种算法是利用进化树思想先进行两两比 对,再根据相似性进行分组比对,直到最终得到比对结果,因此 其时间复杂度仍然很高[4]。由于一个基因家族的特征序列非常 保守,家族的进化可以认为是这个特征序列经过一系列插入、 替代、删除的结果,这个过程正好可以用隐马尔可夫模型 (Hidden Markov Models,HMMS)来描述。
lnP(O|λ)称为 L 值。
当用 HMM 模型进行识别时,首先用 EM 算法对参数 A,
B,π 进行重估,然后利用新参数来计算产生当前序列概率的对
数值(logarithm likelihood,L 值),再根据 L 值来识别对象所属
的类。设当前模型为 λ=(A,B,π),训练重估模型参数后的模型
*
ln PP((′ XX,,YY))≥0,则:
P(′ Y)≥P(Y)
(1)
证明 因为 P(′ X|Y)>0,P(X|Y)>0,P(′ X,Y)>0,P(X,Y)>0,
(f x)=lnx 在(0,+∞)有:lnx≤x-1,则:
ΣP(X|Y)ln X
PP((′ XX||YY))≤ΣX P(X|Y)[
PP((′ XX||YY))-1]=
ΣP(′ X|Y)-ΣP(X|Y)=1-1=0
X
X
则ΣP X
(X|Y)ln
PP(′(XX||YY))=-
ΣP X
(X
|Y)ln
PP(′(XX||YY))≥0,因
ΣP(X|Y)=1,则 X
lnP(′ Y)-lnP(Y)=ΣP(X|Y)lnP(′ Y)-ΣP(X|Y)lnP(Y)=
X
X
ΣP(X|Y)ln X
LUO Ze-ju,SONG Li-hong.Multiple sequence analysis of hidden Markov model.Computer Engineering and Applications, 2010,46(7):171-174.
Abstract:A new multiple sequence alignment about Hidden Markov Models(HMMs) is researched,using the conservative feature of L value and consensus sequence,by increasing frequency factor,traditional HMMs learning algorithm is improved.Experiment indicates that not only the stability of the model is improved,but also a average improvement of 3.3% is achieved for protein family recognition by comparing the new algorithm with the traditional one. Key words:hidden markov models;multiple sequence analysis;protein recognition