基于同源建模的蛋白质结构预测方法的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
参考文献:
[1] 蒋毅恒,白 焰,朱耀春,等. 基于遗传编程的智能建模方法及应用[J]. 微计算机信息,2008(3):150-152. [2] Dayhoff M O,Hunt L T,Schwartz R M. Protein superfamilies[J]. Atlas of Protein Sequence and Structure,1978,5(3):9-24. [3] Jason T L,wang Q,Wu H. Application of neural networks to biological data mining:a case study in protein sequence classifica-
padd(w│i w
)= i-1
i-N+1
c(w ii-N+1)+ δ
.
Σ(wii-N+1)+ δ│V│
wi
(2)
2.3.2 数据平滑的具体应用 结合蛋白质结构预测中的 profile-profile 方法所生成的频率 profile 和对数
profile,这里主要是基于 profile 中的 20 个氨基酸的频度进行的,这里本文假设这 20 个氨基酸之间是相互独
数据平滑技术[5]是自然语言处理中的重要方法 . 对于汉语统计语言模型的构造技术,其研究目的在于:
收稿日期:2009-04-15 基金项目:国家自然科学基金项目(50323001) 作者简介:陈红梅(1973-),女,河南虞城人,讲师,硕士研究生,主要研究方向为计算数学 .
2009 年 9 月
陈红梅等:基于同源建模的蛋白质结构预测方法的研究
第 27 卷 第 9 期 2009 年 9 月
文章编号:1004-3918(2009)09-1108-03
河南科学 HENAN SCIENCE
Vol.27 No.9 Sep. 2009
基于同源建模的蛋白质结构预测方法的研究
陈红梅, 周俊祥
(商丘师范学院 计算机科学系,河南 商丘 476000)
摘 要:针对 profile-profile 方法中 profile 中出现的数据稀疏问题所采用的数据平滑技术以及对于生成排列过程
仪
M(i,j)=max 仪仪仪仪Ix(i-1,j-1)+s(xi ,yj),
仪
仪仪仪仪Iy(i-1,j-1)+s(xi ,yj);
仪 仪 M(i-1,j)-d,
M(i,j-1)-d,
Ix(i,j)=max Ix(i-1,j)-e; Iy(i,j)=max Iy(i,j-1)-e;
其中:xi 代表查询序列中第 i 个氨基酸;yj 代表模板序列中第 j 个氨基酸;s(xi ,yj)代表序列中将查询序列中第 i
模板序列比对的分数值 .
2. 5 实验结果
为了对采用 profile-profile 方法获得的目标序列和模板序列的排列结果有一个评价,本文在 HOMSTRAD
-1110-
河南科学
第 27 卷 第 9 期
数据库中选取了 629 对蛋白质序列比对作为标准排
列,将采用 profile-profile 方法获得的目标序列和模板
为了提高相关联蛋白质的检测质量,对于查询序列以及模板序列引入进化信息是一种经常被应用的方 法 . Profile-profile 比对方法就是这样一种将序列之间的进化信息考虑在内的一种方法 . 在具体应用 Profileprofile 比对方法时,不同的 profile-profile 方法的本质区别在于如何计算两个 profile 位置之间的分数,其中 profile 是一个向量集,每个向量包含了多序列比对中每种氨基酸在多序列比对的一个特殊位置所出现的频度. 2. 3 数据平滑技术
现的概率转化为对数值进行考虑时,很显然,这里的 qxi 可以忽略不计,可以得出如公式(4)所示: y(g)=log((f g)),
(4)
这样,空位罚分就对应于空位长度概率的对数值了,在计算空位罚分时就可以将罚分值累加求和得到总的罚
分值了 .
于是我们将有如下算法描述:
仪仪仪M(i-1,j-1)+s(xi ,yj),
个氨基酸和模板序列中第 j 个氨基酸相比对的分数;Ix(i,j)代表在模板序列的第 j 个位置插入空位时,查询序
列第 i 个氨基酸和此空位相比对时两序列的最大分数值;Iy(i,j)代表在查询序列的第 i 个位置插入空位时,模
板序列第 j 个氨基酸和此空位相比对时两序列的最大分数值;M(i,j)代表长度为 i 的查询序列和长度为 j 的
参数取 0.1 参数取 0.25 参数取 0.5 参数取 0.75 参数取 1
图 1 不同参数加法平滑排列精度 Fig.1 Alignment precision of addition smoothing
for different parameters
通过图 1 可以看出,在测试出的排列精度中,参数 δ 取 0.1,0.25,0.5,0.75 时,他们的精度平均值在 δ 取
)= i-1
i-N+1
c(w
ii-N+1),
Σwi i-N+1
wi
(1)
其中:c(wii-N+1)表示词串
w
i i-N+1
在训料文本
T
中的出现次数
.
基于以上数据平滑技术的介绍,并结合蛋白质结构预测中的 profile-profile 方法所生成的频率 profile 和
对数 profile,本文选择了加法数据平滑和 Good-Turing 数据平滑技术 .
对 δ 取 0.1,0.25,0.5,0.75,1 这 5 个参数时进行实验,
获得 629 组数据,并抽取 30 组数据如图 1 所示.
1.200 000 1.000 000 0.800 000 0.600 000 0.400 000 0.200 000 0.000 000
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
序列的排列与其进行比较获得排列的精度作为评价
的指标 . 蛋白质序列的排列精度也就是蛋白质目标
序列排列与蛋白质序列标准排列相比较,排列正确的
氨基酸位置所占的百分比 . 如公式(5)所示:
ຫໍສະໝຸດ Baidu
排列正确的比对个数
排列精度=
.
模板序列长度
(5)
实验数据分析比较:采用加法平滑时,在其中的
平滑参数 δ 取值不同会得到不同的平滑效果 . 我分别
本文重点讨论的内容是采用数据平滑技术提高目标序列和模板序列的排列精度,以及对两种数据平滑 算法精度的实验数据分析 .
2 目标序列和模板序列的排列
2.1 排列过程概述 在查询序列和目标序列的排列[3]这个过程中,通过局部对比排列搜索工具 BLAST 获得了查询序列的模
板,这里我们将要采用引入进化信息的 profile-profile 方法[4]完成双序列的排列 . 首先,通过识别模板的过 程,获得两个输出的频度 profile 和对数 profile;接着,在处理中运用数据平滑技术对频度 profile 中出现的数 据稀疏进行平滑并获得频率 profile;然后,通过获得的频率 profile 以及对数 profile 构建新的计分体系;再者, 通过带有空位罚分的动态规划算法结合所构建的计分体系获得查询序列和目标序列的排列;最后,在 HOMSTRAD 数据库中,测试查询序列和目标序列的排列的精度并且做出详细的分析 . 2. 2 Profile-profile 比对方法
2.3.1 加法平滑 Lidstone,Johnson 和 Jeffreys 等人提出了一种简单易行的数据平滑方法,称作加法平滑(additive
Smoothing). 它的基本思想是:为了避免零概率问题,将 N-gram 模型中每个 N 元对的出现次数加上一个常
数 δ(0<δ≤1),相应的 N-gram 模型参数 padd(w│i wii--N1+1)计算公式如(2)所示:
中对于新的计分体系所采用的动态规划算法,并且在 HOMSTRAD 数据库上进行的排列精度实验,结果证明采用
profile-profile 方法并结合数据平滑和动态规划技术可以有效地提高查询序列和目标序列的排列精度 .
关键词:蛋白质结构预测; 同源建模; 数据平滑
中图分类号:O 24
文献标识码:A
生物信息学作为一门新的学科,它把基因组 DNA 序列分析作为源头,在获得蛋白质编码区的信息后进 行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计 . 因此在生物信息学的研 究中,确定蛋白质序列的功能也就成为一个重要的方向 . 但是在目前已知的蛋白质序列数据库中,已经根 据实验测出其结构和功能的蛋白质只占其中的小部分,远远无法满足实际应用的需要,于是开发自动处理未 知蛋白质序列的方法成为一个越来越重要的问题 .
0.1 时稍大些,而当 δ 取 1 时,获得的效果最好 .
在测试出的排列精度中,加法平滑(δ 取 1)时获得的效果比未平滑要稍微好一些 . 这说明采用的加法平
滑算法(δ 取 1)对于解决 profile 中存在的数据稀疏问题还是有帮助作用的 . 在对氨基酸出现频度进行平滑
时,加法平滑(δ 取 1)获得的结果还是有明显的提高的.
本文重点介绍了查询序列与目标序列排列的全过程,而后分别介绍了排列过程中所用到的 profile-profile 方法、数据平滑技术以及排列的动态规划算法 . 最后介绍了排列精度的实验部分,这里分别对加法平滑取 不同参数的实验数据进行了比较与分析 . 最终得出了在加法平滑(δ 取 1)时所获得的排列精度最大 .
3 结束语
本文首先讨论了基于同源建模的蛋白质结构预测的基本方法,分析了基于同源建模的 profile-profile 方 法与传统方法的差别,并介绍了蛋白质结构预测在生物信息学研究中的地位与作用 . 随后文中依次分别介 绍了模板识别、查询序列与目标序列的排列、构建模型以及结构合理性评估的方法与具体的实现过程 .
-1109-
通过对大规模真实语料库中的词的上下文同现频度进行统计,获取词的上下文同现概率数据. 对于基于词的
N-gram
模型来说,根据最大似然估计原则(Maximum
Likelihood
Estimation),词的上下文条件概率
p(w│i w
)被 i-1
i-N+1
估计为如公式(1)所示:
p(w│i w
tion[C]//Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Boston, 2000:305-309. [4] 程凌鹏,张景强. 伊蚊 C6/36 细胞浓核病毒蛋白衣壳三维结构的测定[J]. 中国科学:C 辑,2004,34(1):75-79. [5] 王志珍. 蛋白质折叠和分子伴侣[J]. 生物学通报,2004,39(5):1-6. [6] 靳利霞,唐焕文. 蛋白质结构预测方法简述[J]. 自然杂志,2001,23(4):217-221.
空位罚分也对应于一个比对的概率统计模型,对于一个给定的序列,在特殊的位置出现空位的概率是空位长
度的函数 (f g)与所插入残基概率的乘积,如公式(3)所示:
仪 P(gap)=(f g) qxi , i in gap
(3)
公式(4~7)有一个前提条件,就是假设空位的长度与它所包含的残基类型无关 . 这种情况下,当要将空位出
1 蛋白质结构预测过程
不同来源或者不同生物功能的蛋白质可能有相似的结构,通常认为序列相似意味着结构相似 . 因此,同 源建模法[1-2]就是利用结构已知的家族成员(模板)预测新序列的结构 . 同源建模法一般包含以下几个步骤: 第一,识别模拟的模板;第二,目标序列和模板序列的排列;第三,构建模型;第四,构建非保守的 loop 区;第 五,安装侧链;第六,模型修饰;第七,结构合理性评估 .
立的 . 因此这里我们的模型参数空间为 20 . 并分别采用两种数据平滑将频度 profile 进行平滑,而后生成我
们所需要的频率 profile .
2.4 动态规划技术
在生物信息学中,通常使用动态规划算法来获得两个序列的比对,在这里采用带有空位罚分的动态规划
算法来获取目标序列和模板序列的排列 . 在这里我们假定采用空位罚分[6],y(g)=-d-(g-1)e,其中:d 为 gap-open;e 为 gap-extension. 通常在这里 e<d.