2009-基于改进伪氨基酸组成的蛋白质相互作用预测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
收稿日期:2009205220
基金项目:国家自然科学基金资助项目(60573065);山东省自然科学基金资助项目(Y 2007G 33)
作者简介:许传轲(19842
),男,硕士,主要研究方向为智能计算与生物信息学.Email :xuchuanke @ 3通讯作者:陈月辉(19642
),男,教授,博士,主要研究方向为智能计算与生物信息学.Email :yhchen @ 文章编号:167129352(2009)0920017205
基于改进伪氨基酸组成的蛋白质相互作用预测
许传轲,陈月辉3
,赵亚欧
(济南大学信息科学与工程学院,山东济南250022)
摘要:提出了一种新的基于改进的伪氨基酸组成特征模型与随机森林的蛋白质相互作用预测方法。
首先利用基于G eary 自相关函数的伪氨基酸组成特征模型,对与蛋白质相互作用相关的氨基酸属性进行评价,然后根据评价结果选择相关的属性整合到基于M inkowski 距离的伪氨基酸特征模型中,并使用随机森林作为分类器进行学习和预测,实验结果表明该方法相对于传统方法提高了正确率。
关键词:蛋白质相互作用;伪氨基酸组成;随机森林中图分类号:TP181 文献标志码:A
Prediction of protein 2protein interaction based on
im proved pseudo amino acid com position
X U Chuan 2ke ,CHE N Y ue 2hui 3
,ZH AO Y a 2ou
(School of In formation Science and Engineering ,University of Jinan ,Jinan 250022,Shandong ,China )
Abstract :A new prediction method for protein 2protein interaction (PPI )was proposed based on an im proved pseudo amino acid com position (PseAA )feature m odel and random forest.A new PseAA feature m odel based on the G eary autocorrelation function is used to evaluate amino acid properties related to PPI.Then according to the results of evaluation ,relevant properties are select 2ed to integrate together by another new PseAA feature m odel based on the M inkowski function.The random forest is adopted as classifier for learning and prediction.The results obtained in the experiment indicate that this method can im prove accuracy.K ey w ords :protein 2protein interaction ;pseudo amino acid com position ;random forest
0 引言
蛋白质相互作用在很多生化过程中起着主要作用,例如代谢过程,DNA 转录,信号传导等。
然而利用传统生物实验的手段检测蛋白质相互作用,如酵母双杂交实验方法[1]
,不仅浪费人力,时间,还存在
很高的假阳性结果
[2]。
因此利用计算方法来进行蛋
白质相互作用的预测
[324]
,成为对传统实验方法的一
个很好的辅助补充手段。
在之前的研究中,很多学者利用基因组信息或进化信息,提出了基于基因邻接
[5]
,基因融合
[6]
,镜像树
[7]
,突变关联
[8]
等预测蛋
白质相互作用的方法。
蛋白质是由氨基酸组成的,一级氨基酸序列决定蛋白质结构,蛋白质结构决定其性质。
因此完全可以从一级氨基酸序列中提取与蛋白质相互作用相关的具有统计意义的特征信息。
如何从蛋白质一级序列中提取特征是首先要面临的问题。
氨基酸组成
模型[9]
用统计出的20种氨基酸的出现频率作为蛋白质的特征,最初被用来预测蛋白质结构类型。
但是这种特征模型中缺乏蛋白质序列中氨基酸排列顺
序的信息。
因此Chou 引入了伪氨基酸模型[10]
,整合了氨基酸排列顺序信息,应用到了很多蛋白质性
质预测的相关领域,如蛋白质类别[11]
,蛋白质亚细
第44卷 第9期 V ol.44 N o.9
山 东 大 学 学 报 (理 学 版)
Journal of Shandong University (Natural Science )
2009年9月
Sep.2009
胞位置[12],提高了预测精度。
原始的伪氨基酸模型只使用了疏水性值,亲水性值,侧链原子量3种氨基酸残基的属性。
但是,每种不同的蛋白质性质可能受到不同的氨基酸残基属性的影响,例如,蛋白质结构类型主要取决于氨基酸残基的疏水性。
所以,对于不同的蛋白质性质的预测,并不存在通用的伪氨基酸特征提取模型作为蛋白质一级序列的特征描述。
因此对于蛋白质相互作用,需要寻找与蛋白质相互作用相关的氨基酸性质。
并且蛋白质的性质通常受到几种不同的氨基酸属性影响,因此对于蛋白质相互作用预测,需要整合几种不同的氨基酸性质来更加有效地表示蛋白质序列的信息。
本文提出了一种评价不同氨基酸属性对蛋白质相互作用影响大小的方法,并且利用启发式的选择,将这些属性整合在一起作为蛋白质一级序列的特征描述,进而进行蛋白质相互作用的学习预测。
1 方法
关于蛋白质相互作用的预测,通常先从蛋白质一级序列中提取特征,然后选择合适的分类器算法进行学习预测。
蛋白质相互作用问题可以形式化地表示为1个二分类的分类问题,即给定2个蛋白质,若其之间相互作用,则视为正类,若不相互作用,则视为负类。
因此每一个样本,都由2个蛋白质组成,若这2个蛋白质之间相互作用,则该样本为正类,即类别号为+1,否则,该样本为负类,即类别号为-1。
而在本文中,对于样本中的1对蛋白质,从蛋白质的一级结构序列中,使用改进后的伪氨基酸特征模型提取的特征,表示每一个蛋白质(N维特征),然后再将这2个特征串联起来,作为该样本的特征。
因此,每一个样本,即蛋白质对,由N32维的特征向量来表示。
111 传统伪氨基酸模型的分析
对于一个长度为L的蛋白质,其氨基酸序列为R1R2R3…R L,利用伪氨基酸模型,一个氨基酸序列可以被表示为20+λ的特征向量:
P=[p1,p2,…,p20,p20+′,…,p20+λ]T,λ<L,
其中
p u=
f u
∑
20
i=1
f i+w∑
λ
k=1
τ
k
,1≤u≤20,
wτu-20
∑
20
i=1
f i+w∑
λ
k=1
τ
k
,20+1≤u≤20+λ。
(1)
前20个元素(f
1,f2,f3,…f i…f20)实际上就是传统
的氨基酸组成模型,即20种氨基酸的出现频率,而
剩余的λ个元素(τ
1
,τ2,…τk,…τλ)是λ个k级顺
序相关因子,表示相隔k个氨基酸残基的序列顺序
相关性。
由公式(2)计算:
τ
k
=
1
L-k
∑
L-k
i=1
J i,i+k,k<L,(2)
其中偶联因子
J i,i+k=
1
3
{[H1(R i+k)-H1(R i)]2+[H2(R i+k)-
H2(R)]2+[M(R i+k)-M(R i)]2}。
(3)
注意H
1
(R
i
),H
2
(R
i
),M(R
i
)是经过公式(4)标准
化后的疏水性值,亲水性值,侧链原子量。
A(R i)=
A0(R i)-avg(A0)
S D(A0)
,(4)
其中,A0(R
i
)是原始的疏水性值,亲水性值,侧链原
子量值。
符号avg表示20个氨基酸属性值的平均
值。
S D表示20个氨基酸属性值的标准差。
公式(1)中w为权重因子,并且通过选择不同
的λ值,可以得到不同长度20+λ的特征向量用来
表示蛋白质特征。
w取值为011,λ为30,即每个蛋
白质特征向量长度为50。
因此,每个样本,即1对
蛋白质,特征向量长度为100。
由以上分析可以看出,伪氨基酸特征模型由2
部分构成:第1部分,即氨基酸组成部分;第2部分
则反映了氨基酸序列的顺序信息。
而且第2部分,
即计算序列顺序信息的方法,使用自相关函数的方
式,可以抽象表示为
τ
k
=
1
L-k
∑
L-k
i=1
d(R i,R i+k), k<L。
(5)
因此可以使用其他的自相关函数来计算序列的顺序
信息。
而且J
i,i+k
可以看做欧氏距离的变形,因此,
J i,i+k为计算2个氨基酸之间的距离,所以可以使用
其他的距离函数来计算偶联因子。
112 对伪氨基酸模型的改进
首先需要评价单个氨基酸性质对于蛋白质相互
作用的影响,然后整合多个氨基酸性质来表示蛋白
质的特征,进而对蛋白质相互作用进行学习预测。
因此本文通过111节的分析,在自相关函数与距离
函数的框架下,提出了2个改进的伪氨基酸模型:第
1个可以利用单个氨基酸属性表示蛋白质一级序列
的特征;第2个用以整合多个氨基酸属性来表示蛋
白质一级序列特征。
首先提出了G eary2PseAA特征模型,只使用1个
氨基酸性质来表示蛋白质序列的特征。
其中通过
G eary自相关函数来计算蛋白质序列的顺序信息,即
18
山 东 大 学 学 报 (理 学 版)第44卷
τk 使用G
eary 自相关函数(6)来计算,而伪氨基酸特征模型的其他计算部分不变。
即
τ(k )=1
2(N -k )∑N -k
i =1
(P i -P i +k )21N -1∑N i =1
(P i - P )2
,
(6)
其中
P =
∑N
i =1
P i
N
,(7)
P i 为长度为N 的氨基酸序列中的第i 个氨基酸对
应的氨基酸属性值。
而氨基酸的属性值使用原始的伪氨基酸组成中的方法进行标准化。
经过改进后
τk 的计算只涉及一个氨基酸属性,从而利用G eary 2PseAA 特征模型提取的特征,可以被分类器学习以
评价单个氨基酸性质对蛋白质相互作用的影响。
从距离函数角度,本文提出了Minkowski 2PseAA 特征模型。
在其中使用Minkowski 距离函数(8)来代替J i ,i +k ,而伪氨基酸特征模型的其他计算部分不变。
d (R i ,R i +k )=
∑n
j =1
|V j (R i )-V j (R i +k )|
m
1/m。
(8)
在式(8)中,当m =1时,则为曼哈顿距离;当m =2时,则为欧式距离。
在实验中测试m =1~10时的分类错误率,以选出最优秀的距离函数。
其中V (R i ),V (R i +k )为n 维的向量,每一个分量表示某一种氨基酸属性,n 为V (R i ),V (R i +k )向量长度。
例如,在传统的伪氨基酸模型中,V (R i ),V (R i +k )为三维的向量,每个分量分别对应氨基酸的疏水性值,亲水性值,侧链原子量,且n 为3。
因此,可以用来整合多个氨基酸属性来表示蛋白质序列的特征。
113 评价不同的氨基酸属性对蛋白质相互作用的
影响
不同的氨基酸属性与蛋白质相互作用的相关性是不同的,因此需要评价每种氨基酸属性对于蛋白质相互作用的影响,并且选择合适的氨基酸属性来表示蛋白质的特征。
AAindex
[13]
是一个含有多个氨基酸物理化学属
性的数据库,其中AAindex1部分的每一项表示氨基酸的某种物理化学属性,含有20个数值,分别表示20种氨基酸的物理化学属性的值。
本文从AAin 2dex1数据库下载了氨基酸属性,在其中选择对蛋白
质相互作用相关的属性。
使用G eary 2PseAA 模型来提取只涉及单个氨基酸属性的蛋白质序列特征,并将G eary 2PseAA 特征带
入到分类器中学习,使用训练过程中产生的错误率作为每个氨基酸属性影响蛋白质相互作用大小的评价,即错误率越低,则认为该氨基酸属性与蛋白质相互作用相关性越大。
进而选择错误率最低,即相关性最大的一些氨基酸性质,整合到Minkowski 2PseAA 特征模型中。
114 整合多个氨基酸属性表示蛋白质特征
蛋白质相互作用受到多种氨基酸属性的影响,因此需要综合多种氨基酸属性从蛋白质一级序列中提取特征。
按照Minkowski 距离函数公式,如图1所示。
图1 M inkowski 距离函数计算过程
Fig.1 The schematic diagram of calculation process of
M inkowski function 注:A 1表示错误率最小的氨基酸属性,A 2表示错误率次之的氨基酸属性,A 3,A 4等以此类推
在向量V (R i ),V (R i +k )中,按错误率递增的顺序,依此加入氨基酸属性,使用Minkowski 2PseAA 特
征模型提取蛋白质序列的特征,并利用随机森林分类器计算当前特征的错误率。
若错误率下降,则停止加入新的氨基酸属性,并把当前的特征作为最终的蛋白质相互作用特征;否则,继续向向量中加入剩余氨基酸属性集合中错误率最小的氨基酸属性。
115 随机森林
从数据挖掘角度来看,并没有通用的算法适合不同的问题域,所以在进行数据挖掘前,首先需要选择一个适合问题域的算法。
在本文试验中,选取随
机森林[14]
作为分类器算法。
随机森林是基于决策树的集成分类器,同时训练多棵决策树,其中每棵决策树使用装袋方法得到的样本进行训练。
训练过程中,每个树节点随机选取一定大小的特征集用来分裂每个节点。
为了得到一个样本的分类预测值,每棵树给出该样本的一个预测值,然后利用投票的方法,选出该样本的类别,作为随机森林分类器的预测类别。
在构建决策树时,未被选中的样本组成袋外(out of bag ,OOB )数据
第9期许传轲,等:基于改进伪氨基酸组成的蛋白质相互作用预测
19
集,用袋外数据集测试,从而得到袋外误差(out of bag error,OOBE)可以作为泛化误差的估计。
选取随机森林作为分类器有以下几个原因:
(1)可以达到很高的精度,并且不会发生过拟合;
(2)训练速度很快;(3)在训练构造森林的过程中产生的袋外误差可以作为泛化误差的估计,从而不需要交叉验证来估计特征模型的性能,这样可以在很大程度上节省运行速度,特别是在评估大量的氨基酸属性集时;(4)有很少的参数需要调节。
2 实验
本文试验使用了来源于文献[15]的幽门螺旋菌(helicobacter pylori)蛋白质相互作用数据。
数据中含有1570条蛋白质,共有1458个两两相互作用的蛋白质对,即正类。
而由于当前并没有确切的证据表明一对蛋白质之间没有发生任何相互作用,因此对于非相互作用的蛋白质对数据,从1570条蛋白质中随机选择1458对与正类没有重复的蛋白质对作为负类。
由生物的先验知识可以知道,任意给定一对蛋白质,这对蛋白质之间相互作用的概率为1/600,因此随机生成的负类数据符合分类的数据要求,并没有含过多的噪声。
另外,在随机选择蛋白质对的过程中,没有选择氨基酸序列长度小于30的蛋白质,因为氨基酸序列长度小于30的蛋白质,很可能只是一些蛋白质片段[16]。
这样数据集由1458条正类与1458条负类数据组成了2916条数据集。
这样实质上与文献[17221]使用同样的方法生成数据集。
首先评价单个氨基酸属性对蛋白质相互作用影响的大小,表1为错误率(袋外误差)最小,即影响较大的前5种氨基酸属性:变异度[22],范德华体积[23],由原子-原子势得出的稳定度[24],疏水性[25],柔韧性[26]。
在评价过程中,只是评估氨基酸性质对蛋白质相互作用的影响大小,因此随机森林中决策树的个数设置为100,而每个节点用于分裂的随机特征集的大小设置为10。
表1 前5个错误率最低的氨基酸属性
T able1 The first five lowest error rate properties of amino acid 氨基酸属性错误率
变异度01124739
范德华体积01124739
由原子-原子势得出的稳定度01128909
疏水性01128909
柔韧性01129951
然后把氨基酸性质,按照错误率从小到大的顺序依次加入到Minkowski2PseAA特征模型,每加入一个新的氨基酸属性,使用一次随机森林进行学习分类,直到袋外误差开始下降则停止加入。
注意每次加入新的属性时,分别计算公式(11)中m=1~10时Minkowski2PseAA特征模型的错误率,选择最小错误率作为当前特征对应的错误率。
实验结果最终得到了由3个氨基酸属性组成的Minkowski2PseAA特征模型:即公式(11)中V(R
i
),V(R
i+k
)为三维的向量,每个分量分别对应氨基酸的变异度[22],范德华体积[23],由原子-原子势得出的稳定度[24]3个属性的值,亦为表1中前3行对应的属性。
利用这3种属性得到的最终蛋白质相互作用特征进行十交叉验证。
使用随机森林作为分类器,其中决策树的个数设置为2000,而每个节点用于分裂的随机特征集大小设置为10。
实验结果的正确率列在表2中。
为了方便比较,将以往其他方法的预测结果也列在表2中。
结果显示本文方法优于传统的其他方法,正确率比集成的最近邻算法[21]高了3%。
表2 不同方法得到的结果
T able2 The results obtained by different approaches 方法正确率
基于系统发生的支持向量机01758
分类器融合01830
基于标志积的支持向量机01834
超平面最近邻算法01840
集成的最近邻算法01866
本文方法01896
3 结语
本文提出了一种新的基于改进的PseAA特征模型与随机森林的方法,用来预测蛋白质相互作用。
首先利用G eary2PseAA特征模型,对AAindex数据库中与蛋白质相互作用相关的氨基酸属性进行评价,然后选择相关属性整合到Minkowski2PseAA特征模型中,作为蛋白质序列的特征,进而使用随机森林作为分类器,进行分类与预测。
实验结果表明本文方法可以得到与蛋白质相互作用相关性较大的氨基酸属性,并且对于蛋白质相互作用预测得到了很好的结果。
由于本文提出的方法并非仅限于蛋白质相互作用预测,因此,在下一步工作中,对该方法进一步改进,并应用到其他蛋白质性质的预测中。
参考文献:
[1]FIE LDS S,S ONG O.A novel genetic system to detect protein2
20
山 东 大 学 学 报 (理 学 版)第44卷
protein interactions[J].Nature,1989,340(6230):2452246.
[2]PE LLEG RI NI M,M ARC OTTE E M,TH OMPS ON M J,et al.
Assigning protein functions by com parative genome analysis: protein phylogenetic profiles[J].Proceedings of the National Academy of Science US A,1999,96(8):428524288.
[3]李哲谦,刘书朋,严壮志.基于支持向量机的蛋白质相
互作用预测[J].电子测量技术,2008,31(5):428. [4]任仙文,李北平,王月兰,等.蛋白质相互作用的生物
信息学研究进展[J].生物技术通讯,2006,17(6):9762 980.
[5]DANDEK AR T,S NE L B,H UY NE N M,et al.C onservation of
gene order:a fingerprint of proteins that physically interact[J].
T rends in Biochemical Sciences,1998,23(9):3242328. [6]E NRIG HT A J,I LI OPOU LOS I,KY RPI DES N C,et al.Pro2
tein interaction maps for com plete genomes based on gene fu2 sion events[J].Nature,1999,402:86290.
[7]PAZ OS F,VA LE NCI A A.S imilarity of phylogenetic trees as
indicator of protein2protein interaction[J].Protein Engineer2 ing,2001,14(9):6092614.
[8]PAZ OS F,VA LE NCI A A.In silico tw o2hybrid system for the
selection of physically interacting protein pairs[J].Proteins: S tructure,Function,and Bioin formatics,2002,47(2):2192 227.
[9]CH OU K C.A novel approach to predicting protein structural
classes in a(2021)2D amino acid com position space[J].Pro2 teins:S tructure,Function,and Bioin formatics,1995,21(4): 3192344.
[10]CH OU K C.Prediction of protein cellular attributes using
pseudo amino acid com position[J].Proteins:S tructure, Function,and Bioin formatics,2001,43(3):2462255. [11]CH OU K ing am phiphilic pseudo amino acid com position
to predict enzyme sub family classes[J].Bioin formatics, 2005,21(1):10219.
[12]CHE N C,ZH OU X,TI AN Y,et al.Predicting protein struc2
tural class with pseudo2amino acid com position and support vector machine fusion netw ork[J].Analytical Biochemistry, 2006,357(1):1162121.
[13]K AW ASHI M A S,K ANEHIS A M.AAindex:amino acid index
database[J].Nucleic Acids Research,2000,28(1):374.[14]BREI M AN L.Random forests[J].Machine Learning,2001,
45(1):5232.
[15]RAI N J,SE LIG L,RE USE H D,et al.The protein2protein
interaction map of Helicobacter pylori[J].Nature,2001,409
(6817):2112215.
[16]LI U L,C AI Y,LU W,et al.Prediction of protein2protein in2
teractions based on PseAA com position and hybrid feature se2 lection[J].Biochemical and Biophysical Research C ommuni2 cations,2009,380:3182322.
[17]BOCKJ R,G OUG H D A.Whole proteome interaction mining
[J].Bioin formatics,2003,19(1):1252134.
[18]NANNI L.Fusion of classifiers for predicting protein2protein
interactions[J].Neurocom puting,2005,68:2892296. [19]M ATTI N S,ROE D,FAU LON J L.Predicting protein2protein
interactions using signature products[J].Bioin formatics, 2005,21(2):2182226.
[20]NANNI L.Hyperplanes for predicting protein2protein interac2
tions[J].Neurocom puting,2005,69:2572263.
[21]NANNI L,LUMI NI A.An ensemble of K2local hyperplanes
for predicting protein protein interactions[J].Bioin formatics, 2006,22(10):120721210.
[22]DAY H OFF M O,SCHW ARTZ R M,ORC UTT B C.A m odel
of ev olutionary change in proteins[J].Atlas of Protein Se2 quence and S tructure,1978,5(3):3452352.
[23]FAUCHERE J L,CH ART ON M,KIER L B,et al.Amino
acid side chain parameters for correlation studies in biology and Pharmacology[J].International Journal of Peptide and Protein Research,1988,32(4):2692278.
[24]ZH OU H,ZH OU Y.Quantifying the effect of burial of amino
acid residues on protein stability[J].Proteins,2004,54
(2):3152322.
[25]PONNUSW AMY P K.Hydrophobic characteristics of folded
proteins[J].Progress in Biophysics and M olecular Biology, 1993,59(1):572103.
[26]BH ASK ARAN R,PONNUSW AMY P K.P ositional flexibil2
ities of amino acid residues in globular proteins[J].Interna2 tional Journal of Peptide and Protein Research,1988,32
(4):2412255.
(编辑:孙培芹)
第9期许传轲,等:基于改进伪氨基酸组成的蛋白质相互作用预测21。