蛋白质糖基化位点的因子分析及KNN预测

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

蛋白质糖基化位点的因子分析及KNN预测
杨雪梅
【期刊名称】《内江科技》
【年(卷),期】2016(037)009
【总页数】2页(P81-82)
【作者】杨雪梅
【作者单位】咸阳师范学院数学与信息科学学院
【正文语种】中文
为了分析糖基化蛋白质序列的结构特点并提高蛋白质O-糖基化位点的预测准确率,首先用因子分析的方法得到了训练样本的公因子,进一步得到了训练样本的因子得分以及变换矩阵;对测试样本首先用变换矩阵进行变换得到测试样本的因子得分,用K-最近邻(KNN)方法对因子得分进行分类。

实验样本用稀疏编码方式编码,窗口长度为21。

实验结果表明,与直接用KNN对原始观测数据进行预测的方法
相比,通过因子分析变换对因子得分进行预测的结果更好。

糖基化是指在酶的控制下将糖转移至蛋白质,其结果是形成糖蛋白。

研究表明,由于受到很多因素的影响,并不是所有的蛋白质都能发生糖基化,大约10%~30%
的蛋白质不能发生糖基化。

糖基化是对蛋白质的重要修饰,有调节、改良蛋白质功能的作用。

在生物制药工程中,糖基化对治疗性蛋白质的溶解质、稳定性、半衰期活性等具有重要的影响,通过对糖基化位点的预测,选择合适的载体对蛋白质进行糖基化修饰,可以大大提高药物的治疗效果和降低毒副作用。

另外,蛋白质的糖基化程度和糖链结构的异常变化是癌症及其他疾病发生的标志之一,因此,预测糖基
化位点对于疾病监测也有重要意义。

O-糖基化是指发生在丝氨酸残基(S)或苏氨酸残基(T)的羟基氧上的糖基化(O-linked),本文将对O-糖基化位点进行预测,即预测一个含有S或T的氨基酸序列是否带有糖链。

近年来,一些学者使用人工神经网络(ANN)、支持向量机(SVM)[1-3]的计算机方法来对O-糖基化位点进行预测,预测准确率达70%;Yong-zi Chen[4]使用了一种新的蛋白质生物信息处理工具CKSAAP_OGlySite来预测,用基于K-空间氨基酸对组成的编码方式,并借助于SVM,准确率分别为81.4%(S)和83.1%(T)。

蛋白质序列结构复杂,包含了大量线性特征和非线性特征,没有充分提取这些特征并利用特征进行分类,而是对原始数据直接分类,这是导致预测准确率不高的重要原因。

主成分分析(PCA)是用来进行二阶特征提取的统计分析方法,经过线性变换,使得原始数据各成分之间的相关性消除,并能减少向量维数,保留原有信息,因此在科学研究和工程计算领域中被广泛使用。

在先前的工作里[5],我们用PCA对蛋白质序列进行模式分析,发现糖基化序列的主要成分为S、T、P、A,通过数学的方法证明了含有S的蛋白质序列在C端附近容易糖基化;对于经过PCA变换的数据用人工神经网络分类,准确率达84%。

在本文中,将采用因子分析[6]与K-最近邻[7](KNN)相结合的方法,用因子分析方法得到公因子并降维,用KNN方法对因子得分进行分类以提高预测准确率。

本文结构如下:第一节介绍蛋白质序列数据与编码;第二节介绍因子分析方法及KNN方法并进行蛋白质序列的因子分析;第三节是预测与结果分析;第四节给出结论。

文中用到的蛋白质数据与文献5中相同。

选择了99种哺乳动物的蛋白质序列共2000个,每个序列中心是S或T的残基,并对该残基是否糖基化做了标注。

每个
序列长度为21。

若一个子序列中心的S或T带有糖链,则表明该序列被糖基化,叫做正序列(positive);否则,表明该序列未被糖基化,叫做负序列(negative)。

做实验时去掉中心的S或T。

在本文中用稀疏编码方式,就是把序列中的每个氨基酸残基或空位点用21位二进制数0或1表示,这样一个子序列的稀疏编码的长度(即样本向量的维数)就是(21-1)*21=420。

由于负序列的个数比正序列的个数多得多,所以在实验时,随机地从每一类里挑选200个样本作为训练样本,100个作为测试样本。

预测可被看作两类(positive 和 negative)的分类问题。

首先用因子分析法分别
得到训练样本和测试样本的因子得分,然后用KNN对因子得分进行分类。

2.1 因子分析
因子分析(Factors Analysis,FA)的任务是寻找支配多个指标的少数几个公因子,以公因子(新变量)代替原指标(原变量)作为研究的对象,可以不损失或很少损失原指标所包含的信息。

设原指标有m个,记为,现有n个样品,首先将原指标标准化,即:
其中,分别是的平均数及标准差。

因子分析的任务是求出系数,建立用公因子和特殊因子表示原指标的方程,且。

对各的要求是:(1)使各个公因子及各个特殊因子之间彼此独立或不相关。

(2)
由因子分析基本定理可得计算因子载荷矩阵及因子得分的算法。

2.2 KNN分类法
KNN分类法是在训练样本中找到待测样本y的K个最近的邻居,如果这K个最近邻居中的大多数属于某一类,则y就属于某一类。

该方法中K是一个重要的参数,直接影响分类的准确率,将通过多次实验找到最佳的参数K。

2.3 因子分析与KNN相结合的预测算法
(1)输入训练样本,并标准化为,求其相关系数矩阵。

(2)求的特征向量与特征值,根据累计特征值的百分比>85%确定公因子保留的
个数P;由特征向量构成正交矩阵,的第一列是最大特征值对应的特征向量,共p 列;由前P个特征值构成对角阵,计算因子载荷矩阵
(3)计算训练样本的公因子得分:
(4)输入待测样本y并计算其因子得分
(5)在中找的k个最近邻居(与距离最短的k个样本),用KNN方法确定的类别。

训练样本的总数为n=400,算法用matlab7.8.0实现。

分别用了KNN以及
FA+KNN的方法进行预测,测试了200个样本,结果见图1~图3。

首先,求出了因子载荷矩阵A并将其前两列(即前两个公因子的系数)用图像的
方式显示出来,如图1,图中的不同颜色代表不同的数字,颜色越红表示数字越大,颜色越蓝数字越小。

可以看到第一公因子与[5]图2的positive类的平均值相似,第二公因子与negative类的平均值相似,这说明第一公因子支撑positive类,第二公因子支撑negative类。

在用FA+KNN方法预测时,有两个可选参数,一个是公因子数p,一个是最近邻居数K,采用网格搜索的方法找到了最佳的参数组合:当p=17,K=3时,获得了最佳预测准确率89.5%,如图2和图3。

图2展示了随着参数K的变化,KNN方法及FA+KNN方法的预测准确率的变化
情况。

在KNN方法中,当K=5时预测效果最好;在FA+KNN方法中,当K=3
时预测效果最好;总体上,FA+KNN的预测准确率高于KNN的预测准确率,这
是因为FA+KNN方法提取了公因子,而公因子是综合各个原指标特征及内在联系的潜变量,用因子得分代替原指标进行分类,当然更加准确。

图3展示了当固定最近邻居数K=3时,随着公因子数目p的变化,FA+KNN方
法的预测准确率的变化情况。

可以看出,公因子个数并不是越多越好,因为过多的特征可能会干扰分类的正确性,实验结果显示当公因子数目p=17时预测效果最好。

本文用因子分析结合K-最近邻的方法对蛋白质糖基化位点进行了分析和预测。

首先用因子分析方法提取了原始观测数据的公因子,然后用K-最近邻方法对因子得分进行分类。

由于公因子综合了原指标的特征,揭示了原指标的内在联系,同时降低了向量维数,所以分类结果比直接用K-最近邻方法对原指标分类的结果更加准确快速。

【相关文献】
[1]NISHIKAWA I, SAKAMOTO H, NOUNO I, et al. Prediction of the O-glycosylation sites in protein by layered neural networks and support vector machines. Lecture Notes in Artificial Intelligence,2006,LNAI (4252):953-960
[2]KENTA S, NOBUYOSHI N, YASUBUMI S. Support vector machines prediction of N- and O-glycosylation sites using whole sequence information and subcellular localizition. IPSJ Transactions on Bioinformatics,2009(2):25-35
[3]LI S. Predicting O-glycosylation sites in mammalian proteins by using SVMs. Computational Biology and Chemistry, 2006,30:203-208
[4]Yong-zi CHEN. Prediction of mucin-type OGlycosylation sites in mammaliam protein using the composition of k-spaced amino acid pairs. BMC Bioinformatics,2008,9:101-112 [5]杨雪梅,赵花丽. 蛋白质结构的主成分分析及氧链糖基化位点的人工神经网络预测.数学的实践与认识,2009,39(19):108-114
[6]肖枝洪,余家林.多元统计与SAS应用.武汉大学出版社,2008:194-203
[7]于滨,邬姗华,王明华,等.K-近邻短时交通流预测模型.交通运输工程学报,2012,12(2):105-111。

相关文档
最新文档