蛋白质结构类与亚细胞定位预测中的特征提取方法研究

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

蛋白质结构类与亚细胞定位预测中的特征提取方法研究

蛋白质结构类与蛋白质亚细胞定位预测在蛋白质结构和功能的预测中扮演着至关重要的角色,不仅是21世纪生物信息学研究中的两大核心内容,而且是后基因组时代蛋白质组学研究中两个典型的模式识别问题.本文在支持向量机理论的基础上构建了多分类预测模型和一套完整的预测性能评估体系.主要针对蛋白质结构类和凋亡蛋白亚细胞定位预测问题分别提出了两个更加有效的特征提取方法,并使用支持向量机进行分类预测.主要贡献概括如下:1.研究了低相似性蛋白质结构类预测问题,基于代表进化信息的位置特异性打分矩阵(PSSM)提出了一个融合了全局和局部特征的特征提取方法.全局特征来自于PSSM中提取出的一条一致序列,该序列中每个位置的氨基酸种类是由PSSM的每行中得分最高所对应的氨基酸种类组成.全局特征包括两部分:基于一致序列的氨基酸组分特征和新提出的组分矩特征.局部特征来自于平均分段的PSSM,也包括两部分:全部分段中的伪PSSM特征和自协方差特征.为了降低特征中的冗余给支持向量机预测性能带来的影响,我们使用主成分分析法对特征进行了降维.该方法是一个仅仅依靠进化信息来提取特征进行蛋白质低相似性数据集结构类预测的新方法.实验结果表明该特征提取方法不仅进一步地提高了预测精度,而且对于基于PSSM的其它预测方法也是一个重要的补充.2.针对两个大样本低相似性蛋白质数据集的结构类预测问题,基于被预测的二级结构序列(PSSS)和PSSM提出了一个多信息融合的特征提取方法.在基于PSSS的特征中,我们在已有典型特征的基础上提

出了简化的二级结构序列中2-词EH和HE的频率,以及计算出了二级结构序列正规化的LZ复杂度.在基于PSSM的特征中,我们通过自互相关函数计算出了3600个高维正特征,为了减少冗余和计算复杂度,提出了使用非负矩阵分解算法进行特征变换,以达到降维的目的.实验结果验证了该方法明显地提高了蛋白质结构类的预测精度,尤其在改善α+β类的预测精度方面做出了积极的贡献.3.研究了凋亡蛋白亚细胞定位预测问题,提出了一个基于PSSM上非重叠窗口的去趋势互相关系数的统计特征提取方法.去趋势互相关系数是一个量化两条非平稳时间序列之间互相关水平的方法,而通过凋亡蛋白序列生成的PSSM中任意两列可以被看作是非平稳的时间序列.我们通过分析和讨论拟合多项式阶数和最优非重叠平均窗口长度s的选择问题,计算出PSSM中任意两列的去趋势互相关系数作为特征来进行亚细胞定位预测.实验结果显示了该方法是新统计方法在模式识别问题中第一次重要而成功的应用.4.针对凋亡蛋白亚细胞定位预测问题,提出了一个基于PSSM上多重统计信息融合的特征提取方法.我们通过研究Geary 相关因子中参数lag和去趋势互相关系数中重叠平均窗口长度s+1的选择问题,融合了基于PSSM上的Geary自相关序列顺序信息和重叠窗口的去趋势互相关系数信息作为特征来进行亚细胞定位预测.基于三个基准数据集的实验结果表明该方法不仅提高了凋亡蛋白亚细胞定位的预测精度,而且是一个更加综合和有效的统计特征提取方法.