蛋白质构效关系的计算方法研究

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

蛋白质构效关系的计算方法研究

生物的各项生理活动及多种分类性状都直接或间接地与蛋白质相关,蛋白质功能由其结构决定。蛋白质的构效关系分析,就是利用计算手段对蛋白质结构与功效之间的关系进行研究。

蛋白质侧链结构几乎是最简单的三维结构了,但是对于蛋白质行使其功能而言,起到了重要作用。本文的第一个研究点就是研究蛋白质侧链结构预测。

从计算上来讲,这是一个具有不准确目标函数的优化问题。在内外因素作用下,蛋白质侧链易发生突变。

本文的第二个研究点就是研究突变的可能性。蛋白质的突变的外在后果,就是可能导致某些疾病。

本文的第三个研究点就是研究突变与疾病的定量相关性。如前述三点,我们把它们建模成机器学习问题来研究。

1.蛋白质侧链结构预测的一种并行蚁群方法。重构蛋白质侧链的目标是为每个残基位选择一个合适的旋转异构体使组成的结构最接近天然结构。

针对蛋白质侧链优化目标难以量化,以及全局优化算法最坏情况下将消耗指数级时间等问题,提出了一种并行元启发搜索框架。它通过共享信息素矩阵融合不同的能量函数,共同指导侧链构象的选择。

为了合理减少旋转异构体库的不连续性,采用梯度下降法为每个残基位选择的旋转异构体进行最优化处理。随后,在经典测试集上进行验证,本文方法具有很强的竞争力。

2.基于迭代决策树的蛋白质稳定性变化预测技术。针对基因数据高速膨胀,而结构解析成本高、效率低的情况,建立一种使用低精度蛋白质结构模型预测点

突变引起的稳定性变化模型。

由于蛋白质突变引起的蛋白质物化性质和结构上的变化,以及这些变化对蛋白质的稳定性具有重要的影响,利用I-TASSER构造蛋白质的三维结构,并通过重插侧链的方式获得蛋白质突变后的结构,从而可以获取突变前后蛋白质结构的变化。为了更准确的描述突变环境,同时引入基于多序列比对、基于多模板比对以及基于物理或先验知识的能量值作为特征。

最后结合GBRT算法,构建了一种新型的稳定性变化回归模型。在5组独立数据集上的实验表明,在与目前最先进的预测软件比较时,本文方法均获得了最优的Pearson相关系数。

3.贝叶斯人工神经网络的疾病相关突变预测技术。针对蛋白质突变和功能之间的复杂关系,提出了一种新的构效关系模型。

这个模型通过结合贝叶斯分类与人工神经网络技术,不仅考虑了统计数据,减少了过拟合现象,而且描绘出更为准确的非线性关系,提高了预测的准确性和鲁棒性。由于目前数据库涉及物种繁多且构建规则各不相同,通过自动化整合UniProt与PDB数据库中有关人类的数据,使蛋白质序列、功能注释与蛋白质三维结构可以快速相互映射。

在描绘复杂的突变位置环境时,首次引入生物单元(biological unit)作为分析对象,进而可以分析分子内与分子间的结构等特征参数。在两组验证实验中,本文方法成功地优化了经典贝叶斯分类、人工神经网络算法,并与其它预测器在多个测试集上进行比较时,均获得了最高的预测准确度。

本文的创新点主要表现在:在侧链预测中采用基于SHOP机制的并行元启发方案,成功模仿自然界中侧链之间相互影响最终形成结构的过程,并针对每个残

基进行最优化处理,从而改善了旋转异构体库的不连续性,获得更为精准的侧链结构。在结构参数选择上,为多个数据库建立映射关系,并引入特殊结构知识(基于模板的、突变后的结构、生物单元分子等),深化对突变位置环境的描述。

在构建构效关系模型时,提出基于贝叶斯定理与人工神经网络的新算法,在先验统计知识的指导下找出复杂的构效关系,为构建模型提供新思路。实验表明,这些研究对蛋白质的构效关系预测起到了推进作用,对后续相关研究具有重要参考价值。

在现有的计算集群资源上,设计了分布式在线单点突变相关的功能预测服务平台。现今,我们提供了由点突变引起的蛋白质稳定性变化预测和疾病相关突变预测这两种在线服务。

相关文档
最新文档