蛋白质构象预测模型

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

蛋白质构象预测模型
理论基础目前为：蛋白质的一级结构决定高级结构

同源建模（Homology Modeling）：采用已知的蛋白质结构作为模板，可以准确地预测其它同
源蛋白质的结构，被认为是当前最成功的预测算法
折叠识别（protein threading）：预测方法利用氨基酸的结构倾向(如形成二级结构的倾向、疏水性、极性等)，通过打分函数来评价一个远程相似序列所对应的结构是否能够适配到给定的结构环境中，适用于查询序列没有同源模板的情形
从头预测（ab initio）：根据分子动力学及能量最小等物理化学原理直接从蛋白质序列预测
其结构

同源建模
理论依据：同源蛋白质三级结构的高度保守性，所以可以通过同源蛋白质结构保守性的分析从已知蛋白质的空间结构推测出目标蛋白质的空间结构。
目前对于序列同源性比较高的蛋白质序列，已经能够建模相当精确的结构模型，而且许多优秀的建模软件也相继出现。
同源建模方法的步骤，可以总结为四步：查找模板、构造目标-模板比对、建立模型
和优化。
模板查找仍然存在许多未解决的问题：
1）构造相似序列间的多序列比对是其中一个难点，目前构造多序列比对大多使用
启发式算法，不能够建立精确的比对。
2）构造多序列比对没有考虑蛋白质的结构。因为很多氨基酸相同的位置在空间位
置上并不统一，而空间位置上统一的位置有可能氨基酸相同，所以如果能在多
序列比对中加入结构信息，将更加准确。
3）当搜索软件不能找到序列相似度大于30％的同源模板时，通常无法采用同源建
模计算。然而在实际中，有许多同源序列之间的序列相似度是低于30％的，如
何搜索这种低序列相似度的模板也是模板识别的难点之一。
4）虽然所有序列比对算法的性能在不同情况下有所差异，但是在序列相似度低
于30%时比对准确度都会急剧下降。因此，如何提高低相似度序列之间的比对质量，使
其与真实的结构比对相同，是同源建模方法的一个研究难点。

折叠识别法
通过对已知的蛋白质结构的研究发现，大量序列同源性较差的蛋白质存在相同的折叠结构，自然界存在的蛋白质数量虽然很多，但是由于各种立体化学的限制，蛋白质折叠子的数目是有限的，许多学者对自然界中可能存在的折叠子数目做了估计。利用结构已知的蛋白质的折叠子为模板，寻找给定氨基酸序列可能采取的折叠类型，进而进行结构预测的折叠识别方法成为蛋白质结构预测的又一重要方法。
Threading方法进行蛋白质结构预测的步骤主要为：
1）建立结构模板数据库：这是利用折叠识别法进行蛋白质结构预测的第

一步，由于序列-序列比对要比序列-结构比对容易，所以构建折叠子数据库的方法大多从序列-序列比对开始。
2）构造打分函数：建立打分函数的目的是评估目标-模板匹配的优劣，它将直接影响最终预测结果。
3）比对：比对过程即优化上面提到的打分函数过程，Needleman-Wunsch算法是序列分析的经典算法，但是当动态规划方法用于序列与结构的比对时，打分函数的确定是一个难题。这是由于序列比对仅比较氨基酸类型是否匹配，是一种局部性质，然而结构比对中，需要考虑原子间相互作用，如果不考虑该分量，则可以利用动态规划算法。
4）预测：从所有预测结果中挑选出一个统计意义上最有可能的结构作为最终结果。然后根据比对上的模板的主链分子的坐标建立目标序列的主链上的结构。
Threading方法的难点在于序列与折叠结构的匹配技术和打分函数的确定。
人们对于折叠子数据库的建立、折叠结构与序列的匹配技术和打分函数的建立等进行了大量的分析讨论。折叠识别方法已经成为一种较为成熟的蛋白质结构预测方法。对于这种方法的研究已经从理论转向了实际应用。

从头预测方法(Ab initio)
从头预测方法无需任何模板，它直接从蛋白质序列预测蛋白质空间结构。从理论上讲，这是非常理想的方法。根据从头预测得到的结构信息，可分为0D方法，如蛋白质结构类的预测和蛋白质折叠类型预测；1D方法，如二级结构预测和溶剂可及性预测；2D和3D方法，如蛋白质折叠模拟。
蛋白质结构预测的最终目标是从氨基酸序列预测三级结构。
理论依据：蛋白质一级结构决定高级结构，而且蛋白质的天然构象是自由能最低时的结
构这一热力学假设。
从头预测方法主要包括两方面的工作：
1）建立预测模型: 蛋白质结构预测中普遍应用的是分子力学模型和平均势
函数。
2）模型的求解
蛋白质结构从头预测方法的优化过程也称构象搜索，常用的构象搜索算法
有系统搜索方法、随机搜索方法、分子动力学模拟和距离几何方法。
这种方法一直受到两方面的困扰：
1）难以找到一个能严格区分蛋白质的天然构象和非天然构象的能量函数，使能量函数的全局极小点对应蛋白质天然结构。目前已有的能量函数都采用经验势函数；
2）由于蛋白质系统分子量和柔性都很大，所以在蛋白质的势能面上存在着极多的局部极小点，缺少一种有效的全局优化算法也制约着这种方法的发展。
从头预测方法发展了近40 年。然而和同源模建方法及Threading方法相比较，目前这种方法的预测结
果并不理想，尤其是在全盲预测中的失败，使越来越多的人对它失去了

信心。然而，近来从头预测方法又取得了一些喜人的进展，比如阶梯式模型的建立，对残基数为70~244的蛋白质进行了全盲预测，预测结构的Carnsd低于0.6mm。尽管目前全盲预测的结果还不能与前两种方法相比，但是近来取得的成功再一次激起了人们对这种方法的兴趣。随着数学、计算机、物理等多学科的共同参与，人们相信这一难题最终将得到解决。