蛋白质折叠模型和算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
右图由RasMol绘制而成.图
(a)是从数据库文件中读取了
2sN3的所有Cα原子坐标数据得 到的结构图,图(b)是计算得到的
Cα原子坐标数据的结构图.两种
结构的Cα-RMSD值为6.12A。
五、折叠分类数据库[4]
1、LIFCA数据库 LIFCA数据库包括α、β、α/β类2406个蛋白质结构域,选自ASTRAL一 1.65数据库中序列间同一性小于25%、分辨率小于2.57的非冗余子集。 利用基于折叠核心的蛋白质折叠类型分类方法,确定每一个样本的折叠类 型,建立蛋白质折叠信息标注文件,形成了蛋白核心折叠注释数据库 LIFCA,相关信息可以通过访问http://bioinfo.bjut.edu.cn/LIF-CA得到。 目前,LIFCA数据库包含α类蛋白的44种折叠类型、β类蛋白的70种折叠类 型、α/β类蛋白的145种折叠类型。 2、SCOP数据库 SCOP基于进化相关给出了蛋白质折叠类型的分类,被大家广泛采用, LIFCA是基于折叠核心的二级结构组成及分布的蛋白质结构分类数据库. 在折叠识别中作用显著
其中Ei为Si的能量值,并约定依据概率p(Si)进行 随机选择; 第三步利用交叉算子和变异算子对选定的构象(即染色体)施行交叉和变异操作,并产生新的集团。 第四步若不满足停止准则,则重复第二步到 第三步.否则,输出集团中能量值最小的构象. 在交叉操作中,随机选择一对构象作为父代染 色体,并将序列中随机选定的一个点作为交叉点.将 每条序列的 交叉点前的部分与另一序列交叉点后的 部分连接起来.在二维晶格模型中有三种连接方式: 0°连接,90°连接和 270°连接.随机选择一种连接方 式连接两部分,并寻找一条有效的序列作为子代染 色体.如果三种连接方式所得序 列均无效,则重新选 择一对父变异操作类似于MC方法:随机 选择序列中一点并改变原先的连接方式.
将20类氨基酸分为疏水性的氨基酸和极性的 氨基酸,分别用两个有效氨基酸H和P来表示, 一般称为 HP模型。产生了有关二维和三维格点的模型研究等。[1]
二、折叠模型
2、HZ疏水拉链模型
蛋白质链通过疏水性接触作用,形成链的局部疏水接触作用,再将其 近邻的氨基酸对拉近,从
而带动他们的近邻两残基b- b‘靠 近并形成接触对,然后,c - c’残基对等等,这样完成一个p - 片或a
全原子模型可分为两种:包 括水的和不包括水的。 在简略模型中,用球或球棒简化表示支链,对势能也相 应简化处理。
简单晶格模型常在热力学、动力学、二级结构的形式等地方有独特之处。
HMM(即profile-HMM)是一种概率模型, 将多序列比对转化为二十种氨基酸的位点特异分布 概形, 各种氨基酸在每个位点的概率取值不同, HMM根据此特异性在大型数据库中搜寻与模型匹
MD通过牛顿第二方程模拟真实的动力学过程,能 够对肽链折叠的动力学行为作较准确的描 述,如表示折叠过 程自组织特征的f分子一噪声。用于结构的优化。一般用于在总体构象基本 确 定时,消除不合理的局部结构。[1]
四、折叠算法
(3)ESMC(熵取样 Monte Cario),也称之为 Generalized Ensemble
折叠初期研究。
研究的进展趋势一方面是蛋白质折叠研究下一步会更需要 实验研究的深人, 特别是蛋白质折叠初期快速过程的研究; 另一方面是蛋白质折叠过程的长时间计 算机动态模拟,这包 括全原子模型和简化的非格点模型。另外,水分子如何与大分子 相互作用, 疏水相互作用的本质等也是研究内容。
二、折叠模型
1、格点HP模型
文献整理
蛋白质折叠Hale Waihona Puke Baidu型和算法
中山大学 生科院 阿牛哥 2013.4.15
目录
01
理论进展
02 折叠模型 03 折叠模拟 04 折叠算法 05 数据库
一、理论进展[1]
20世纪30年代,吴宪提出了蛋白质的变性。英国剑桥大学的Bemal发现蛋白质折 叠是一个物理过程,而且能在试管中进行。 1973年,Anfisen观察到完全还原的核糖核酸酶A可以在体外自发折叠成具有完全 活性的天然构象,蛋白质的一级结构包含有指导其形成天然构象的全部信息。天然结 构可能处于总体自由能的最低点。 Levinthal的悖论(paradox)。 Levinthal和wetlaufer提出蛋白质的折叠过程是有动 力学控制的。 首先,经典的“折叠途径”模型为主, ,变性蛋白质经过确定途径按折叠中间体的 顺序到达天然态。 随后,“能量地形面”的概念来研究蛋白质折叠, “折叠漏斗(folding fmmel)”模 型。 折叠过程的模型包括:框架模型、成核增长机制、扩散-碰撞模型、疏水核折叠模型、 等级制度模型。 常用的技术包括:可以追踪三级结 构形成和解体的吸光度(Abs)和荧光度(FL)分析。 最新,蛋白质天然 结构的拓扑结构决定了蛋白质折叠机制,蛋白质的折叠速率和 机制主要决定于蛋白质的拓扑结构,而不是原子间的相互作 用。
⑷遗传算法(Genetic Algorithm)(GA);
GA模拟蛋白质折叠的关键问题 是解决杂交时肽链的自规避。[1]
首先要选择一种合适的编码方法,要确定算法的参数,要考虑具体的遗传操作方法 算法的基本步骤可描述如下[2]:
第一步随机产生N个构象作为初始集团,并确定参数;
第二步计算每个构象Si被选择进行遗传操作的概率:
一、理论进展[1]
直接从氨基酸序列出发预测蛋白质分子的折叠 构象在理论和操作上都存在很大的困难.其主 要困难来自两个方面: (1)对构象稳定的自由能情况了解 得很少,难以给出明确判定蛋白质活性的构象能指 标; (2)可能的构象空间非常大且很复杂,如二维 模型,长度为L的氨基酸序列可有 种可 能的构象,其中μ ≈2.63, γ ≈
(10)其他新算法: 基于重要性抽样的SISPER算法; 基于Monte Carlo的 MSOE算法; 在生物计算Web Service领域有着重要的应 用价值的网格计算(Grid Computation) 。
四、折叠算法
(10)其他新算法:
粒子群优化算法(PsO)是一种新的群体智能算法,源于对鸟群群体捕食 行为的研究[3].
仍然接受S2,其中Ran为(0,1)之间的随机数,Ck为一递减序列.如果不接受S2,则仍使S1为当前构象; 第四步如果不满足停止准则,则重复第二步到第四步.
理论上,该算法能保证收敛到全局最小.但是, 实际上即使利用尽可能多的计算机资源,也很难得能量最小的构象。
四、折叠算法
(2)分子动力学(Molecular Dynamics)模拟 (MD);
四、折叠算法
(9)免疫算法(Immune algorithm)
在遗传算法基础上发展起来的,它模拟生物免疫系统对外来抗原排除,最大的特点是免疫记 忆特性,抗体的自我识别能力和强大 的信息处理能力。作为一种集免疫机制与进化机制于 一体 的全新的演化算法,较遗传算法较好的解决了已有算法中 出现的退化现象,且使收敛速度有了 显著提高。同时,在非格模 型的优化问题上,较遗传算法和模拟退火算法,有更强的全局搜 索 能力和更高的稳定性。[1]
0.333,A为一常数.因
Aμ^L L^γ
此,这是典型的NP难题.
第一个问题需要参照理 化实验所获得的信息,归结出模拟蛋白质折叠的可 行的数理模型。 第二个问题则要釆用新的优化算法, 使之在有限的时间内找到最优的稳定构象。[2]
一、理论进展[1]
蛋白质折叠机理研究热点[1]: 一 是蛋白质理论模型的。主要是简单的格点模型,主要 内容有3个方面:(1)水 分子影响;⑵侧链的影响;(3)拓扑 结构的研究。 二是蛋白质折叠机理的研究。(1) 热力学性质分析;(2)动力学过程的研究;(3)
创造性的将“熵”即某能量或区间的构象数目的对数作为描述对象,以负熵代替-E/T的取 样,此法能 够对小熵区域作比较多的取样,由于低能区域都是小区域 熵,故通过这个方法可以对 低能构象区域作较好的统计分 析。熵取样MC能一次性地给出构象数目随能量的分 布,非常适 合作蛋白质折叠的热力学的研究。[1]
四、折叠算法
螺旋的折叠[1]。 基本假设是多肽链中必须有一定数量 和规则(不规则)排列的H型残基并且有较强的相互作
用。 这样一对对地形成接触,就象拉链一样完成它们的折叠过 程。这样形成的H型接触在链的
组态空间中的搜索是十分有限的,因此能够完成快速的折叠[1]。
二、折叠模型
3、 Go模型
在有关蛋白质的早期格点 模拟中首次引入了只考虑在其折叠自然态结构中的相互作 用, 即自然相互作用(Native interaction),而假设非自然的相互 作用对球蛋白质的折叠能量无贡献。 Go模型是有关能量地 形理论的重要部分(即具有指向自然态的折叠漏斗形状)的 一个简单刻画: 一个蛋白质链具有自然相互作用的接触越 多,蛋白质处在能量地形中的状态就越接近自然折叠 态,也 就是越接近漏斗的底部。Go模型没有考虑能量面 的粗糙特性,只能描述折叠漏斗的漏斗 形态的大 致特性,
二、折叠模型
4、 β-发卡模型
β-发卡模型把统计物理引用到蛋白质折 叠机制中。对G蛋白中只有16个氨基酸的一段小β发卡的研究很成功。通过讨论各个 组态并求出系统的配分函数,最后确定其系统的自由能,有 人采用动力学网络模型运用REMD模拟研究了 G蛋 白的折叠路径。[1]
三、折叠模拟
蛋白质折叠的模拟分三个层次:全原子模 型,简略模型和简单晶格模型。
四、折叠算法
(7)簇MC算法(Cluster MC Algorithm)
自旋体系最好的算法之一,它的移动集合很具特色,具体操作上的困难,少有引入。[1]
四、折叠算法
(8)人口控制算法
一种改进的PERM算法,它给出了 PERM 算法的一种拟人解释,对算法中的权重及预测值 进行了拟人化 的改进,并对选择动作时不同情况下的权重计算公式进行了统 一,算法在计算效 率上有了明显的提高。[1] 拟物算法具体步骤如下[6]: a)在3n 维欧氏空间中随机生成一个点,并计算当前构型下的U 值; b)当前构型下的U 值记为U0; C)按梯度下降法作一次优化并计算当前U 值,记做Ul; d)计算U0 - Ul的值,若该值小于0. 000 00l 则结束;否则转至b 拟人策略[6]: 当拟物计算落入某一局部极小值“陷阱”时,可获得与该值相对应的格局以及该格局的中心 位置;将此格局中距离该中心最远的黑球( 象征着上面例子中那个非常痛苦的人)取出来放到 这个中心点上,并以此时的格局作为新的初始格局进行新一轮的拟物计算。
配的蛋白质序列, 是目前最成功的蛋白质识别方法之一[7]。
四、折叠算法
(l)Metropolis Monte Cario模拟(MC);
MC模拟的主要目的在于在特定温度下对构象空间作统 计分析。可用于结构的优化。涉及 的构象范围较大。[1]
基本步骤[2]:
第一步从一个随机的构象S1出发,并计算其E1 能量值 第二步对S1的某个残基定向进行随机改变, 形成新构象S2,并计算其能量值E2; 第三步如果E1<E2,接受构象S2,使之成为 当前构象;否则,如果满足
四、折叠算法
⑷遗传算法(Genetic Algorithm)(GA);
GA模拟得到的结构,能量值为-19。[2] 在GA基础上又演化出混合遗传算法HGA[2].
四、折叠算法
(5)增删方法PERM
基本思想也类似生存竞争的内核,髙适应度的个体大规模复制,而低适应度的个体消亡,这种 方案效率比常规MC髙, PERM是依格点模型求解蛋白质折叠问题的最髙效算法。 基本算法流程[5]:
四、折叠算法
(5)增删方法PERM
在求解PERM的过程中,因为温度T 和人口控制系数C0是对计算影响极大的 一个因素MJ,计算中尝试了许多不同T和 C0组合,得到了较好的改进效果
四、折叠算法
(6)扩散方程
将构象能量比作粒子数密度,而低能量构象对应髙密度区域。利用 扩散可使粒子数分布均匀 化,高密度区域粒子数减少,而低 密度区域粒子数增加。对应于能貌上的操作就是,能谷上 升,能垒 下降,由此可将局域势阱的数目减少或深度变浅,将 能貌变得平滑。这种能貌平滑化操作满足不 改变能貌大致 形状的前提。扩散方程的主要步骤是先将能貌平滑化,再对 折叠进行模拟,是肽 链构象在最低能谷内或附近,然后在复原能貌,再进行真实模拟。