蛋白质结构比对
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SCOP 入口 :
来自百度文库
用 RASMOL 查看泛素蛋白和铁氧化 还原蛋白等的结构
11 %的序列相似性 Dali 重叠
泛素蛋白 [ 医学: [91274342] , PUB00000768, PUB00005320 是由六个氨基酸残 基 组成的蛋白质,它具有高度保守的序列,从原生动物到脊椎动物均有这种真核细胞存 在。它在多种细胞活动过程中起到重要作用,如依赖于 ATP 的细胞蛋白质的选择性 降解,染色质结构的保持,基因表达的调节,强迫反应和核糖体的发育分化 。泛素 蛋白是一种球蛋白,它的 C 段最后的四个残基 (Leu-Arg-Gly-Gly) 从其紧凑结构延 伸形成一个尾巴 , 对功能有非常重要的意义。它与靶蛋白通过共价作用进行调节,它 碳端的氨基乙酸能够通过异肽键共价连接到其他蛋白的赖氨酸残基上。
怎样用计算方法来分析,预测,设计蛋白质 序列及结构
主题: 基于蛋白质的物理 VS. 经验知识的方法
例子:含有二硫键的稳定蛋白的设计
2 野生型 残基
2 半胱氨酸变异
1 二硫键
方法一 : 从序列学习
如果你仅有一个蛋白质序列,你能确认并分离二硫键中半胱氨酸残基吗?
训练集=数据库中 具有“正确输出” 结果的数据作为输入
去年的错误之处!
CATH 类别
类别
三明治
卷
TIM 桶
架构 拓扑(折叠)
黄素氧还蛋白 ( 4fxn )
内酰胺酶 (1mb1A1)
同源
Courtesy of Christine Orengo. Used with permission.
一些高密度折叠
是阻遏蛋白质
TIM 桶
α , β 辫子
免疫球蛋白
目标:描述构象分子的势能
用分子力学:基于物理性质,用简单的“球和弹簧”模 型,考虑牛顿理论,而不是薛定谔。
模型以经验为主获得成键的量子作用
键类比如“弹簧”
共价势能项
Brooks et al., J. Comput. Chem. 4: 187-217 (1983)
Kb, k Θ , k Φ 分别表示键长 ,键角和不合适的二面角。
向量从 k=V
向量从 i=C
蛋白质 B
向量从 i=C
与用距离不同,用向量包含一定的方向性
如果需要也可以包含残基的一些其它的信息 (如序列或环境信息)
确定是否检索相似性很重要且意义重大 已有多种不同的统计标准
基本思想:如何对共享结构发现令人惊奇的结论
蛋白质结构的分类
•结构与结构比对(如:用 DALI )揭示蛋白质的相关基团 •检索后结构相似的同源序列假定进化相关 •非同源蛋白质的相似性预示着可能向同一个有利的方向进 化 •很多不同的基团作为分类设计
Taylor & Orengo JMB (1989) 208, 1-22
SSAP -结构和序列比对程序
动态规划程序怎样?在这里使用有什么问题?
1. 如果两个位置相似怎样评价? 残基的类型
对溶剂的暴露程度 二级结构 与其它原子的关系
2. 两个残基是其它残基决定的,如何打分 序列依赖于重叠,但重叠依赖于序列
所以 dij 和 dkl 相近, s 就大 怎样来比较 j 和 l 的呢?
图引自于 Taylor, WR, and CA Orengo. "Protein Structure Alignment." J Mol Biol. 208, no. 1 (5 July 1989): 1-22.
向量从原子 i 到:
训练学习算法
正确方法
学习 输入 算法
正确输出
解析学习算法
为什么它可以? (或不行)
Muskal, SM, SR Holbrook, and SH Kim. "Prediction of The Disulfide-bonding State of Cysteine in Proteins." Protein Eng. 3, no. 8 (August 1990): 667-72.
这些方法的优缺点
•机器学习方法通常不能对其具体工作过程给出清晰的理解。 •对二硫键有明显的结构限制,基于序列的方法不能获得这些信息 •结构数据不是总可以得到的,所以基于序列的方法不是总有效 •已知二硫键的数据并不完全 •二硫键在不同的环境中可能是不可转移的 •使用数据库时不需要对其物理性质有精确的描述 •基于第一原理的方法可能发现以前为见过的现象 •从第一原理构建的蛋白模型是有限制的
方法一的结果
•输入:半胱氨酸残基侧翼序列 (±5)
•学习算法:神经网络
•预测成功率: ~80%
•结果表明半胱氨酸键的形成受局部序列的影响很大
•网络权重寻列分析
•
亲水性局部序列增加了二硫键形成的倾向
•
疏水性局部序列增加了独立的巯基 的倾向
•
对苯丙氨酸 和色氨酸 vs. 酪氨酸 的倾向性不同
•缺点:不能区分成对中的半胱氨酸残基
蛋白质 结构 分类
7类
( a,b,a/b,a+b… )
800 种折叠方式
结构域
1294 个超家族
可能有进化关系
2327 个家族
高序列同源性
54745 个结构域
全α 全β α /β α +β 多结构域
膜
小分子
卷曲
低分辨率
肽
设计
蛋白质 结构 分类
7类
( a,b,a/b,a+b… )
800 种折叠方式
这种方法包括结构松弛吗?
更多的告诫…… 二硫键是如何稳定蛋白质的?
如何计算二硫键对蛋白质的稳定程度?
基于能量的蛋白质结构和功能模型
•构想分析-蛋白质采取的低能结构模型是怎样的? •动力学-蛋白质是怎样运动的? •热力学-能定量的估算系统的特征(如 焓 ,熵,热容,自由能区别 ) •能量成分-哪些原子或哪些力对蛋白质的稳定有贡献? •反应性-反应的机理和速度怎样?一般需要量子力学
54745 个结构域
蛋白质 结构 分类
7类
( a,b,a/b,a+b… )
800 种折叠方式
结构域
1294 个超家族
可能有进化关系
2327 个家族
高序列同源性
54745 个结构域
紧凑结构的自动折叠单位
scop.mrc-lmb.cam.ac.uk/scop/index.html 同一家族中的 LCK 激酶 和 p38 投影激酶
对一个分子模拟或模型,你需要: 1. 蛋白质的表征 2. 能量函数
3. 搜索算法或最优化算法
电子: 原子: 统一体:
表征水平
残基:
在或远离格点
蛋白质, DNA ,溶剂化,配体,离子
溶剂如同高的电介质,蛋白质如同 将电荷包裹其中的低电介质团
量子力学是根据分子中原子核和电子的位置和运动状态的波函数来描述 分子能量
铁氧化还原蛋白是一种在各种新陈代谢中起转移电子作用的铁硫蛋白。它有二硫二
铁( 2Fe - 2S )基团的辅因子。根据铁硫基团的生理作用和序列的相似性
IPR000564 ,铁氧化还原蛋白可以分成 7 个小类。
分子模拟: 方法&应用
致谢:以下材料是由 Bruce Tidor. 教授准备或在其帮助下准备的
答案:用 j 和 l 的最优分值 s 来比较
向量从原子 K 到:
注意:该图给出了当从 i 和 k 的角度看,序列 A 和序列 B 残基的是如何比对的 但,用 i 和 k 的 s 来应该比对吗?
它们都需要比对! 然后综合它们的结果,通过又一轮的动态规划程序来进行统计=“二倍动态规划程”
向量从 k=F 蛋白质 A
距离矩阵 -确认基团相邻的接触模式 -比较不同结构的距离 -快速,对插入不敏感 -例子:距离比对工具( DALI )
单位向量 RMS -将结构映射到球向量中 -最小化球向量的差异性 -快速,对球外区域不敏感 -例子:从理论到分子模型匹配的确定( MAHMMOTH )
SSAP -结构和序列比对程序
动态规划程序怎样?在这里使用有什么问题?
相同的二级结构基元,相同的顺序 接度
和连
结构域
1294 个超家族
可能有进化关系
2327 个家族
高序列同源性
54745 个结构域
折叠
pdb 新发现折叠种类的增长率
年
每年提交的结构;每年新的折叠种类 (注意新折叠种类的标准 pdb 与 SCOP 不同)
蛋白质 结构 分类
7类
低序列相似性,但可能存在进化关系(如
在 CATH 中这 5 种折叠模式占 超家族同源的 20 %
洛士曼折叠
Courtesy of Christine Orengo. Used with permission.
一些多功能团折叠
CATH 轮
“ 超级折叠” > 3 个功能团
Courtesy of Christine Orengo. Used with permission.
方法三:基于能量函数
•对所研究的蛋白质,搜索所有的残基对 • 建立一个 Cβ 和 Sγ 原子的模型来判断这些它们与二硫键在 几何结构上是否兼容 • 如果兼容,建立此残基对与二硫键的最低能量模型
•用一些能量函数来评价这些二硫键的能量 •写出成功的残基对 •成功的预测大量已知几何结构的二硫键
Hazes, B, and BW Dijkstra. "Model Building of Disulfide Bonds in Proteins with known Three-dimensional Structure." Protein Eng. 2, no. 2 (July 1988): 119-25.
7.91 Amy Keating
蛋白质结构比对
为什么?
探索进化关系 确认重复的基序 探索结构 / 功能之间的关系 预测功能 评价预测的结构 结构分类——多种用途
相似性结构搜索算法
动态规划程序 -适用于一维结构——还原问题 -拓扑指数不能改变 -例子:二级结构序列比对程序( SSAP )
3D 比对 / 聚类 -二级结构或碎片的确认 -在不同结构中寻找相似性的排列 -允许拓扑指数改变,大的插入 -例子:向量比对搜索工具( VAST )
- SCOP (手动) - CATH (用 SSAP ) - FSSP (用 Dali )
蛋白质 结构 分类
2003 年 8 月统计
7类
( a,b,a/b,a+b… )
800 种折叠方式
结构域
1294 个超家族
可能有进化关系
2327 个家族
高序列同源性
54745 个结构域
Murzin, AG, SE Brenner, T Hubbard, and C Chothia. "SCOP: A Structural Classification of Proteins Database for the Investigation of Sequences and Structures." J Mol Biol. 247, no. 4 (7 April 1995): 536-40.
波尔 - 欧本海默
只能对小体系精确求解-即使对氦原子也不能精确解
用量子力学的方法来计算蛋白质和 DNA 分子的能量。作为替代方法, 我们用经验近似的方法来获得其重要的作用。通常情况,在室温下该 方法能对生物大分子进行成功的描述。
注意:一旦我们忽略了波函数的电子部分,我们就不能计算键的断裂和 形成。
用分子力学计算势能
方法二:数据库驱动
•从 PDB 中找出已知二硫键几何结构的蛋白质数据开始
•对靶蛋白的结构,搜索所有的残基对
•
从数据库中找出与此位置兼容的所有二硫键的
蛋白
质结构
•
记录所有的可兼容的二硫键
•记录结构成功残基对
•结论:成功引入硫-硫键到阻遏蛋白中 -> 更稳定的蛋白质
,
仍与 DNA 成键
Pabo, CO, and EG Suchanek. "Computer-aided Model-building Strategies for Protein Design." Biochemistry 25, no. 20 (7 October 1986): 5987-91.
( a,b,a/b,a+b… )
:基于结构或者功能)
800 种折叠方式
结构域
1294 个超家族
可能有进化关系
2327 个家族
高序列同源性
54745 个结构域
蛋白质 结构 分类
7类
( a,b,a/b,a+b… )
800 种折叠方式
结构域
1294 个超家族
可能有进化关系
2327 个家族
高序列同源性
去掉了进化相关序列; 通常序列相似性大于 30 %
Taylor, WR, and CA Orengo. "Protein Structure Alignment." J Mol Biol. 208, no. 1 (5 July 1989): 1-22.
SSAP -结构和序列比对程序
对每一对残基( i , j ),假设它们同等地位。它们周围的残基与其它残基的相似性如何?