蛋白质二级结构预测
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
α 螺旋结构
请参见 Branden , Carl,and John Tooze. Introduction to Protein Structure. 2nd ed. Garland Publishing,Inc.,1999.ISBN:0815323042
α 螺旋偶极矩
β
请参见 Branden , Carl,and John Tooze. Introduction to Protein Structure. 2nd ed. Garland Publishing,Inc.,1999.ISBN:0815323042
由二级结构所确定的蛋白质家族
所有 β 折叠
所有 α 螺旋结构
α/β- 蛋白质
统计方法
基于 15 个已知构象的蛋白质和 2473 个氨基 酸
确定了“蛋白质构象参数” 基于
使用<P α ><P β >进行二级结构预 测的经验规则
寻找螺旋核:从 6 个残基中找到了 4 个( H α 或 h α )便可确定 一个 α 螺旋形成核 , 相反当( b α 或 B α) 出现概率大于 1/3 时便 不能确定。 沿着多肽链向两个方向延伸 α 螺旋形成核,直到遇到连续几个 α 螺旋破坏者时才终止。 α 螺旋破坏者包括 b4,b3i 等等,一些残基 可以出现在螺旋末端 ( 除了 Pro) 。 边界调整 :Pro , Asp , Glu 倾向于氮末端, His , Lys , Arg 倾向于碳末端。
蛋白质二级结构预测
本章概要
蛋白质结构的简要回顾 Chou-Fasman 预测法
Garnier,Osguthorpe 和 Robson
螺旋轮和疏水片段 神经网络 最近邻算法
相似序列预测法
蛋白质的分层结构
肽链隐含平 面 的共振
肽键
二面角所确定的 二级结构
请参见 Branden , Carl,and John Tooze. Introduction to Protein Structure. 2nd ed. Garland Publishing,Inc.,1999.ISBN:0815323042
3 种状态—— α 螺旋, β 折叠 ,转角
α 螺旋 转角
β 折叠
注示——三个图表都与核心氨基酸不相关。
GOR 计分表
累计分数——基于最高分的二级结构预测 问题:计分表数据量有限。 17 个氨基酸,有
排列可能,能产生 条可能序 列,却只基于 200——300 个蛋白质! 计分数字到底代表什么?我们把它当成概率对 数率,表征结构信息的单元。
GOR 预测结果
65% 左右的准确率。
可以用实验所得的信息(循环分色)来 提高预测准确率。
后来的版本允许侧区的氨基酸与中心蛋 白质成对联合( GOR-2 ),或是侧区的 两个氨基酸联合起来( GOR-3 ) 影响中 心氨基酸的最终构型。
白效果较好。
Fred Cohen 的方法 — Garnier 和 Chou-Fasman 预测方法在预测球形蛋 1989
请参见 Branden , Carl,and John Tooze.Introduction to Protein Structure. 2nd ed. Garland Publishing,Inc.,1999.ISBN:0815323042
Eisenberg-Hydrophobic 疏水矩
标准方法 -Kyte 和 Doolittle 法 - 用一个移动 的窗口和基于自由氨基酸侧链油水分配系数 的典型尺度来计算疏水性。
模拟大脑的运作方式,一大群神经元间突 触连接使得大脑得以运行其功能。一些神 经元用于收集作为环境信号的数据,一些 用于处理数据,一些作出对这些信号的反 应。
神经网络方法
使用一个包含 13-17 个氨基酸的滑动窗。
3 个已经训练过的处理层:输入层→隐藏层→输 出层。
每个输入都用权重因子加权,然后传到隐藏层。 隐藏层将输入信号叠加成一个总信号并通过模拟 神经元发放或不发放状态的 S 触发函数处理,输 出一个接近 1 或 0 的数。 来自隐藏层的信号随后送到三个独立的输出元件 中( α 螺旋, β 折叠或其他)。每个信号再次经 过加权处理并叠加。最后三个输出元件将和信号 转变为近似 1 (表征该输出元件反映的二级结构 )或 0 (不能预测结构)。
最近邻算法
同样基于机器学习方法。
通过识别已知结构中与查询序列相似的序列来预测其 二级结构。这些已知结构通过训练划分为 16 个氨基酸 左右的序列片段并记录其中心氨基酸的二级结构。
从查询序列中挑选出同样大小的一个窗,并于上述序 列片逐一比较,找出最匹配的 50 个片段。通过这些片 段的中心蛋白二级结构的概率来推断查询序列的结构 。
把这些结构预测输入到神经网络中获取最终得预测结 果。
非常准确的算法预测准确率高于 72%.
最近邻居算法
PREDATOR – 另一种神经网络方法,是以相 邻的 β 折叠间和 n 与 n+4 的 α 螺旋间可形成氢 键的氨基酸模式。 也要考虑序列中的替换,其中的间隙更可能是 转角。 准确率高达75 % ,现今最准确的预测算法。
最全面策略
JPRED 由 Geoffrey Barton 开发
一个一致预测法预测二级结构。利用了 6种不同的预测方法- PHD, 线性差分法 , NNSSP,PREDATOR,ZPRED( 保守权 值预测 ) , MULPRED( 一致单序列预测 法的结合 )
***在 pdb 中查找同源序列*** 在网络上可用, Q3 = 72.9%
GOR 计分表
基于 Robison 和 Pain 的信息论方法。
步骤 1—— 考虑氨基酸 R 出现在构象 S 中的联合概率。信息 方程如下: ,这是 Chou-Fasman 用的方法。
步骤 2——Garnier 所采用的特殊方法,计算出信息方程差:
,其中 S’ 表征除了 S 以外的所有构象。这 些参数在查询表中都能找到。 概率参数的计算基于 1978 年的已知结构数据库中的观测频率。 事实上通过使用概率的总和来计算绝对概率是使可行的——由 此也能估计出可能性。
规则 #1- 任意片段中有 6 个或 6 个以上残基 且 ,满足以上条件可预测为 α 螺旋
使用<P α ><P β >进行二级结构预 测的经验规则
寻找折叠核:从 6 个残基中找到了 4 个( Hβ 或 hβ )便可确定 一个 β 折叠形成核 , 相反当( bβ 或 Bβ) 出现概率大于 1/3 时便不 能确定。 沿着多肽链向两个方向延伸 β 折叠形成核,直到遇到连续几个 β 折叠破坏者时才终止。 β 折叠破坏者包括 b4,b3i 等等。 边界调整 :Glu 很少出现在 β 区, Pro 也不会出现在 β 折叠中, 带电荷氨基酸残基都很少出现在两端。 Trp 频繁出现在 N- 末端。
典型的 β 转角由 4 个氨基酸组成
较之 Chou-Fasman 的一种全新的方法
最初的版本称为“ GOR”. 现在已经升级到 GOR3 .用一个可容17个氨基酸的窗口对残基进行检 测.
基于每个氨基酸独立影响中心残基很可能采取的 二级结构.
每个侧位需要独立估算就像 PSSM.
GOR 计分表(最初版)
Cohen :二级结构的转角划分原理 因此首先是预测转角。 然后再预测螺旋和转角。 用模式识别算法(神经网络的前身)
在预测 α/β 蛋白时有 85% 左右的准确率,但是如 何在预测前就得知你所预测的是否是 α/β 蛋白却是 个难题。
螺旋轮和疏水矩
疏水性
两性分子螺旋
两性分子螺旋
β 折叠中的交互疏 水氨基酸和疏水蛋白质
Eisenberg 的思想——小区域疏水性作为序 列的函数 #- 用傅立叶变换来找出其周期性
周期 = 2 氨基酸 - β 折叠 周期 = 3 或 4 个氨基酸 - α 螺旋结构
神经网络方法
在蛋白质序列中查找和已知二级结构模式 相同的氨基酸模式。
用机器学习方法和一组用于获取最佳模式 识别方法的测试蛋白。
神经网络方法
输入层 输入序列 预测结构 隐藏层 输出层
神经网络方法
训练神经网络模型是通过回馈来优化权重因子 Wij 。 通常使用 Jack-knife 测试。 可用若干不同的网络体系并通过综合评定来最终确定 二级结构的预测, 预测准确率提高到 70-72%. 最佳的例子: PHD(Profile network from Heidelberg) 通过网络输出信号的差异可以给出蛋白质每一个部分 的预测可靠性系数。
反平行 β 折叠
请参见 Branden , Carl,and John Tooze. Introduction to Protein Structure. 2nd ed. Garland Publishing,Inc.,1999.ISBN:0815323042
“ 折叠” – α 碳 四面体 的功能
规则 #1- 任意片段中有 6 个或 6 个以上残基 且 ,满足以上条件可预测为 β 折叠
结果
在实际运用中有 50-60% 的准确 率,虽然有文章宣称能达到更高 的准确率(数据集受限)。
似乎预测 β 折叠的精度稍差。
β 转角潜在可能
典型的 β 转角由 4 个氨基酸组 成
β 转角潜在可能
请参见 Branden , Carl,and John Tooze. Introduction to Protein Structure. 2nd ed. Garland Publishing,Inc.,1999.ISBN:0815323042
平行的 β 折叠
请参见 Branden , Carl,and John Tooze. Introduction to Protein Structure. 2nd ed. Garland Publishing,Inc.,1999.ISBN:0815323042